Критерии согласия. Критерий согласия пирсона Критерий согласия статистика

Введение

Актуальность данной темы в том, что в течение изучения основ биостатистики мы предполагали, что закон распределения генеральной совокупности известен. Но что, если закон распределения неизвестен, но есть основания предполагать, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А. Проверка этой гипотезы производится при помощи специально подобранной случайной величины - критерия согласия.

Критерии согласия - это критерии проверки гипотез о соответствии эмпирического распределения теоретическому распределению вероятностей. Такие критерии подразделяются на два класса:

  • Ш Общие критерии согласия применимы к самой общей формулировке гипотезы, а именно к гипотезе о согласии наблюдаемых результатов с любым априорно предполагаемым распределением вероятностей.
  • Ш Специальные критерии согласия предполагают специальные нулевые гипотезы, формулирующие согласие с определенной формой распределения вероятностей.

Критерий согласия

Наиболее распространенные критерии согласия - омега-квадрат, хи-квадрат, Колмогорова и Колмогорова-Смирнова.

Непараметрические критерии согласия Колмогорова, Смирнова, омега квадрат широко используются. Однако с ними связаны и широко распространенные ошибки в применении статистических методов.

Дело в том, что перечисленные критерии были разработаны для проверки согласия с полностью известным теоретическим распределением. Расчетные формулы, таблицы распределений и критических значений широко распространены. Основная идея критериев Колмогорова, омега квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения.

Критерии согласия ч2 Пирсона для простой гипотезы

Теорема К. Пирсона относится к независимым испытаниям с конечным числом исходов, т.е. к испытаниям Бернулли (в несколько расширенном смысле). Она позволяет судить о том, согласуются ли наблюдения в большом числе испытаний частоты этих исходов с их предполагаемыми вероятностями.

Во многих практических задачах точный закон распределения неизвестен. Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому. Данная гипотеза требует статистической проверки по результатам которой будет либо подтверждена, либо опровергнута.

Пусть X - исследуемая случайная величина. Требуется проверить гипотезу H0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F"(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия. Одним из популярных является критерий согласия хи-квадрат К. Пирсона. В нем вычисляется статистика хи-квадрат:

где N - число интервалов, по которому строился эмпирический закон распределения (число столбцов соответствующей гистограммы), i - номер интервала, pt i -вероятность попадания значения случайной величины в i-й интервал для теоретического закона распределения, pe i - вероятность попадания значения случайной величины в i-й интервал для эмпирического закона распределения. Она и должна подчиняться распределению хи-квадрат.

Если вычисленное значение статистики превосходит квантиль распределения хи-квадрат с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H0 отвергается. В противном случае она принимается на заданном уровне значимости. Здесь k - число наблюдений, p число оцениваемых параметров закона распределения.

Рассмотрим статистику:

Статистика ч2 называется статистикой хи-квадрат Пирсона для простой гипотезы.

Ясно, что ч2 представляем собой квадрат некоего расстояния между двумя r-мерными векторами: вектором относительных частот (mi /n, …, mr /n) и вектором вероятностей (pi , …, pr). От евклидового расстояния это расстояние отличается лишь тем, что разные координаты входят в него с разными весами.

Обсудим поведение статистики ч2 в случае, когда гипотеза Н верна, и в случае, когда Н неверна. Если верна Н, то асимптотическое поведение ч2 при n > ? указывает теорема К. Пирсона. Чтобы понять, что происходит с (2.2), когда Н неверна, заметим, что по закону больших чисел mi /n > pi при n > ?, для i = 1, …, r. Поэтому при n > ?:

Эта величина равна 0. Поэтому если Н неверна, то ч2 >? (при n > ?).

Из сказанного следует, что Н должна быть отвергнута, если полученное в опыте значение ч2 слишком велико. Здесь, как всегда, слова «слишком велико» означают, что наблюденное значение ч2 превосходит критическое значение, которое в данном случае можно взять из таблиц распределения хи-квадрат. Иначе говоря, вероятность Р(ч2 npi ч2) - малая величина и, следовательно, маловероятно случайно получить такое же, как в опыте, или еще большее расхождение между вектором частот и вектором вероятностей.

Асимптотический характер теоремы К. Пирсона, лежащий в основе этого правила, требует осторожности при его практическом использовании. На него можно полагаться только при больших n. Судить же о том, достаточно ли n велико, надо с учетом вероятностей pi , …, pr . Поэтому нельзя сказать, к примеру, что ста наблюдений будет достаточно, поскольку не только n должно быть велико, но и произведения npi , …, npr (ожидаемые частоты) тоже не должны быть малы. Поэтому проблема аппроксимации ч2 (непрерывное распределение) к статистике ч2 , распределение которой дискретно, оказалась сложной. Совокупность теоретических и экспериментальных доводов привела к убеждению, что эта аппроксимация применима, если все ожидаемые частоты npi>10. если число r (число различных исходов) возрастает, граница для снижена (до 5 или даже до 3, если r порядка нескольких десятков). Чтобы соблюсти эти требования, на практике порой приходится объединять несколько исходов, т.е. переходить к схеме Бернулли с меньшим r.

Описанный способ для проверки согласия можно прилагать не только к испытаниям Бернулли, но и к произвольным выборкам. Предварительно их наблюдения надо превратить в испытания Бернулли путем группировки. Делают это так: пространство наблюдений разбивают на конечное число непересекающихся областей, а затем для каждой области подсчитывают наблюденную частоту и гипотетическую вероятность.

В данном случае к перечисленным ранее трудностям аппроксимации прибавляется еще одна - выбор разумного разбиения исходного пространства. При этом надо заботится о том, чтобы в целом правило проверки гипотезы об исходном распределении выборки было достаточно чувствительным к возможным альтернативам. Наконец, отмечу, что статистические критерии, основные на редукции к схеме Бернулли, как правило, не являются состоятельными против всех альтернатив. Так что такой метод проверки согласия имеет ограниченную ценность.

Критерий согласия Колмогорова - Смирнова в своем классическом виде является более мощным, чем критерий ч2 и может быть использован для проверки гипотезы о соответствии эмпирического распределения любому теоретическому непрерывному распределению F(x) с заранее известными параметрами. Последнее обстоятельство накладывает ограничения на возможность широкого практического приложения этого критерия при анализе результатов механических испытаний, так как параметры функции распределения характеристик механических свойств, как правило, оценивают по данным самой выборки.

Критерий Колмогорова - Смирнова применяют для негруппированных данных или для группированных в случае малой ширины интервала (например, равной цене деления шкалы силоизмерителя, счетчика циклов нагружения и т. д.). Пусть результатом испытаний серии из n образцов является вариационный ряд характеристики механических свойств

x1 ? x2 ? ... ? xi ? ... ? xn. (3.93)

Требуется проверить нулевую гипотезу о принадлежности выборочного распределения (3.93) теоретическому закону F(x).

Критерий Колмогорова - Смирнова базируется на распределении максимального отклонения накопленной частности от значения функции распределения. При его использовании вычисляют статистики

являющуюся статистикой критерия Колмогорова. Если выполняется неравенство

Dnvn ? лб (3.97)

для больших объемов выборки (n > 35) или

Dn(vn + 0.12 + 0.11/vn) ? лб (3.98)

для n ? 35, то нулевую гипотезу не отвергают.

При невыполнении неравенств (3.97) и (3.98) принимают альтернативную гипотезу о принадлежности выборки (3.93) неизвестному распределению.

Критические значения лб составляют: л0.1 = 1.22; л0.05 = 1.36; л0.01 = 1.63.

Если параметры функции F(x) заранее не известны, а оцениваются по данным выборки, критерий Колмогорова - Смирнова теряет свою универсальность и может быть использован только для проверки соответствия опытных данных лишь некоторым конкретным функциям распределения.

При использовании в качестве нулевой гипотезы принадлежность опытных данных нормальному или логарифмически нормальному распределению вычисляют статистики:

где Ц(zi) - значение функции Лапласа для

Ц(zi) = (xi - xср)/s Критерий Колмогорова - Смирнова для любых объемов выборки n записывают в виде

Критические значения лб в этом случае составляют: л0.1 = 0.82; л0.05 = 0.89; л0.01 = 1.04.

Если проверяют гипотезу о соответствии выборки ***экспоненциальному распределению, параметр которого оценивают по опытным данным, вычисляют аналогичные статистики:

критерий эмпирический вероятность

и составляют критерий Колмогорова - Смирнова.

Критические значения лб для этого случая: л0.1 = 0.99; л0.05 = 1.09; л0.01 = 1.31.

Была рассмотрена в гл. 5 здесь мы применим данный метод к проектам капиталовложений. Ограничения и условия, при которых используется этот метод, будут обсуждены в гл. 15, где мы рассмотрим критерий согласия для рисковых инвестиций. Наша цель здесь - только показать, как измеряется риск для комбинаций рисковых инвестиций, допуская, что такой критерий необходим.  

Следующий этап связан с использованием высших производных (формула Тейлора), и завершается этот этап обзором метода в целом.Далее рассматриваются некоторые вопросы численной характеристики функций - численных методов (приложение дифференциального исчисления к приближенным вычислениям). На этом этапе устанавливается погрешность уклонения ломаных из секущих, ломаной из касательной, кусочных кривых из парабол Тейлора более высоких степеней от данной функции в зависимости от ее дифференциальных свойств, и сравнивается погрешность. Для простоты рассматривается случай равноотстоящих узлов. Тем самым, устанавливаются границы применимости метода дифференциального исчисления. В качестве дальнейшего развития этого этапа можно рассматривать и другие приближающие модели, конструирование их, руководствуясь, например, следующей схемой 1.Какие узлы мы мы будем использовать 2. Какой класс приближающих функции будем использовать 3. Какой критерий согласия мы применим 4. Какую точность мы хотим  

В данном анализе при оценке степени согласованности эмпирического и теоретического распределения использовался основанный на критерии Пирсона критерий согласия В. И. Романовского  

Результаты расчетов параметров кривых распределения приведены в табл. 10. Расчетные частоты вычислялись по формулам 10, 11, 12. Объективной оценкой степени совпадения эмпирических и теоретических частостей является критерий согласия (в данном исследовании использовался критерий согласия В. И. Романовского ). Проверка показала, что исследуемые эмпирические интервальные ряды распределения времени пролеживания предметов труда в переходящих заделах достаточно точно описываются найденными кривыми функции плотности р (х).  

Число единиц в выборке, N Величина интервала, Н Показатель асимметрии ряда, гл Показатель эксцесса , Ех Дисперсия, а Среднее значение , X Критерий согласия, К  

Полученное эмпирическое распределение будет аппроксимировано непрерывной аналитической функцией , то есть будет идентифицирован закон распределения случайной величины . Также рассмотрено использование критериев согласия при идентификации закона распределения.  

Использование критериев согласия при идентификации закона распределения случайной величины.  

При использовании критерия согласия Пирсона необходимо вычислить величину  

Следует особо подчеркнуть, что при проверке модели по критерию согласия определенным является лишь отрицательный ответ, то есть отклонение модели.  

Положительный ответ означает лишь то, что модель не противоречит эмпирическим данным. Это вовсе не означает, что именно этой моделью данные описываются на самом деле, что это наилучшая модель, что нельзя подобрать другую модель для описания данных и т.д. Фактически, положительный ответ при проверке по критерию согласия следует понимать как "возможно эти данные описываются такой-то моделью", и не более того.  

Полученная гистограмма проверяется на соответствие нормальному распределению с помощью критерия согласия Пирсона.  

Во многих реальных задачах основной трудностью оказывается то, что нейронная сеть не может достаточно ясно показать причинно-следственные связи и выдает какое-то решение по принципу черного ящика . При этом в финансовом анализе для оценки состояния дел предприятий уже давно используются специально подобранные комбинаций различных показателей, а качество модели оценивается с помощью критериев согласия без учета структуры модели . По существу, все сводится к выбору показателя (или комбинации показателей), соответствующего решающему правилу, которое позволяет включить (или не включать) данное предприятие в ту или иную группу (жизнеспособные, быстро растущие, высокоприбыльные).  

По данным задачи 21 проведите выравнивание ряда распределения населения по размеру среднедушевых денежных доходов по кривой нормального распределения . Постройте графики эмпирического и теоретического распределений. Оцените близость эмпирического и теоретического распределений, используя критерии согласия [Пирсона (хи-квадрат), Колмогорова или др.]  

Независимо от вида используемого критерия согласия в про-  

Для С.п.г. используются разные критерии. В частности, когда проверяется согласие между выборочным и гипотетическим распределениями, используется критерий согласия, напр., т.н. критерий Пирсона "хи-квадрат". См. также Ошибка.  

Заменяя в формуле (2.15) М[Н(х) и D уравнениями (2.3), выводим окончательную формулу информационного критерия согласия  

В табл. 2.3 приведены значения энтропийных параметров наиболее часто встречающихся в технических приложениях законов распределения . Таблица энтропийных параметров различных законов распределения предоставляет возможность при применении информационного критерия согласия проверить одновременно несколько гипотез, что по существующим методикам сделать без дополнительных расчетов нельзя.  

Поскольку наиболее распространенным является критерий согласия Пирсона, проведем сравнение информационного критерия J с критерием %2.  

При выравнивании эмпирического распределения нулевая гипотеза принимается, если при применении информационного критерия согласия  

ГОСТ 8.532-85 предлагает с помощью критериев согласия не менее чем при 10 %-ном уровне значимости при и>50 и при 15 нормального распределения - с помощью критерия Вилкоксона для разностей пар - для проверки симметричности распределения) относить массив результатов аттестации СО к одному из классов распределений нормальному , симметричному, несимметричному. Для каждого класса распределений значения основных метрологических характеристик СО определяют различными способами.  

Для определения степени согласованности эмпирического и теоретического распределений предложены различные критерии согласия. Так, известны критерий согласия Пирсона, Романовского, Колмогорова, Ястремского. Критерий согласия Пирсона сводится к исчислению по распределению Пирсона вероятности достижения л 2 данного значения Р = х2. При этом х2 рассчитывается по формуле (9.3)  

В отсутствие каких-либо готовых схем для оптимального выбора модели исследователь должен опробовать различные статистические критерии согласия. Так, Утанс и Муди оценивали риск предсказания, полученный при различных архитектурах сети, а Каяма и др. находили общее число дублирующих друг друга элементов в скрытом слое. Мы же просто сравнивали величины квадратного корня из среднеквадратичной ошибки (RMSE) на тестовом множестве, состоящем из 60 наблюдений, относящихся к последним 5 годам интервала наблюдений (1981-85 гг.). Для дальнейшей работы была взята та архитектура сети, которая давала наименьшее RMSE.  

Эти критерии согласия позволяют провести проверку гипоте-  

При оценивании энтропии н.с.в. встает вопрос о выборе количества интервалов разбиения экспериментальных данных. Эта задача аналогична типичным задачам математической статистики определение закона распределения , расчет оценок эмпирических распределений, вычисление критериев согласия. А. Хальд показал, что существует оптимальное число интервалов группирования, когда ступенчатая огибающая гистограмма наиболее близка к плавной кривой распределения генеральной совокупности . Можно сформулировать ряд критериев такой близости, используя показатели в виде эксцесса, критерия %2 и т. д. . Различные критерии дают несколько различающиеся значения оптимального числа интервалов группирования. Однако сам факт существования оптимума не зависит от выбора критерия близости, так как при группировании данных в слишком большое число мелких интервалов некоторые из них окажутся пустыми или мало заполненными. Гистограмма будет отличаться от плавной кривой распределения вследствие изрезанности многими всплесками и провалами.  

Шторм Р. рекомендует для определения оптимального числа интервалов формулу Брукса и Каррузера k = 5 lg п. В работе рекомендуется соотношение k = 4п. В работе приводится таблица, согласно которой числа интервалов назначаются от 7 до 22 в зависимости от объема выборки от 40 до 10000. Сравнение указанных рекомендаций, приведенное на рис. 2.2, указывает на близость рекомендаций при п - 100 с последующим увеличивающимся расхождением их по мере увеличения объема выборки. Отдельную группу составляют рекомендации по использованию критерия согласия %2. Применение критерия %2 к интервалам постоянной длины неэффективно . Исходная посылка всех работ по эффективности критерия х2 - рассмотрение интервалов с равной вероятностью. Однако практически эти рекомендации не используются из-за сложности их применения. Учитывая разнородность перечисленных рекомендаций, возникает необходимость отдельного исследования влияния числа интервалов при использовании информационных методов анализа технологических процессов.  

Можно выбрать 6 или 7 интервалов. Определяем зону рассеяния размеров R. Устанавливаем максимальное значение размера х = 0,126 и минимальное хт а= - 0,149, размах R = дгтах - xmin = 0,275 мм. Выбираем 7 интервалов и определяем их цену деления С = RI k 0,04 мм. Подсчитаем число отклонений размеров, попавших в соответствующий интервал. Результаты (табл. 2.5) позволяют выдвинуть гипотезу о распределении исследуемых погрешностей по закону Гаусса. Для проверки гипотезы необходимо подготовить данные, входящие в состав

Теоретические и эмпирические частоты. Проверка на нормальность распределения

При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения, являющиеся функцией нормированных отклонений.

Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .

Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.

Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.

Обычно эмпирические и теоретические частоты различаются в силу того, что:

    расхождение случайно и связано с ограниченным количеством наблюдений;

    расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.

Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.

Для закона нормального распределения их можно найти следующим образом:

    Σƒ i- сумма накопленных (кумулятивных) эмпирических частот

    h - разность между двумя соседними вариантами

    σ - выборочное среднеквадратическое отклонение

    t–нормированное (стандартизированное) отклонение

    φ(t)–функция плотности вероятности нормального распределения (находят по таблице значений локальной функции Лапласа для соответствующего значения t)

Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.

Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т) и эмпирическими (f) частотами к теоретическим частотам:

    k–число групп, на которые разбито эмпирическое распределение,

    f i –наблюдаемая частота признака в i-й группе,

    f T –теоретическая частота.

Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν). Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:

α=0,10, тогда Р=0,90 (в 10 случаях из 100)

α=0,05, тогда Р=0,95 (в 5 случаях из 100)

α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл

При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.

Критерий согласия Колмогорова основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:

где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений. По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер. Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Критерий согласия Колмогорова

Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:

    Сравнивают фактические и теоретические частоты.

    По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.

    Проверяют на сколько распределение признака соответствует нормальному.

Для IV колонки таблицы:

В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter

Для V колонки таблицы:

Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)

Для VI колонки таблицы:

Критерий согласия Колмогорова (λ) определяется путем деления модуля max разности между эмпирическими и теоретическими кумулятивными частотами на корень квадратный из числа наблюдений:

По специальной таблице вероятности для критерия согласия λ определяем, что значению λ=0,59 соответствует вероятность 0,88 (λ

Распределение эмпирических и теоретических частот, плотности вероятности теоретического распределения

Применяя критерии согласия для проверки соответствия наблюдаемого (эмпирического) распределения теоретическому, следует различать проверку простых и сложных гипотез.

Одновыборочный критерий нормальности Колмогорова-Смирнова основан на максимуме разности между кумулятивным эмпирическим распределением выборки и предполагаемым (теоретическим) кумулятивным распределением. Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.

При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения , являющиеся функцией нормированных отклонений.

Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .

Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.

Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.

Обычно эмпирические и теоретические частоты различаются в силу того, что:

  • расхождение случайно и связано с ограниченным количеством наблюдений;
  • расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.

Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.

Для закона нормального распределения их можно найти следующим образом:

  • Σƒ i - сумма накопленных (кумулятивных) эмпирических частот
  • h - разность между двумя соседними вариантами
  • σ - выборочное среднеквадратическое отклонение
  • t–нормированное (стандартизированное) отклонение
  • φ(t)–функция плотности вероятности нормального распределения (находят по для соответствующего значения t)

Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.

Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т ) и эмпирическими (f) частотами к теоретическим частотам:

  • k–число групп, на которые разбито эмпирическое распределение,
  • f i –наблюдаемая частота признака в i-й группе,
  • f T –теоретическая частота.

Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν).
Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:

α=0,10, тогда Р=0,90 (в 10 случаях из 100)

α=0,05, тогда Р=0,95 (в 5 случаях из 100)

α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл

При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл , то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.

Основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:

где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений.
По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Критерий согласия Колмогорова

Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:

  1. Сравнивают фактические и теоретические частоты.
  2. По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.
  3. Проверяют на сколько распределение признака соответствует нормальному.

Для IV колонки таблицы:

В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter

Для V колонки таблицы:

Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)

Для VI колонки таблицы:

Так как все предположения о характере того или иного распределения – это гипотезы, то они должны быть подвергнуты статистической проверке с помощью критериев согласия , которые дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда – существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Существует ряд критериев согласия. Чаще применяют критерии Пирсона, Романовского и Колмогорова.

Критерий согласия Пирсона – один из основных:

где k – число групп, на которые разбито эмпирическое распределение,
– наблюдаемая частота признака в i-й группе,
– теоретическая частота.
Для распределения составлены таблицы, где указано критическое значение критерия согласия для выбранного уровня значимости и степеней свободы df.(или )
Уровень значимости – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. В статистике пользуются тремя уровнями:

  • a= 0,10, тогда Р=0,90 (в 10 случаях их 100 может быть отвергнута правильная гипотеза);
  • a= 0,05, тогда Р=0,95;
  • a= 0,01, тогда Р=0,99.

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты.
Например, при выравнивании по кривой нормального распределения имеется три связи:
; ; .
Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df = k –3.
Для оценки существенности расчетное значение сравнивается с табличным .
При полном совпадении теоретического и эмпирического распределений , в противном случае >0. Если >, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем.
В случае, если , заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении и с вероятностью Р=(1-a) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно.
Критерий согласия Пирсона используется, если объем совокупности достаточно велик , при этом частота каждой группы должна быть не менее 5.

Критерий Романовского с основан на использовании критерия Пирсона, т.е. уже найденных значений , и числа степеней свободы df:

Он удобен при отсутствии таблиц для .
Если с<3, то расхождения распределений случайны, если же с>3, то не случайны и теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.

Критерий Колмогорова l основан на определении максимального расхождения между накопленными частотами и частостями эмпирических и теоретических распределений:
или ,
где D и d – соответственно максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического рядов распределений;
N – число единиц совокупности.
Рассчитав значение l, по таблице Р(l) определяют вероятность, с которой можно утверждать, что отклонения эмпирических частот от теоретических случайны. Вероятность Р(l) может изменяться от 0 до 1. При Р(l)=1 происходит полное совпадение частот, Р(l)=0 – полное расхождение. Если l принимает значения до 0,3, то Р(l)=1.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Читайте также: