«Статистическая проверка гипотез»

Конспект лекции по дисциплине «Статистическая проверка гипотез», Word формат

Статистическая проверка гипотез Как мы уже отмечали, основными составными частями математической статистики являются теория статистического оценивания неизвестных значений параметров, участвующих в описании анализируемой модели, и теория проверки на основе выборочных наблюдений различных предположений о параметрах или природе анализируемой модели. Такие предположения носят статистический характер (или касаются вероятностных свойств анализируемого объекта) и называются статистическими гипотезами. По своему прикладному содержанию высказываемые в ходе статистической обработки данных гипотезы подразделяются на следующие типы:  о числовых значениях параметров исследуемой генеральной совокупности;  об общем виде закона распределения исследуемой случайной величины;  об однородности двух или нескольких обрабатываемых выборок;  об общем виде зависимости, существующей между анализируемыми показателями;  о независимости и стационарности ряда наблюдений. В данной главе мы рассмотрим основные понятия и постановку задачи, дадим общую логическую схему проверки статистических гипотез, а также приведем критерии проверки гипотез о параметрах нормальной генеральной совокупности и о виде закона распределения анализируемого признака. Основные понятия и постановка задачи проверки гипотез Итак, статистической гипотезой называется предположение относительно параметров или вида распределения случайной величины. Гипотеза называется параметрической, если она касается значений параметров распределения известного вида. В непараметрической гипотезе речь идет об утверждении относительно вида распределения. Гипотеза называется простой, если она однозначно определяет либо значение неизвестного параметра, либо распределение случайной величины, в противном случае гипотеза сложная. Например, простой гипотезой является предположение о том, что наблюдаемая случайная величина Χ ~ Ν 0,1 . Если же высказывается предположение, что Χ ~ Ν a,1, где a1  a  a2 , то это сложная гипотеза. Обычно выделяют некоторую основную, или нулевую, гипотезу Η 0 , относительно которой ведется проверка. Наряду с гипотезой Η 0 рассматривается конкурирующая или альтернативная гипотеза Η 1 , которая должна быть принята в случае отклонения Η 0 . Например, если простая гипотеза Η 0 : θ  θ0 (гипотеза о равенстве параметра θ некоторому предполагаемому или гипотетическому значению θ0 ), то в качестве альтернативной гипотезы может быть Η 1 : θ  θ0 , либо Η 1 : θ  θ0 , либо Η 1 : θ  θ0 или, наконец, Η 1 : θ  θ1 , где θ1  θ0 . Выбор альтернативной гипотезы определяется конкретным содержанием задачи. Критерием проверки гипотезы называется правило, по которому принимается решение принять или отклонить гипотезу Η 0 . Решение здесь выносится в зависимости от значения специальным образом сконструированной случайной величины – статистики критерия или просто критерия, распределение которой известно и затабулировано. Множество значений критерия разбивается на две непересекающиеся области: область принятия нулевой гипотезы d 0 , при попадании в которую нулевая гипотеза принимается, и критическую область d1 , при попадании в которую гипотеза Η 0 отвергается и принимается альтернативная гипотеза Η 1 . Точка, делящая эти две области, называется критической или пороговым значением критерия. В процессе проверки гипотезы можно прийти либо к правильному решению: принять гипотезу Η 0 , когда она на самом деле неверна, или отвергнуть Η 0 , когда она на самом деле не верна (в этом случае принимается Η 1 , и она верна); либо совершить одну из двух ошибок: отвергнуть гипотезу Η 0 , когда она верна (ошибка первого рода или ошибка типа пропуска цели), или принять гипотезу Η 0 , когда она не верна, а верна конкурирующая гипотеза Η 1 (ошибка второго рода или ошибка типа ложной тревоги). Последствия этих ошибок часто оказываются совершенно различными, поэтому желательно провести проверку гипотез таким образом, чтобы свести к минимуму вероятности обоих типов ошибок. Обозначим через α вероятность ошибки первого рода: α  Ρd1 Η 0  , β вероятность ошибки второго рода: β  Ρd 0 Η 1 . Вероятность отвергнуть неправильную гипотезу Ρd1 Η1  1   называют мощностью критерия, а α - уровнем значимости. Критерий называется наиболее мощным, если из всех возможных критериев с заданным уровнем значимости α он обладает наибольшей мощностью, т.е. если его критическая область d1 такова, что   Ρ d1 Η 1  max Ρd1 Η 1 , где максимум берется по тем областям d1 , для которых d1 Ρd1 Η 0   α . Так как мощность критерия равна 1   , то использование наиболее мощного критерия гарантирует при заданной вероятности ошибки первого рода α наименьшую, по сравнению с другими критериями, вероятность ошибки второго рода β . Такой подход построения статистического критерия, при котором вероятность ошибки первого рода не превосходит, или для простых гипотез, равна уровню значимости α , а мощность критерия максимальна, был предложен Нейманом и Пирсоном. Задача построения наиболее мощного критерия (критической области d1 и выбора критической точки) решается с помощью фундаментальной леммы Неймана-Пирсона. В силу кратности нашего курса мы не рассматриваем здесь другие подходы к построению критериев проверки гипотез, такие как байесовский поход или последовательный критерий Вальда. Критерии, построенные с учетом заранее заданного уровня значимости, называют также критериями значимости. Общая логическая схема проверки статистических гипотез По своему назначению и характеру решаемых задач статистические критерии чрезвычайно разнообразны. Однако их объединяет общность логической схемы, по которой они строятся. Коротко эту схему можно описать так. 1. Выдвигается основная гипотеза Η 0 . Если гипотеза параметрическая, то наряду с Η 0 выдвигается конкурирующая гипотеза Η 1 , которая должна быть принята в случае отклонения Η 0 . Если же гипотеза Η 0 касается вида закона распределения вероятностей, то Η 1 формально не определяется: она состоит просто в отклонении Η 0 . 2. Задается уровень значимости α . Для удобства значения α стандартизованы и принимаются обычно равными 0,1; 0,05; 0,01; 0,005; 0,001. 3. Выбирается критерий проверки гипотезы Η 0 . Статистика критерия Κ  Κ x1 , x2 ,, xn , являясь функцией выборки, будет случайной величиной, закон распределения которой известен и затабулирован. Чаще всего в качестве таких известных распределений используются Ν 0,1 , t -, χ 2 -, F -распределения. 4. Из таблиц распределения критерия по заданному уровню значимости α выбирается критическая точка Κ кр , которая делит множество значений критерия на область принятия нулевой гипотезы d 0 и критическую область d1 . «Размер» критической области определяется уровнем значимости α , «положение» области на оси определяется видом конкурирующей гипотезы Η 1 . Так, если Η 0 : θ  θ0 , Η 1 : θ  θ1 , либо Η 1 : θ  θ0 , строится правосторонняя критическая область, т. е. критическая область расположена справа от критической точки: Pd1 Η 0   α d0 d1 K кр Правосторонняя критическая область строится и при проверке гипотез о виде закона распределения. Если Η 0 : θ  θ0 , а Η 1 : θ  θ0 , строится двусторонняя критическая область: Pd1 Η 0   α2 Pd1 Η 0   α2 d1 d0  K кр d1  K кр Заметим, что в случае двусторонней критической области, область принятия нулевой гипотезы Η 0 совпадает с интервальной оценкой или доверительным интервалом для параметра θ , который накрывает неизвестное значение этого параметра с вероятностью 1  α . Если предполагаемое в основной гипотезе числовое значение неизвестного параметра θ0 попадает в интервальную оценку этого параметра (ил интервальная оценка содержит гипотетическое значение параметра θ0 ), то гипотезу Η 0 : θ  θ0 принимают; в противном случае ее отклоняют в пользу Η 1 : θ  θ0 при заданном уровне значимости α . И, наконец, если Η 0 : θ  θ0 , Η 1 : θ  θ0 , критическая область d1 будет левосторонней: Pd1 Η 0   α d1 d0 K кр 5. По данным выборки x1 , x2 ,, xn  подсчитывается наблюдаемое или экспериментальное значение критерия Κ 0 (или Κ набл , Κ эксп ). Если окажется, что вычисленное значение критерия принадлежит области принятия нулевой гипотезы ( Κ 0  d 0 ), то Η 0 следует принять, т.е. считать ее не противоречащей выборочным данным. В противном случае гипотезу Η 0 следует отвергнуть. Так, например, если в случае правосторонней критической области Κ 0  Κ кр , решение выносится в пользу Η 0 ; если Κ 0  Κ кр , решение в пользу Η 1 ; если Κ 0  Κ кр , теоретически наступает рандомизация, т.е. решение в пользу Η 0 выносится на основе некоего эксперимента со случайными исходами, практически же меняют уровень значимости α . В заключение отметим: принятие основной гипотезы Η 0 вовсе не означает, что Η 0 является единственно подходящей, просто предположение Η 0 не противоречит выборочным данным, однако таким же свойством могут наряду с Η 0 обладать и другие гипотезы. Гипотезы о параметрах нормального распределения Одной из наиболее часто встречающихся задач является статистическая проверка гипотез о параметрах нормального распределения. Пусть x1 , x2 , , xn  - независимая выборка из нормальной генеральной совокупности, т.е. исследуемая случайная величина Χ ~ Ν a ,σ , где a  ΜΧ ,σ  DΧ . Здесь возможны следующие предположения о значениях неизвестных параметров. 1. Гипотезы о неизвестном математическом ожидании нормального распределения при: а) σ известном; б) σ неизвестном. 2. Гипотезы о неизвестной дисперсии нормального распределения при: а) известном математическом ожидании; б) неизвестном математическом ожидании. Критерии проверки гипотез о числовых значениях параметров нормального распределения приведены в табл. 1. В этой же таблице приведен критерий проверки гипотезы о значении вероятности успеха в единичном испытании. В качестве критических точек взяты квантили соответствующих распределений. Квантили распределений  2 , Стьюдента, Фишера приведены в приложениях. Таблица 1. Критерии зависимости для проверки гипотез о параметрах нормального распределения Проверяемая гипотеза Η 0 , Η1 Η 0 : a  a0 , Η 1 : a  a0 Η 0 : a  a0 , Η 1 : a  a0 Предположения Статистика критерия U  известно 2 x  a0  n Распределение статистики Ν 0,1 Область отклонения Η 0 U 0  U1 U0  U 1  2 Η 0 : a  a0 , Η 1 : a  a0 Η 0 : a  a0 , Η 1 : a  a0 Η 0 : a  a0 , Η 1 : a  a0 Η 0 : a  a0 , Η 1 : a  a0 U 0  U1 t0  t1 n  1 2 неизвестно; ~ 2  s 2 x  a0 t n s t n  1 Η1 :  Η 0 : 2 Η1 :  a известно 2  ns 2  02  2 n  2 2  02  2 1  n  2 χ 02  χ α2 (n) 2 Η 1 : σ  σ 02 Η 0 : σ 2  σ 02 , Η 1 : σ 2  σ 02 Η 1 : σ 2  σ 02 n  1  02   2 (n) или Η 0 : σ 2  σ 02 , Η 0 : σ 2  σ 02 ,   02  12 (n)   02   02 , 2   02 1 t0  t1 n  1 Η 0 :  2   02 , 2 t0  t  02  12 n  1 a неизвестно; ~ ax 2   ( n  1 )s 2  02  02   2 ( n  1 )  02 2 Η 0 : σ  σ 02 , Η 1 : σ 2  σ 02 Η 0 : p  p0 , Η 1 : p  p0 n  50 , Η 0 : p  p0 , np0  5 , n( 1  p0 )  5 Η 1 : p  p0 Η 0 : p  p0 , Η 1 : p  p0 Проверяемая Предположения гипотеза Η 0 , Η1 2  2( n  1) или   2  n  1 1 2  02  2 n  1 ~ p  p0 Ζ p0 q0 n  ~ p , n q0  1  p0 Статистика критерия Ζ 0  U1α Ν 0,1 0  U 1  2  0  U1 Распределение статистики Область отклонения Η 0 Пример 1. Крупная торговая фирма желает открыть в новом районе города филиал. Известно, что фирма будет работать прибыльно, если еженедельный средний доход жителей города превышает 400 д.е. Известно также, что дисперсия дохода  2  400 . Определить правило принятия решения, с помощью которого, основываясь на выборке n  100 и уровне значимости   0,05 , можно установить, что филиал будет работать прибыльно. Решение. Определим правило принятия решения, основываясь на статистической проверке гипотез. Фирма не откроет филиал, если средний доход жителей не превысит 400 д.е. Будем считать, что доход является нормально распределенной случайной величиной и Η 0 : a  400 , а Η 1 : a  400 . Значение σ 2 дисперсии дохода известно: в этом случае Η 1 принимают, если x  a0 a  400 ,   20 , n  10 , По условию U0  n  U1α . σ U1 0.05  U 0,95  1,65 (этот квантиль уровня 0,05 стандартного нормального закона может быть найден из таблиц значений функции Лапласа (см. приложение 3) как такой ее аргумент, при котором она равна 0,5   , т. е. U 0,95 : ΦU   0,45 ). Поэтому Η 1 принимают, и, следовательно, филиал открывают, если недельный среднедушевой доход 100 жителей будет x  400  2  1,65  403,3 . Пример 2. Партия изделий принимается, если дисперсия контролируемого размера не превышает 0,2. По выборке n  40 изделий вычислена s 2  0,25 . Можно ли принять партию при   0,05 ? Решение. Следуя общей логической схеме проверки гипотез (см. п. 7.2.), имеем Η 0 :  2  0,2 (или Η 0 :  2  0,2 ) 1. 2. 3. Η 1 :  2  0,2 ,   0,05 , Статистика критерия  n  1s 2   ~  2 n  1 2 2 0 (см. табл. 7.1) 2 4. Критическую точку χ кр найдем из таблицы квантилей распределения  2 (см. приложение 4), как квантиль уровня 1    0,95 при числе степеней 2   02,95 ( 39 )  55 ,8 . Критическая область в свободы, равном n  1  39 :  кр нашем случае правосторонняя: d0 d1 2 χ кр  55 ,8 5. По результатам наблюдений определим экспериментальное значение критерия 40  10,25  48,75.  02  0,2 2 Так как χ 02  χ кр , т.е. наблюдаемое значение критерия принадлежит области принятия нулевой гипотезы, то Η 0 следует принять, т.е. считать, что различие между гипотетическим значением дисперсии, равным 0,2 и ее оценкой 0,25 статистически незначимо или случайно, и поэтому всю партию изделий можно принять, допуская при этом ошибку первого рода с вероятностью 0,05. Пример 3. Торговец утверждает, что он получает заказы в среднем по крайней мере от 30% предполагаемых клиентов. Можно ли при 5%-ом уровне значимости считать это утверждение неверным, если торговец получил заказы от 20 из 100 случайно отобранных потенциальных клиентов. 20 p  0 ,2 , то задача формулируется следующим обРешение. Так как ~ 100 разом: 1. Η 0 : p  0,3 ( p0  0,3 ) Η 1 : p  0,3 . 2.   0,05 . ~ p  p0 3. Статистика критерия Ζ  ~ Ν 0,1 . p0 q0 n 4. Критическая область в данном случае левосторонняя, поэтому  U 0 ,95  1,65 (см. пример 7.1): d1 d0  U0 ,95  1,65 K кр значение критерия 5. Экспериментальное 0,2  0,3 Ζ0   2 ,18 . 0,3  0,7 100 Так как  0 принадлежит критической области d 1 , то гипотезу Η 0 отклоняем: с утверждением торговца согласиться нельзя. Гипотезы о равенстве средних и дисперсий двух нормальных распределений Задачи, связанные с проверкой гипотез о равенстве средних и дисперсий двух нормальных генеральных совокупностей, возникают при сравнении способов управления производством, различных технологических процессов или методов обработки по определенным измеряемым признакам (точности, производительности и т. д.). Например, предположим, что компания производит определенный элемент на двух автономных производственных линиях – А и В. Характеристики обеих линий одинаковые. Как определить, одинакова ли вариация продукции на этих линиях? Ответ на этот вопрос можно получить, сравнив дисперсии случайных выборок, взятых из продукций первой и второй линий, используя соответствующую процедуру проверки гипотез. Так же можно сравнить риск двух различных инвестиционных портфелей. Сравнение дисперсий фактической прибыли, полученной в прошлые годы, даст возможность принять решение. Пусть имеются две независимые выборки x1 , x2 , , xn1 и y1 , y2 , , yn2 , извлеченные из нормальных генеральных совокупностей, т.е. исследуемые случайные признаки Χ ~ Ν a1 ,σ 1  , Υ ~ Ν a2 ,σ 2  . Здесь возможны следующие предположения о значениях неизвестных параметров: 1. гипотеза о равенстве средних при известных дисперсиях Η 0 : a1  a2 , если σ 1 ,σ 2 известны; 2. гипотеза о равенстве средних при неизвестных дисперсиях Η 0 : a1  a2 , если σ 1 ,σ 2 неизвестны;     3. гипотеза о равенстве дисперсий при неизвестных средних Η 0 : σ 12  σ 22 , если a1 , a2 неизвестны. Критерии проверки таких основных гипотез при различных конкурирующих гипотезах приведены в табл. 2. Замечание 1. Если гипотезу Η 0 : a1  a2 принимают, то говорят, что различие выборочных средних x и y статистически не значимо и оценка общеxn1  yn2  го математического ожидания такова: n1  n2  . Замечание 2. При проверке гипотезы Η 0 : a1  a2 при неизвестных дисперсиях, вначале проверяют гипотезу о равенстве дисперсий σ 12 и σ 22 , если этот факт заранее неизвестен. В случае приемлемости гипотезы Η 0 : σ 12  σ 22 приступают к некоторой осторожностью (ведь принятие Η 0 , так же как и ее непринятие, вовсе не означает, что и на самом деле σ 12  σ 22 ), к проверке гипотезы Η 0 : a1  a2 . Замечание 3. Если гипотезу Η 0 : σ 12  σ 22 принимают, то говорят, что различие оценок дисперсий s12 и s 22 статистически не значимо и оценка общей s n  1  s n дисперсии такова: 2 1 2 2 1 2   1 n1  n2  2. Таблица 2. Критерии проверки гипотез о средних и дисперсиях двух нормальных распределений ПроверяеРаспре- Область отмая гипоПредпоСтатистика критеделение теза ложения рия статисти- клонения Η 0 Η0 , Η 1 ки Η 0 : a1  a2 , Η 1 : a1  a2 Η 0 : a1  a2 , σ 12 , σ 22 Η 1 : a1  a2 известны Η 0 : a1  a2 , Η 1 : a1  a2 Η 0 : a1  a2 , Η 1 : a1  a2 Η 0 : a1  a2 , Η 1 : a1  a2 Η 0 : a1  a2 , Η 1 : a1  a2 σ 12 , σ 22 не известны, но равны U U 0  U 1α x y σ 12 σ 22  n1 n2 N ( 0,1 ) α 2 t 0  t1 ( n1  t  n2  2 ) t 0  t  ( n1  x y , где 1 1 s  n1 n2 s2  n1  1s  n2  1s n1  n2  2 2 1 t (n1  n2  2) 2 2 1 2  n2  2 ) t0  t1 ( n1   n2  2 ) F0  F1 ( n1   1,n2  1 ) Η 1 : σ 12  σ 22 Η 1 :  12   22 1 U 0  U 1α Η 0 : σ 12  σ 22 Η 0 :  12   22 , U0  U a1 ,a2 неизвестны F s12 s 22 2 2 ( s1  s 2 ) F (n1  1, n2  1) F0  F 1  ( n1 2  1, n2  1 ) F0  F ( n1  2  1, n2  1 )  Пример 4. Биржевой маклер исследует две инвестиции А и В – от имени клиента. Инвестиция А предполагается на срок 10 лет с ожидаемой ежегодной прибылью в течение этого периода 17,8%. Инвестиция В рассчитана на срок 8 лет также с ожидаемой годовой прибылью 17,8%. Дисперсии ежегодных прибылей от двух инвестиций составляют 3,21% 2 и 7 ,14% 2 . Есть ли какое-либо основание считать, что риски инвестиций А и В неравны? Предполагается, что ежегодные прибыли от инвестиций нормально распределены. Решение. Дисперсии ежегодных прибылей могут быть использованы для определения риска. Поэтому, для того чтобы ответить на вопрос задачи, мы должны проверить статистическую гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей. Следуя общей схеме проверки гипотез, имеем: 1. Η 0 : σ 2А  σ В2 , Η 1 : σ 2А  σ В2 . 2.   0,05 . s2 3. Статистика критерия F  б2 ~ F n1  1, n2  1 , где s б2 - большая sм оценка дисперсии, s м2 - меньшая оценка теоретической или генеральной дисперсии, n1 , n 2 - объемы выборок, по которым найдены соответствующие оценки. 4. Так как Η 1 : σ 2А  σ В2 , критическая область двусторонняя. Для того, чтобы определить значения критических точек из таблицы квантилей F -распределения (см. приложение 6), найдем несмещенные оценки теоретических дисперсий: n 10 ~ А2  s 2А  А  DВА   3,212  11,449  s м2 , nА  1 9 n 8 ~В2  s В2  В  DВВ   7 ,142  58,2624  sб2 . nВ  1 7 Таким образом, числа степеней свободы для F -распределения будут 7 и 9. Имеем F0 ,975 ( 7 ,9 )  4,197  Fкр.прав. , левая точка определится как 1  0,238. Fкр.прав. 4,197 Критическая область: Fкр .лев.  1  d1 d0 0 ,238 d1 4 ,197 5. Экспериментальное значение критерия sб2 58,2624  5,09 . 11,449 Так как 5,09>4,197, т. е. F0  d 1 , гипотезу Η 0 следует отвергнуть на 5%ом уровне значимости. Следовательно, у нас есть основания предполагать, что риски (определенные дисперсиями ежегодных прибылей) двух инвестиций не равны. F0  s м2  Пример 5. Расход сырья на одно изделие случаен. Результаты наблюдений таковы: Расход сырья Число изделий Старая технология Новая технология 304 307 308 303 304 306 308 1 4 4 2 6 4 1 Предположив, что расход сырья как при старой, так и при новой технологии имеет нормальное распределение, выяснить, влияет ли технология на средний расход сырья на одно изделие. Принять α  0,05 . Решение. Для того чтобы ответить на вопрос задачи, необходимо проверить гипотезу о равенстве средних двух нормальных генеральных совокупностей, дисперсии которых не известны и неизвестно, равны ли они. Поэтому, прежде чем сравнивать генеральные средние, проверим гипотезу Η 0 : σ 12  σ 22 . Найдем по данным выборкам несмещенные оценки средних и дисперсий: 1 x  304  307  4  308  4  307,11, 9 1 y  303  2  304  6  306  4  308  304,77 , 13 s12  2 ,378 , s 22  1,685 . Следуя общей схеме, для проверки гипотезы Η 0 , имеем: 1. Η 0 : σ 12  σ 22 , Η 1 : σ 12  σ 22 . 2.   0,05 . s12 3. F  2 ~ F n1  1, n2  1 , где n1  9 , n2  13 . s2 4. Из таблицы квантилей F -распределения (см. приложение 6) найдем критическую точку Fкр  F0 ,95 8,12  2,85 . Критическая область правосторонняя: d0 d1 Fкр  2 ,85 2,378  1,41 . 1,685 Так как 1,41<2,85, т. е. F0 принадлежит области принятия нулевой гипотезы d 0 , гипотезу о равенстве генеральных дисперсий принимаем. Теперь проверим гипотезу: 1. Η 0 : a1  a2 , Η 1 : a1  a2 . 2.   0,05 . x y 3. t  где и n1  9 , n2  13 ~ t n1  n2  2 , 1 1 s  n1 n2 5. Наблюдаемое значение F -критерия равно F0  s2  n1  1s12  n2  1s22 . n1  n2  2 4. Из таблицы квантилей t -распределения (см. приложение 5) найдем критическую точку t кр  t0 ,95 20  1,725 . Критическая область: d0 d1 t кр  1,725 5. Для расчета наблюдаемого значения критерия вычислим сначала s  8  2 ,387  12  1,685  20  1,9622 . Тогда 307,11  304,77 t0   3,852 . 1 1   1,9622    9 13  Так как 3,852>1,725, т. е. t0 принадлежит области отклонения гипотезы Η 0 и принятия Η 1 , считаем, что применение новой технологии снижает средние затраты сырья на одно изделие. 2 Гипотезы о виде закона распределения. Критерий согласия  2 Рассмотренные методы проверки статистических гипотез предполагали известный вид закона распределения и касались лишь значений параметров этого закона. Однако в ряде случаев сама форма закона распределения является гипотетической и нуждающейся в проверке. Здесь речь пойдет о провер- ке по данным выборки x1 , x2 , , xn  основной гипотезы Η 0 о том, что данная случайная величина Χ подчинена закону распределения F0 x  . В таких случаях не всегда есть основание высказать альтернативную гипотезу в явном виде. Часто в качестве гипотезы Η 1 имеется в виду просто невыполнение основной. Критерии проверки таких гипотез, называемые обычно критериями согласия, основаны на выборе определенной меры расхождения между теоретическим (или гипотетическим) и эмпирическим распределениями. Одним из наиболее распространенных является критерий Пирсона. В критерии Пирсона (критерий χ 2 ) за меру расхождения статистического и теоретического законов распределения принимается величина χ 2 , выборочное значение которой определяется формулой k n  np 2 2 i χ  i , np i 1 i где k - число различных вариант (число интервалов группирования); n объем выборки. В случае, если Χ - дискретная случайная величина, то pi вероятность реализации значения xi , вычисленная в предположении, что выдвигаемая гипотеза верна, т. е. pi  ΡΧ  xi Η 0  . Если Χ - непрерывная случайная величина, то pi - вероятность попадания в i -й интервал, pi  Ρxi  Χ  xi 1 Η 0 , i  1,...,k . Очевидно, что в обоих случаях k  pi  1. i 1 При n   закон распределения статистики χ 2 независимо от закона распределения Χ стремится к закону χ 2 q  , q  k  r  1 , где r - число параметров теоретического распределения. Так, если выдвигается гипотеза о принадлежности случайной величины к нормальному закону, то q  k  3 ; если гипотетический закон – распределение Пуассона, то q  k  2 . Процедура применения критерия χ 2 для проверки гипотезы Η 0 о том, что исследуемая случайная величина Χ имеет закон распределения F0 x  , состоит из следующих этапов. 1. По выборке x1 , x2 , , xn  наблюдений случайной величины Χ найти оценки неизвестных параметров предполагаемого закона распределения F0 x  . 2. Получить эмпирическое распределение случайной величины в виде точечного или интервального вариационных рядов. 3. Определить теоретические вероятности pi в предположении, что выдвигаемая гипотеза верна. 4. Вычислить наблюдаемое или экспериментальное значение статистики критерия χ 02 . 5. Принять статистическое решение: гипотеза Η 0 не противоречит 2 выборке наблюдений при заданном уровне значимости α , если χ 02  χ кр , где 2  χ 12α - квантиль уровня 1   распределения χ 2 с критическая точка χ кр 2 числом степеней свободы k  r  1 (см. приложение 4). Если же χ 02  χ кр , то гипотеза Η 0 отклоняется. Рассмотрим этапы использования критерия χ 2 на примере нормального распределения. Пусть Η 0 : Χ ~ Ν a ,σ  , где параметры a  ΜΧ и σ  DΧ неизвестны. По независимой выборке x1 , x2 , , xn  наилучшими оценками этих параметn n   2 1 1 ров будут соответственно a~  x   xi и ~  s   xi  x . n  1 i 1 n i 1 Если выборка представлена в виде последовательности k интервалов шириной h , то несмещенными оценками математического ожидания и среднего 1 k квадратического отклонения будут a~  x   ni xi , n i 1  1 k ~  s   ni xi  x n i 1  2 x  xi 1 h2  , здесь xi  i - середина i -ого интервала, 12 2 ni - соответствующая частота, 2 k  ni  n . i 1 k Статистика критерия χ   i 1 ni  npi 2 npi распределена по закону χ 2 с k  3 степенями свободы. Теоретические вероятности pi в предположении, что гипотеза Η 0 верна, вычисляются по формуле  x  x  x  x   Φ i  , pi  Ρxi  Χ  xi 1   Φ i 1  s   s  x t 2 1 e 2 dt - функция Лапласа (см. приложение).  2 0 Можно воспользоваться и плотностью стандартного нормального закона  x  (см. приложение 2), тогда где Φ x   pi  xi 1 k xi i 1   x dx , i  1,, k ;  pi  1. Если интервальный ряд построен так, что границы k интервалов длиной h равны ci 1  xi  0 ,5h , ci  xi  0 ,5h , то соответствующие вероятности будут такими: c1 p1     x dx ;  pi  ci   x dx , i  2,3,, k  1; ci 1 pk      x dx . c k 1 Наблюдаемое значение χ 02 сравнивается с критической точкой 2 2  кр  12 k  3 . Если χ 02  χ кр , то при заданном уровне значимости α гипотезу Η 0 принимают. Пример 6. По данным примера (из лекции 1) выяснить, можно ли на уровне значимости   0,05 считать нормальным распределение коэффициента соотношения заемных и собственных средств предприятий. Решение. На принадлежность к нормальной генеральной совокупности исследуемой выборки объема n  100 указывали элементы первичной статистической обработки данных. Убедимся в этом, используя критерий согласия χ 2 . Итак, имеем: 1. Η 0 : Χ ~ Ν a ,σ  , где a~  x  5,457 , n 100 Dв   0,0296  0,0298  0,1729 (значения x и Dв см. n 1 100  1 в решении примера). 2.   0,05 . 8 n  np 2 2 i   i ~  2 8  3 (здесь число интервалов груп3. npi i 1 пирования k  8 ). 4. Из таблиц квантилей распределения χ 2 найдем критиче- ~  s  2   02,95 5  11,07 (см. приложение). Критическая область скую точку  кр правосторонняя: d0 d1 2 χ кр  11,07 5. Для расчета наблюдаемого значения критерия χ 02 составим две вспомогательные таблицы (используем интервальный вариационный ряд 2):  c  x  c  x    Φ i  Расчет npi  n Φ i 1 s s      i сi c i 1 i  ci  x s  i 1  ci 1  x s 1 5,03 5,13 -2,4696 -1,8913 2 5,13 5,23 -1,8913 -1,3129 3 5,23 5,33 -1,3129 -0,7345 4 5,33 5,43 -0,7345 -0,1562 5 5,43 5,53 -0,1562 0,4222 6 5,53 5,63 0,4222 1,0006 7 5,63 5,73 1,0006 1,5789 8 5,73 5,83 1,5789 2,1573 pi npi 0,021 9 0,066 -0,4713 -0,4049 4 0,137 -0,4049 -0,2673 3 0,207 -0,2673 -0,0596 7 0,222 -0,0596 0,1628 4 0,178 0,1628 0,3413 5 0,100 0,3413 0,4418 5 0,042 0,4418 0,4842 4 0,977 11 -0,4932 -0,4713 8 ni  npi  i 1 npi Расчет  02    ΦΖ i 1  ΦΖ i   i 1 2 3 4 5 6 7 8 Таблица 3. ni npi ni  npi 2 5 6 10 20 25 18 11 5 100 2,19 6,64 13,73 20,77 22,24 17,85 10,05 4,24  100 7,8961 0,4096 13,9129 0,5929 7,6176 0,0225 0,9025 0,5776 2,19 6,64 13,73 20,77 22,24 17,85 10,05 4,24 97,71  100 Таблица 4. 2 ni  npi 2 3,6055 0,0617 1,0133 0,0285 0,3425 0,0012 0,0898 0,1362 5,2787 npi Сравниваем наблюдаемое значение критерия  02  5,2787 с критической 2  11,07 . Так как 5,2787<11,07, т. е. χ 02 принадлежит области приточкой  кр нятия нулевой гипотезы, гипотезу о нормальном распределении коэффициента соотношения заемных и собственных средств предприятий региона принимаем.

Статистическая проверка гипотез

Тебе могут подойти лекции

Проверка статистических гипотез

Статистические гипотезы и их проверка

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез.