Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по высшей математике
Интервальные оценки параметров распределения. Точность и надёжность оценок числовых характеристик. Проверка статистических гипотез

Интервальные оценки параметров распределения. Точность и надёжность оценок числовых характеристик. Проверка статистических гипотез

👀 1685 просмотров
📌 1614 загрузок
🏢️ РУТ (МИИТ)

Выбери формат для чтения

Конспект лекции по дисциплине «Интервальные оценки параметров распределения. Точность и надёжность оценок числовых характеристик. Проверка статистических гипотез», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Интервальные оценки параметров распределения. Точность и надёжность оценок числовых характеристик. Проверка статистических гипотез», Word формат

ЛЕКЦИЯ 1.7. Интервальные оценки параметров распределения 1.7.1. Точность и надёжность оценок числовых характеристик Точечная оценка неизвестного параметра θ часто бывает достаточной для практических выводов в качестве первоначальных результатов обработки наблюдений. Однако если есть необходимость в более детальном анализе, то надо оценить насколько истинное значение параметра расходится с точечной оценкой этого значения. Вопрос о точности особенно РУ "М Т ат (М ем ИИ ат Т ) ик а" существенен для выборок небольшого объёма, так как между θ и θ * может быть большое расхождение. Кроме того, при решении практических задач часто необходимо определить и надёжность этих оценок. В этом случае возникает задача о приближении параметра θ не одним числом, а некоторым интервалом (θ1* ,θ 2* ) . Интервал выбирается таким образом, чтобы вероятность включения в этот интервал параметра θ была достаточно велика (близка к единице). Говоря более строго, это означает, что вероятность выполнения двойного неравенства θ1* < θ < θ 2* не меньше заданного числа γ . Интервал (θ1* ,θ 2* ) , накрывающий с вероятностью γ истинное значе- ние параметра θ , называется доверительным интервалом, а вероят- ность γ – надёжностью оценки или доверительной вероятностью. Чаще всего (но не обязательно) доверительный интервал выбирается симметричным относительно несмещённой точечной оценки θ * , т. е. вы- бирается интервал вида (θ * − ε , θ * + ε ) такой, что { } { } P θ ∈ (θ * − ε , θ * + ε ) = P | θ − θ * |< ε = γ . (24) Число ε > 0 называется точностью оценки: чем меньше разность | θ − θ * | , тем точнее оценка. Величина γ для формулы (24) выбирается заранее, её выбор зависит от конкретно решаемой задачи. Например, степень доверия авиапассажира к надёжности самолёта, очевидно, должна быть выше степени доверия покупателя к надёжности телевизора. 1 Надёжность γ принято выбирать равной 0,9; 0,95; 0,99 или 0,999. Ещё раз подчеркнём, что интервальная оценка зависит не только от имеющихся данных, но и от требуемой надёжности. Так, например, при γ = 0,95 на 95 % можно быть уверенным, что доверительный интервал покрывает параметр θ , при γ = 0,99 на 99 % и т.д. Это значит, что если сделать много выборок, то для 95 % из них (если γ = 0,95 ) вычисленные доверительные интервалы действительно покроют θ . РУ "М Т ат (М ем ИИ ат Т ) ик а" Приведём неформальный пример, поясняющий различие точечной и интервальной оценок. Когда о каком-либо человеке говорят: “Ему примерно 38 лет”, это ни что иное, как точечная оценка возраста. Когда же говорят: “Ему лет 35-40”, это интервальная оценка, доверительный интервал при этом (35; 40). Надёжность оценки при этом в явном виде не указывается, но предполагается довольно близкой к единице. Иногда можно слышать и высказывания такого рода: “Ему на вид лет 35-40, по крайней мере, не больше 45 лет”. Очевидно, что доверительный интервал (35; 45) имеет бóльшую доверительную вероятность, чем интер- вал (35; 40). Однако интервальная оценка (35; 40) более информативна, чем интервальная оценка (35; 45). 1.7.2. Односторонние доверительные интервалы Если интерес представляет ситуация, когда важно сравнение только с одним критическим значением, то используют односторонние доверитель- ные интервалы: для заданного уровня доверия (надёжности) γ строят двусторонний доверительный интервал, который затем расширяют за счёт одной из его границ. Для двустороннего доверительного интервала имеем: θ* + ε ( ) ∫ γ = P | θ − θ * |< ε = θ* − ε 2 f ( x ) dx . С геометрической точки зрения: доверительная вероятность γ чис- ленно равна площади заштрихованной области под графиком дифференциальной функции f ( x ) , вычисленной на интервале (θ * − ε , θ * + ε ) (рис. 14). Рис. 14 РУ "М Т ат (М ем ИИ ат Т ) ик а" Для одностороннего доверительного интервала справедливо θ* + ε p= ∫ +∞ f ( x ) dx = −∞ ∫ f ( x ) dx = γ + θ* − ε 1− γ 1+ γ = = γ′ . 2 2 В результате получаем односторонние интервалы ( −∞; u p ) и (u p ; + ∞) с большей гарантией γ ′ (рис. 15, 16). Таким образом «односторонний» подход позволяет вдвое снизить ошибку α = 1 − γ . Рис. 15 Рис. 16 up Значение u p , для которого выполняется p = P{ x < u p } = ∫ f ( x) dx , на- −∞ зывается квантилью. Нахождение квантили u p заключается в выборе такого значения, что- бы площадь заштрихованной области была равна p . В статистике для обработки результатов эксперимента широко ис- пользуют законы распределения Пирсона, Стьюдента, Фишера-Снедекора. Квантили этих распределений табулированы (см. приложения). 3 1.8. Некоторые распределения функций нормальных случайных величин 1.8.1. Распределение χ 2 (хи-квадрат) Пирсона Распределением χ 2 Пирсона с k степенями свободы называется распределение суммы квадратов нормально распределённых независимых случайных величин X 1 , X 2 , …, X k с параметрами a = 0 , σ = 1 : РУ "М Т ат (М ем ИИ ат Т ) ик а" χ 2 ( k ) = X 12 + X 22 + ... + X k2 . Плотность этого распределения определяется формулой  k2 −1 − 2x  x ⋅ e , f 2 ( x ) =  k2 2 ⋅ Г (k / 2) χk  0, при x > 0 , при x ≤ 0 , +∞ где Г( x ) = ∫0 t x −1e − t dt – гамма-функция Эйлера ( Г( x ) = ( x − 1)! для нату- ральных значений х). Распределение χ 2 определя- ется только одним параметром – числом степеней свободы k. Графики функции f 2 ( x ) для различных значений k предχk ставлены на рис. 17. С увеличением числа степеней свободы k ( k → ∞ ) рас- пределение χ 2 приближается к нормальному закону распределения (при k > 30 различий практически нет). Рис. 17 Числовые характеристики распределения χ 2 : M [χ 2 ] = k , D[χ 2 ] = 2k , a s = 8 , ε k = 12 . k k На практике, как правило, используют не плотность вероятности, а квантили распределения χ 2k . 4 1.8.2. Распределение Стьюдента Пусть Х, X 1 , X 2 , …, X k – независимые случайные величины, имеющие стандартное нормальное распределение с параметрами a = 0 , σ = 1 . (или t-распределением) с k степенями Распределением Стьюдента свободы называется распределение отношения X 1 ( X 2 + X 2 + ... + X 2 ) k 2 k 1 = X χ 2 . k РУ "М Т ат (М ем ИИ ат Т ) ик а" T= Плотность этого распределения определяется по формуле ( ) () k +1 2 − 2 Г k +1  x 2 f ( x) = , − ∞ < x < +∞ . 1 +  k k kπ ⋅ Г   2 С увеличением значений k рас- пределение Стьюдента достаточно быстро приближается к нормальному распределению (рис. 18). Рис. 18 Числовые характеристики распределения Стьюдента: M [T ] = 0 , D[T ] = k ( k > 2 ), a = 0 , ε = 6 . s k k −4 k −2 1.8.3. Распределение Фишера-Снедекора F-распределением Фишера-Снедекора со степенями свободы k1 и k 2 называется распределение отношения F= χ 2 ( k1 ) k1 χ 2 (k2 ) k2 . Плотность этого распределения вычисляется по формуле k1 k2 k1 k +k  −1 Г 1 2  2 2 2 k ⋅ k ⋅ x  2  ⋅ 1 2 f ( x) = , x ≥ 0, k1 + k 2  k1   k2  Г  ⋅ Г  ( k1 x + k2 ) 2 2  2 5 График плотности F-распре- деления при k1 = 10 и k 2 = 15 представлен на рис. 19. Рис. 19 РУ "М Т ат (М ем ИИ ат Т ) ик а" Числовые характеристики распределения Фишера-Снедекора: k2 2k 22 ( k1 + k 2 − 2) M [F ] = ( k 2 > 2 ), D[ F ] = ( k 2 > 4 ). k2 − 2 k1 ( k 2 − 2) 2 ( k 2 − 4) 1.9. Доверительные интервалы параметров нормального распределения 1.9.1. Доверительный интервал для оценки * * вероятности события А: p ∈ ( p − ε; p + ε ) I случай (неизвестен объём генеральной совокупности N). Пусть событие А наступило т раз в п испытаниях (п – объём выбор- ки). Тогда p* = m – точечная оценка вероятности р наступления события в n одном испытании. По следствию из центральной предельной теоремы, имеем:  γ = P {| p − p* | < ε} = 2 Φ  ε ⋅  n  pq  ⇒ t = ε⋅ где t – аргумент функции Лапласа Φ (t ) = γ 2 n pq ⇒ ε = t⋅ pq , n . Так как p ≈ p* , q = 1 − p ≈ 1 − p* , то ε =t⋅ p* ⋅ (1 − p* ) . n 6 (25) II случай (известен объём генеральной совокупности N). ε =t⋅ p* ⋅ (1 − p* )  n ⋅ 1 −  . n  N (26) Отсюда можно получить формулу для нахождения объёма выборки ε  t      2 p* ⋅ (1 − p* ) + N . (27) РУ "М Т ат (М ем ИИ ат Т ) ик а" n= p* ⋅ (1 − p* ) Замечание. Данные формулы справедливы при всех п, для которых справедливо неравенство npq ≈ np* ⋅ (1 − p* ) > 9 . 1.9.2. Доверительный интервал для оценки математического ожидания x :г xг ∈ ( xв − ε; xв + ε ) I случай (известно среднее квадратическое отклонение σ г ). n Определим случайную величину X = X i . Её среднее выборочное ∑ i =1 1 значение x в = n n ∑ Xi представляет собой сумму сравнительно большого i =1 числа п независимых величин и, согласно центральной предельной теореме, имеет распределение, близкое к нормальному. При этом: M [ x в ] = x г (т. к. x в – несмещённая оценка x г ), 1 n  1 n D σ 1 D[ x в ] = D  ⋅ Xi = 2 ⋅ D [ X i ] = 2 ⋅ n ⋅ Dг = г ⇒ σ в = г . n n n  n i =1  n i =1     Тогда γ = P ( xг − xв < ε ) = 2 Φ  ε  = 2 Φ  ε n  ⇒ t = ε n . σв σг   σв  Отсюда получаем ∑ ∑ ε= t ⋅σ в , n где t – аргумент функции Лапласа Φ (t ) = 7 γ 2 (28) (приложение 2). Из формулы (28) выразим величину п, тогда t ⋅σв  n =   .  ε  2 (29) Полученное выражение позволяет оценить, каков должен быть объём выборки, чтобы точность оценки ( xг ≈ xв ) не превосходила заданного значе- ния ε с заданным уровнем доверия γ . Пример 13. Произведено пять независимых наблюдений над слу- РУ "М Т ат (М ем ИИ ат Т ) ик а" чайной величиной Х~ N (a, 20) . Результаты наблюдений таковы: x1 = −25, x 2 = 34 , x3 = −20 , x 4 = 10 , x5 = 21 . Найти оценку для a = M [ X ] , а также построить для него 95%-й доверительный интервал. ☺Решение. Находим xв = 1 ⋅ ( −25 + 34 − 20 + 10 + 21) = 4 . Т. к. γ = 0,95 , то Φ (t ) = γ 2 5 = 0,475 . Тогда по таблице приложения 2 на- ходим t = 1,96 . Значит по формуле (28) имеем: ε = t ⋅ σ в 1,96 ⋅ 20 = ≈ 17,5 . n 5 Таким образом, доверительный интервал для a = M [ X ] таков: (4 − 17,5; 4 + 17,5) , т. е. (−13,5; 21,5) . ☻ II случай (неизвестны σ г и N – объём генеральной совокупности). В этом случае ε= tγ ⋅ s n , (30) где s – несмещённая оценка σ г ; значение tγ = t (γ , n ) − табулировано рас- пределением Стьюдента (таблица приложения 6). Выражая п из формулы (30), получим 2  tγ ⋅ s  n=  . ε   8 (31) С помощью формулы (31) можно найти объём выборки, необходимый для определения точности оценки ( x г ≈ x в ) , которая не превосходит за- данного значения ε с заданным уровнем доверия γ . Пример 14. По условию примера 13, считая, что случайная величи-на Х N(a,σ ) , построить для неизвестного M[X ] = a доверительный ин-тервал при γ = 0,95. ☺Решение. Ранее вычислено xв= 4. Находим s : ) РУ "М Т ат (М ем ИИ ат Т ) ик а" ( s 2 = 1 ⋅ ( −25 − 4) 2 + (34 − 4) 2 + ( −20 − 4) 2 + (10 − 4) 2 + (21 − 4) 2 = 660,5 , 4 тогда s ≈ 25,7 . По таблице приложения 6 для γ = 0,95 и n = 5 находим tγ = 2,78 . Значит по формуле (30) имеем: ε = tγ ⋅ s n = 2,78 ⋅ 25,7 ≈ 31,9 . 5 Таким образом, получаем доверительный интервал (−27,9; 35,9) . ☻ III случай (неизвестно σ г , известно N ). Величина ε вычисляется по формуле ε= tγ ⋅ s  n 1 −  . n  N (32) Используя (32), можно найти объём выборки n= N ⋅ tγ2 ⋅ s 2 tγ2 ⋅ s 2 + N ⋅ ε 2 , (33) необходимый для определения точности оценки ( x г ≈ x в ) , которая не пре- восходит заданного значения ε с заданным уровнем доверия γ . 9 1.9.3. Доверительный интервал для оценки генерального среднего квадратического отклонения Пусть для выборки объёма n задана надёжность, с которой нужно оценить отклонение найденного исправленного квадратического отклонения s от истинного σ г : γ = P ( σ г − s < ε ) .  ε  ε ⇒ s ⋅ 1 −  < σ г < s ⋅ 1 +  . s s   РУ "М Т ат (М ем ИИ ат Т ) ик а" Тогда σ г − s < ε ⇒ s − ε < σ г < s + ε Введём q = ε = q ( γ ; n ) , которое табулировано (приложение 7). s Учитывая, что σ г ≥ 0 , получим: если q < 1 , то σ г ∈ ( s − sq ; s + sq ) , (34) если q > 1 , то σ г ∈ (0; s + sq) . (35) Пример 15. Количественный признак генеральной совокупности распределён нормально. По выборке объёма n = 25 найдено исправленное среднее квадратическое отклонение s = 0,8 . Найти доверительный интер- вал, покрывающий генеральное среднее квадратическое отклонение σ г с надёжностью 0,95 . ☺Решение. По таблице приложения 7 при данных значениях: γ = 0,95 , n = 25 , находим q = 0,32 . Т. к. q = 0,32 < 1 , то доверительный интервал следует искать по фор- муле (30): 0,8 − 0,8 ⋅ 0,32 < σ г < 0,8 + 0,8 ⋅ 0,32 Таким образом, получаем доверительный интервал (0,544;1,056) . 10 ☻ 1.10. Проверка статистических гипотез 1.10.1. Статистическая гипотеза Обычно в практических задачах не встречаются случайные величины, распределения которых точно соответствовали бы теоретическим распределениям. Последние представляют собой математические модели реальных распределений. Подбор таких моделей и анализ их адекватности мо- РУ "М Т ат (М ем ИИ ат Т ) ик а" делируемым случайным величинам являются одной из основных задач математической статистики. Эта задача в свою очередь сводится к проверке предположений (гипотез) о виде модели распределения и её параметрах. Например, верно ли, что новое лекарство эффективнее, чем приме- нявшееся ранее, что новые методы обучения лучше, чем старые и т. д. Статистической гипотезой (или просто гипотезой) называет- ся любое предположение о генеральной совокупности, проверяемое по выборке. Например, гипотезами являются: предположение о виде неизвестного распределения, о параметрах известных распределений, об отношениях между случайными величинами и т. д. Если гипотеза содержит некоторое утверждение о параметрах распре- деления случайной величины (когда сам закон распределения считается известным), то она называется параметрической, и непараметрической – в иных случаях. Нулевой (основной) гипотезой H 0 называется предположение, ко- торое выдвигается изначально, пока наблюдения не заставят признать об- ратное. Альтернативной (конкурирующей) гипотезой H 1 называется гипотеза, которая противоречит нулевой гипотезе H 0 и которую принимают, если отвергнута основная гипотеза. 11 Гипотезы бывают простые (содержащие только одно предположение) и сложные (состоящие из конечного или бесконечного числа простых гипотез). Например, гипотеза H 0 , состоящая в предположении, что математическое ожидание нормального распределения a = 5 , является простой, тогда в качестве альтернативной гипотезы можно рассматривать одну из сле- РУ "М Т ат (М ем ИИ ат Т ) ик а" дующих: H 1 : a > 5 (сложная), H 2 : a < 5 (сложная), H 3 : a ≠ 5 (сложная). 1.10.2. Задачи статистической проверки гипотез Процедура сопоставления высказанного предположения (гипотезы) с выборочными данными называется проверкой гипотез. Задачи статистической проверки гипотез: • Относительно некоторой генеральной совокупности высказывается та или иная гипотеза Н. • Из этой генеральной совокупности извлекается выборка. • Необходимо указать правило, с помощью которого можно было по выборке ответить на вопрос о том, следует ли отклонить гипотезу Н или принять её. Отметим, что статистическими методами гипотезу можно толь- ко опровергнуть или не опровергнуть, но не доказать. Например, для проверки утверждения автора, что в рукописи ошибок нет (гипотеза Н), рецензент прочёл (изучил) несколько страниц рукописи. Если он обнаружил хотя бы одну ошибку, то гипотеза Н отвергается, в противном случае – не отвергается, тогда говорят, что результат проверки согласуется с гипотезой, хотя ошибка могла иметь место и в непроверен- ных страницах. Выдвинутая гипотеза может быть правильной или неправильной, по- этому возникает необходимость её проверки. 12 1.10.3. Общая схема проверки статистических гипотез Имея две гипотезы H 0 и H 1 , необходимо на основе выборочных данных либо принять основную гипотезу H 0 , либо конкурирующую H 1 . Правило, по которому принимается решение принять или отклонить гипотезу H 0 (или H 1 ), называется статистическим критерием (или просто критерием) проверки гипотезы H 0 . Статистикой (или тестом) критерия называют случайную ве- РУ "М Т ат (М ем ИИ ат Т ) ик а" личину τ , которая служит для проверки статистических гипотез. Приведём схему проверки статистических гипотез: 1. Для основной гипотезы H 0 формулируется альтернативная гипотеза H 1 . 2. Выбирается уровень значимости проверки – малое число α > 0 . 3. Рассматриваются теоретические выборки значений случайных величин, о которых сформулирована гипотеза H 0 , и выбирается (формируется) случайная величина τ. Значения и распределение τ (обычно из пере- численных ниже: U – нормальное распределение, χ 2 – распределение Пирсона, Т – Стьюдента, F – Фишера-Снедекора) полностью определя- ются по выборкам при предположении о верности гипотезы H 0 . 4. На числовой оси задают интервал D, такой, что вероятность попадания случайной величины τ в этот интервал: P (τ ∈ D ) = 1 − α . Интервал D называется областью принятия гипотезы H 0 , а ос- тавшаяся область числовой оси – критической областью (величина τ = τ кр – критическое значение теста проверки). Различают три типа критических областей. Критическая область оп- ределяется с учётом гипотез: H0 H1 ~ θ =θ ~ θ <θ ~ θ ≠θ ~ θ >θ Критическая область D ( −∞; − τ кр ] ( −∞; − τ кр ] U [τ кр ; +∞) [τ кр ; +∞ ) – левосторонняя (рис. 20) – двусторонняя (рис. 21) – правосторонняя (рис. 22) 13 Рис. 20 Рис. 21 Рис. 22 Соответственно интервалам критерий проверки называется право- РУ "М Т ат (М ем ИИ ат Т ) ик а" сторонним, двусторонним или левосторонним. 5. По реализациям анализируемых выборок вычисляется конкретное (наблюдаемое) значение теста τ (обозначим его τ = τ набл ) и проверяется выполнение условия P (τ ∈ D ) = 1 − α : а) если оно выполняется (например, τ набл < τ кр для правосторонней области), то гипотеза H 0 принимается в том смысле, что она не противо- речит опытным данным и нет оснований её отвергнуть; б) если условие не выполняется (τ набл > τ кр для правосторонней об- ласти), то полагается, что гипотеза H 0 неверна и её отвергают. Для каждого критерия имеются соответствующие таблицы, по кото- рым и находят критическое значение, удовлетворяющее приведённым выше соотношениям. Принцип принятия статистической гипотезы не даёт логического до- казательства её верности или неверности. Принятие гипотезы H 0 в срав- нении с альтернативной H 1 не означает, что мы уверены в абсолютной правильности H 0 , или, что высказанное в гипотезе H 0 утверждение явля- ется наилучшим, единственно подходящим. Просто гипотеза H 0 не противоречит имеющимся у нас выборочным данным. Таким же свойством на- ряду с H 0 могут обладать и другие гипотезы. Более того, возможно, что при увеличении объёма выборки п или при испытании H 0 против другой альтернативной гипотезы H 2 гипотеза H 0 будет отвергнута. 14 Таким образом, принятие гипотезы H 0 следует расценивать не как раз и навсегда установленный, абсолютно верный содержащийся в ней факт, а лишь как достаточно правдоподобное, не противоречащее опыту утверждение. Из представленной схемы следует, что при проверке гипотезы H 0 может быть принято неправильное решение, т. е. могут быть допущены ошибки двух видов: ошибка II рода РУ "М Т ат (М ем ИИ ат Т ) ик а" ошибка I рода Отвергается основная (нулевая) гипо- Отвергается конкурирующая гипотеза, теза, хотя она верна. хотя она верна. Вероятность ошибки P (H 1 H 0 ) = α , Вероятность ошибки P (H 0 H 1 ) = β α – уровень значимости критерия (величина β , как правило, заранее не- (обычно α = 0,05 ; 0,01; 0,005; 0,001). известна) Вероятность принять верную (нуле- Вероятность принять верную (конкурирующую) гипотезу вую) гипотезу P (H 0 H 0 ) = 1 − α . P (H 1 H 1 ) = 1 − β , ( 1 −β ) – мощность критерия. Последствия ошибок 1-го и 2-го рода могут быть абсолютно различ- ными: в одних случаях надо минимизировать α , а в других – β . Так, применительно к радиолокации говорят, что α – вероятность пропустить сиг- нал, β – вероятность ложной тревоги. Применительно к производству, к торговле можно сказать, что α – риск поставщика (т. е. забраковка по всей партии изделий, удовлетворяющих стандарту), β – риск потребителя (т. е. приём по выборке всей партии изделий, не удовлетворяющих стандарту). Применительно к судебной системе, ошибка 1-го рода приводит к оправданию виновного, ошибка 2-го – осуждение невиновного. Следует отметить, что одновременное уменьшение ошибок 1-го и 2-го рода возможно лишь при увеличении объёма выборок. Поэтому обычно при заданном уровне значимости α отыскивается критерий с наибольшей мощностью. 15 1.10.4. Статистики сравнения точечных оценок неизвестных генеральных 1) Проверка гипотез для одной выборки Пусть генеральная совокупность Х распределена по нормальному закону. Генеральная средняя a хотя и неизвестна, но есть основания предпо- РУ "М Т ат (М ем ИИ ат Т ) ик а" лагать, что она равна предполагаемому значению a 0 . Например, если Х – совокупность размеров xi партии деталей, произ- водящихся станком автоматической линии, то можно предположить, что генеральная средняя a этих размеров равна проектному размеру a 0 . Для того, чтобы проверить правильность настройки этого станка, оче- видно надо убедиться в том, что среднее значение параметра у производи- мых на нём изделий будет соответствовать номиналу. Таким образом, необходимо проверить гипотезу H 0 : a = a 0 против альтернативной: H 1 : a ≠ a 0 , или H 2 : a < a 0 , или H 3 : a > a 0 . Если различие окажется незначимым, то станок обеспечивает в сред- нем проектный размер; если различие значимое, то станок требует наладки. При произвольной настройке станка может возникнуть необходи- мость проверки гипотезы о том, что точность изготовления изделий по данному параметру, задаваемая дисперсией σ 2 , равна заданной величине σ 02 ( H 0 : σ 2 = σ 02 ) , или например, того, что доля бракованных изделий производимых станком, равна заданной величине p0 ( H 0 : p = p0 ) и т. д. Выдвигаемые гипотезы и соответствующие критерии проверки гипо- тез о числовых значениях параметров нормального закона приведены в табл. 7. 16 Таблица 7 Статистика критерия H0 a ≠ a0 a = a0 U= σ = 2 H1 x − a0 σ σ г2 n a < a0 известно Φ (u кр ) = 0,5 − α 2 U > − u кр , Φ (u кр ) = 0,5 − α U a0 Область принятия H 0 U − t кр , a < a0 tкр = tα , n −1 для односторонней области T < t кр , неизвестно a > a0 tкр = tα , n −1 для односторонней области σ 2 = σ 02 χ2 = (n − 1) s 2 σ 02 a неизвестно p = p0 достаточно большие п, np0 > 5 , nq0 > 5 , q0 = 1 − p 0 σ 2 ≠ σ 02 χ 12− α ; n −1 < χ 2 < χ 2α ; n −1 σ 2 < σ 02 χ 2 > χ 12−α ; n −1 σ 2 > σ 02 χ 2 > χ α2 ; n −1 p ≠ p0 p* − p0 U= n, p0 q0 p < p0 p =m n * p > p0 2 2 U − u кр , Φ (u кр ) = 0,5 − α U < u кр , Φ (u кр ) = 0,5 − α Примечание. Критические значения статистик на уровне значимо- сти α определяют по соответствующим таблицам приложения. Пример 16 . Из нормальной генеральной совокупности с известным средним квадратическим отклонением σ = 5 извлечена выборка объёма 17 n = 100 , и по ней найдено выборочное среднее 26,5. Требуется на уровне значимости 0,05 проверить гипотезу H 0 : a = a 0 = 25 против альтернативной гипотезы H 1 : a ≠ a 0 . Изменится ли результат, если изменить альтернативную гипотезу на H 1 : a > a 0 ? ☺Решение . Найдём значение статистики критерия (табл. 7) U= x − a0 σ n= 26,5 − 25 100 = 3 . 5 РУ "М Т ат (М ем ИИ ат Т ) ик а" При проверке гипотезы H 1 : a ≠ 25 по таблице приложения 2 из соот- ношения Φ (u кр ) = 0,5 − 0,05 = 0,475 находим u кр = 1,96 . 2 Т. к. U > u кр , то основная гипотеза отвергается. При проверке H1 : a > a0 гипотезы из соотношения Φ (u кр ) = 0,5 − 0,05 = 0,45 находим (таблица приложения 1) u кр = 1,65 , зна- чит U > u кр . Следовательно, основная гипотеза отвергается. В обоих случаях результат одинаков. ☻ Пример 17 . По выборке объёма n = 16 , извлечённой из нормальной генеральной совокупности, найдены x = 12,4 и s = 1,2 . Требуется при уровне значимости 0,05 проверить нулевую гипотезу H 0 : a = 11,8 при конкурирующей гипотезе H 1 : a ≠ 11,8 . ☺Решение . Найдём наблюдаемое значение статистики критерия (табл. 7) T= x − a0 12,4 − 11,8 n= 16 = 2 . s 1,2 Поскольку конкурирующая гипотеза имеет вид a ≠ a 0 , то искомая критическая область двусторонняя. Из таблицы критических точек распределения Стьюдента (таблица приложения 4) найдём по уровню значимости 18 α = 0,05 и числу степеней свободы k = n − 1 = 15 критическую точку t кр = t кр (0,05;15) = 2,13 . Т. к. T < t кр , то нет оснований отвергнуть нулевую гипотезу. ☻ Пример 18 . Точность работы станка-автомата проверяется по дис- персии размеров изделий, которая не должна превышать σ 02 = 0,01 (мм2). По выборке из 25 изделий получена исправленная выборочная дисперсия РУ "М Т ат (М ем ИИ ат Т ) ик а" s 2 = 0,02 (мм2). На уровне значимости 0,05 проверить, обеспечивает ли станок необходимую точность? ☺Решение . Найдём значение статистики критерия (табл. 7) χ = 2 (n − 1) s 2 σ 02 = 24 ⋅ 0,02 = 48 . 0,01 По таблице приложения 3 находим критическую точку распределения χ 2 -квадрат: χ 02,05; 24 = 36,4 . Т. к. 48 > 36,4 , то основная гипотеза отвергает- ся. Следовательно, станок не обеспечивает необходимой точности. ☻ 2) Проверка гипотез для двух независимых выборок Пусть имеются две независимые нормально распределённые выборки x1 , x 2 , …, x n1 и y1 , y 2 , …, y n2 с параметрами (a x , σ x2 ) и (a y , σ 2y ) соот- ветственно. Обычно ставится задача проверки их однородности, т. е. ра- венства обоих параметров, либо следует проверить равенство параметров по отдельности. Сравнение средних двух совокупностей имеет важное практиче- ское значение. На практике часто встречается случай, когда средний результат одной серии экспериментов отличается от среднего результата другой серии. При этом возникает вопрос, можно ли объяснять обнару- женное расхождение средних неизбежными случайными ошибками экспе- римента или оно вызвано некоторыми закономерностями. В промышленности задача сравнения средних часто возникает при выборочном контроле 19 качества изделий, изготовленных на разных установках или при различных технологических режимах, в финансовом анализе – при сопоставлении уровня доходности различных активов и т. д. Гипотеза о равенстве средних при известных дисперсиях проверяется обычно в случае больших выборок (объёмом порядка сотен), когда оценки дисперсий можно принять за их точные значения. Гипотеза о равенстве средних при неизвестных дисперсиях требует РУ "М Т ат (М ем ИИ ат Т ) ик а" вначале проверки гипотезы о равенстве дисперсий двух выборок. Гипотезы о дисперсиях возникают достаточно часто, так как дис- персия характеризует такие исключительно важные показатели, как точ- ность машин, приборов, технологических процессов, степень однородности совокупностей, риск, связанный с отклонением доходности активов от ожидаемого уровня, и т. д. Сравнение долей признака в двух совокупностях – достаточно часто встречающаяся на практике задача. Например, если выборочная доля признака в одной совокупности отличается от такой же доли в другой совокупности, то указывает ли это на то, что наличие признака в одной сово- купности действительно вероятнее, или полученное расхождение долей является случайным? Сформулируем задачу. Имеются две совокупности Х и Y, генераль- ные доли признака в которых равны соответственно p x и p y . Необходимо проверить нулевую гипотезу о равенстве генеральных долей. Для проверки гипотезы H 0 из этих совокупностей взяты две независимые выборки достаточно большого объёма n1 и n 2 . Выборочные доли признака равны соответственно p1* = m1 m и p2* = 2 , где m1 и m2 – соответственно число элеn1 n2 ментов первой и второй выборок, обладающих данным признаком. Выдвигаемые гипотезы и соответствующие критерии проверки гипотез представлены в табл. 8. 20 Таблица 8 Статистика критерия H0 ax = a y σ x2 и U= σ 2y ax ≠ a y x−y σ x2 n1 известны H1 σ y2 + ax < a y n2 H0 U − u кр , Φ (u кр ) = 0,5 − α U a y Область принятия ax = a y σ x2 и σ 2y неизвестны, но равны a ≠ a0 x−y , T= 1 1 s⋅ + n1 n 2 s= s x2 T < t кр , tкр = tα , n 1 + n 2 −1 для двусторонней области ⋅ (n1 − 1) + ⋅ ( n 2 − 1) n1 + n 2 − 2 a < a0 s 2y T > − t кр , tкр = tα , n 1 + n 2 −1 для односторонней области a > a0 T < t кр , tкр = tα , n 1 + n 2 −1 для односторонней области σ x2 = σ 2y F= ax и a y неизвестны px = p y n1 и n 2 достаточно большие U= σ x2 ≠ σ 2y 2 s max 2 s min σ x2 > σ 2y p1* − p2* 1 1  p (1 − p )  +   n1 n2  m m p1* = 1 , p2* = 2 , n1 n2 m + m2 p* = 1 n1 + n2 * , px ≠ p y * px p y F < Fкр , Fкр = Fα 2, n1 −1, n2 −1 F < Fкр , Fкр = Fα , n1 −1, n2 −1 U − u кр , Φ (u кр ) = 0,5 − α U < u кр , Φ (u кр ) = 0,5 − α Пример 19 . Для проверки эффективности новой технологии ото- браны две группы рабочих: в первой группе численностью n1 = 50 чел., где применялась новая технология, выборочная средняя выработка составила x = 85 (изделий), во второй группе численностью n 2 = 70 чел. выбо- 21 рочная средняя – y = 78 (изделий). Предварительно установлено, что дисперсии выработки в группах равны соответственно σ x2 = 100 и σ 2y = 74 . На уровне значимости α = 0,05 выяснить влияние новой технологии на среднюю производительность. ☺Решение . Проверяемая гипотеза H 0 : a x = a y , т. е. средние выработки рабочих одинаковы по новой и старой технологиям. В качестве кон- РУ "М Т ат (М ем ИИ ат Т ) ик а" курирующей гипотезы можно взять H 1 : a x > a y или H 2 : a x ≠ a y (в данной задаче более естественна гипотеза H 1 , т. к. её справедливость означает эффективность применения новой технологии). Находим фактическое значение статистики критерия (табл. 8) x−y 85 − 78 U= = = 4. 2 2 100 74 σx σy + + 50 70 n1 n 2 При альтернативной гипотезе H 1 по таблице приложения 2 из соот- ношения Φ (u кр ) = 0,5 − 0,05 = 0,45 найдём критическое значение u кр = 1,64 . При конкурирующей гипотезе H 2 найдём критическое значение из соотношения Φ (u кр ) = 0,5 − 0,05 = 0,475 , тогда u кр = 1,96 . 2 Т. к. U > u кр при любой из взятых конкурирующих гипотез, то гипо- теза H 0 отвергается. Т. е. на 5%-ном уровне значимости можно сделать вывод, что новая технология позволяет повысить среднюю выработку ра- ☻ бочих. Пример 20. Реклама утверждает, что из двух типов пластиковых карт «Русский экспресс» и «Супер-понт» богатые люди предпочитают первый. С целью проверки этого утверждения были обследованы средне- месячные платежи n1 = 16 обладателей «Русского экспресса» и n2 = 11 обладателей «Супер-понта». При этом выяснилось, что платежи по картам «Русский экспресс» составляют в среднем 563 долл. с исправленным сред- 22 ним квадратическим отклонением 178 долл., а по картам «Супер-понт» – в среднем 485 долл. с исправленным средним квадратическим отклонением 196 долл. Предварительный анализ законов распределения месячных расходов как среди обладателей «Русского экспресса», так и среди обладателей «Супер-понта» показал, что они достаточно хорошо описываются нормальным приближением. РУ "М Т ат (М ем ИИ ат Т ) ик а" Проверить утверждение рекламы на уровне значимости 10 %. ☺ Решение . В этом случае следует проверить гипотезу о средних при неизвестных дисперсиях (объёмы выборок малы). Поэтому, прежде всего, необходимо проверить гипотезу о равенстве дисперсий. Имеем (табл. 8): 2 2 smax F = 2 = 1962 = 38416 = 1,21 . 31684 smin 178 Из таблицы критических значений Фишера-Снедекора (приложение 5) по уровню значимости α 2 = 0,05 и числам степеней свободы 2 k1 = n max − 1 = 10 и k 2 = n min − 1 = 15 ( n max и n min соответствуют s max и 2 s min ) находим критическую точку Fкр = 2,55 . Поскольку 1,21 < 2,55 , при- нимаем гипотезу о равенстве дисперсий двух выборок. Теперь можно воспользоваться критерием Стьюдента для проверки гипотезы о равенстве средних. Имеем s= s x2 ⋅ ( n1 − 1) + s 2y ⋅ ( n2 − 1) 38416 ⋅ 10 + 31684 ⋅ 15 = = 185,4 . n1 + n2 − 2 11 + 16 − 2 Вычисление статистики критерия даёт T= x−y = 563 − 485 = 1,07 . s ⋅ 1 + 1 185,4 1 + 1 n1 n2 11 16 23 По таблице критических точек распределения Стьюдента (приложение 4) для односторонней области по уровню значимости α = 0,1 и числу степеней свободы 25 находим t кр = 1,32 . Поскольку T < t кр , то принимается основная гипотеза (о равенстве средних). Таким образом, утверждение рекламы не подтверждается имею- ☻ щимися данными. РУ "М Т ат (М ем ИИ ат Т ) ик а" Пример 21 . В партии из 500 деталей, изготовленных первым стан- ком-автоматом, оказалось 60 нестандартных, из 600 деталей второго стан- ка – 42 нестандартных. На уровне значимости α = 0,01 проверить нулевую гипотезу H 0 : p x = p y о равенстве вероятностей изготовления нестандарт- ной детали обоими станками против конкурирующей гипотезы H1 : p x ≠ p y . ☺ Решение . По условию имеем: p1* = 60 = 0,12 , p2* = 42 = 0,07 , p* = 60 + 42 = 0,09 . 500 600 500 + 600 Находим значение статистики критерия (табл. 8) U= p1* − p2* 1 1  p* (1 − p* )  +   n1 n2  = 0,12 − 0,07 1   1 + 0,09 ⋅ 0,91 ⋅    500 600  = 2,85 . Критическую точку находим из соотношения Φ (u кр ) = 0,495 , откуда u кр = 2,57 (таблица приложения 2). Так как U > u кр , то гипотеза H 0 от- вергается. Т. е. вероятности изготовления нестандартных деталей на двух ☻ станках различны. 24 1.11. Построение теоретического закона распределения случайной величины по опытным данным. Проверка гипотез о законе распределения Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, РУ "М Т ат (М ем ИИ ат Т ) ик а" характеризующей изучаемый признак по опытному (эмпирическому) рас- пределению, представляющему вариационный ряд. Для решения этой задачи необходимо определить вид и параметры закона распределения. Гипотеза о виде закона распределения может быть выдвинута исходя из теоретических предпосылок, опыта аналогичных предшествующих ис- следований и, наконец, на основании графического изображения эмпирического распределения. Параметры распределения, как правило, неизвестны, поэтому их за- меняют наилучшими оценками по выборке ( x , Dв , σ в и т.д.). Распределением, играющим основную роль в теории статистического оценивания, является нормальное распределение. Приведём его основные характеристики (табл. 9), рассмотренные в курсе теории вероятностей. Таблица 9 Нормальное распределение ( a = xв , σ = σ в или σ = s ) Функция плотности Функция распределения f ( x ) = 1 ⋅ ϕ (t ) , F ( x ) = 0,5 + Φ (t ) , σ где t = x − a , σ ϕ (t ) – функция Гаусса где t = x − a , σ Φ (t ) − функция Лапласа 25 Вероятность попадания в интервал p i = P {x i − 1 < x < x i } =  x% − a  ⋅ϕ  i = σ  σ   x −a  xi −1 − a  =Φ i − Φ   ,  σ   σ  где i = 1, 2, . .. , k . = xi − xi −1 Графики функций ϕ (t ) (рис. 23) и Φ (t ) (рис. 24): Рис. 23. Функция Гаусса Рис. 24. Функция Лапласа t 2 −t РУ "М Т ат (М ем ИИ ат Т ) ик а" ϕ (t ) = 1 2π e 2 −t 2 Φ(t ) = 1 2π (приложение 1) ∫e 2 dt (приложение 2) Широкое использование в статистических выводах нормального рас- пределения имеет как эмпирическое, так и теоретическое обоснования. Многочисленные примеры построения гистограмм и сглаживание их непрерывными кривыми для экспериментальных данных самой различной природы показывают, что во многих случаях нормальное распределение является довольно точным представлением таких данных. Применимость нормального распределения обосновывается и центральной предельной теоремой. Как бы хорошо ни был выбран теоретический закон распределения, неизбежны расхождения между эмпирическим и теоретическим распределениями. Естественно, возникает вопрос: эти расхождения объясняются только случайными обстоятельствами, связанными с небольшим числом наблюдений, или они являются существенными и связаны с тем, что теоре- тический закон распределения подобран неудачно. Для ответа на этот вопрос используем специально подобранную величину – критерий согласия. Критерием согласия называют статистический критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Он используется для проверки согласия предполагаемого вида распределения с опытными данными на основании выборки. 26 Пусть необходимо проверить гипотезу H 0 о том, что рассматриваемая случайная величина Х подчиняется определённому закону распределения. Для проверки гипотезы H 0 выбирают некоторую случайную величину τ , характеризующую степень расхождения теоретического и эмпирического распределений, закон распределения которой при достаточно больших п известен и практически не зависит от закона распределения случайной величины Х. τ , можно найти такое критическое значеH 0 верна, то вероятность того, что τ при- РУ "М Т ат (М ем ИИ ат Т ) ик а" Зная закон распределения ние τ = τ кр , что если гипотеза няла значение больше чем τ α : P (τ > τ α ) = α – мала, где α – уровень зна- чимости критерия. Если наблюдаемое в опыте значение τ окажется больше критическо- го: τ = τ набл > τ кр (т. е. попадёт в критическую область), то в соответствии с принципом практической уверенности это означает, что такие большие значения практически τ невозможны и противоречат гипотезе H 0 . В этом случае нулевую гипотезу отвергают. Если τ = τ набл < τ кр , то расхождение между эмпирическим и теорети- ческим распределениями несущественно и гипотезу H 0 можно считать правдоподобной или, по крайней мере, не противоречащей опытным данным. 1.11.1. Критерий χ2 Пирсона Существуют различные критерии согласия: Пирсона, Колмогорова, Фишера, Смирнова и др. Критерий согласия Пирсона – наиболее часто употребляемый критерий для проверки простой гипотезы о законе распределения. Эмпирические частоты – это частоты mi , наблюдаемые в экспе- рименте. 27 Выравнивающие (теоретические) частоты – это частоты, ко- торые находятся по формуле mi′ = n ⋅ pi , где п – объём выборки, pi – точечная вероятность варианты xi дискретной случайной величины или интервальная вероятность для варианты x ∈ ( xi −1; xi ] непрерывной случайной величины. Алгоритм действий: РУ "М Т ат (М ем ИИ ат Т ) ик а" 1. Выбрать закон распределения случайной величины. 2. По соответствующей формуле вычислить точечные (или интервальные) вероятности pi . 3. Вычислить выравнивающие частоты mi′ = n ⋅ pi , где п – объём выборки. k 4. Найти статистику 2 χ набл = ∑ i =1 (mi − mi′ )2 mi′ . 5. Определить число степеней свободы l = k − r − 1 , где k – число частичных интервалов выборки; r – число параметров дифференциальной функции распределения. Выражения для нахождения числа степеней свободы известных законов распределения представлены в табл. 10. Таблица 10 Закон распределения Биномиальный закон Число степеней свободы l = k − 1 , если p A известно l = k − 2 , если p A неизвестно Закон распределения Пуассона l =k −2 Равномерный l =k −3 закон Показательный закон l =k −2 Нормальный l =k −3 закон 6. По таблице приложения 3 необходимо найти критическую величину χ 2кр = χ α2 ; l , где α – заданный уровень значимости. 28 2 2 7. Если χ набл < χ кр , то закон теоретического распределения не противо- речит опытным данным, нет оснований отвергнуть гипотезу о выбранном законе распределения. В противном случае выдвинутая гипотеза отвергается. Пример 22. Для эмпирического распределения рабочих цеха по выработке по данным табл. 5 на уровне значимости α = 0,05 выдвинуть РУ "М Т ат (М ем ИИ ат Т ) ик а" гипотезу о распределении генеральной совокупности и проверить её с помощью критерия χ 2 Пирсона. ☺ Решение . По виду гистограммы распределения рабочих по выра- ботке (рис. 25) можно предположить нормальный закон распределения признака. Параметры а и σ 2 нормально- го закона распределения, являющиеся соответственно математическим ожиданием и дисперсией случайной величины Х, неизвестны. Поэтому заменяем их «наилучшими» оценками по выборке – Рис. 25 несмещёнными и состоятельными оценками соответственно выборочной средней xв и исправленной выборочной дисперсией s 2 . Т. к. число наблюдений n = 100 достаточно велико, то вместо s 2 можно взять σ 2 . В приме- ре 5 были вычислены x = 119,2 (%), σ = 9,35 (%). Сформулируем основную гипотезу H 0 : «Случайная величина Х – вы- работка рабочих цеха – распределена нормально с параметрами a = 119,2 , σ = 9,35 , т. е. X ~ N (119,2; 9,35) ». Альтернативная гипотеза H1 : «Случай- ная величина Х не распределена по нормальному закону». Число наблюдений в крайних интервалах (табл. 5) меньше 5, поэтому объединим их с соседними. 29 ( xi −1 , xi ] 94-106 106-112 112-118 118-124 124-130 130-142 Σ mi 10 11 20 28 19 12 100 Для расчёта вероятностей pi попадания случайной величины Х в интервал ( xi −1 , xi ] используем функцию Лапласа в соответствии со свойствами нормального распределения (табл. 9): РУ "М Т ат (М ем ИИ ат Т ) ик а"  x −a  xi −1 − a  pi = P{xi −1 ≤ X ≤ xi } = Φ  i −Φ . σ σ     Найдём значения pi ( i = 1, 2, ..., 6 ). Т. к. случайная величина X ~ N ( a; σ ) определена на интервале ( −∞, + ∞) , то крайние промежутки в ряде распределения заменяем, соот- ветственно на ( −∞, 106] и (130, + ∞) . Тогда, используя значения функции Лапласа (таблица приложения 1), получаем:  106 − 119, 2  p1 = P{−∞ ≤ X ≤ 106} = Φ   − Φ ( −∞ ) = 9,35   = Φ ( −1,41) − Φ ( −∞ ) = −0,4207 + 0,5 = 0,0793 .  112 − 119, 2   106 − 119, 2  p2 = P{106 ≤ X ≤ 112} = Φ  − Φ   = 9,35 9,35     = Φ ( −0,77) − Φ ( −1,41) = −0,2794 + 0,4207 = 0,1413 .  118 − 119, 2   112 − 119, 2  p3 = P{112 ≤ X ≤ 118} = Φ  − Φ   = 9,35 9,35     = Φ ( −0,13) − Φ ( −0,77) = −0,0517 + 0,2794 = 0,2277 .  124 − 119, 2   118 − 119, 2  p4 = P{118 ≤ X ≤ 124} = Φ  −Φ  = 9,35 9,35     = Φ (0,51) − Φ ( −0,13) = 0,1950 + 0,0517 = 0,2467 .  130 − 119, 2   124 − 119, 2  p5 = P{124 ≤ X ≤ 130} = Φ  −Φ  = 9,35 9,35     = Φ (1,16) − Φ (0,51) = 0,3770 − 0,1950 = 0,1820 .  130 − 119, 2  p6 = P{130 ≤ X ≤ +∞} = Φ ( +∞ ) − Φ  = 9,35   = Φ ( +∞) − Φ (1,16) = 0,5 − 0,3770 = 0,1230 . 30 Для определения статистики χ 2 удобно составить таблицу (табл. 11) Таблица 11 (mi − mi′ )2 i ( x i −1 , x i ] mi pi mi′ = n ⋅ pi (mi − mi′ ) 1 ( −∞, 106] 10 0,079 7,9 4,41 mi′ 0,558 2 (106, 112] 11 0,141 14,1 9,61 0,682 3 (112,118] 20 0,228 22,8 7,84 0,344 4 (118,124] 28 0,247 24,7 10,89 0,441 5 (124,130] 19 0,182 18,2 0,64 0,035 6 (130, + ∞) 12 0,123 12,3 0,09 0,007 100 1 100 – 2,067 РУ "М Т ат (М ем ИИ ат Т ) ик а" 2 Σ Итак, фактически наблюдаемое значение статистики χ 2набл = 2,067 . Число интервалов k = 6 , тогда согласно табл. 10, для нормального за- кона распределения число степеней свободы l = k − 3 = 3 . Соответствую- щее критическое значение статистики χ 2 по таблице приложения 3 2 χ 2кр = χ 02,05;3 = 7,82 . Т. к. χ набл < χ 2кр , то гипотеза о выбранном теоретиче- ском нормальном законе N (119,2; 9,35) не противоречит опытным данным. ☻ Значит, нет оснований отвергнуть проверяемую гипотезу. Замечание. Для графического изображения эмпирического и вырав- нивающего его теоретического нормального распределений необходимо использовать одинаковый для двух распределений масштаб по оси ординат. Пример 23. Для эмпирического распределения, заданного табли- цей Варианта, xi 70 80 90 100 Σ Частота, mi 9 8 8 5 n = 30 на уровне значимости α = 0,05 проверить гипотезу о нормальном распределении генеральной совокупности с помощью критерия χ 2 Пирсона. 31 ☺ Решение . Сформулируем основную гипотезу H 0 : «Случайная величина Х – распределена нормально», тогда альтернативная гипотеза H1 : «Случайная величина Х не распределена по нормальному закону». РУ "М Т ат (М ем ИИ ат Т ) ик а" Вычислим точечные оценки параметров a и σ : a = xв = 1 ⋅ (70 ⋅ 9 + 80 ⋅ 8 + 90 ⋅ 8 + 100 ⋅ 5) = 83 , 30 σ в2 = 1 ⋅ [(70 − 83)2 ⋅ 9 + (80 − 83)2 ⋅ 8 + (90 − 83)2 ⋅ 8 + (100 − 83)2 ⋅ 5] = 114,333 . 30 Т. к. объём выборки невелик, то перейдём к исправленной дисперсии s 2 = 30 ⋅ σ в2 , тогда полагаем σ = s 2 = 10,875 . Таким образом, имеем нор29 мальный закон распределения N (83;10,875) . Выравнивающие частоты mi′ найдём по формуле (табл. 9) mi′ = nh ⋅ϕ (ti ) , σ где n = 30 , h = 10 – разность между двумя соседними вариантами, x −a ti = i и ϕ (t ) – функция Гаусса (см. табл. приложения 1). σ Заполним вспомогательную таблицу (табл. 12). ϕ (ti ) mi′ = nh ⋅ϕ (ti ) σ (mi − mi′ )2 – 1,20 0,1942 5,35 13,32 Таблица 12 (mi − mi′ )2 mi′ 2,45 8 – 0,28 0,3836 10,58 6,66 0,63 90 8 0,64 0,3251 8,97 0,94 0,10 100 5 1,56 0,1182 3,26 3,03 0,93 30 – – 28,47 – 4,11 i xi mi 1 70 9 2 80 3 4 Σ ti = xi − a σ Итак, фактически наблюдаемое значение статистики χ 2набл = 4,11 . Т. к. число наблюдений равно 4, то согласно табл. 12, для нормального закона распределения число степеней свободы k = 4 − 3 = 1 . По таблице 2 приложения 3 имеем χ 2кр = χ 02,05;1 = 3,8 . Так как χ набл > χ 2кр , то гипотеза о выбранном теоретическом нормальном законе N (83;10,875) противоречит опытным данным, значит, принимаем альтернативную гипотезу: «Случайная величина Х не распределена по нормальному закону». 32 ☻

ВЫСШАЯ МАТЕМАТИКА

#Лекция

Интервальные оценки параметров распределения. Точность и надёжность оценок числовых характеристик. Проверка статистических гипотез

Тебе могут подойти лекции

Элементы математической статистики

Математическая статистика. Применение в профессиональной деятельности

Статистические оценки параметров распределения

Планирование эксперимента и обработка результатов

Множественная линейная регрессия

Методы оценки надежности технических систем

Предмет и задачи математической статистики

Элементы комбинаторики

Основные понятия теории информационных процессов и систем

Планирование и прогнозирование в условиях рынка

Интервальные оценки параметров распределения. Точность и надёжность оценок числовых характеристик. Проверка статистических гипотез

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ