Интервальные оценки параметров распределения. Точность и надёжность оценок числовых характеристик. Проверка статистических гипотез
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛЕКЦИЯ
1.7. Интервальные оценки параметров распределения
1.7.1. Точность и надёжность оценок числовых характеристик
Точечная оценка неизвестного параметра θ часто бывает достаточной
для практических выводов в качестве первоначальных результатов обработки наблюдений. Однако если есть необходимость в более детальном
анализе, то надо оценить насколько истинное значение параметра расходится с точечной оценкой этого значения. Вопрос о точности особенно
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
существенен для выборок небольшого объёма, так как между θ и θ * может быть большое расхождение. Кроме того, при решении практических
задач часто необходимо определить и надёжность этих оценок. В этом
случае возникает задача о приближении параметра θ не одним числом, а
некоторым интервалом (θ1* ,θ 2* ) .
Интервал выбирается таким образом, чтобы вероятность включения в
этот интервал параметра θ была достаточно велика (близка к единице).
Говоря более строго, это означает, что вероятность выполнения двойного
неравенства θ1* < θ < θ 2* не меньше заданного числа γ .
Интервал (θ1* ,θ 2* ) , накрывающий с вероятностью γ истинное значе-
ние параметра θ , называется доверительным интервалом, а вероят-
ность γ – надёжностью оценки или доверительной вероятностью.
Чаще всего (но не обязательно) доверительный интервал выбирается
симметричным относительно несмещённой точечной оценки θ * , т. е. вы-
бирается интервал вида (θ * − ε , θ * + ε ) такой, что
{
} {
}
P θ ∈ (θ * − ε , θ * + ε ) = P | θ − θ * |< ε = γ .
(24)
Число ε > 0 называется точностью оценки: чем меньше разность
| θ − θ * | , тем точнее оценка.
Величина γ для формулы (24) выбирается заранее, её выбор зависит
от конкретно решаемой задачи. Например, степень доверия авиапассажира
к надёжности самолёта, очевидно, должна быть выше степени доверия покупателя к надёжности телевизора.
1
Надёжность γ принято выбирать равной 0,9; 0,95; 0,99 или 0,999.
Ещё раз подчеркнём, что интервальная оценка зависит не только от
имеющихся данных, но и от требуемой надёжности. Так, например, при
γ = 0,95 на 95 % можно быть уверенным, что доверительный интервал покрывает параметр θ , при γ = 0,99 на 99 % и т.д. Это значит, что если сделать много выборок, то для 95 % из них (если γ = 0,95 ) вычисленные доверительные интервалы действительно покроют θ .
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
Приведём неформальный пример, поясняющий различие точечной и
интервальной оценок.
Когда о каком-либо человеке говорят: “Ему примерно 38 лет”, это ни
что иное, как точечная оценка возраста. Когда же говорят: “Ему лет 35-40”,
это интервальная оценка, доверительный интервал при этом (35; 40). Надёжность оценки при этом в явном виде не указывается, но предполагается
довольно близкой к единице.
Иногда можно слышать и высказывания такого рода: “Ему на вид лет
35-40, по крайней мере, не больше 45 лет”. Очевидно, что доверительный
интервал (35; 45) имеет бóльшую доверительную вероятность, чем интер-
вал (35; 40). Однако интервальная оценка (35; 40) более информативна,
чем интервальная оценка (35; 45).
1.7.2. Односторонние доверительные интервалы
Если интерес представляет ситуация, когда важно сравнение только с
одним критическим значением, то используют односторонние доверитель-
ные интервалы: для заданного уровня доверия (надёжности) γ строят
двусторонний доверительный интервал, который затем расширяют за счёт
одной из его границ.
Для двустороннего доверительного интервала имеем:
θ* + ε
(
) ∫
γ = P | θ − θ * |< ε =
θ* − ε
2
f ( x ) dx .
С геометрической точки зрения:
доверительная вероятность γ
чис-
ленно равна площади заштрихованной области под графиком дифференциальной функции f ( x ) , вычисленной
на интервале (θ * − ε , θ * + ε ) (рис. 14).
Рис. 14
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
Для одностороннего доверительного интервала справедливо
θ* + ε
p=
∫
+∞
f ( x ) dx =
−∞
∫
f ( x ) dx = γ +
θ* − ε
1− γ 1+ γ
=
= γ′ .
2
2
В результате получаем односторонние интервалы ( −∞; u p ) и (u p ; + ∞)
с большей гарантией γ ′ (рис. 15, 16). Таким образом «односторонний»
подход позволяет вдвое снизить ошибку α = 1 − γ .
Рис. 15
Рис. 16
up
Значение u p , для которого выполняется p = P{ x < u p } =
∫ f ( x) dx , на-
−∞
зывается квантилью.
Нахождение квантили u p заключается в выборе такого значения, что-
бы площадь заштрихованной области была равна p .
В статистике для обработки результатов эксперимента широко ис-
пользуют законы распределения Пирсона, Стьюдента, Фишера-Снедекора.
Квантили этих распределений табулированы (см. приложения).
3
1.8. Некоторые распределения функций
нормальных случайных величин
1.8.1. Распределение χ 2 (хи-квадрат) Пирсона
Распределением χ 2 Пирсона с k степенями свободы называется
распределение суммы квадратов нормально распределённых независимых
случайных величин X 1 , X 2 , …, X k с параметрами a = 0 , σ = 1 :
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
χ 2 ( k ) = X 12 + X 22 + ... + X k2 .
Плотность этого распределения определяется формулой
k2 −1 − 2x
x ⋅ e
,
f 2 ( x ) = k2
2 ⋅ Г (k / 2)
χk
0,
при x > 0 ,
при x ≤ 0 ,
+∞
где Г( x ) =
∫0
t x −1e − t dt – гамма-функция Эйлера
( Г( x ) = ( x − 1)!
для нату-
ральных значений х).
Распределение χ 2 определя-
ется только одним параметром – числом
степеней свободы k. Графики функции
f 2 ( x ) для различных значений k предχk
ставлены на рис. 17. С увеличением
числа степеней свободы k ( k → ∞ ) рас-
пределение χ 2 приближается к нормальному закону распределения (при
k > 30 различий практически нет).
Рис. 17
Числовые характеристики распределения χ 2 :
M [χ 2 ] = k , D[χ 2 ] = 2k , a s = 8 , ε k = 12 .
k
k
На практике, как правило, используют не плотность вероятности, а квантили распределения χ 2k .
4
1.8.2. Распределение Стьюдента
Пусть Х, X 1 , X 2 , …, X k – независимые случайные величины, имеющие стандартное нормальное распределение с параметрами a = 0 , σ = 1 .
(или t-распределением) с k степенями
Распределением Стьюдента
свободы называется распределение отношения
X
1 ( X 2 + X 2 + ... + X 2 )
k
2
k 1
=
X
χ
2
.
k
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
T=
Плотность этого распределения определяется по формуле
( )
()
k +1
2 − 2
Г k +1
x
2
f ( x) =
, − ∞ < x < +∞ .
1 +
k
k
kπ ⋅ Г
2
С увеличением значений k рас-
пределение Стьюдента достаточно
быстро приближается к нормальному
распределению (рис. 18).
Рис. 18
Числовые характеристики распределения Стьюдента:
M [T ] = 0 , D[T ] =
k ( k > 2 ), a = 0 , ε = 6 .
s
k
k −4
k −2
1.8.3. Распределение Фишера-Снедекора
F-распределением Фишера-Снедекора со степенями свободы k1
и k 2 называется распределение отношения
F=
χ 2 ( k1 ) k1
χ 2 (k2 ) k2
.
Плотность этого распределения вычисляется по формуле
k1
k2
k1
k +k
−1
Г 1 2
2
2
2
k
⋅
k
⋅
x
2 ⋅ 1
2
f ( x) =
, x ≥ 0,
k1 + k 2
k1 k2
Г ⋅ Г ( k1 x + k2 ) 2
2 2
5
График
плотности
F-распре-
деления при k1 = 10 и k 2 = 15 представлен на рис. 19.
Рис. 19
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
Числовые характеристики распределения Фишера-Снедекора:
k2
2k 22 ( k1 + k 2 − 2)
M [F ] =
( k 2 > 2 ), D[ F ] =
( k 2 > 4 ).
k2 − 2
k1 ( k 2 − 2) 2 ( k 2 − 4)
1.9. Доверительные интервалы
параметров нормального распределения
1.9.1. Доверительный интервал для оценки
*
*
вероятности события А: p ∈ ( p − ε; p + ε )
I случай (неизвестен объём генеральной совокупности N).
Пусть событие А наступило т раз в п испытаниях (п – объём выбор-
ки). Тогда p* = m – точечная оценка вероятности р наступления события в
n
одном испытании.
По следствию из центральной предельной теоремы, имеем:
γ = P {| p − p* | < ε} = 2 Φ ε ⋅
n
pq
⇒ t = ε⋅
где t – аргумент функции Лапласа Φ (t ) =
γ
2
n
pq
⇒ ε = t⋅
pq
,
n
.
Так как p ≈ p* , q = 1 − p ≈ 1 − p* , то
ε =t⋅
p* ⋅ (1 − p* )
.
n
6
(25)
II случай (известен объём генеральной совокупности N).
ε =t⋅
p* ⋅ (1 − p* )
n
⋅ 1 − .
n
N
(26)
Отсюда можно получить формулу для нахождения объёма выборки
ε
t
2
p* ⋅ (1 − p* )
+
N
.
(27)
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
n=
p* ⋅ (1 − p* )
Замечание. Данные формулы справедливы при всех п, для которых
справедливо неравенство npq ≈ np* ⋅ (1 − p* ) > 9 .
1.9.2. Доверительный интервал для оценки
математического ожидания x :г xг ∈ ( xв − ε; xв + ε )
I случай (известно среднее квадратическое отклонение σ г ).
n
Определим случайную величину X =
X i . Её среднее выборочное
∑
i
=1
1
значение x в =
n
n
∑ Xi
представляет собой сумму сравнительно большого
i =1
числа п независимых величин и, согласно центральной предельной теореме, имеет распределение, близкое к нормальному. При этом:
M [ x в ] = x г (т. к. x в – несмещённая оценка x г ),
1 n
1 n
D
σ
1
D[ x в ] = D ⋅
Xi = 2 ⋅
D [ X i ] = 2 ⋅ n ⋅ Dг = г ⇒ σ в = г .
n
n
n
n i =1 n i =1
Тогда γ = P ( xг − xв < ε ) = 2 Φ ε = 2 Φ ε n ⇒ t = ε n .
σв
σг
σв
Отсюда получаем
∑
∑
ε=
t ⋅σ в
,
n
где t – аргумент функции Лапласа Φ (t ) =
7
γ
2
(28)
(приложение 2).
Из формулы (28) выразим величину п, тогда
t ⋅σв
n =
.
ε
2
(29)
Полученное выражение позволяет оценить, каков должен быть объём выборки, чтобы точность оценки ( xг ≈ xв ) не превосходила заданного значе-
ния ε с заданным уровнем доверия γ .
Пример 13. Произведено пять независимых наблюдений над слу-
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
чайной величиной Х~ N (a, 20) . Результаты наблюдений таковы: x1 = −25,
x 2 = 34 , x3 = −20 , x 4 = 10 , x5 = 21 . Найти оценку для a = M [ X ] , а также
построить для него 95%-й доверительный интервал.
☺Решение. Находим xв = 1 ⋅ ( −25 + 34 − 20 + 10 + 21) = 4 .
Т. к. γ = 0,95 , то Φ (t ) =
γ
2
5
= 0,475 . Тогда по таблице приложения 2 на-
ходим t = 1,96 .
Значит по формуле (28) имеем: ε =
t ⋅ σ в 1,96 ⋅ 20
=
≈ 17,5 .
n
5
Таким образом, доверительный интервал для a = M [ X ] таков:
(4 − 17,5; 4 + 17,5) , т. е. (−13,5; 21,5) .
☻
II случай (неизвестны σ г и N – объём генеральной совокупности).
В этом случае
ε=
tγ ⋅ s
n
,
(30)
где s – несмещённая оценка σ г ; значение tγ = t (γ , n ) − табулировано рас-
пределением Стьюдента (таблица приложения 6).
Выражая п из формулы (30), получим
2
tγ ⋅ s
n=
.
ε
8
(31)
С помощью формулы (31) можно найти объём выборки, необходимый
для определения точности оценки ( x г ≈ x в ) , которая не превосходит за-
данного значения ε с заданным уровнем доверия γ .
Пример 14. По условию примера 13, считая, что случайная величи-на
Х N(a,σ ) , построить для неизвестного M[X ] = a доверительный ин-тервал
при γ = 0,95.
☺Решение. Ранее вычислено xв= 4. Находим s :
)
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
(
s 2 = 1 ⋅ ( −25 − 4) 2 + (34 − 4) 2 + ( −20 − 4) 2 + (10 − 4) 2 + (21 − 4) 2 = 660,5 ,
4
тогда s ≈ 25,7 .
По таблице приложения 6 для γ = 0,95 и n = 5 находим tγ = 2,78 .
Значит по формуле (30) имеем: ε =
tγ ⋅ s
n
=
2,78 ⋅ 25,7
≈ 31,9 .
5
Таким образом, получаем доверительный интервал (−27,9; 35,9) .
☻
III случай (неизвестно σ г , известно N ).
Величина ε вычисляется по формуле
ε=
tγ ⋅ s
n
1 − .
n N
(32)
Используя (32), можно найти объём выборки
n=
N ⋅ tγ2 ⋅ s 2
tγ2 ⋅ s 2 + N ⋅ ε 2
,
(33)
необходимый для определения точности оценки ( x г ≈ x в ) , которая не пре-
восходит заданного значения ε с заданным уровнем доверия γ .
9
1.9.3. Доверительный интервал для оценки
генерального среднего квадратического отклонения
Пусть для выборки объёма n задана надёжность, с которой нужно оценить отклонение найденного исправленного квадратического отклонения s
от истинного σ г : γ = P ( σ г − s < ε ) .
ε
ε
⇒ s ⋅ 1 − < σ г < s ⋅ 1 + .
s
s
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
Тогда σ г − s < ε ⇒ s − ε < σ г < s + ε
Введём q = ε = q ( γ ; n ) , которое табулировано (приложение 7).
s
Учитывая, что σ г ≥ 0 , получим:
если q < 1 ,
то σ г ∈ ( s − sq ; s + sq ) ,
(34)
если q > 1 ,
то σ г ∈ (0; s + sq) .
(35)
Пример 15. Количественный признак генеральной совокупности
распределён нормально. По выборке объёма n = 25 найдено исправленное
среднее квадратическое отклонение s = 0,8 . Найти доверительный интер-
вал, покрывающий генеральное среднее квадратическое отклонение σ г
с надёжностью 0,95 .
☺Решение. По таблице приложения 7 при данных значениях:
γ = 0,95 , n = 25 ,
находим q = 0,32 .
Т. к. q = 0,32 < 1 , то доверительный интервал следует искать по фор-
муле (30):
0,8 − 0,8 ⋅ 0,32 < σ г < 0,8 + 0,8 ⋅ 0,32
Таким образом, получаем доверительный интервал (0,544;1,056) .
10
☻
1.10. Проверка статистических гипотез
1.10.1. Статистическая гипотеза
Обычно в практических задачах не встречаются случайные величины,
распределения которых точно соответствовали бы теоретическим распределениям. Последние представляют собой математические модели реальных распределений. Подбор таких моделей и анализ их адекватности мо-
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
делируемым случайным величинам являются одной из основных задач математической статистики. Эта задача в свою очередь сводится к проверке
предположений (гипотез) о виде модели распределения и её параметрах.
Например, верно ли, что новое лекарство эффективнее, чем приме-
нявшееся ранее, что новые методы обучения лучше, чем старые и т. д.
Статистической гипотезой (или просто гипотезой) называет-
ся любое предположение о генеральной совокупности, проверяемое по выборке.
Например, гипотезами являются: предположение о виде неизвестного
распределения, о параметрах известных распределений, об отношениях
между случайными величинами и т. д.
Если гипотеза содержит некоторое утверждение о параметрах распре-
деления случайной величины (когда сам закон распределения считается
известным), то она называется параметрической, и непараметрической – в иных случаях.
Нулевой (основной) гипотезой H 0 называется предположение, ко-
торое выдвигается изначально, пока наблюдения не заставят признать об-
ратное.
Альтернативной (конкурирующей) гипотезой H 1 называется
гипотеза, которая противоречит нулевой гипотезе H 0 и которую принимают, если отвергнута основная гипотеза.
11
Гипотезы бывают простые (содержащие только одно предположение) и сложные (состоящие из конечного или бесконечного числа простых гипотез).
Например, гипотеза H 0 , состоящая в предположении, что математическое ожидание нормального распределения a = 5 , является простой, тогда в качестве альтернативной гипотезы можно рассматривать одну из сле-
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
дующих: H 1 : a > 5 (сложная), H 2 : a < 5 (сложная), H 3 : a ≠ 5 (сложная).
1.10.2. Задачи статистической проверки гипотез
Процедура сопоставления высказанного предположения (гипотезы) с
выборочными данными называется проверкой гипотез.
Задачи статистической проверки гипотез:
• Относительно некоторой генеральной совокупности высказывается та
или иная гипотеза Н.
• Из этой генеральной совокупности извлекается выборка.
• Необходимо указать правило, с помощью которого можно было по выборке ответить на вопрос о том, следует ли отклонить гипотезу Н или
принять её.
Отметим, что статистическими методами гипотезу можно толь-
ко опровергнуть или не опровергнуть, но не доказать.
Например, для проверки утверждения автора, что в рукописи ошибок
нет (гипотеза Н), рецензент прочёл (изучил) несколько страниц рукописи.
Если он обнаружил хотя бы одну ошибку, то гипотеза Н отвергается, в
противном случае – не отвергается, тогда говорят, что результат проверки
согласуется с гипотезой, хотя ошибка могла иметь место и в непроверен-
ных страницах.
Выдвинутая гипотеза может быть правильной или неправильной, по-
этому возникает необходимость её проверки.
12
1.10.3. Общая схема проверки статистических гипотез
Имея две гипотезы H 0 и H 1 , необходимо на основе выборочных данных либо принять основную гипотезу H 0 , либо конкурирующую H 1 .
Правило, по которому принимается решение принять или отклонить
гипотезу H 0 (или H 1 ), называется статистическим критерием (или
просто критерием) проверки гипотезы H 0 .
Статистикой (или тестом) критерия называют случайную ве-
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
личину τ , которая служит для проверки статистических гипотез.
Приведём схему проверки статистических гипотез:
1. Для основной гипотезы H 0 формулируется альтернативная гипотеза H 1 .
2. Выбирается уровень значимости проверки – малое число α > 0 .
3. Рассматриваются теоретические выборки значений случайных величин,
о которых сформулирована гипотеза H 0 , и выбирается (формируется)
случайная величина
τ.
Значения и распределение
τ
(обычно из пере-
численных ниже: U – нормальное распределение, χ 2 – распределение
Пирсона, Т – Стьюдента, F – Фишера-Снедекора) полностью определя-
ются по выборкам при предположении о верности гипотезы H 0 .
4. На числовой оси задают интервал D, такой, что вероятность попадания
случайной величины τ в этот интервал: P (τ ∈ D ) = 1 − α .
Интервал D называется областью принятия гипотезы H 0 , а ос-
тавшаяся область числовой оси – критической областью (величина
τ = τ кр
– критическое значение теста проверки).
Различают три типа критических областей. Критическая область оп-
ределяется с учётом гипотез:
H0
H1
~
θ =θ
~
θ <θ
~
θ ≠θ
~
θ >θ
Критическая область D
( −∞; − τ кр ]
( −∞; − τ кр ] U [τ кр ; +∞)
[τ кр ; +∞ )
– левосторонняя (рис. 20)
– двусторонняя (рис. 21)
– правосторонняя (рис. 22)
13
Рис. 20
Рис. 21
Рис. 22
Соответственно интервалам критерий проверки называется право-
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
сторонним, двусторонним или левосторонним.
5. По реализациям анализируемых выборок вычисляется конкретное (наблюдаемое) значение теста
τ
(обозначим его
τ = τ набл )
и проверяется
выполнение условия P (τ ∈ D ) = 1 − α :
а) если оно выполняется (например,
τ набл < τ кр
для правосторонней
области), то гипотеза H 0 принимается в том смысле, что она не противо-
речит опытным данным и нет оснований её отвергнуть;
б) если условие не выполняется (τ набл > τ кр для правосторонней об-
ласти), то полагается, что гипотеза H 0 неверна и её отвергают.
Для каждого критерия имеются соответствующие таблицы, по кото-
рым и находят критическое значение, удовлетворяющее приведённым выше соотношениям.
Принцип принятия статистической гипотезы не даёт логического до-
казательства её верности или неверности. Принятие гипотезы H 0 в срав-
нении с альтернативной H 1 не означает, что мы уверены в абсолютной
правильности H 0 , или, что высказанное в гипотезе H 0 утверждение явля-
ется наилучшим, единственно подходящим. Просто гипотеза H 0 не противоречит имеющимся у нас выборочным данным. Таким же свойством на-
ряду с H 0 могут обладать и другие гипотезы. Более того, возможно, что
при увеличении объёма выборки п или при испытании H 0 против другой
альтернативной гипотезы H 2 гипотеза H 0 будет отвергнута.
14
Таким образом, принятие гипотезы H 0 следует расценивать не как
раз и навсегда установленный, абсолютно верный содержащийся в ней
факт, а лишь как достаточно правдоподобное, не противоречащее опыту утверждение.
Из представленной схемы следует, что при проверке гипотезы H 0
может быть принято неправильное решение, т. е. могут быть допущены
ошибки двух видов:
ошибка II рода
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
ошибка I рода
Отвергается основная (нулевая) гипо- Отвергается конкурирующая гипотеза,
теза, хотя она верна.
хотя она верна.
Вероятность ошибки P (H 1 H 0 ) = α ,
Вероятность ошибки P (H 0 H 1 ) = β
α – уровень значимости критерия (величина β , как правило, заранее не-
(обычно α = 0,05 ; 0,01; 0,005; 0,001).
известна)
Вероятность принять верную (нуле- Вероятность принять верную (конкурирующую) гипотезу
вую) гипотезу P (H 0 H 0 ) = 1 − α .
P (H 1 H 1 ) = 1 − β ,
( 1 −β ) – мощность критерия.
Последствия ошибок 1-го и 2-го рода могут быть абсолютно различ-
ными: в одних случаях надо минимизировать α , а в других – β . Так, применительно к радиолокации говорят, что α – вероятность пропустить сиг-
нал, β – вероятность ложной тревоги. Применительно к производству, к
торговле можно сказать, что α – риск поставщика (т. е. забраковка по всей
партии изделий, удовлетворяющих стандарту), β – риск потребителя (т. е.
приём по выборке всей партии изделий, не удовлетворяющих стандарту).
Применительно к судебной системе, ошибка 1-го рода приводит к оправданию виновного, ошибка 2-го – осуждение невиновного.
Следует отметить, что одновременное уменьшение ошибок 1-го и 2-го
рода возможно лишь при увеличении объёма выборок. Поэтому обычно
при заданном уровне значимости α отыскивается критерий с наибольшей
мощностью.
15
1.10.4. Статистики сравнения точечных оценок
неизвестных генеральных
1) Проверка гипотез для одной выборки
Пусть генеральная совокупность Х распределена по нормальному закону.
Генеральная средняя a хотя и неизвестна, но есть основания предпо-
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
лагать, что она равна предполагаемому значению a 0 .
Например, если Х – совокупность размеров xi партии деталей, произ-
водящихся станком автоматической линии, то можно предположить, что
генеральная средняя a этих размеров равна проектному размеру a 0 .
Для того, чтобы проверить правильность настройки этого станка, оче-
видно надо убедиться в том, что среднее значение параметра у производи-
мых на нём изделий будет соответствовать номиналу.
Таким образом, необходимо проверить гипотезу H 0 : a = a 0 против
альтернативной:
H 1 : a ≠ a 0 , или H 2 : a < a 0 , или H 3 : a > a 0 .
Если различие окажется незначимым, то станок обеспечивает в сред-
нем проектный размер; если различие значимое, то станок требует наладки.
При произвольной настройке станка может возникнуть необходи-
мость проверки гипотезы о том, что точность изготовления изделий по
данному параметру, задаваемая дисперсией σ 2 , равна заданной величине
σ 02
( H 0 : σ 2 = σ 02 ) ,
или например, того, что доля бракованных изделий
производимых станком, равна заданной величине p0 ( H 0 : p = p0 ) и т. д.
Выдвигаемые гипотезы и соответствующие критерии проверки гипо-
тез о числовых значениях параметров нормального закона приведены в
табл. 7.
16
Таблица 7
Статистика критерия
H0
a ≠ a0
a = a0
U=
σ =
2
H1
x − a0
σ
σ г2
n
a < a0
известно
Φ (u кр ) = 0,5 − α
2
U > − u кр ,
Φ (u кр ) = 0,5 − α
U < u кр ,
Φ (u кр ) = 0,5 − α
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
a > a0
Область принятия H 0
U < u кр ,
a ≠ a0
a = a0
σ =
2
σ г2
T < t кр ,
tкр = tα , n −1
для двусторонней области
x − a0
T=
n
s
T > − t кр ,
a < a0
tкр = tα , n −1
для односторонней области
T < t кр ,
неизвестно
a > a0
tкр = tα , n −1
для односторонней области
σ 2 = σ 02
χ2 =
(n − 1) s 2
σ 02
a неизвестно
p = p0
достаточно
большие п,
np0 > 5 ,
nq0 > 5 ,
q0 = 1 − p 0
σ 2 ≠ σ 02
χ 12− α ; n −1 < χ 2 < χ 2α ; n −1
σ 2 < σ 02
χ 2 > χ 12−α ; n −1
σ 2 > σ 02
χ 2 > χ α2 ; n −1
p ≠ p0
p* − p0
U=
n,
p0 q0
p < p0
p =m
n
*
p > p0
2
2
U < u кр ,
Φ (u кр ) = 0,5 − α
2
U > − u кр ,
Φ (u кр ) = 0,5 − α
U < u кр ,
Φ (u кр ) = 0,5 − α
Примечание. Критические значения статистик на уровне значимо-
сти α определяют по соответствующим таблицам приложения.
Пример 16 . Из нормальной генеральной совокупности с известным
средним квадратическим отклонением σ = 5 извлечена выборка объёма
17
n = 100 , и по ней найдено выборочное среднее 26,5. Требуется на уровне
значимости 0,05 проверить гипотезу H 0 : a = a 0 = 25 против альтернативной гипотезы H 1 : a ≠ a 0 . Изменится ли результат, если изменить альтернативную гипотезу на H 1 : a > a 0 ?
☺Решение . Найдём значение статистики критерия (табл. 7)
U=
x − a0
σ
n=
26,5 − 25
100 = 3 .
5
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
При проверке гипотезы H 1 : a ≠ 25 по таблице приложения 2 из соот-
ношения Φ (u кр ) = 0,5 −
0,05
= 0,475 находим u кр = 1,96 .
2
Т. к. U > u кр , то основная гипотеза отвергается.
При
проверке
H1 : a > a0
гипотезы
из
соотношения
Φ (u кр ) = 0,5 − 0,05 = 0,45 находим (таблица приложения 1) u кр = 1,65 , зна-
чит U > u кр . Следовательно, основная гипотеза отвергается.
В обоих случаях результат одинаков.
☻
Пример 17 . По выборке объёма n = 16 , извлечённой из нормальной
генеральной совокупности, найдены x = 12,4 и s = 1,2 . Требуется при
уровне значимости 0,05 проверить нулевую гипотезу H 0 : a = 11,8 при
конкурирующей гипотезе H 1 : a ≠ 11,8 .
☺Решение . Найдём наблюдаемое значение статистики критерия
(табл. 7)
T=
x − a0
12,4 − 11,8
n=
16 = 2 .
s
1,2
Поскольку конкурирующая гипотеза имеет вид a ≠ a 0 , то искомая
критическая область двусторонняя. Из таблицы критических точек распределения Стьюдента (таблица приложения 4) найдём по уровню значимости
18
α = 0,05 и числу степеней свободы k = n − 1 = 15 критическую точку
t кр = t кр (0,05;15) = 2,13 .
Т. к. T < t кр , то нет оснований отвергнуть нулевую гипотезу.
☻
Пример 18 . Точность работы станка-автомата проверяется по дис-
персии размеров изделий, которая не должна превышать σ 02 = 0,01 (мм2).
По выборке из 25 изделий получена исправленная выборочная дисперсия
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
s 2 = 0,02 (мм2). На уровне значимости 0,05 проверить, обеспечивает ли
станок необходимую точность?
☺Решение
. Найдём значение статистики критерия (табл. 7)
χ =
2
(n − 1) s 2
σ 02
=
24 ⋅ 0,02
= 48 .
0,01
По таблице приложения 3 находим критическую точку распределения
χ 2 -квадрат: χ 02,05; 24 = 36,4 . Т. к. 48 > 36,4 , то основная гипотеза отвергает-
ся. Следовательно, станок не обеспечивает необходимой точности.
☻
2) Проверка гипотез для двух независимых выборок
Пусть имеются две независимые нормально распределённые выборки
x1 , x 2 , …, x n1 и y1 , y 2 , …, y n2 с параметрами (a x , σ x2 ) и (a y , σ 2y ) соот-
ветственно. Обычно ставится задача проверки их однородности, т. е. ра-
венства обоих параметров, либо следует проверить равенство параметров
по отдельности.
Сравнение средних двух совокупностей имеет важное практиче-
ское значение. На практике часто встречается случай, когда средний результат одной серии экспериментов отличается от среднего результата
другой серии. При этом возникает вопрос, можно ли объяснять обнару-
женное расхождение средних неизбежными случайными ошибками экспе-
римента или оно вызвано некоторыми закономерностями. В промышленности задача сравнения средних часто возникает при выборочном контроле
19
качества изделий, изготовленных на разных установках или при различных
технологических режимах, в финансовом анализе – при сопоставлении
уровня доходности различных активов и т. д.
Гипотеза о равенстве средних при известных дисперсиях проверяется
обычно в случае больших выборок (объёмом порядка сотен), когда оценки
дисперсий можно принять за их точные значения.
Гипотеза о равенстве средних при неизвестных дисперсиях требует
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
вначале проверки гипотезы о равенстве дисперсий двух выборок.
Гипотезы о дисперсиях возникают достаточно часто, так как дис-
персия характеризует такие исключительно важные показатели, как точ-
ность машин, приборов, технологических процессов, степень однородности совокупностей, риск, связанный с отклонением доходности активов от
ожидаемого уровня, и т. д.
Сравнение долей признака в двух совокупностях – достаточно
часто встречающаяся на практике задача. Например, если выборочная доля
признака в одной совокупности отличается от такой же доли в другой совокупности, то указывает ли это на то, что наличие признака в одной сово-
купности действительно вероятнее, или полученное расхождение долей
является случайным?
Сформулируем задачу. Имеются две совокупности Х и Y, генераль-
ные доли признака в которых равны соответственно p x и p y . Необходимо
проверить нулевую гипотезу о равенстве генеральных долей. Для проверки
гипотезы H 0 из этих совокупностей взяты две независимые выборки достаточно большого объёма n1 и n 2 . Выборочные доли признака равны соответственно p1* =
m1
m
и p2* = 2 , где m1 и m2 – соответственно число элеn1
n2
ментов первой и второй выборок, обладающих данным признаком.
Выдвигаемые гипотезы и соответствующие критерии проверки гипотез представлены в табл. 8.
20
Таблица 8
Статистика критерия
H0
ax = a y
σ x2
и
U=
σ 2y
ax ≠ a y
x−y
σ x2
n1
известны
H1
σ y2
+
ax < a y
n2
H0
U < u кр ,
Φ (u кр ) = 0,5 − α
2
U > − u кр ,
Φ (u кр ) = 0,5 − α
U < u кр ,
Φ (u кр ) = 0,5 − α
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
ax > a y
Область принятия
ax = a y
σ x2
и
σ 2y
неизвестны,
но равны
a ≠ a0
x−y
,
T=
1
1
s⋅
+
n1 n 2
s=
s x2
T < t кр ,
tкр = tα , n 1 + n 2 −1
для двусторонней области
⋅ (n1 − 1) + ⋅ ( n 2 − 1)
n1 + n 2 − 2
a < a0
s 2y
T > − t кр ,
tкр = tα , n 1 + n 2 −1
для односторонней области
a > a0
T < t кр ,
tкр = tα , n 1 + n 2 −1
для односторонней области
σ x2 = σ 2y
F=
ax и a y
неизвестны
px = p y
n1 и n 2
достаточно
большие
U=
σ x2 ≠ σ 2y
2
s max
2
s min
σ x2 > σ 2y
p1* − p2*
1 1
p (1 − p ) +
n1 n2
m
m
p1* = 1 , p2* = 2 ,
n1
n2
m + m2
p* = 1
n1 + n2
*
,
px ≠ p y
*
px < p y
px > p y
F < Fкр ,
Fкр = Fα
2, n1 −1, n2 −1
F < Fкр ,
Fкр = Fα , n1 −1, n2 −1
U < u кр ,
Φ (u кр ) = 0,5 − α
2
U > − u кр ,
Φ (u кр ) = 0,5 − α
U < u кр ,
Φ (u кр ) = 0,5 − α
Пример 19 . Для проверки эффективности новой технологии ото-
браны две группы рабочих: в первой группе численностью n1 = 50 чел.,
где применялась новая технология, выборочная средняя выработка составила x = 85 (изделий), во второй группе численностью n 2 = 70 чел. выбо-
21
рочная средняя – y = 78 (изделий). Предварительно установлено, что дисперсии выработки в группах равны соответственно σ x2 = 100 и σ 2y = 74 . На
уровне значимости α = 0,05 выяснить влияние новой технологии на среднюю производительность.
☺Решение
. Проверяемая гипотеза H 0 : a x = a y , т. е. средние выработки рабочих одинаковы по новой и старой технологиям. В качестве кон-
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
курирующей гипотезы можно взять H 1 : a x > a y или H 2 : a x ≠ a y (в данной задаче более естественна гипотеза H 1 , т. к. её справедливость означает
эффективность применения новой технологии).
Находим фактическое значение статистики критерия (табл. 8)
x−y
85 − 78
U=
=
= 4.
2
2
100
74
σx σy
+
+
50 70
n1 n 2
При альтернативной гипотезе H 1 по таблице приложения 2 из соот-
ношения Φ (u кр ) = 0,5 − 0,05 = 0,45 найдём критическое значение u кр = 1,64 .
При конкурирующей гипотезе H 2 найдём критическое значение из
соотношения Φ (u кр ) = 0,5 −
0,05
= 0,475 , тогда u кр = 1,96 .
2
Т. к. U > u кр при любой из взятых конкурирующих гипотез, то гипо-
теза H 0 отвергается. Т. е. на 5%-ном уровне значимости можно сделать
вывод, что новая технология позволяет повысить среднюю выработку ра-
☻
бочих.
Пример 20. Реклама утверждает, что из двух типов пластиковых
карт «Русский экспресс» и «Супер-понт» богатые люди предпочитают
первый. С целью проверки этого утверждения были обследованы средне-
месячные платежи n1 = 16 обладателей «Русского экспресса» и n2 = 11 обладателей «Супер-понта». При этом выяснилось, что платежи по картам
«Русский экспресс» составляют в среднем 563 долл. с исправленным сред-
22
ним квадратическим отклонением 178 долл., а по картам «Супер-понт» – в
среднем 485 долл. с исправленным средним квадратическим отклонением
196 долл.
Предварительный анализ законов распределения месячных расходов
как среди обладателей «Русского экспресса», так и среди обладателей
«Супер-понта» показал, что они достаточно хорошо описываются нормальным приближением.
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
Проверить утверждение рекламы на уровне значимости 10 %.
☺ Решение
. В этом случае следует проверить гипотезу о средних при
неизвестных дисперсиях (объёмы выборок малы). Поэтому, прежде всего,
необходимо проверить гипотезу о равенстве дисперсий. Имеем (табл. 8):
2
2
smax
F = 2 = 1962 = 38416 = 1,21 .
31684
smin 178
Из таблицы критических значений Фишера-Снедекора (приложение 5)
по
уровню
значимости
α 2 = 0,05
и
числам
степеней
свободы
2
k1 = n max − 1 = 10 и k 2 = n min − 1 = 15 ( n max и n min соответствуют s max
и
2
s min
) находим критическую точку Fкр = 2,55 . Поскольку 1,21 < 2,55 , при-
нимаем гипотезу о равенстве дисперсий двух выборок.
Теперь можно воспользоваться критерием Стьюдента для проверки
гипотезы о равенстве средних. Имеем
s=
s x2 ⋅ ( n1 − 1) + s 2y ⋅ ( n2 − 1)
38416 ⋅ 10 + 31684 ⋅ 15
=
= 185,4 .
n1 + n2 − 2
11 + 16 − 2
Вычисление статистики критерия даёт
T=
x−y
= 563 − 485 = 1,07 .
s ⋅ 1 + 1 185,4 1 + 1
n1 n2
11 16
23
По таблице критических точек распределения Стьюдента (приложение 4) для односторонней области по уровню значимости α = 0,1 и числу
степеней свободы 25 находим t кр = 1,32 .
Поскольку T < t кр , то принимается основная гипотеза (о равенстве
средних). Таким образом, утверждение рекламы не подтверждается имею-
☻
щимися данными.
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
Пример 21 . В партии из 500 деталей, изготовленных первым стан-
ком-автоматом, оказалось 60 нестандартных, из 600 деталей второго стан-
ка – 42 нестандартных. На уровне значимости α = 0,01 проверить нулевую
гипотезу H 0 : p x = p y о равенстве вероятностей изготовления нестандарт-
ной
детали
обоими
станками
против
конкурирующей
гипотезы
H1 : p x ≠ p y .
☺ Решение
. По условию имеем:
p1* = 60 = 0,12 , p2* = 42 = 0,07 , p* = 60 + 42 = 0,09 .
500
600
500 + 600
Находим значение статистики критерия (табл. 8)
U=
p1* − p2*
1 1
p* (1 − p* ) +
n1 n2
=
0,12 − 0,07
1
1
+
0,09 ⋅ 0,91 ⋅
500 600
= 2,85 .
Критическую точку находим из соотношения Φ (u кр ) = 0,495 , откуда
u кр = 2,57 (таблица приложения 2). Так как U > u кр , то гипотеза H 0 от-
вергается. Т. е. вероятности изготовления нестандартных деталей на двух
☻
станках различны.
24
1.11. Построение теоретического закона распределения
случайной величины по опытным данным.
Проверка гипотез о законе распределения
Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины,
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
характеризующей изучаемый признак по опытному (эмпирическому) рас-
пределению, представляющему вариационный ряд. Для решения этой задачи необходимо определить вид и параметры закона распределения.
Гипотеза о виде закона распределения может быть выдвинута исходя
из теоретических предпосылок, опыта аналогичных предшествующих ис-
следований и, наконец, на основании графического изображения эмпирического распределения.
Параметры распределения, как правило, неизвестны, поэтому их за-
меняют наилучшими оценками по выборке ( x , Dв , σ в и т.д.).
Распределением, играющим основную роль в теории статистического
оценивания, является нормальное распределение. Приведём его основные
характеристики (табл. 9), рассмотренные в курсе теории вероятностей.
Таблица 9
Нормальное распределение ( a = xв , σ = σ в или σ = s )
Функция
плотности
Функция
распределения
f ( x ) = 1 ⋅ ϕ (t ) ,
F ( x ) = 0,5 + Φ (t ) ,
σ
где t = x − a ,
σ
ϕ (t ) – функция
Гаусса
где t = x − a ,
σ
Φ (t ) − функция
Лапласа
25
Вероятность
попадания в интервал
p i = P {x i − 1 < x < x i } =
x% − a
⋅ϕ i
=
σ
σ
x −a
xi −1 − a
=Φ i
−
Φ
,
σ
σ
где i = 1, 2, . .. , k .
=
xi − xi −1
Графики функций ϕ (t ) (рис. 23) и Φ (t ) (рис. 24):
Рис. 23. Функция Гаусса
Рис. 24. Функция Лапласа
t
2
−t
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
ϕ (t ) = 1
2π
e
2
−t
2
Φ(t ) = 1
2π
(приложение 1)
∫e
2
dt (приложение 2)
Широкое использование в статистических выводах нормального рас-
пределения имеет как эмпирическое, так и теоретическое обоснования.
Многочисленные примеры построения гистограмм и сглаживание их непрерывными кривыми для экспериментальных данных самой различной
природы показывают, что во многих случаях нормальное распределение
является довольно точным представлением таких данных. Применимость
нормального распределения обосновывается и центральной предельной
теоремой.
Как бы хорошо ни был выбран теоретический закон распределения,
неизбежны расхождения между эмпирическим и теоретическим распределениями. Естественно, возникает вопрос: эти расхождения объясняются
только случайными обстоятельствами, связанными с небольшим числом
наблюдений, или они являются существенными и связаны с тем, что теоре-
тический закон распределения подобран неудачно. Для ответа на этот вопрос используем специально подобранную величину – критерий согласия.
Критерием согласия называют статистический критерий проверки
гипотезы о предполагаемом законе неизвестного распределения. Он используется для проверки согласия предполагаемого вида распределения с
опытными данными на основании выборки.
26
Пусть необходимо проверить гипотезу H 0 о том, что рассматриваемая случайная величина Х подчиняется определённому закону распределения. Для проверки гипотезы H 0 выбирают некоторую случайную величину τ , характеризующую степень расхождения теоретического и эмпирического распределений, закон распределения которой при достаточно больших п известен и практически не зависит от закона распределения случайной величины Х.
τ , можно найти такое критическое значеH 0 верна, то вероятность того, что τ при-
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
Зная закон распределения
ние τ = τ кр , что если гипотеза
няла значение больше чем τ α : P (τ > τ α ) = α – мала, где α – уровень зна-
чимости критерия.
Если наблюдаемое в опыте значение τ окажется больше критическо-
го: τ = τ набл > τ кр (т. е. попадёт в критическую область), то в соответствии
с принципом практической уверенности это означает, что такие большие
значения практически τ невозможны и противоречат гипотезе H 0 . В этом
случае нулевую гипотезу отвергают.
Если
τ = τ набл < τ кр , то расхождение между эмпирическим и теорети-
ческим распределениями несущественно и гипотезу H 0 можно считать
правдоподобной или, по крайней мере, не противоречащей опытным данным.
1.11.1. Критерий χ2 Пирсона
Существуют различные критерии согласия: Пирсона, Колмогорова,
Фишера, Смирнова и др. Критерий согласия Пирсона – наиболее часто
употребляемый критерий для проверки простой гипотезы о законе распределения.
Эмпирические частоты – это частоты mi , наблюдаемые в экспе-
рименте.
27
Выравнивающие (теоретические) частоты – это частоты, ко-
торые находятся по формуле mi′ = n ⋅ pi , где п – объём выборки, pi – точечная вероятность варианты xi дискретной случайной величины или интервальная вероятность для варианты x ∈ ( xi −1; xi ] непрерывной случайной
величины.
Алгоритм действий:
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
1. Выбрать закон распределения случайной величины.
2. По соответствующей формуле вычислить точечные (или интервальные)
вероятности pi .
3. Вычислить выравнивающие частоты mi′ = n ⋅ pi , где п – объём выборки.
k
4. Найти статистику
2
χ набл
=
∑
i =1
(mi − mi′ )2
mi′
.
5. Определить число степеней свободы l = k − r − 1 , где k – число частичных интервалов выборки; r – число параметров дифференциальной
функции распределения. Выражения для нахождения числа степеней
свободы известных законов распределения представлены в табл. 10.
Таблица 10
Закон
распределения
Биномиальный закон
Число степеней свободы
l = k − 1 , если p A известно
l = k − 2 , если p A неизвестно
Закон распределения Пуассона
l =k −2
Равномерный
l =k −3
закон
Показательный закон
l =k −2
Нормальный
l =k −3
закон
6. По таблице приложения 3 необходимо найти критическую величину
χ 2кр = χ α2 ; l , где α – заданный уровень значимости.
28
2
2
7. Если χ набл < χ кр , то закон теоретического распределения не противо-
речит опытным данным, нет оснований отвергнуть гипотезу о выбранном законе распределения. В противном случае выдвинутая гипотеза отвергается.
Пример 22. Для эмпирического распределения рабочих цеха по
выработке по данным табл. 5 на уровне значимости α = 0,05 выдвинуть
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
гипотезу о распределении генеральной совокупности и проверить её с помощью критерия χ 2 Пирсона.
☺ Решение
. По виду гистограммы распределения рабочих по выра-
ботке (рис. 25) можно предположить нормальный закон распределения
признака.
Параметры а и σ 2 нормально-
го закона распределения, являющиеся соответственно математическим ожиданием и дисперсией
случайной величины Х, неизвестны. Поэтому заменяем их «наилучшими» оценками по выборке –
Рис. 25
несмещёнными и состоятельными оценками соответственно выборочной
средней xв и исправленной выборочной дисперсией s 2 . Т. к. число наблюдений n = 100 достаточно велико, то вместо s 2 можно взять σ 2 . В приме-
ре 5 были вычислены x = 119,2 (%), σ = 9,35 (%).
Сформулируем основную гипотезу H 0 : «Случайная величина Х – вы-
работка рабочих цеха – распределена нормально с параметрами a = 119,2 ,
σ = 9,35 , т. е. X ~ N (119,2; 9,35) ». Альтернативная гипотеза H1 : «Случай-
ная величина Х не распределена по нормальному закону».
Число наблюдений в крайних интервалах (табл. 5) меньше 5, поэтому
объединим их с соседними.
29
( xi −1 , xi ]
94-106
106-112
112-118
118-124
124-130
130-142
Σ
mi
10
11
20
28
19
12
100
Для расчёта вероятностей pi попадания случайной величины Х в интервал ( xi −1 , xi ] используем функцию Лапласа в соответствии со свойствами нормального распределения (табл. 9):
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
x −a
xi −1 − a
pi = P{xi −1 ≤ X ≤ xi } = Φ i
−Φ
.
σ
σ
Найдём значения pi ( i = 1, 2, ..., 6 ).
Т. к. случайная величина X ~ N ( a; σ ) определена на интервале
( −∞, + ∞) , то крайние промежутки в ряде распределения заменяем, соот-
ветственно на ( −∞, 106] и (130, + ∞) . Тогда, используя значения функции
Лапласа (таблица приложения 1), получаем:
106 − 119, 2
p1 = P{−∞ ≤ X ≤ 106} = Φ
− Φ ( −∞ ) =
9,35
= Φ ( −1,41) − Φ ( −∞ ) = −0,4207 + 0,5 = 0,0793 .
112 − 119, 2
106 − 119, 2
p2 = P{106 ≤ X ≤ 112} = Φ
−
Φ
=
9,35
9,35
= Φ ( −0,77) − Φ ( −1,41) = −0,2794 + 0,4207 = 0,1413 .
118 − 119, 2
112 − 119, 2
p3 = P{112 ≤ X ≤ 118} = Φ
−
Φ
=
9,35
9,35
= Φ ( −0,13) − Φ ( −0,77) = −0,0517 + 0,2794 = 0,2277 .
124 − 119, 2
118 − 119, 2
p4 = P{118 ≤ X ≤ 124} = Φ
−Φ
=
9,35
9,35
= Φ (0,51) − Φ ( −0,13) = 0,1950 + 0,0517 = 0,2467 .
130 − 119, 2
124 − 119, 2
p5 = P{124 ≤ X ≤ 130} = Φ
−Φ
=
9,35
9,35
= Φ (1,16) − Φ (0,51) = 0,3770 − 0,1950 = 0,1820 .
130 − 119, 2
p6 = P{130 ≤ X ≤ +∞} = Φ ( +∞ ) − Φ
=
9,35
= Φ ( +∞) − Φ (1,16) = 0,5 − 0,3770 = 0,1230 .
30
Для определения статистики χ 2 удобно составить таблицу (табл. 11)
Таблица 11
(mi − mi′ )2
i
( x i −1 , x i ]
mi
pi
mi′ = n ⋅ pi
(mi − mi′ )
1
( −∞, 106]
10
0,079
7,9
4,41
mi′
0,558
2
(106, 112]
11
0,141
14,1
9,61
0,682
3
(112,118]
20
0,228
22,8
7,84
0,344
4
(118,124]
28
0,247
24,7
10,89
0,441
5
(124,130]
19
0,182
18,2
0,64
0,035
6
(130, + ∞)
12
0,123
12,3
0,09
0,007
100
1
100
–
2,067
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
2
Σ
Итак, фактически наблюдаемое значение статистики χ 2набл = 2,067 .
Число интервалов k = 6 , тогда согласно табл. 10, для нормального за-
кона распределения число степеней свободы l = k − 3 = 3 . Соответствую-
щее критическое значение статистики χ 2 по таблице приложения 3
2
χ 2кр = χ 02,05;3 = 7,82 . Т. к. χ набл
< χ 2кр , то гипотеза о выбранном теоретиче-
ском нормальном законе N (119,2; 9,35) не противоречит опытным данным.
☻
Значит, нет оснований отвергнуть проверяемую гипотезу.
Замечание. Для графического изображения эмпирического и вырав-
нивающего его теоретического нормального распределений необходимо
использовать одинаковый для двух распределений масштаб по оси ординат.
Пример 23. Для эмпирического распределения, заданного табли-
цей
Варианта, xi
70
80
90
100
Σ
Частота, mi
9
8
8
5
n = 30
на уровне значимости α = 0,05 проверить гипотезу о нормальном распределении генеральной совокупности с помощью критерия χ 2 Пирсона.
31
☺ Решение
. Сформулируем основную гипотезу H 0 : «Случайная величина Х – распределена нормально», тогда альтернативная гипотеза H1 :
«Случайная величина Х не распределена по нормальному закону».
РУ
"М Т
ат (М
ем ИИ
ат Т
)
ик
а"
Вычислим точечные оценки параметров a и σ :
a = xв = 1 ⋅ (70 ⋅ 9 + 80 ⋅ 8 + 90 ⋅ 8 + 100 ⋅ 5) = 83 ,
30
σ в2 = 1 ⋅ [(70 − 83)2 ⋅ 9 + (80 − 83)2 ⋅ 8 + (90 − 83)2 ⋅ 8 + (100 − 83)2 ⋅ 5] = 114,333 .
30
Т. к. объём выборки невелик, то перейдём к исправленной дисперсии
s 2 = 30 ⋅ σ в2 , тогда полагаем σ = s 2 = 10,875 . Таким образом, имеем нор29
мальный закон распределения N (83;10,875) .
Выравнивающие частоты mi′ найдём по формуле (табл. 9)
mi′ = nh ⋅ϕ (ti ) ,
σ
где n = 30 , h = 10 – разность между двумя соседними вариантами,
x −a
ti = i
и ϕ (t ) – функция Гаусса (см. табл. приложения 1).
σ
Заполним вспомогательную таблицу (табл. 12).
ϕ (ti )
mi′ = nh ⋅ϕ (ti )
σ
(mi − mi′ )2
– 1,20
0,1942
5,35
13,32
Таблица 12
(mi − mi′ )2
mi′
2,45
8
– 0,28
0,3836
10,58
6,66
0,63
90
8
0,64
0,3251
8,97
0,94
0,10
100
5
1,56
0,1182
3,26
3,03
0,93
30
–
–
28,47
–
4,11
i
xi
mi
1
70
9
2
80
3
4
Σ
ti =
xi − a
σ
Итак, фактически наблюдаемое значение статистики χ 2набл = 4,11 .
Т. к. число наблюдений равно 4, то согласно табл. 12, для нормального закона распределения число степеней свободы k = 4 − 3 = 1 . По таблице
2
приложения 3 имеем χ 2кр = χ 02,05;1 = 3,8 . Так как χ набл
> χ 2кр , то гипотеза о
выбранном теоретическом нормальном законе N (83;10,875) противоречит
опытным данным, значит, принимаем альтернативную гипотезу: «Случайная величина Х не распределена по нормальному закону».
32
☻