Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
1
Лекция 11. 17.02.2021
Тема. Таблицы сопряжённости. Проверка гипотезы о независимости
переменных, измеренных в номинальной шкале.
Пусть данные измерены в номинальной шкале.
Мы рассмотрим 2 номинальные (категориальные) переменные.
Номинальная переменная принимает несколько значений, которые указывают, к какой категории
принадлежит определённый объект. Такая переменная не является количественной и не является
порядковой. Например, переменная <<пол>> – принимает 2 значения – женский и мужской;
<<местность>> – город, село; <<партия>> – просто перенумеруем разные партии.
Рассматриваем две номинальные переменные 𝑋 и 𝑌, принимающие 𝑟
и 𝑠 значений
соответственно, и хотим проверить, являются ли эти переменные независимыми. Обозначим
значения (категории), которые принимает 𝑋 через 𝐴𝑖 , 𝑖 = 1,2, … , 𝑟, а значения, которые
принимает 𝑌 через 𝐵𝑗 , 𝑗 = 1,2, … , 𝑠. Пусть 𝑛 – объём такой выборки.
𝑋\𝑌
𝐴1
𝐴2
…
𝐴𝑟
𝐵1
𝑛11
𝑛21
…
𝑛𝑟1
𝐵2
𝑛12
𝑛22
…
𝑛𝑟2
…
…
…
…
…
𝐵𝑠
𝑛1𝑠
𝑛2𝑠
…
𝑛𝑟𝑠
Эти две переменные представлены в виде так называемой таблицы сопряжённости, в
которую запишем в ячейку с индексом 𝑖𝑗 (𝑖 – номер строки и 𝑗- номер столбца) число
элементов выборки (т.е. число наблюдений 𝑛𝑖𝑗 , 𝑖 = 1,2, … , 𝑟; 𝑗 = 1,2, … , 𝑠 ), у которых первая
переменная принимает значение 𝐴𝑖 , а вторая принимает значение 𝐵𝑗 . Т.е. первый признак из
категории 𝑖 первой переменной 𝑋, а второй – из категории 𝑗 второй переменной 𝑌.
Тогда
их сумма равна общему числу наблюдений, т.е.
∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑛𝑖𝑗 = 𝑛 .
Обозначим через 𝑝𝑖𝑗 = 𝑃(𝑋 = 𝐴𝑖 ; 𝑌 = 𝐵𝑗 ),
а через 𝑝𝑖∙ = 𝑃(𝑋 = 𝐴𝑖 ) = ∑𝑠𝑗=1 𝑝𝑖𝑗 ; 𝑝∙𝑗 = 𝑃(𝑌 = 𝐵𝑗 ) = ∑𝑟𝑖=1 𝑝𝑖𝑗 .
Если переменные независимы, то
𝑃(𝑋 = 𝐴𝑖 ; 𝑌 = 𝐵𝑗 ) = 𝑃(𝑋 = 𝐴𝑖 ) ∙ 𝑃(𝑌 = 𝐵𝑗 ) при всех 𝑖 = 1,2, … , 𝑟; 𝑗 = 1,2, … , 𝑠.
Проверяем гипотезу о независимости этих двух величин:
𝐻0 ∶ 𝑝𝑖𝑗 = 𝑝𝑖∙ ∙ 𝑝∙𝑗 при всех 𝑖 = 1,2, … , 𝑟; 𝑗 = 1,2, … , 𝑠
против альтернативы, 𝐻1 ∶ 𝑝𝑖𝑗 ≠ 𝑝𝑖∙ ∙ 𝑝∙𝑗 хотя бы при каких-то 𝑖 и 𝑗.
Оценкой вероятности 𝑝𝑖𝑗 является выборочная доля 𝑝̂𝑖𝑗 =
𝑛𝑖𝑗
𝑛
, а оценками 𝑝𝑖∙ и 𝑝∙𝑗
2
выборочные доли 𝑝̂𝑖∙ =
гипотезе
𝑛𝑖𝑗
𝑛
ожидаемому
≈
𝑛𝑖∙
∙
𝑛∙𝑗
𝑛
𝑛
𝑛𝑖∙ ∙ 𝑛.𝑗
𝑛
𝑛𝑖∙
𝑛
и соответственно 𝑝̂∙𝑗 =
𝑛∙𝑗
𝑛
. Тогда при большом 𝑛 при нулевой
. Т.е. при нулевой гипотезе наблюдаемое значение 𝑛𝑖𝑗 близко к
, т.е. 𝑛𝑖𝑗 ≈
𝑛𝑖∙ ∙ 𝑛.𝑗
𝑛
.
Тогда для проверки гипотезы 𝐻0 составляется такая
статистика:
𝑛𝑖∙ ∙ 𝑛∙𝑗 2
(𝑛𝑖𝑗 −
)
𝑛
∑∑
,
𝑛𝑖∙ ∙ 𝑛∙𝑗
𝑖=1 𝑗=1
𝑛
𝑟
𝑠
которая при нулевой гипотезе имеет распределение хи-квадрат с 𝑘 = (𝑟 − 1)(𝑠 − 1) степенями
свободы при большом числе наблюдений 𝑛. Случайная величина, имеющая хи-квадрат
распределение с 𝑘 степенями свободы, обозначается 𝜒 2 (𝑘).
Распределение хи-квадрат с 𝒌 степенями свободы.
Плотности этого распределения при разных степенях свободы изображены на рисунке.
Распределение хи-квадрат с 𝑘 степенями свободы имеет следующая случайная величина:
𝜒 2 (𝑘) = 𝑍12 + 𝑍22 + ⋯ + 𝑍𝑘2 , где 𝑍𝑖 − независимые стандартные нормальные случайные величины:
𝑍𝑖 ~𝑁(0; 1).
Плотность распределения случайной величины, имеющей хи-квадрат распределение с 𝑘
степенями свободы имеет следующий вид:
Таким образом,
𝑛𝑖∙ ∙ 𝑛∙𝑗 2
(𝑛𝑖𝑗 −
)
𝑛
∑∑
𝑛𝑖∙ ∙ 𝑛∙𝑗
𝑖=1 𝑗=1
𝑛
𝑟
𝑠
𝐻0
≈
𝜒 2 ((𝑟 − 1)(𝑠 − 1)) .
Т.е. эта статистика при нулевой гипотезе при большом числе наблюдений 𝑛 имеет распределение
хи-квадрат с 𝑘 = (𝑟 − 1)(𝑠 − 1) степенями свободы.
3
Подставив в формулу наблюдаемые 𝑛𝑖𝑗 и ожидаемые
𝑛𝑖∙ ∙𝑛∙𝑗
𝑛
значения в конкретном
эксперименте, получим
𝑛𝑖∙ ∙ 𝑛∙𝑗 2
(𝑛𝑖𝑗 −
)
𝑛
=∑ ∑
.
𝑛𝑖∙ ∙ 𝑛∙𝑗
𝑖=1 𝑗=1
𝑛
𝑟
2
𝑋набл
𝑠
Далее рассуждения такие же, которые используем при проверке гипотез: строим критическое
2
2
множество 𝐾𝛼 заданного уровня значимости, вычисляем 𝑋набл
и если 𝑋набл
∈ 𝐾𝛼 , то отвергаем
2
𝐻0 , иначе, если 𝑋набл ∈ 𝐾𝛼 , то не отвергаем 𝐻0 .
При заданном уровне значимости 𝛼 критическое множество такое: 𝐾𝛼 = [ 𝜒 2 (𝑘; 𝛼 ); +∞), где
𝜒 2 (𝑘; 𝛼 ) – верхняя 𝛼 -процентная точка определяется как решение уравнения:
𝑃(𝜒 2 (𝑘) ≥ 𝜒 2 (𝑘; 𝛼 )) = 𝛼.
2 (𝑘)
(Она же 𝜒1−𝛼
– квантиль уровня (1 − 𝛼) распределения хи-квадрат с 𝑘 степенями свободы,
2 (𝑘))
2
т.е. 𝜒 (𝑘; 𝛼 ) = 𝜒1−𝛼
.)
Эту величину находим по таблице хи-квадрат (таблица выложена в LMS). Например:
𝜒 2 (7; 0,025) = 16,0128.
В этой таблице записаны также верхние 𝛼 -процентные точки и при значениях 𝛼, близких к 1.
Например, 𝜒 2 (7; 0,975) = 1,6899. Это означает, что 𝑃(𝜒 2 (7) ≥ 1,6899) = 0,975 или
𝑃(𝜒 2 (7) < 1,6899) = 1 − 0,975 = 0,025.
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
𝛼 =0,01
𝛼 =0,025
𝛼 =0,05
𝛼 =0,1
𝛼 = 0,9
𝛼 =0,95
𝛼 =0,975
𝛼 =0,99
6,6349
9,2103
11,3449
13,2767
15,0863
16,8119
18,4753
20,0902
21,6660
23,2093
24,7250
26,2170
27,6882
29,1412
30,5779
31,9999
33,4087
34,8053
36,1909
37,5662
38,9322
5,0239
7,3778
9,3484
11,1433
12,8325
14,4494
16,0128
17,5345
19,0228
20,4832
21,9200
23,3367
24,7356
26,1189
27,4884
28,8454
30,1910
31,5264
32,8523
34,1696
35,4789
3,8415
5,9915
7,8147
9,4877
11,0705
12,5916
14,0671
15,5073
16,9190
18,3070
19,6751
21,0261
22,3620
23,6848
24,9958
26,2962
27,5871
28,8693
30,1435
31,4104
32,6706
2,7055
4,6052
6,2514
7,7794
9,2364
10,6446
12,0170
13,3616
14,6837
15,9872
17,2750
18,5493
19,8119
21,0641
22,3071
23,5418
24,7690
25,9894
27,2036
28,4120
29,6151
0,0158
0,2107
0,5844
1,0636
1,6103
2,2041
2,8331
3,4895
4,1682
4,8652
5,5778
6,3038
7,0415
7,7895
8,5468
9,3122
10,0852
10,8649
11,6509
12,4426
13,2396
0,0039
0,1026
0,3518
0,7107
1,1455
1,6354
2,1673
2,7326
3,3251
3,9403
4,5748
5,2260
5,8919
6,5706
7,2609
7,9616
8,6718
9,3905
10,1170
10,8508
11,5913
0,0010
0,0506
0,2158
0,4844
0,8312
1,2373
1,6899
2,1797
2,7004
3,2470
3,8157
4,4038
5,0088
5,6287
6,2621
6,9077
7,5642
8,2307
8,9065
9,5908
10,2829
0,0002
0,0201
0,1148
0,2971
0,5543
0,8721
1,2390
1,6465
2,0879
2,5582
3,0535
3,5706
4,1069
4,6604
5,2293
5,8122
6,4078
7,0149
7,6327
8,2604
8,8972
4
40,2894
41,6384
42,9798
44,3141
45,6417
46,9629
48,2782
49,5879
50,8922
22
23
24
25
26
27
28
29
30
36,7807
38,0756
39,3641
40,6465
41,9232
43,1945
44,4608
45,7223
46,9792
33,9244
35,1725
36,4150
37,6525
38,8851
40,1133
41,3371
42,5570
43,7730
30,8133
32,0069
33,1962
34,3816
35,5632
36,7412
37,9159
39,0875
40,2560
14,0415
14,8480
15,6587
16,4734
17,2919
18,1139
18,9392
19,7677
20,5992
12,3380
13,0905
13,8484
14,6114
15,3792
16,1514
16,9279
17,7084
18,4927
10,9823
11,6886
12,4012
13,1197
13,8439
14,5734
15,3079
16,0471
16,7908
9,5425
10,1957
10,8564
11,5240
12,1981
12,8785
13,5647
14,2565
14,9535
Пример.
По данной таблице сопряжённости двух номинальных признаков:
А – прививка от гриппа (сделана или не сделана) и В – заболевание гриппом (заболел или не
заболел) проверить нулевую гипотезу об их независимости на уровне значимости 0,01.
Таблица сопряжённости
Частота
A
Прививка сделана
Прививка не
сделана
B
Не заболел Заболел
97
9
105
35
Решение.
Вычислим суммарное число наблюдений в каждой строке и каждом столбце и запишем в каждой
ячейке под наблюдаемым значением ожидаемое
B
Не заболел
A
Прививка сделана
Заболел
106 ∙ 202
246
≅ 87,04
Итого
9
106
35
140
97
106 ∙ 44
246
≅ 18,96
Прививка не сделана
105
140 ∙ 202
246
≅ 114,96
Итого
202
140 ∙ 44
246
≅ 25,04
44
Тогда вычислим наблюдённое значение статистики критерия:
246
5
2
𝑋набл
=
(97 − 87,04)2 (9 − 18,96)2 (105 − 114,96)2 (35 − 25,04)2
+
+
+
87,04
18,96
114,96
25,04
= 1,14 + 5,23 + 0,863 + 3,96 ≅ 11,19
Таблица 2x2 (𝑟 = 2; 𝑠 = 2). Поэтому число степеней свободы равно 𝑘 = (𝑟 − 1)(𝑠 − 1) = 1.
По таблице находим границу критического множества 𝜒 2 (1; 0,01) = 6,6349. Тогда
𝐾0,01 = [𝜒 2 (1; 0,01); +∞) = [6,6349; +∞)
Если число степеней свободы равно 1, то границу критического множества можно найти и по
таблице стандартного нормального распределения, т.к. 𝜒 2 (1) = 𝑍 2 .
Следовательно,
𝑃(𝜒 2 (1) ≥ 𝜒 2 (1; 0,01)) = 𝑃(𝑍 2 ≥ 𝜒 2 (1; 0,01)) = 𝑃 (|𝑍| ≥ √𝜒 2 (1; 0,01)) =
= 2(1 − 𝛷 (√𝜒 2 (1; 0,01)) = 0,01 ⇒
𝛷 (√𝜒 2 (1; 0,01)) = 0,995 ⇒ √𝜒 2 (1; 0,025) = 2,575 ⇒ 𝜒 2 (1; 0,025) = (2,575 )2 ≅ 6,63
2
В случае если таблица 2x2, то формулу для 𝑋набл
можно записать так:
2
𝑋набл
=𝑛∙
2
𝑋набл
= 246 ∙
(𝑛11 ∙ 𝑛22 − 𝑛21 ∙ 𝑛12 )2
(𝑛11 + 𝑛12 ) ∙ (𝑛21 + 𝑛22 ) ∙ (𝑛11 + 𝑛21 ) ∙ (𝑛12 + 𝑛22 )
(97 ∙ 35 − 105 ∙ 9)2
24502
= 246 ∙
= 11,195;
106 ∙ 140 ∙ 202 ∙ 44
106 ∙ 140 ∙ 202 ∙ 44
2
𝑋набл
∈ 𝐾0,01
⇒ 𝐻0 не верна
Ответ: H0 не верна, признаки зависимы
Пример. 158 человек (68 девушек и 90 юношей) оценивали своё психическое состояние
по одной из 4-х категорий: 1) крайне неустойчивое, 2) неустойчивое, 3) устойчивое, 4)
очень устойчивое.
Таблица сопряжённости такая:
Девушки
Юноши
1
22
10
32
2
24
29
53
3
15
39
54
4
7
12
19
68
90
158
Проверим гипотезу о независимости признаков (психическое состояние и пол) на уровне
значимости 𝛼 = 0,05.
𝐻0 : признаки независимы; 𝐻1 : признаки зависимы.
6
Составим таблицу, в которой записаны наблюдённые (𝑛𝑖𝑗 )
(
𝑛𝑖. 𝑛.𝑗
𝑛
Девушки 22
𝑛21
Юноши
10
ожидаемые значения
) при 𝑖 = 1,2 и 𝑗 = 1,2,3,4.
1
𝑛11
и
2
𝑛1. 𝑛.1
𝑛
68 ∙ 32
≅ 13,77
158
𝑛2. 𝑛.1
𝑛
90 ∙ 32
≅ 18,23
158
32
3
𝑛1. 𝑛.2
𝑛
𝑛12
24
29
𝑛1. 𝑛.3
𝑛
𝑛13
68 ∙ 53
≅ 22,81
158
𝑛2. 𝑛.2
𝑛
𝑛212
4
15
68 ∙ 54
≅ 23,24
158
𝑛2. 𝑛.3
𝑛
𝑛23
90 ∙ 53
≅ 30,19
158
53
39
90 ∙ 54
≅ 30,76
158
54
𝑛14
7
𝑛24
12
𝑛1. 𝑛.4
𝑛
68 ∙ 19
≅ 8,18
158
𝑛2. 𝑛.4
𝑛
90 ∙ 19
≅ 10,82
158
12
Вычислим статистику критерия по этой таблице сопряжённости:
2
𝑋набл
=
+
(22 − 13,77)2 (24 − 22,81)2 (15 − 23,24)2 (7 − 8,18)2
+
+
+
+
13,77
22,81
23,24
8,18
(10 − 18,23)2 (29 − 30,19)2 (39 − 30,76)2 (12 − 10,82)2
+
+
+
=
18,23
30,19
30,76
10,82
= 4,92 + 0,062 + 2,92 + 0,17 + 3,72 + 0,047 + 2,21 + 0,13 ≅ 14,2
Число степеней свободы равно (𝑟 − 1)(𝑠 − 1) = (2 − 1)(4 − 1) = 3.
По таблице верхних процентных точек распределения хи-квадрат 𝜒 2 (3; 0,05) = 7,8147.
2
Тогда 𝐾0,05 = [7,8147; +∞). 𝑋набл
∈ 𝐾0,05 ⇒ 𝐻0 : отвергаем, принимаем 𝐻1 : признаки
зависимы.
Критерии согласия хи-квадрат Пирсона для поверки простой гипотезы.
Рассмотрим расширенную схему испытаний Бернулли, в которой в одном испытании не 2 исхода,
а некоторое число 𝑟 > 2. Пусть 𝑛 – число независимых испытаний в этой схеме. Одно испытание
может заканчиваться одним из 𝑟 исходов: 𝐴1 , 𝐴2 , … , 𝐴𝑟 . Обозначим через 𝑝1 , 𝑝2 , … , 𝑝𝑟 –
вероятности этих исходов. Тогда 𝑝1 + 𝑝2 + ⋯ + 𝑝𝑟 = 1 (когда было 𝑟 = 2- два исхода, то мы
обозначали 𝑝1 = 𝑝 и 𝑝2 = 𝑞). Обозначим через 𝑚1 , 𝑚2 , … , 𝑚𝑟 − числа исходов 𝐴1 , 𝐴2 , … , 𝐴𝑟
соответственно среди 𝑛 испытаний (тогда 𝑚1 + 𝑚2 +…+𝑚𝑟 = 𝑛).
Рассмотрим случайную величину
𝑛
∑
𝑖=1
(𝑚𝑖 − 𝑛𝑝𝑖 )2
𝑛𝑝𝑖
68
90
158
7
Тогда при 𝑛 → ∞ распределение этой случайной величины сходится к распределению хи-квадрат
с (𝑟 − 1) степенями свободы. Это так называемая теорема
Пирсона.
Используя эту теорему, можно проверить гипотезу о том, что вероятности 𝑝𝑖 равны заданным
числам 𝑝𝑖0.
𝐻0 : 𝑝1 = 𝑝10 ; 𝑝2 = 𝑝20 ; … ; 𝑝𝑟 = 𝑝𝑟0 .
Против альтернативы 𝐻1 : 𝑝𝑖 ≠ 𝑝𝑖0 хотя бы при каком-то 𝑖.
Тогда статистика
𝑟
𝑋2
(𝑚𝑖 − 𝑛𝑝𝑖0 )
=∑
𝑛𝑝𝑖0
2
𝐻0
≈
𝜒 2 (𝑟 − 1)
𝑖=1
при больших 𝑛 имеет распределение, близкое к хи-квадрат с (𝑟 − 1) степенями свободы.
А если нулевая гипотеза не верна, то при большом 𝑛 эта статистика становится большой:
а именно, 𝑋 2 → ∞ при 𝑛 → ∞. Это легко понять, если 𝑋2 записать так:
𝑟
(𝑚𝑖 − 𝑛𝑝𝑖0 )
𝑋2 = ∑
𝑛𝑝𝑖0
2
𝑖=1
Поэтому при большом 𝑛
величина
𝑚𝑖
𝑛
2
𝑚𝑖
− 𝑝𝑖0 )
= 𝑛∑ 𝑛
.
𝑝𝑖0
𝑟
(
𝑖=1
≈ 𝑝𝑖 ≠ 𝑝𝑖0 хотя бы
при каком-то 𝑖 и значит 𝑋2
пропорциональна 𝑛.
Пример.
По многочисленным наблюдениям за объёмами продаж некоторого товара, производимого тремя
предприятиями, было выяснено, что первое предприятие производит 20% (от общего числа)
товаров, второе – 50% и третье - 30%. После технической реконструкции одного из предприятий
оказалось, что из 800 единиц товара 200 было произведено на первом предприятии, 350 – на
втором и 250 – на третьем. Можно ли считать, что после реконструкции изменилось соотношение
между объёмами продаж этих предприятий? Примите уровень значимости 5%.
Решение 𝑛 = 800
𝐻0 : 𝑝1 = 0,2; 𝑝2 = 0,5; 𝑝3 = 0,3.
𝒑𝟎𝒊
0,2
0,5
0,3
𝒎𝒊
200
350
250
𝒏𝒑𝟎𝒊
160
400
240
𝐻1 : 𝑝 ≠ 𝑝 0
𝒎𝒊 − 𝒏𝒑𝟎𝒊
40
-50
10
(𝒎𝒊 − 𝒏𝒑𝟎𝒊 )𝟐
1600
2500
100
(𝒎𝒊 − 𝒏𝒑𝟎𝒊 )𝟐 /𝒏𝒑𝟎𝒊
10
6,25
0,42
2
𝑋набл
= 10 + 6,25 + 0,42 = 16,67; 𝐾0,05 = [𝜒 2 (2; 0,05); +∞) = [5,9915; +∞);
2
𝑋набл
∈ 𝐾0,05 ⇒ 𝐻0 : отвергаем, принимаем 𝐻1 : 𝑝 ≠ 𝑝 0 , т.е. после реконструкции
изменилось соотношение между объёмами продаж этих предприятий.