Математическая статистика
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция №1
Математическая статистика
Математическая статистика разрабатывает специальные методы обработки результатов наблюдений во всех областях человеческой деятельности:
в экономике, производстве, медицине и т.д.
Математическая статистика – наука, занимающаяся изучением методов
получения, описания и обработки опытных данных с целью изучения закономерностей случайных массовых явлений.
В математической статистике рассматриваются не действия над законами
распределения и числовыми характеристиками случайных величин, а используются приближенные методы нахождения этих законов и числовых характеристик по результатам экспериментов.
Математическая статистика на основании опытных данных оценивает
структуру математических моделей, проверяет, правильно ли подобрано распределение (биномиальное, нормальное, Пуассона и т. д.), оценивает параметры этого распределения, проверяет гипотезы о параметрах принятого распределения.
Типичными задачами математической статистики, которые наиболее
важны для нас по своим практическим применениям, являются следующие.
1. Первичная статистическая обработка данных или описательная (дескриптивная) статистика, в которой разрабатываются рациональные способы
задания статистических данных и вычисления сводных характеристик выборки. Данные в том виде, как они получены при наблюдении, обычно труднообозримы из-за большого их числа. Для того чтобы начать анализ, в них
надо внести некоторый порядок и придать им удобный для исследования вид.
При этом желательно также получить представление о распределении изучаемых случайных величин или случайных признаков.
2. Статистическое оценивание неизвестных параметров. Предполагается, что изучаемая случайная величина имеет закон распределения вероятностей определенного вида. Параметры, задающие это распределение, неизвестны и подлежат определению по результатам экспериментов. Здесь также
рассматриваются вопросы оценивания параметров статистических зависимостей, существующих между анализируемыми величинами.
3. Статистическая проверка гипотез. На разных стадиях статистического
исследования возникает необходимость в формулировке и экспериментальной
проверке некоторых предположений или гипотез относительно природы или
величины неизвестных параметров рассматриваемой стохастической схемы.
Наша цель – проверить, не противоречит ли высказанная нами гипотеза имеющимся данным. Процедура обоснованного сопоставления высказанной гипотезы с имеющимися в нашем распоряжении выборочными данными осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотез.
Описательная (дескриптивная) статистика
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным –
контролируемый размер детали.
При математическом описании количественному признаку будет соответствовать случайная величина Χ , дискретная или непрерывная. Качественный
признак, как правило, характеризуется набором количественных, поэтому при
математическом описании ему будет соответствовать система случайных величин или многомерная случайная величина. В дальнейшем будем считать,
что нас интересует некоторый количественный показатель (случайная величина Χ ), характеризующий исследуемый признак.
Генеральной совокупностью называют совокупность всех мыслимых
наблюдений или всех мысленно возможных объектов интересующего нас
типа, с которых «снимаются» наблюдения. Генеральная совокупность называется конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность всех мыслимых наблюдений. Объем генеральной совокупности Ν – это число объектов этой совокупности.
Выборка из данной генеральной совокупности – это результаты ограниченного ряда наблюдений случайной величины Χ . Число наблюдений, образующих выборку, называют объемом выборки. Объем выборки n намного
меньше объема генеральной совокупности (n Ν ) .
Итак, пусть проведено n независимых наблюдений случайной величины
Χ . В результате этих наблюдений получены значения x1 , x2 ,, xn , которые
образуют выборку объема n . В дальнейшем будем обозначать выборку через
x1 , x2 , , xn , xi – наблюдаемые значения признака или варианты.
Сущность выборочного метода статистики состоит в том, что по некоторой части генеральной совокупности (т. е. по выборке) выносятся суждения о
ее свойствах в целом. Для того чтобы выводы, получаемые в результате статистической обработки данных, были достоверными, т. е. полно и адекватно
представляли интересующие нас свойства генеральной совокупности, выборка должна быть репрезентативной или представительной. Представительность выборки обеспечивается различными способами ее организации.
Выборка x1 , x2 , , xn имеющихся в нашем распоряжении значений исследуемой случайной величины Χ является той исходной информацией, на
основании которой строятся выводы о свойствах изучаемой генеральной совокупности в целом и, в частности, составляется представление о функции и ряде
распределения или плотности анализируемого закона распределения вероятностей.
Вариационные ряды и их графики
Упорядоченная по величине последовательность выборочных значений
x1(n ) x2(n ) xn(n ) называется вариационным рядом. Среди членов вариационного ряда могут быть совпадающие между собой значения. Если через
n1 , n2 , , nr обозначить число повторений всех несовпадающих значений выборки, то получим два ряда чисел:
r
x1 x2 xr
xi
(1)
ni = n .
n1 n2 nr
ni
i =1
Первый ряд содержит различные выборочные значения, расположенные в
порядке возрастания. Числа второго ряда показывают количество повторений
каждого из этих значений в выборке и называются частотами.
Ряд (1) называют также точечным вариационным рядом, что соответствует
дискретной вариации признака, или эмпирическим распределением признака
по частотам.
От распределения частот можно перейти к распределению относительных
r
n
частот ωi = i , i = 1, заданных в виде доли или в виде процента
n i =1
i 100% ( = 100% ) , т.е. получить ряд:
xi
x1
ωi
1 2 r
i 100%
x 2 xr
r
i = 1
(2)
i =1
r
i 100% = 100%
i =1
Так как на основании закона больших чисел (теорема Бернулли), относительная частота рассматриваемого события сколь угодно мало отличается от
его вероятности, то можно утверждать, что вариационный ряд вида (2), построенный по относительным частотам, является статистической аппроксимацией или статистическим приближением теоретического ряда распределения
случайной величины Χ .
Если объем выборки n велик ( n 50 ) и при этом мы имеем дело с непрерывной величиной, то часто удобнее, с точки зрения упрощения дальнейшей
статистической обработки результатов наблюдений, перейти к так называемым «группированным» выборочным данным или интервальному вариационному ряду. Этот переход осуществляется следующим образом:
1. Отмечаются наименьшее x min и наибольшее x max значения в выборке.
2. Весь обследованный диапазон xmin ; xmax разбивается на определенное
число k равных интервалов группирования (количество интервалов k не
должно быть меньше 8–10 и больше 20–25); выбор количества интервалов существенно зависит от объема выборки n , для примерной ориентации в выборе
k можно пользоваться приближенной формулой k log 2 n + 1 либо
k 1 + 1,45ln n .
x − xmin
3. Определяется шаг группирования h max
и отмечаются границы
k
интервалов C0 = xmin , C1 = C0 + h, C2 = C1 + h и т.д.
4. Подсчитываются числа выборочных данных, попавших в каждый из интервалов: n1 , n2 , , nk (очевидно, n1 + n2 + + nk = n ); выборочные данные,
попавшие на границы интервалов, либо равномерно распределяются по двум
соседним интервалам, либо относятся только к какому-либо одному из них,
например, к левому.
В зависимости от конкретного содержания задачи в данную схему группирования могут быть внесены некоторые изменения (например, в некоторых
случаях целесообразно отказаться от требования равной длины интервалов
h
группирования либо положить C0 = xmin − , C1 = C0 + h .
2
Таким образом, следуя этой методике от ряда (1) или (2) при больших r
можно перейти к интервальному вариационному ряду, который запишется в
виде:
Ci − Ci +1
C0 − C1 C1 − C2 Ck −1 − Ck
ni
n1
n2
k
ni = n
nk
(3)
i =1
От интервального ряда можно вновь перейти к точечному, т.е. ряду вида
(1), если в качестве значения случайной величины, соответствующего i -му инC + Ci +1
тервалу, взять его середину xi0 , где xi0 = i
. В итоге получить ряд:
2
xi0
x10
x20 xk0
ni
n1
n2 nk
k
ni = n
i =1
(4)
Несмотря на видимую несхожесть, ряды (1) – (4) отражают одно и то же
фактическое распределение признака.
Для наглядного представления вариационные ряды изображают в виде
графиков. Наиболее распространенными способами представления эмпирических данных являются гистограмма, полигон частот или относительных частот
и полигон накопленных частот или кумулятивная кривая – кумулята.
Гистограмма строится для интервального вариационного ряда и состоит
из последовательности примыкающих друг к другу прямоугольников (рис. 1).
Ширина этих прямоугольников равна ширине интервалов группировки h и откладывается по оси абсцисс, а высота измеряется по оси ординат и
пропорциональна частоте ni или относительной частоте ωi . В первом случае
n
имеем гистограмму частот с высотами прямоугольников, равными i , и обh
щей площадью, равной объему выборки n . Во втором – гистограмму относиn
тельных частот с высотами прямоугольников – i
и общей площадью, равnh
~
ной 1. Ступенчатая ломаная f ( x ) , ограничивающая в этом случае сверху построенную фигуру, является статистической аппроксимацией кривой распределения, т.е. графика теоретической функции плотности вероятности f ( x ) исследуемой случайной величины Χ .
.0
Рис. 1
Если соединить плавной кривой середины верхних оснований прямоугольников (пунктир), то получим также приближенное представление графика
функции плотности f ( x ) .
Полигон частот или относительных частот представляет собой многоугольник с вершинами в точках ( xi , ni ) или ( xi ,ωi ) (рис. 2).
Рис. 2
При изображении полигона частот или относительных частот интервального вариационного ряда вершины многоугольника расположены в точках с
абсциссами, соответствующими срединным значениям интервалов xi0 .
Очевидно, полигон относительных частот является статистической аппроксимацией многоугольника распределения.
Полигон накопленных частот (кумулята) получается изображением в прямоугольной системе координат точечного вариационного ряда с накопленными частотами. При построении кумуляты дискретного признака на ось абсцисс наносятся значения признака – элементы выборки xi . Ординатами служат вертикальные отрезки – накопленные частоты m i (рис. 3).
Рис. 3
Накопленная частота m i значения xi получается суммированием частот
значений, предшествующих данному, с частотой ni , т.е. mi = n1 + n2 + + ni .
Отсюда, накопленная частота крайнего правого значения (или максимального
элемента выборки) равна объему выборки n .
Эмпирическая функция распределения
Пусть n x – число элементов выборки x1 , x2 , , xn объема n , меньших x
n
. Тогда x будет относительной частотой тех значений выборки, которые
n
меньше x . С изменением x будет, очевидно, меняться и эта относительная
частота, т.е. относительная частота будет функцией аргумента x . Эмпирической или статистической функцией распределения называется функция
n
F ( x ) = x . Иначе, эмпирическая функция распределения F (x ) есть относиn
тельная частота события Χ x в серии из n независимых измерений случайной величины Χ . F (x ) является статистической аппроксимацией функции
распределения F (x ) = Ρ( Χ x ) и обладает следующими свойствами:
1) значения F (x ) принадлежат отрезку [0;1];
2)
F (x ) – неубывающая функция;
3) если x max – наибольший элемент выборки, а x min – наименьший, то
0, x xmin
;
F (x ) =
1, x xmax
4) F (x ) непрерывна слева.
Для выборки, представленной рядом (1) эмпирическая функция распределения F (x ) запишется как
0, x x1
n
1 , x1 x x2
n
n + n2
F (x ) = 1
(5)
, x 2 x x3
n
1, x xr
График эмпирической функции распределения представляет собой ступенчатую линию со скачками в точках x1 , x2 , , xr (рис. 4).
1
Рис. 4
Проиллюстрируем построение вариационных рядов, их графиков, а также
эмпирической функции распределения на следующем примере.
Пример 1. Анализируется выборка из ста малых предприятий региона. Целью является изучение коэффициента соотношения заемных и собственных
средств ( xi ) на каждом i -ом предприятии. Таким образом, n = 100 , а i = 1,, n
. Результаты обследования n = 100 малых предприятий представлены в табл.
1. (Результаты обследования выстроены в таблице размером 10 10 в порядке
регистрации по строкам, так что 2-я строка начинается с 11-го наблюдения, 3я – с 21-го и т. д.).
Таблица 1
Коэффициенты соотношения заемных и собственных
средств предприятий
5,56
5,45
5,48
5,45
5,39
5,37
5,46
5,59
5,61
5,31
5,46
5,61
5,11
5,41
5,31
5,57
5,33
5,11
5,54
5,43
5,34
5,53
5,46
5,41
5,48
5,39
5,11
5,42
5,48
5,49
5,36
5,40
5,45
5,49
5,68
5,51
5,50
5,68
5,21
5,38
5,58
5,47
5,46
5,19
5,60
5,63
5,48
5,27
5,22
5,37
5,33
5,49
5,50
5,54
5,40
5,58
5,42
5,29
5,05
5,79
5,79
5,65
5,70
5,71
5,84
5,44
5,47
5,48
5,47
5,55
5,67
5,71
5,73
5,03
5,35
5,72
5,49
5,61
5,57
5,69
5,54
5,39
5,32
5,21
5,73
5,59
5,38
5,25
5,26
5,81
5,27
5,64
5,20
5,23
5,33
5,37
5,24
5,55
5,60
5,51
Требуется:
1. По данным выборки построить точечный вариационный ряд, распределив значения xi по частотам ni (ряд 1).
2. От ряда 1 перейти к интервальному вариационному ряду (ряд 2).
3. От ряда 2 перейти к точечному ряду, распределив значения xi0 по частотам ni (ряд 3) и относительным частотам в виде доли ωi и в виде процента
i 100% (ряд 4).
4. Построить: а) гистограмму относительных частот для ряда 2; б) полигон
частот для ряда 3; в) кумулятивную кривую для ряда 3.
5. Записать эмпирическую функцию распределения случайной величины
Χ – соотношения заемных и собственных средств предприятий, используя
ряд 3, и построить ее график.
Решение.
1. Для того чтобы построить точечный вариационный ряд, необходимо
расположить наблюдаемые значения xi в порядке их возрастания и
относительно каждого xi указать частоту ni , т. е. число повторений xi в выборке, при этом сумма всех частот должна быть равна объему выборки n .
Ряд 1:
xi
5,03
5,05
5,11
5,19
5,20
5,21
5,22
5,23
ni
1
1
3
1
1
2
1
1
xi
5,24
5,25
5,26
5,27
5,29
5,31
5,32
5,33
ni
1
1
1
2
1
2
1
3
xi
5,34
5,35
5,36
5,37
5,38
5,39
5,40
5,41
ni
1
1
1
3
2
3
2
2
xi
5,42
5,43
5,44
5,45
5,46
5,47
5,48
5,49
ni
2
1
1
3
4
3
5
4
xi
5,50
5,51
5,53
5,54
5,55
5,56
5,57
5,58
ni
2
2
1
3
2
1
2
2
xi
5,59
5,60
5,61
5,63
5,64
5,65
5,67
5,68
ni
2
2
3
1
1
1
1
2
xi
5,69
5,70
5,71
5,72
5,73
5,79
5,81
5,84
ni
1
1
2
1
2
2
1
1
Здесь объем выборки n = ni = 100 , а число различных значений r = 56 .
2. Так как объем выборки велик и число различных значений исследуемого
случайного признака также велико, то целесообразно перейти от точечного
ряда 1 к интервальному. Такой переход осуществляется по изложенной выше
методике следующим образом:
а) отмечаются наименьшее xmin = 5,03 и наибольшее xmax = 5,84 значения в
выборке;
б) весь обследованный диапазон [5,03; 5,84] разбивается на k равных интервалов группирования, где k 1 + log 2 n 1 + 1, 45ln n = 7,68 8 , отсюда шаг
x − xmin 5,84 − 5,03
=
= 0,101 .
группирования или ширина интервала h = max
k
8
Примем h = 0,10 ;
в) отмечаются крайние точки каждого из интервалов, а также подсчитываются числа выборочных данных, попавших в каждый из интервалов
n1 , n2 ,, nk (очевидно, здесь n1 + n2 + + n8 = 100 ). За нижнюю границу перC0 = xmin = 5,03 ,
вого
интервала
принимаем
тогда
C1 = C0 + h = 5,13, C2 = C1 + h = 5,23 , ,
C8 = C0 + 8h = 5,83 . Значения признака, попавшие на границу интервала,
условимся равномерно распределять по двум соседним интервалам.
Заметим, что схема группирования может быть построена иначе. Так, нижh
няя граница первого интервала может быть выбрана как C0 = xmin − = 4,98 ,
2
C
=
C
+
h
=
5
,
08
,
,
C
=
C
+
8
h
=
5
,
78
тогда 1
. Частоты, соответствующие ин0
8
тервалам группирования, можно также определять иначе: значения признака,
попавшие на границу интервала, относить к одному из соседних, например,
только к левому.
Следуя первоначально описанной схеме, получим ряд 2:
Ряд 2:
C i − C i +1
5,03-5,13
5,13-5,23
5,23-5,33
5,33-5,43
ni
5
6
10
20
C i − C i +1
5,43-5,53
5,53-5,63
5,63-5,73
5,73-5,83
ni
25
18
11
5
8
ni = 100 .
i =1
3. Для того чтобы перейти от интервального ряда 2 вновь к точечному,
необходимо отметить середины интервалов xi0 и сопоставить им частоты ni
или относительные частоты ωi . Так, распределение коэффициента соотношения заемных и собственных средств предприятий по частотам запишется в
виде ряда 3, а распределение по относительным частотам в виде ряда 4:
Ряд 3:
xi0
ni
5,08
5,18
5,28
5,38
5,48
5,58
5,68
5,78
5
6
10
20
25
18
11
5
ni = 100 .
Ряд 4:
xi0
5,08
5,18
5,28
5,38
5,48
5,58
5,68
5,78
i
0,05
0,06
0,10
0,20
0,25
0,18
0,11
0,05
i 100%
5
6
10
20
25
18
11
5
i = 1 , i 100% = 100% .
4. Гистограмма относительных частот для ряда 2 изображена на рис. 5.5.
2,5
0,5
.
5,0 5,1
3
3
5,83
Рис. 5
Полигон частот для ряда 3 показан на рис. 5.6.
25
5
5,08 5,18
5,78
Рис. 6
Для построения кумуляты представим ряд 3 по накопленным частотам m i
:
xi0
5,08
5,18
5,28
5,38
5,48
5,58
5,68
5,78
mi
5
11
21
41
66
84
95
100
Тогда кумулятой будет плавная кривая, изображенная на рис. 7.
100
50
5
5,08
5,78
Рис. 7
5. Эмпирическая функция распределения для ряда 3 запишется как
0, x 5,08
0,05, 5,08 x 5,18
0,11, 5,18 x 5,28
0,21, 5,28 x 5,38
F ( x ) = 0,41, 5,38 x 5,48 .
0,66, 5,48 x 5,58
0,84, 5,58 x 5,68
0,95, 5,68 x 5,78
1, x 5,78
Здесь, например, значение функции F (x ) , равное 0,05, найдено как 5100
, так как значение Χ 5,18 , а именно, x1 = 5,08 наблюдалось 5 раз; значения
Χ 5,28 , а именно, x1 = 5,08 и x1 = 5,18 наблюдались 5 + 6 = 11 раз, следова11
тельно, F (x ) =
= 0,11 при 5,18 x 5,28 и т. д.
100
График F (x ) изображен на рис. 8.
1
Рис. 8
График F (x ) является статистическим приближением соответствующего
графика теоретического распределения F (x ) .
Геометрическое представление теоретической функции распределения
может также давать и кумулята.
Общая логическая схема проверки
статистических гипотез
По своему назначению и характеру решаемых задач статистические критерии чрезвычайно разнообразны. Однако их объединяет общность логической схемы, по которой они строятся. Коротко эту схему можно описать так.
1. Выдвигается основная гипотеза Η 0 .
Если гипотеза параметрическая, то наряду с Η 0 выдвигается конкурирующая гипотеза Η 1 , которая должна быть принята в случае отклонения Η 0 .
Если же гипотеза Η 0 касается вида закона распределения вероятностей, то Η 1
формально не определяется: она состоит просто в отклонении Η 0 .
2. Задается уровень значимости α .
Для удобства значения α стандартизованы и принимаются обычно равными 0,1; 0,05; 0,01; 0,005; 0,001.
3. Выбирается критерий проверки гипотезы Η 0 .
Статистика критерия Κ = Κ ( x1 , x 2 ,, x n ), являясь функцией выборки, будет случайной величиной, закон распределения которой известен и затабулирован. Чаще всего в качестве таких известных распределений используются
Ν (0,1) , t -, χ 2 -, F -распределения.
4. Из таблиц распределения критерия по заданному уровню значимости α
выбирается критическая точка Κ кр , которая делит множество значений критерия на область принятия нулевой гипотезы d 0 и критическую область d1 .
«Размер» критической области определяется уровнем значимости α , «положение» области на оси определяется видом конкурирующей гипотезы Η 1 .
Так, если Η 0 : θ = θ0 , Η 1 : θ = θ1 , либо Η 1 : θ θ0 , строится правосторонняя критическая область, т. е. критическая область расположена справа от критической точки:
Правосторонняя критическая область строится и при проверке гипотез о
виде закона распределения.
Если Η 0 : θ = θ0 , а Η 1 : θ θ0 , строится двусторонняя критическая область:
Заметим, что в случае двусторонней критической области, область принятия нулевой гипотезы Η 0 совпадает с интервальной оценкой или доверительным интервалом для параметра θ , который накрывает неизвестное значение
этого параметра с вероятностью 1 − α . Если предполагаемое в основной гипотезе числовое значение неизвестного параметра θ0 попадает в интервальную
оценку этого параметра (ил интервальная оценка содержит гипотетическое
значение параметра θ0 ), то гипотезу Η 0 : θ = θ0 принимают; в противном случае ее отклоняют в пользу Η 1 : θ θ0 при заданном уровне значимости α .
И, наконец, если Η 0 : θ = θ0 , Η 1 : θ θ0 , критическая область d1 будет левосторонней:
5. По данным выборки x1 , x2 ,, xn подсчитывается наблюдаемое или
экспериментальное значение критерия Κ 0 (или Κ набл , Κ эксп ). Если окажется,
что вычисленное значение критерия принадлежит области принятия нулевой
гипотезы ( Κ 0 d 0 ), то Η 0 следует принять, т.е. считать ее не противоречащей
выборочным данным. В противном случае гипотезу Η 0 следует отвергнуть.
Так, например, если в случае правосторонней критической области
Κ 0 Κ кр , решение выносится в пользу Η 0 ; если Κ 0 Κ кр , решение в пользу
Η 1 ; если Κ 0 = Κ кр , теоретически наступает рандомизация, т.е. решение в
пользу Η 0 выносится на основе некоего эксперимента со случайными исходами, практически же меняют уровень значимости α .
В заключение отметим: принятие основной гипотезы Η 0 вовсе не означает, что Η 0 является единственно подходящей, просто предположение Η 0
не противоречит выборочным данным, однако таким же свойством могут
наряду с Η 0 обладать и другие гипотезы.
Гипотезы о виде закона распределения.
Критерий согласия 2
Рассмотренные в п.7.3, 7.4 методы проверки статистических гипотез предполагали известный вид закона распределения и касались лишь значений параметров этого закона. Однако в ряде случаев сама форма закона распределения является гипотетической и нуждающейся в проверке. Здесь речь пойдет о
проверке по данным выборки x1 , x2 , , xn основной гипотезы Η 0 о том, что
данная случайная величина Χ подчинена закону распределения F0 ( x ) . В таких случаях не всегда есть основание высказать альтернативную гипотезу в
явном виде. Часто в качестве гипотезы Η 1 имеется в виду просто невыполнение основной. Критерии проверки таких гипотез, называемые обычно критериями согласия, основаны на выборе определенной меры расхождения между
теоретическим (или гипотетическим) и эмпирическим распределениями. Одним из наиболее распространенных является критерий Пирсона.
В критерии Пирсона (критерий χ 2 ) за меру расхождения статистического
и теоретического законов распределения принимается величина χ 2 , выборочное значение которой определяется формулой
k (n − np )2
2
i
,
χ = i
npi
i =1
где k - число различных вариант (число интервалов группирования); n объем выборки. В случае, если Χ - дискретная случайная величина, то pi вероятность реализации значения xi , вычисленная в предположении, что выдвигаемая гипотеза верна, т. е. pi = ΡΧ = xi Η 0 . Если Χ - непрерывная случайная величина, то pi - вероятность попадания в i -й интервал,
pi = Ρxi Χ xi +1 Η 0 , i = 1,...,k . Очевидно, что в обоих случаях
k
pi = 1.
i =1
При n → закон распределения статистики χ 2 независимо от закона распределения Χ стремится к закону χ 2 (q ) , q = k − r − 1 , где r - число параметров теоретического распределения. Так, если выдвигается гипотеза о принадлежности случайной величины к нормальному закону, то q = k − 3 ; если гипотетический закон – распределение Пуассона, то q = k − 2 .
Процедура применения критерия χ 2 для проверки гипотезы Η 0 о том, что
исследуемая случайная величина Χ имеет закон распределения F0 ( x ) , состоит из следующих этапов.
1.
По выборке x1 , x2 , , xn наблюдений случайной величины Χ
найти оценки неизвестных параметров предполагаемого закона распределения
F0 ( x ) .
2.
Получить эмпирическое распределение случайной величины в виде
точечного или интервального вариационных рядов.
3.
Определить теоретические вероятности pi в предположении, что выдвигаемая гипотеза верна.
4.
Вычислить наблюдаемое или экспериментальное значение статистики критерия χ 02 .
5.
Принять статистическое решение: гипотеза Η 0 не противоречит вы2
борке наблюдений при заданном уровне значимости α , если χ 02 χ кр
, где кри2
тическая точка χ кр
= χ12−α - квантиль уровня 1 − распределения χ 2 с числом
2
степеней свободы k − r − 1 (см. приложение 4). Если же χ 02 χ кр
, то гипотеза
Η 0 отклоняется.
Рассмотрим этапы использования критерия χ 2 на примере нормального
распределения.
Пусть Η 0 : Χ ~ Ν (a ,σ ) , где параметры a = ΜΧ и σ = DΧ неизвестны.
По независимой выборке x1 , x2 , , xn наилучшими оценками этих параметn
n
(
)
2
1
1
ров будут соответственно a~ = x = xi и ~ = s =
xi − x .
n i =1
n − 1 i =1
Если выборка представлена в виде последовательности k интервалов шириной h , то несмещенными оценками математического ожидания и среднего
1 k
~
квадратического
отклонения
будут
a = x = ni xi ,
n i =1
(
)
2
x +x
1 k
h2
~
=s=
ni xi − x − , здесь xi = i i +1 - середина i -ого интервала,
n i =1
12
2
ni - соответствующая частота,
k
ni = n .
i =1
k
(ni − npi )2
i =1
npi
2
Статистика критерия χ =
распределена по закону χ 2 с k − 3
степенями свободы.
Теоретические вероятности pi в предположении, что гипотеза Η 0 верна,
вычисляются по формуле
x − x
x − x
− Φ i
,
pi = Ρ( xi Χ xi +1 ) = Φ i +1
s
s
t2
1 x −2
где Φ(x ) =
e dt - функция Лапласа (см. приложение 3).
2 0
Можно воспользоваться и плотностью стандартного нормального закона
( x ) (см. приложение 2), тогда
pi =
xi +1
k
xi
i =1
(x )dx , i = 1, , k ; pi 1.
Если интервальный ряд построен так, что границы k интервалов длиной
h равны ci −1 = xi − 0,5h , ci = xi + 0,5h , то соответствующие вероятности будут такими:
c1
p1 = ( x )dx ;
−
pi =
ci
(x )dx , i = 2,3, , k − 1 ;
ci −1
pk =
(x )dx .
c k −1
Наблюдаемое
значение
χ 02
сравнивается
с
критической
точкой
2
2
, то при заданном уровне значимости α гипо кр
= 12− (k − 3) . Если χ 02 χ кр
тезу Η 0 принимают.
Пример 7.6. По данным примера 5.1 выяснить, можно ли на уровне значимости = 0,05 считать нормальным распределение коэффициента соотношения заемных и собственных средств предприятий.
Решение. На принадлежность к нормальной генеральной совокупности исследуемой выборки объема n = 100 указывали элементы первичной статистической обработки данных. Убедимся в этом, используя критерий согласия χ 2
. Итак, имеем:
1.
Η 0 : Χ ~ Ν (a ,σ ) , где a~ = x = 5,457 ,
n
100
Dв =
0,0296 = 0,0298 = 0,1729 (значения x и Dв см. в
n −1
100 − 1
решении примера 5.5).
= 0,05 .
2.
8 (n − np )2
2
i
3.
= i
~ 2 (8 − 3) (здесь число интервалов групnpi
i =1
пирования k = 8 ).
4.
Из таблиц квантилей распределения χ 2 найдем критическую
~ = s =
2
точку кр
= 02,95 (5) = 11,07 (см. приложение 4). Критическая область правосторонняя:
5.
Для расчета наблюдаемого значения критерия χ 02 составим
две вспомогательные таблицы (используем интервальный вариационный ряд
2, см. стр.118):
Таблица 7.3.
c − x
c − x
Расчет npi = n Φ i +1
− Φ i
s
s
i
сi
c i +1
i =
ci − x
s
i +1 =
ci +1 − x
s
1
5,03 5,13
-2,4696
-1,8913
2
5,13 5,23
-1,8913
-1,3129
3
5,23 5,33
-1,3129
-0,7345
4
5,33 5,43
-0,7345
-0,1562
5
5,43 5,53
-0,1562
0,4222
6
5,53 5,63
0,4222
1,0006
7
5,63 5,73
1,0006
1,5789
Φ (Ζ i )
Φ (Ζ i +1 )
pi
0,021
9
0,066
-0,4713 -0,4049
4
0,137
-0,4049 -0,2673
3
0,207
-0,2673 -0,0596
7
0,222
-0,0596 0,1628
4
0,178
0,1628 0,3413
5
0,100
0,3413 0,4418
5
-0,4932 -0,4713
np i
2,19
6,64
13,73
20,77
22,24
17,85
10,05
8
5,73 5,83
1,5789
2,1573
0,4418
0,4842
Расчет
i
1
2
3
4
5
6
7
8
02
8
(ni − npi )2
i =1
npi
=
ni
np i
(ni − npi )2
5
6
10
20
25
18
11
5
100
2,19
6,64
13,73
20,77
22,24
17,85
10,05
4,24
100
7,8961
0,4096
13,9129
0,5929
7,6176
0,0225
0,9025
0,5776
(ni − npi )2
0,042
4,24
4
0,977 97,71
1 1 100
Таблица 7.4.
npi
3,6055
0,0617
1,0133
0,0285
0,3425
0,0012
0,0898
0,1362
5,2787
Сравниваем наблюдаемое значение критерия 02 = 5,2787 с критической
2
точкой кр
= 11,07 . Так как 5,2787<11,07, т. е. χ 02 принадлежит области принятия нулевой гипотезы, гипотезу о нормальном распределении коэффициента соотношения заемных и собственных средств предприятий региона принимаем.