Проверка статистических гипотез
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 8
§ 3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
Статистической гипотезой называется всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (то есть по результатам наблюдений).
Примеры статистических гипотез:
- математическое ожидание случайной величины равно конкретному числовому значению;
- генеральная совокупность распределена по нормальному закону.
Гипотезы могут быть параметрические (гипотезы о параметрах распределения известного вида) и непараметрические (гипотезы о виде неизвестного распределения).
Различают гипотезы простые, содержащие только одно предположение, и сложные, содержащие более одного предположения.
Например, гипотеза - простая;
а гипотеза : , ( где ) – сложная гипотеза, потому что она состоит из бесконечного множества простых гипотез.
Процедура сопоставления гипотезы с выборочными данными называется проверкой гипотезы. Для проверки гипотез используют аналитические и статистические методы.
3.1. Классический метод проверки гипотез
В соответствии с поставленной задачей и на основании выборочных данных формулируется (выдвигается) гипотеза , которая называется основной или нулевой. Одновременно с выдвинутой гипотезой , рассматривается противоположная ей гипотеза , которая называется конкурирующей или альтернативной.
Для проверки нулевой гипотезы вводят специально подобранную случайную величину , распределение которой известно и называют ее критерием.
Поскольку гипотеза для генеральной совокупности принимается по выборочным данным, то она может быть ошибочной. При этом возможны ошибки двух родов.
Ошибка первого рода состоит в том, что отвергается гипотеза , когда она на самом деле верна.
Ошибка второго рода состоит в том, что отвергается альтернативная гипотеза , когда она на самом деле верна.
1) Для определения вероятности ошибки первого рода вводится параметр :
- вероятность того, что будет принята гипотеза , при условии, что верна.
Величину называют уровнем значимости. Обычно выбирают в пределах .
2) Вероятность ошибки второго рода определяется параметром :
- вероятность того, что будет принята гипотеза , при условии, что верна.
Величину , то есть недопустимость ошибки второго рода (отвергнуть неверную и принять верную гипотезу ) называют мощностью критерия.
3.2. Сущность метода
Множество всех значений критерия разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается; другое – при которых она принимается.
Критической областью называется совокупность значений критерия, при которых нулевую гипотезу отвергают.
Областью принятия гипотезы (областью допустимых значений) называется совокупность значений критерия, при которых нулевую гипотезу принимают.
Обозначим критическую область .
Если вычисленное по выборке значение критерия попадает в критическую область , то гипотеза отвергается и принимается гипотеза . В этом случае можно совершить ошибку первого рода, вероятность которой равна . Иначе, вероятность того, что критерий примет значение из критической области , должна быть равна заданному значению , то есть.
Критическая область определяется неоднозначно. Возможны три случая расположения . Они определяются видом нулевой и альтернативной гипотез и законом распределения критерия .
Правосторонняя критическая область (рис.4 а) состоит из интервала , где определяется из условия и называется правосторонней точкой, отвечающей уровню значимости .
Левосторонняя критическая область (рис.4 б) состоит из интервала , где определяется из условия и называется левосторонней точкой, отвечающей уровню значимости .
Двусторонняя критическая область (рис.4 в) состоит из следующих двух интервалов: и , где точки и определяются из условий и
и называются двусторонними критическими точками.
Рис.4
3.3. Алгоритм проверки нулевой гипотезы
1. Располагая выборкой, формулируют нулевую гипотезу и альтернативную гипотезу .
2. Выбирают критерий проверки гипотезы , зависящий от выборочных данных и условий рассматриваемой задачи. Наиболее часто используют случайные величины, имеющие следующие законы распределения: нормальный, Стъюдента, Фишера-Снедекора, хи-квадрат.
3. Задают уровень значимости выбранного критерия и определяют соответствующую ему критическую область. Для определения критической области достаточно найти критическую точку - ее границу. Для каждого критерия имеются таблицы, по которым находят критическую точку.
4. Вычисляют значение критерия по результатам произведенных измерений и сравнивают с критической точкой.
5. Нулевую гипотезу отвергают, если вычисленное значение критерия попадает в критическую область, или считают справедливой, если оно окажется внутри области допустимых значений.
3.4. Проверка гипотез о законе распределения
Во многих случаях закон распределения изучаемой случайной величины неизвестен, но есть основания предположить, что он имеет вполне определенный вид: нормальный, экспоненциальный или какой-либо другой.
Пусть выдвинута гипотеза о каком-либо законе распределения.
Для проверки этой гипотезы требуется по выборке сделать заключение, согласуются ли результаты наблюдений с высказанным предположением.
Статистический критерий проверки гипотезы о предполагаемом законе неизвестного распределения называется критерием согласия.
Он используется для проверки согласия предполагаемого вида распределения с опытными данными на основании выборки.
Существуют различные критерии согласия: Пирсона, Колмогорова, Фишера и другие. Наиболее часто применяется критерий Пирсона.
3.5. Проверка гипотезы
о нормальном распределении генеральной совокупности
по критерию Пирсона
Пусть выборка из генеральной совокупности задана в виде статистического интервального ряда ряда:
где - интервальные частоты, - объем выборки,
- число интервалов, - длина интервала, - середина интервала.
Требуется проверить гипотезу о том, что генеральная совокупность распределена по нормальному закону, применяя критерий Пирсона. (К.Пирсон, 1857-1936 г; английский математик, биолог, философ).
Правило проверки
1. Вычисляем и ( см. Пример 5).
2. Находим теоретические частоты .
Их можно вычислить двумя способами.
Первый способ
,
где - объем выборки, - шаг, ;
- функция Гаусса, значение которой в точке
находим по таблице (Приложение 1).
- вероятность попадания значений случайной
величины в - й интервал.
Для вычисления составляем табл. 9.
Таблица 9
1
Второй способ.
где - объем выборки, ,
- вероятность попадания в - й интервал,
- значение функции Лапласа (Приложение 2).
Полагают , .
Для вычисления составляем табл. 10.
Таблица 10
Границы интервала
Границы интервала
1
-0,5
0,5
1
3. Сравниваем эмпирические ( ) и теоретические () частоты с помощью критерия Пирсона.
Для этого:
1) составляем расчетную табл.11 , по которой находим
- наблюдаемое значение критерия
Таблица 11.
1
Контроль: .
2) Находим число степеней свободы :
где - число интервалов; - число параметров предполагаемого распределения,
Для нормального распределения , так как (нормальный закон распределения характеризуется двумя параметрами и ).
4. В таблице критических точек ( квантилей) распределения
(Приложение 3) по заданному уровню значимости и числу степеней свободы
находим правосторонней критической области.
Если - нет оснований отвергнуть гипотезу
о нормальном распределении генеральной совокупности.
Если - гипотезу отвергаем.
Замечание.
1) Объем выборки должен быть достаточно велик .
2) Малочисленные частоты следует объединить. В этом случае и соответствующие им теоретические частоты также надо сложить.
Если производилось объединение частот, то при определении числа степеней свободы по формуле следует в качестве принять число интервалов, оставшихся после объединения частот.
Пример 10. Пусть из генеральной совокупности задана выборка объемом 50 (табл.4). Требуется проверить гипотезу о нормальном распределении генеральной совокупности по данной выборке.
¦ 1. Из рассмотренных выше примеров известно:
- интервальный ряд табл. 12
Таблица 12
Интервалы
Частоты
2
6
11
15
Интервалы
Частоты
11
3
2
.
- числовые характеристики выборки , ,
, (см. Пример 5).
2. Проверим гипотезу с помощью средних квадратических отклонений коэффициентов и .
Критерием распределения выборки по нормальному закону является равенство нулю коэффициентов и .
Если они отличны от нуля, то для предварительного выбора закона распределения вычисляют средние квадратические отклонения для и :
Если и отличаются по модулю от нуля не более чем на удвоенные средние квадратические отклонения, то есть и , то можно предположить, что данная выборка распределена по нормальному закону.
Рассчитаем
.
Для условие критерия выполняется: .
Для условие критерия выполняется: .
Гипотезу принимаем, то есть можно предположить, что генеральная совокупность распределена по нормальному закону.
3. Проверим гипотезу по критерию Пирсона.
1) , .
2) Найдем теоретические частоты вторым способом.
Интервальный ряд (табл.12) содержит интервалы с частотами меньшими 5. Следовательно, два первых и два последних интервала объединяем, при этом соответствующие частоты суммируем.
Составим расчетную табл.13 по форме табл.10.
Таблица 13
Границы интервала
Границы интервала
1
-2,06
-0,86
8
-1,01
-0,5
-0,3438
0,1562
7,81
2
-0,86
-0,26
11
-1,01
-0,28
-0,3438
-0,1103
0,2335
11,675
3
-0,26
0,34
15
-0,28
0,45
-0,1103
0,1736
0,2839
14,195
4
0,34
0,94
11
0,45
1,19
0,1736
0,3830
0,2094
10,47
5
0,94
2,14
5
1,19
0,3830
0,5
0,1170
5,85
1
50
3) Сравним эмпирические () и теоретические () частоты. Для этого составляем расчетную табл.14 по форме табл.11
Таблица 14
1
8
7,810
0,190
0,0361
0,0046
64
8,1946
2
11
11,675
-0,675
0,4556
0,0390
121
10,3640
3
15
14,195
0,805
0,6480
0,0457
225
15,8507
4
11
10,470
0,530
0,2809
0,0268
121
11,5568
5
5
5,850
-0,850
0,7225
0,1235
25
4,2735
0,2396
50,2396
Контроль:
. Расчеты проведены верно.
4) Зададим .
Вычислим число степеней свободы и найдем (Приложение 3). Получим .
Следовательно, нет оснований отвергать гипотезу о нормальном распределении генеральной совокупности .
Другими словами различие между эмпирическими () и теоретическими () частотами незначительное (случайное), которое можно объяснить малым объемом выборки.
Построим нормальную кривую. Для этого составим табл.15.
Таблица 15
Середины интервалов
-1,76
-1,16
-0,56
0,04
0,64
1,24
1,84
0,05
0,19
0,39
0,52
0,34
0,14
0,03
Рис.5
Так как гипотеза о нормальном распределении не отвергается, то нормальная кривая хорошо сглаживает гистограмму.