Выравнивание статистических распределений и проверка гипотез о законах распределения случайных величин.
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛЕКЦИЯ 3
ВЫРАВНИВАНИЕ СТАТИСТИЧЕКИХ РАСПРЕДЕЛЕНИЙ И ПРОВЕРКА ГИПОТЕЗ О ЗАКОНАХ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН
Вопросы
1. Статистические законы распределения
2. Проверка гипотез о законах распределения методом К. Пирсона
1
Оценками законов распределения случайных величин являются статистические законы распределения. Их построение осуществляется на основе информации, содержащейся в выборке.
Простейшей формой статистического закона распределения является интервальный статистический ряд.
В этом случае интервал , которому принадлежат элементы выборки, разбивается на диапазоны (подинтервалы) и вычисляются частоты попадания элементов выборки в эти диапазоны.
Интервальный статистический ряд
Jl
…
…
ml
m1
m2
…
ml
…
mr
…
…
где ; ; – l-й диапазон, выделенный в рамках интервала ; ml – число элементов выборки, попадающих в l-й диапазон; r – число диапазонов, выделенных на интервале ; – частота (статистическая вероятность) попадания значений случайной величины в l-й диапазон; n – объем выборки (число элементов генеральной совокупности, попадающих в выборку),
. (1)
На основе интервального статистического ряда строится гистограмма распределения – графическое представление статистического закона распределения случайной величины.
Высота ступенек гистограммы определяется следующим образом:
, (2)
где – ширина l-го диапазона.
Пример построения гистограммы – см. ниже.
После того, как ряд построен возникает проблема выравнивания этого ряда.
Выравнивание – это подбор теоретической кривой распределения, в которой отражаются только существенные закономерности поведения статистических данных.
Один из методов, применяемых для разрешения данной проблемы, – метод моментов.
Тезисы, характеризующие существо метода моментов.
1. Класс функций, которыми производится выравнивание, выбирается исходя из специфики той области, в которой поставлен эксперимент. Иначе, класс функций выбирается на основе физической, экономической, биологической или иной сущности задачи.
В процессе обработки экспериментальных данных необходимо подобрать параметры, которые выделяют данную функцию (выравнивающую кривую) из всего класса функций.
2. Выравнивающая кривая (как функция f(x)) должна удовлетворять свойствам плотности распределения:
(3)
3. Параметры функции f(x) выбираются так, чтобы одноименные числовые характеристики статистического и теоретического распределений совпадали между собой.
Пример 1.
Произведено 500 измерений отклонения по вертикали при стрельбе в мишень. Результаты измерений сведены в статистический ряд, табл.1. Требуется выровнять данное распределение с помощью нормального закона.
Таблица 1
Интервальный статистический ряд (к примеру 1)
Jl
[–4; –3)
[–3; –2)
[–2; –1)
[–1; 0)
[0; 1)
[1; 2)
[2; 3)
[3; 4)
ml
6
25
72
133
120
88
46
10
0,012
0,050
0,144
0,266
0,240
0,176
0,092
0,020
Плотноть рапределения вероятностей при нормальном законе распределения задается выражением
. (4)
Из формулы (4) видно, что нормальный закон распределения определяется двумя числовыми характеристиками – математическим ожиданием и средним квадратическим отклонением (или дисперсией – что равносильно).
Требуется подобрать эти параметры так, чтобы обеспечивались равенства:
, , (5)
где , – оценки математического ожидания и среднего квадратического отклонения соответственно.
Равенства (5) должны выполняться в соответствии с третьим тезисом метода моментов.
Оценка математического ожидания вычисляется по формуле
(6)
где – середина (среднее значение) диапазона Jl.
Учитывая, что на всем интервале изменения случайной величины – вертикального отклонения при стрельбе выделяется 8 диапазонов, оценка математического ожидания (6) будет следующей:
.
Оценка дисперсии находится из выражения
, (7)
а оценка среднего квадратического отклонения
. (8)
В итоге применения формул (7) и (8) получается:
; .
В соответствии с (5):
, .
Выражение для аппроксимирующей кривой плотности распределения вероятностей принимает вид
. (9)
Если класс (бесконечное множество) кривых плотности распределения вероятностей нормального закона задается выражением (4), то (9) – это выражение выравнивающей кривой, которая аккумулирует в себе свойства конкретной выборки.
Класс в соответствии с первым тезисом метода моментов выбран исходя из того, что распределения погрешностей, отклонений и.т.д. подчиняются нормальному закону.
Далее вычисляются значения функции (9) на границах диапазонов, результаты сведены в таблицу.
Таблица 2
Значения плотности распределения нормального закона (к примеру 1)
x
–4
–3
–2
–1
1
2
3
4
f(xl)
0,004
0,025
0,090
0,199
0,274
0,234
0,124
0,041
0,008
На одном графике строится гистограмма и выравнивающая ее кривая распределения.
Гистограмма и теоретическая кривая распределения (к примеру 1)
В соответствии с (2) высота ступенек гистограммы на графике:
; ; ; ; ; ; ; .
При построении кривой использовались результаты, представленные в табл.2.
Из графика видно, что теоретическая кривая распределения f(x) сохраняет в основном существенные особенности статистического распределения. Но при этом она свободна от случайных неправильностей хода гистограммы, которые могут быть отнесены за счет случайных причин. Для более серьезного обоснования последнего суждения необходимо выполнить проверку гипотезы о принятом законе распределения.
2
Задача проверки гипотезы о виде закона распределения формулируется следующим образом.
Пусть в результате эксперимента получена выборка и выбран теоретический закон распределения случайной величины, характеризуемый плотностью распределения f(x). Иначе, выдвинута гипотеза о законе распределения случайной величины.
Необходимо на основании обработки и анализа полученной выборки проверить гипотезу о том, что исследуемая случайная величина подчинена выбранному закону распределения.
В настоящее время существует ряд методов решения данной задачи, однако наибольшее распространение получил метод К. Пирсона. В рамках данного метода в качестве меры рассогласования между статистическим и гипотетическим законами распределения используется функция разности статистической и теоретической вероятностей попадания случайной величины в заданные диапазоны:
. (10)
Мера расхождения (10) в методе К. Пирсона в явном виде представляется суммой квадратов разностей между статистической и теоретической вероятностями попадания случайной величины в диапазоны:
. (11)
Коэффициенты cl введены в выражение (11) для учета того, что абсолютные значения разностей неравнозначны при различных значениях pl. Действительно, одно и то же значение разности является малозначимым при большой величине pl и представляет собой заметную величину, если вероятность pl мала.
К. Пирсон показал, что коэффициенты cl целесообразно брать обратно пропорциональными вероятностям pl. При этом, если данные коэффициенты определять на основе выражения
, ,
то закон распределения случайной величины
(12)
соответствует 2-распределению (распределению К. Пирсона). Выражение (12) называется показателем согласованности гипотезы о законе распределения случайной величины.
Как известно, 2-распределение определяется числом степеней свободы
(13)
равным числу диапазонов r минус число независимых условий (связей), наложенных на случайную величину. Когда проверяется гипотеза о нормальном законе распределения, накладываются три условия:
1) ; 2) ; 3) .
Тогда принимается и число степеней свободы равно
. (14)
Также 2-распределение определяется уровнем значимости гипотезы α. Теоретико-вероятностный смысл уровня значимости – это вероятность ошибочности выдвинутой гипотезы. Данная величина исследователю задается лицом, принимающим решения. Например, означает, что исследователь должен проверить гипотезу, при этом вероятность ошибочности его выводов не должна превышать 0,05.
Порядок проверки гипотезы о виде закона распределения состоит в следующем.
1. Назначается уровень значимости , определяется число степеней свободы (13) и по таблице критических точек распределения 2 (приложение 7) определяется критическая граница .
2. Вычисляются вероятности попадания случайной величины , которая подчиняется гипотетическому закону распределения, в l-й диапазон:
, (15)
где – плотность распределения гипотетического закона. Очевидно, что должно выполняться условие
. (16)
На практике для вычисления вероятностей используется формула
, (17)
где – (18)
– функция нормированного нормального распределения (функция Лапласа).
Выражением (19) задается функция распределения случайной величины, которая может принимать значения на всей вещественной оси. Функция (см. лекция 2) – для случайной величины, принимающей значения на положительной вещественной полуоси.
Формула (17) равносильна (15), поскольку имеет место известное равенство:
, (19)
где – (20)
– функция распределения произвольной случайной величины, подчиняющейся нормальному закону.
Выражение (17) позволяет находить теоретические вероятности, используя табличные значения функции (18).
3. Рассчитывается значение u показателя согласованности гипотезы по формуле (12).
4. Проверяется условие
(21)
Если (21) выполняется, то гипотеза о выдвинутом законе распределения исследуемой случайной величины принимается, в противном случае отвергается.
Пример 2.
В условиях примера 1 проверить согласованность теоретического и статистического распределений (или, что равносильно, – проверить гипотезу о нормальном законе распределения исследуемой случайной величины).
1. Пусть уровень значимости гипотезы . Поскольку интервал изменения случайной величины разбит на 8 диапазонов (), число степеней свободы (14) составляет
.
По таблице приложения 7 определяется критическая граница:
.
2. Поскольку нормальный закон распределения имеет параметры и , формула (17) принимает вид
.
Значения функции находятся в таблице приложения 3.
Так, вероятность попадания значений случайной величины в диапазон :
.
Также вычисляются вероятности попадания в другие диапазоны, затем составляется расчетная таблица 3.
Таблица 3
Расчётные данные (к примеру 2)
Jl
–4; –3
–3; –2
–2; –1
–1; 0
0; 1
1; 2
2; 3
3; 4
0,012
0,050
0,144
0,266
0,240
0,176
0,092
0,020
pl
0,013
0,054
0,142
0,244
0,264
0,185
0,076
0,022
–0,001
–0,004
0,002
0,022
–0,024
–0,009
0,016
–0,002
~0
~0
~0
0,0005
0,0006
0,0001
0,0003
~0
~0
~0
~0
1,025
1,136
0,270
1,974
По формуле (12) находится наблюдаемое (вычисленное) значение показателя согласованности гипотезы
.
4. Поскольку
,
гипотеза о нормальном распределении случайной величины – вертикального отклонения при стрельбе в мишень принимается.