Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
План:
1.Понятие нормального распределения.
2. z-стандартизация.
3. Правило трех сигм. Выбросы
4. Проверка гипотезы о нормальности распределения. QQ-plot
5.Центральная предельная теорема
Нормальное распределение (распределение Гаусса)распределение вероятностей случайных событий
1. Унимодально
2. Симметрично
3. Отклонение наблюдений от
среднего подчиняется
определенному вероятностному
закону
4. Мо=Ме=х̄
Z-стандартизация ( или z-преобразование)
– это перевод в шкалу с μ=0 и σ=±1
𝑥
𝑥
𝑖
𝑍
𝑖
𝜎
𝑥
=
−¯
Каждое z - значение показывает насколько далеко наблюдение отклоняется от среднего значения
в единицах стандартного отклонения
• Допустим, мы измерили рост 1000 человек, данное
распределение оказалось нормальным со средним равным 175 и
стандартным отклонением равным 8 (M = 175, sd = 8). Рост одного
из испытуемых составил 186,2. Чему равняется z значение, рассчитанное для этого испытуемого?
• Если отдельное наблюдение меньше, чем выборочное среднее, то
соответствующее z - значение будет:
-положительным,
-отрицательным,
-нулевым,
-зависит от значения СКО, возможны все три варианта
Выберите верные утверждения:
• Z значение не может быть больше трех сигм
• Если все выборочные значения положительные, то и после z
преобразования все значения останутся положительными.
• Если для некоторого наблюдения z значение равняется нулю,
следовательно это наблюдение совпадает со средним значением
по выборке
• Для каждого наблюдения в выборке можно рассчитать
соответствующее z значение
± ≈ 68,26
± 2 ≈ 95,44
± 3 ≈ 99,72
𝜎
𝜎
𝑥
𝑥
𝑥
Практически 0,14
невозможные
события
𝜎
𝑀
𝑀
𝑀
«Правило двух сигм» и «правило трех сигм»
2,15
2,15
0,14 Практически
невозможные
события
Если отдельное наблюдение в нашей выборке равняется 1000,
при условии, что выборочное среднее равняется 10, то такое
наблюдение:
• Можно рассматривать как необычное (выброс), т.к. оно очень
далеко отклоняется от среднего значения
• Чтобы судить о том, насколько необычным является это
наблюдение, необходимо знать, чему равняется стандартное
отклонение.
• Такое наблюдение в принципе не может принадлежать выборке
со средним значением равным 10, так как в 100 раз больше, чем
выборочное среднее, а вероятность такого события стремится к
нулю
а
а
о
• В реальных исследованиях оперируют не п раметрами, а их
приближенными значениями, так называемыми оценк ми
параметров или статистиками. Это объясняется ограниченностью
обследованных выб рок. Чем больше выборка, тем ближе может
быть оценка параметра к его истинному значению.
𝑥
• Допустим, что некоторый признак распределен нормально,
выборочное среднее равняется 100, а дисперсия равняется 25 ( ¯ =
100, D = 25). Тогда
1) Вычислите диапазон, в котором находятся приблизительно 95%
всех наблюдений
2) 99,7% всех наблюдений
Имеем нормальное распределение с х̄ = 150, Sd=8. Определить какая
доля наблюдений имеет значение х больше 154? Меньше 163?
Левосторонняя таблица z-значений
𝑥
• Считается, что значение IQ (уровень интеллекта) у
людей имеет нормальное распределение со
средним значением равным 100 и стандартным
отклонением равным 15 ( ¯ = 100, sd = 15). Какой
приблизительно процент людей обладает IQ >
125? От 95 до 125?
Примеры:
1.
2.
3.
Вывод: важность z-значения состоит в том, что оно позволяет сделать вывод о том, какая доля единиц
совокупности лежит в том или ином интервале значений переменной.
По-другому: вероятность встретить значение, превосходящее заданное значение переменной.
Проверка распределения на нормальность
• Косвенные
• Графические
• Расчетные
Тесты нормальности распределения
Алгоритм проверки отклонения закона распределения от
нормального :
1. Построение графиков: гистограммы, плотности вероятности,
box-plot, QQ-plot
2. Производится обнаружение выбросов. Делается вывод о
необходимости их исключения.
3. Рассчитываются косвенные оценки симметричности и остроты
распределения
4. Производятся расчеты критических значений КолмогороваСмирнова и Мана-Уитни
Графические методы
• Гистограмма
• График накопленных частот
• Box-plot
• QQ-plot
Box-plot нормально распределенной
случайной величины
Box-plot
QQ-plot сравнивает квантили эмпирического и
теоретического наблюдений
1. Коэффициент ассимметрии оценивает степень асимметрии
кривой плотности распределения
∑ =1 ( − ¯ ) ∗
3
=
3
∑
3
=
∗
1
3
Замечания:
𝑘
𝑓
𝑥
𝑥
𝑀
𝑖
𝑖
𝜎
2. Если распределение симметрично относительно
математического ожидания, то его коэффициент асимметрии
равен нулю
𝑓
𝜎
1. Коэффициент асимметрии положителен, если правый хвост распределения длиннее левого,
и отрицателен в противном случае.
𝑠
𝐴
Косвенные методы
Коэффициент асимметрии Пирсона
2. Коэффициент эксцесса (коэффициент островершинности) — мера
остроты пика распределения случайной величины
∑ =1 ( − ¯ )
3
1
−3=
∗ 4 −3
3
∑
4
=
∑ =1 ( − ¯ ) ∗
3
−3=
3
∑
4
=
∗
1
4
−3
Замечания:
𝑖
𝑖
𝑖
𝑖
𝑓
𝑥
𝑥
𝑥
𝑘
𝑛
𝑥
𝑀
𝑀
𝜎
𝜎
𝑓
𝑛
𝜎
2. У нормального распределения коэффициент эксцесса равен нулю
𝑘
𝜎
1. Коэффициент эксцесса положителен, если распределение островершинно, и отрицателен,
если распределение сглаженное (плосковершинное).
𝑘
𝐸
𝐸
Косвенные методы
Допустимые значения отклонения
эмпирических статистик от теоретических
• Стандартная ошибка асимметрии и эксцесса
=
6 ( − 1)
( + 1)( − 2)( + 3)
𝑥
𝑛
𝑛
𝑥
𝑠
𝑠
𝐴
𝑛
𝑛
𝑛
𝑛
𝑥
𝐸
𝑆
𝑆
𝑎
𝑒
𝑆
𝑛
𝑛
𝑠
𝑎
𝑆
𝑒
≤3
=
24 ( − 1)2
( − 2)
≤5
n=15
X
88.83
89.73
82.81
79.32
90.32
89.71
96.11
82.34
68.80
73.24
81.58
74.19
86.48
82.38
75.14
Всего
Расчетные методы
Критерий Колмогорова-Смирнова
1. Выдвигается гипотеза о нормальности распределения
Ho: распределение подчинено нормальному закону
2. Рассчитываются эмпирические и
теоретические частоты
3.Если вероятность р< 0,05 (0,01), то данное
эмпирическое распределение существенно
отличается от нормального.
Если р > 0,05 (0,01), то делают вывод о
приблизительном соответствии данного
эмпирического распределения нормальному.
Одновыборочный критерий Колмогорова-Смирнова
VAR00001
N
Параметры нормального распределенияa,b
Среднее
Среднекв.отклонение
Наибольшие экстремальные расхождения
Абсолютная
Положительные
Отрицательные
Статистика критерия
Асимптотическая значимость (2-сторонняя)
a. Проверяемое распределение является нормальным.
b. Вычислено из данных.
20
48,7625
7,39224
,128
,082
-,128
,128
,200
Расчетные методы
Критерий Шапиро-Уилка
1. Выдвигается гипотеза о нормальности распределения
Ho: распределение подчинено нормальному закону
2. Рассчитываются эмпирические и
теоретические частоты
3.Если вероятность р< 0,05 (0,01), то данное
эмпирическое распределение существенно
отличается от нормального.
Если р > 0,05 (0,01), то делают вывод о
приблизительном соответствии данного
эмпирического распределения нормальному.
Особенности:
• Критерий Колмогорова-Смирнова чувствителен к количеству
наблюдений. Его лучше использовать при n ≥ 80 . На выборках
n=20;30 практически всегда критерий не обнаружит различий
• При малых выборках у Критерия Шапиро-Уилка меньше вероятность
возникновения ошибок второго рода
• Если по данным расчетных критериев нельзя отвергать гипотезу о
нормальном распределении, это лишь значит, что по данным этой
конкретной выборки критерий не смог обнаружить («увидеть»)
отличия от нормального распределения.
𝜒
Критерий согласия Пирсона ²
Центральная предельная теорема-при достаточно больших объёмах выборки
статистики хорошо аппроксимируются нормальным распределением вне
зависимости от того, какое распределение было у выборки исходно
• Следует отметить, что центральная предельная теорема
справедлива не только для непрерывных, но и для дискретных
случайных величин. Опыт показывает, что закон распределения
суммы независимых случайных величин, сравнимых по своему
рассеиванию, достаточно быстро приближается к нормальному. В
среднем при грубом предположении распределение считают
нормальным при n≥30.
Таким образом, нормальное распределение дает возможность использовать
параметрические критерии и распространять результаты выборочных оценок
на генеральную совокупность с учетом доверительных интервалов.