Нормальное распределение и другие законы распределения переменных в психологии.
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 6. Нормальное распределение и другие законы распределения
переменных в психологии.
Распределение данных связывает значения переменной и частоты
встречаемости, полученные на группе объектов. Различают теоретические и
эмпирические распределения, первые выражаются аналитической формулой и
представляют собой математическую модель, строго говоря, не встречающуюся
в реальности, но являющуюся более или менее удачным
приближением,
описанием эмпирического распределения. Такая модель может быть построена
для непрерывных и для дискретных данных,
сответственно будем иметь
непрерывное либо дискретное распределение. Заметим, что для непрерывных
данных следует говорить не о вероятности определенного значения, а о
плотности вероятности.
В психологических исследованиях чаще всего встречается эмпирические
распределения, гистограмма которых хорошо описывается так называемым
нормальным (гауссовым) распределением значений признака по частоте. Такое
распределение возникает, когда на значения случайной переменной, например,
на признак, характеризующий
испытуемых (интеллект,
тревожность),
оказывают влияние множество воздействий.
Нормальное
Лапласом)
распределение
(впервые
получено
Моавром,
характеризуется тем, что крайние значения
маленькие и самые большие) встречаются редко, а
признака
средние
Гауссом,
(самые
- наиболее
часто. Нормальным оно называется потому, что наиболее часто встречается в
исследованиях и представляется нормой.
Это теоретическое распределение описывается формулой:
Р(Х) =
1
2
е 0, 5
( х )
dx;
:
График
нормального
распределения
показывает
его
форму
-
симметричную колоколообразную кривую, которая слева и справа от среднего
значения асимптотически приближается к оси Х, поэтому значения х могут
быть как бесконечно малыми, так и бесконечно большими.
На графике по
оси Х отложены значения переменной по оси Y - частоты встречаемости
(точнее, плотность вероятности для непрерывной переменной). Понятно, что
переменная Х в теоретическом распределении имеет непрерывный характер.
график
1
>
2
Согласно формуле,
1
> 2
нормальное распределение
описывается только
двумя параметрами - средним значением (м.о. или средней Х) и дисперсией
2. То, что кривая симметрична и колоколообразна, означает, что
два
параметра формы кривой - асимметрия и эксцесс равны 0.
Совокупность нормальных кривых с различными значениями средней и
дисперсии
называют семейством нормальных кривых. Среди них есть
кривая с нулевой средней и дисперсией, равной единице. Такая кривая носит
название стандартной или единичной. Площадь под стандартной кривой,
вычисляемая как интеграл, равна единице. Любое нормальное распределение
сводится к единичному путем Z -преобразования, осуществляемого по
формуле:
?????? Z = ---------------Такая нормировка позволяет использовать при анализе любого нормального
распределения свойства единичного распределения, которые могут быть легко
рассчитаны в соответствии с аналитической формулой:
Р(Z)=
XX
S
Рассчеты
показывают, в пределах интервала значений Х, равного
плюс или минус , т.е. в пределах - , + находится 68, 3 % от всей
площади под кривой (правило одной ). Соответственно в интервале - 2 ,
+ 2 находится 95.5 % площади (правило двух ) , а в интервале - 3 ,
+ 3 находится 99.7% площади (правило трех ). Это означает, что
примерно 68.3% значений переменной эмпирического ряда, близкого к
нормальному распределению, находятся в интервале - , + и т.д.
Иначе говоря, вероятность того, что случайно взятая переменная не отклонится
от средней более чем на стандартное отклонение равна 0.683.
Нормальное распределение с идеальной колоколообразной кривой
применительно к реальным эмпирическим данным играет роль математической
модели.
В реальности
полученное эмпирическое распределение, его
графические изображения (гистограмма, полигон) - будут лишь более или
менее близким приближением к этой модели как в ситуации выборочного, так
и сплошного исследования.
При увеличении объема выборки устанавливается
истинная форма распределения и
оценка средней приближается к
математическому ожиданию и ли, в других терминах, генеральному среднему
.
Помимо
нормального
распределения
в
психологии
встречаются
равномерное и прямоугольное распределения, в которых разные значения
признака Х встречаются с одинаковой частотой.
Биномиальное распределение - распределение дискретной переменной
Распределение Пуассона -
Лекция 8
Ошибка репрезентативности и доверительный интервал для генерального
параметра
Выборочные характеристики, представляющие собой числа (точки на
шкале) называют точечными оценками (существуют также и интервальные
оценки). Оценки должны удовлетворять следующим требованиям: быть
состоятельными, эффективными, несмещенными. Только при удовлетворении
этих требований оценки хорошо представляют соответствующие параметры.
В математической статистике введено понятие статистической ошибки
или ошибки репрезентативности; она связана с точностью, с которой
выборочная оценка представляет, репрезентирует свой параметр.
Когда ошибка оценивания генерального параметра стремится к нулю при
возрастании объема выборки, т.е. значение оценки стремится к значению
параметра, то такая оценка называется состоятельной. Оценка называется
эффективной,
если
она
имеет
наименьшую
дисперсию
выборочного
распределения по сравнению с другими аналогичными оценками.
К примеру,
из трех показателей, описывающих положение центра
нормального распределения (средняя, медиана, мода), наиболее эффективной
является средняя арифметическая, наименее эффективной - мода.
Оценка
ожидание)
называется
ее
несмещенной,
выборочного
если
распределения
среднее
совпадает
(математическое
со
значением
генерального параметра. Выборочная средняя является несмещенной оценкой
генеральной средней, а тогда как выборочная дисперсия представляет собой
смещенную оценку.
Например, чтобы получить несмещенную оценку, надо при вычислении
выборочной дисперсии использовать формулу, где в знаменателе (N - 1):
D=S2=
1
2
( Xi X )
N 1
Для понимания смысла этих требований нужно рассмотреть понятие
выборочного распределения оценок какого-либо параметра.
Рассмотрим
условный
пример
для
такого
понятия,
как
арифметическое среднее: пусть ГС представляет собой 5 результатов
выполнения некоторого психологического теста: 8 16 20 24 32:
=
8 16 20 24 32
= 20
5
Таким образом, 20 - это значение генерального параметра.
Заменим изучение генеральной совокупности изучением выборок объемом
n = 4. Рассмотрим все возможные варианты таких выборок:
1) 8
16 20 24
= 17
2) 16 20 24 32
= 23
3) 8
16 24 32
= 20
4) 8
16 20 32
= 19
Из нашего примера видно, что из 5 оценок средних лишь одна совпала
с параметром. Заранее мы не можем знать, как составить (отобрать) выборку,
чтобы оценка параметра по ней была близка к параметру.
Однако очевидно, что чем больше объем выборки, тем меньше вероятность
того, что , определяемое по выборке, будет значительно отличаться от
генерального среднего (крайние случаи n=N-1 и n=2 ,т.е. N>>n) .
Когда
генеральная совокупность велика и, соответственно, число
возможных выборок велико, то совокупность выборочных оценок средних для
каждой
из
этих
концентрирующееся
выборок
вокруг
«концентрация» (дисперсия)
Дисперсия
образует
генерального
тем
выше,
нормальное
среднего,
чем
больше
распределение,
причем
эта
объемы выборок.
распределения средних имеет особое название, она именуется
ошибкой репрезентативности.
Выше речь шла о распределении выборочных средних.
Это же
рассуждение можно повторить для оценок дисперсии, моды, коэффициентов
корреляции и т.д.
В теории математической статистики доказано, что нормального
распределения при достаточном объеме выборки (на практике n 30),
стандартное отклонение среднего арифметического равно:
Sx =
S
N
; где
S - стандартное отклонение
N - объем выборки.
Эту величину называют также статистической ошибкой или ошибкой
репрезентативности, т.е. это средняя ошибка, которая допускается, когда
рассматривается как генеральный параметр.
Ошибка репрезентативности показателя асимметрии:
Sa= 6 / N
Ошибка репрезентативности показателя эксцесса:
Se= 24 / N
Ошибка репрезентативности среднего
Sx = S
N = S/ N
Ошибка репрезентативности стандартного отклонения
Ss2=S2/ 2N : Ss=S/ 2N
Теперь перейдем к понятию доверительного интервала, которое
применяется для любого параметра. Мы рассмотрим его для генеральной
средней.
По известным выборочным характеристикам можно построить интервал,
в котором с той или иной степенью вероятности находится генеральное
среднее. Понятие доверительного интервала связано с понятием доверительной
вероятности. Согласно этому принципу, маловероятные события считаются
практически невозможными, а события, вероятность которых близка к единице,
принимаются за почти достоверные. Обычно в психологии в качестве
доверительных используют вероятности р = 0,95 и р = 0,99. Это означает, что
при оценивании генерального параметра по известной выборочной оценке риск
ошибиться в первом случае - один раз на 20 испытаний, во втором случае 1 раз
на 100 испытаний.
С доверительной вероятностью связано понятие уровня значимости
= 1- р
Геометрически - это площадь под нормальной кривой выборочного
распределения, выходящая за пределы той его части, которая соответствует
Р%, поскольку в сумме они соответствуют всей площади под кривой. Иначе
говоря,
означает площадь двух хвостов под кривой нормального
распределения. При при р = 0,95 и = 0, 05 на каждый «хвост» приходится
по 2,5 % площади.
Вероятность того, что будет находиться в пределах
доверительного интервала x - t SX + t SX,
описывается
особой функцией, которая сведена в таблице (обычно это таблица 1 в
приложении учебников по математической статистике)
для р= 0,95
t=1,96
для р=0,99
t = 2,58
для p=0, 999 t =3,29
График нормальной кривой
Выбор того или иного уровня доверительной вероятности зависит
от исследователя, от его оценки ответственности за ошибочность
выводов относительно генерального параметра .
Пример: При измерении объема памяти у 100 испытуемых
было
= 9 и
получено среднее значение числа запоминаемых сигналов
стандартное отклонение S = 3. 27. Построить доверительный 95%
интервал для генеральной средней .
Вычисления проводятся по формуле:
x - t SX + t SX
9 - 1,96
3271
.
327
.
92+1,96
100
100
или 9+ 0.196 3,27 9 + 1..96 3,27 или 8. 36 9.64.
Таким образом, с вероятностью р = 0.95 генеральный параметр
находится в интервале 8.36 - 9.64.