Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Московский институт психоанализа
Факультет психологии
Программа курса
«МАТЕМАТИЧЕСКАЯ СТАТИСТИКА»
(квалификация (степень) «бакалавр»)
Составитель:
к.псх.н.
И.Н. Майнина
Москва 2012 г.
1. ЦЕЛИ ОСВОЕНИЯ ДИСЦИПЛИНЫ
Психология, как наука, используя различные методы познания (эксперимент, измерение, наблюдение, интервью, беседа и др.), предполагает качественное и количественное описание поведения (индивида, общества, группы
и т.д.). Методы математической статистики позволяют оперировать этими
описаниями, основываясь на математических и логических моделях. Освоение дисциплины «Математическая статистика» поможет специалисту практически использовать основные математические и статистические методы
обработки и анализа данных при решении профессиональных задач.
Цель изучения дисциплины – освоение математических и статистических методов обработки данных психологических исследований.
Задачи изучения дисциплины
В результате изучения дисциплины студент должен:
Знать основные математические и статистические методы обработки
данных при решении разных профессиональных задач.
Уметь получать, обрабатывать и интерпретировать данные психологических исследований с помощью математико-статистического аппарата.
Владеть навыками использования в профессиональной деятельности
базовых знаний в области математической статистики.
2
2. СТРУКТУРА И СОДЕРЖАНИЕ ДИСЦИПЛИНЫ
Тематический план учебной дисциплины
Количество часов
Теоретические Практические
занятия
занятия
(лекции)
(вебинары)
№
Наименование тем
1
Измерения и шкалы.
Представление
данных в психологии. Выборочные
статистики.
Математическая
обработка данных.
Статистика.
Контрольная работа.
Итого:
2
3
4
Самостоя- Всего
часов
тельная
работа
2
10
12
2
2
16
20
4
4
22
30
2
8
10
8
8
56
72
2.1. Содержание дисциплины
Раздел 1. Основы измерения и количественного описания данных:
Тема 1. Измерения и шкалы.
Тема 2. Представление данных в психологии. Выборочные статистики.
Раздел 2. Статистический вывод: оценивание и проверка гипотез:
Тема 1. Математическая обработка данных. Статистика.
2.2. Теоретические занятия (лекции)
Тема 1. Измерения и шкалы
§ 1.1. Измерение. Измерительные шкалы
Существует множество определений «измерения», отличающихся друг
от друга. Общее определение: измерение – приписывание чисел вещам (объектам или событиям) в соответствии с определенными правилами. Эти правила устанавливают соответствие между измеряемым свойством объекта и
результатом измерения – признаком. Следует различать:
- объект исследования – в психологии это чаще всего люди, испытуемые, респонденты;
- свойства объекта – предмет изучения;
- признаки объекта – выраженность свойств в числовой шкале.
3
Например, измерить рост человека – значит приписать число расстоянию между макушкой человека и подошвой его ног, найденному с помощью
линейки. Измерение коэффициента интеллектуальности (IQ) ребенка – это
присвоение числа характеру ответной реакции, возникающей у него на группу типовых задач. Измерение преобразует определенные свойства наших
восприятий в известные, легко поддающиеся обработке вещи, называемые
«числами».
Как правило, в обыденной жизни мы не разделяем свойства вещей и их
признаки, но для исследователя это является важным моментом. В научном
исследовании точность, с которой признак отражает изучаемое свойство, зависит от процедуры измерения.
С математической точки зрения, измерением называется операция установления взаимно однозначного соответствия множества объектов и символов (как частный случай – чисел). Символы (числа) приписываются вещам по
определенным правилам, которые определяют шкалу измерения. Создание
шкалы возможно, т.к. существует изоморфизм формальных систем и систем
действий, производимых над реальными объектами. Шкала (лат. scala –
лестница), в буквальном смысле, – измерительный инструмент.
С. Стивенсон (1960) предложил классификацию из 4-ех типов шкал измерения:
1. Номинативная шкала (или номинальная, шкала наименований);
2. Порядковая шкала (или ординальная, ранговая);
3. Интервальная шкала (или шкала равных интервалов);
4. Шкала отношений (или шкала равных отношений).
Эти шкалы устанавливают определенные соотношения между свойствами
чисел и измеряемым свойством объектов. Шкалы разделяют на метрические
(если есть или может быть установлена единица измерения) и неметрические
(если единица измерения не может быть установлена). К метрическим шкалам относят интервальную шкалу и шкалу отношений, к неметрическим –
номинативную и порядковую шкалы. Метрические шкалы более мощные,
они лучше дифференцируют испытуемых, неметрические – менее мощные,
отражают меньше информации о различии объектов по измеренному свойству. Поэтому в исследовании следует применить более мощную шкалу.
Номинативная шкала или шкала наименований (номинальное измерение) получается путем присвоения «имен» объектам. При этом нужно разделить множество объектов на непересекающиеся подмножества. Другими словами, объекты сравниваются друг с другом, и определяется их эквивалентность-неэквивалентность. В результате данной процедуры образуется совокупность классов. Объекты, принадлежащие к одному классу, эквивалентны
друг другу и отличны от объектов, относящихся к другим классам. Эквивалентным объектам присваиваются одинаковые имена.
Операция сравнения является первичной для построения любой шкалы.
Для построения номинативной шкалы необходимо, чтобы объект был равен
или подобен сам себе (х = х для всех значений х). Т.е. о шкале наименований
можно говорить в тогда, когда эмпирические объекты просто «помечаются»
4
числом. Например, пол человека (1 – мужской, 0 – женский), национальность
(1 – русский, 2 – белорус, 3 – украинец) и т.д.
В случае шкалы наименований учитывается только одно свойство чисел
– то, что это разные символы. Привычные операции с числами – упорядочивание, сложение-вычитание, деление – при измерении в номинативной шкале
теряют смысл. При сравнении объектов можно сделать вывод только о том,
принадлежат они к одному или разным классам, тождественны или нет по
измеренному свойству. Несмотря на такие ограничения, номинативные шкалы широко используются в психологии; к ним применимы специальные процедуры обработки и анализа данных (относительные частоты, мода, корреляции случайных событий, критерий 2).
Измерение в порядковой шкале (или ранговой шкале) предполагает приписывание объектам чисел в зависимости от степени выраженности измеряемого свойства. На шкале порядка объект может находиться между двумя
другими, причем если а>b, b>с, то а>с (правило транзитивности отношений).
Существует множество способов получения измерения в порядковой
шкале. Но общее среди них – то, что при сравнении испытуемых друг с другом можно сказать, больше или меньше выражено свойство, при этом нельзя
оценить, насколько или во сколько раз больше или меньше оно выражено.
При измерении в ранговой шкале из всех свойств чисел учитывается то, что
они разные, и то, что одно число больше, чем другое. Числовые значения порядковой шкалы нельзя складывать, вычитать, делить и умножать.
Примером использования порядковых шкал является тестирование личностных черт человека, его способностей. Результаты спортивных соревнований, где местам, завоеванным спортсменами, присваивается соответствующий ранг. Основываясь на полученных данных, можно судить, например, о
том, кто раньше пришел к финишу, а кто позже. При этом нельзя оценить,
насколько каждый из них пробежал быстрее или медленнее другого.
Для интерпретации данных, полученных посредством порядковой шкалы, можно использовать более широкий спектр статистических мер. В качестве характеристики центральной тенденции можно использовать медиану, а
в качестве характеристики разброса – процентили. Для установления связи
двух измерений допустима порядковая корреляция (коэффициент корреляции Кендалла и Спирмена).
Шкала интервалов определяет величину различий между объектами в
уровне выраженности свойства. С ее помощью можно сравнить два объекта и
выявить, насколько более или менее выражено определенное свойство у одного объекта, по сравнению с другим. Измерение в этой шкале предполагает
возможность применения единицы измерения (метрики). Объекту присваивается число единиц измерения, пропорциональное выраженности измеряемого
свойства.
Важная особенность интервальной шкалы – произвольность выбора нулевой точки. Причем нуль не соответствует полному отсутствию измеряемого свойства. Произвольность выбора нулевой точки отсчета обозначает, что
5
измерение в этой шкале не соответствует абсолютному количеству измеряемого свойства. Поэтому, применяя эту шкалу, можно судить, насколько
больше или меньше выражено свойство при сравнении объектов, но нельзя
сказать, во сколько раз больше или меньше оно выражено. Примером шкалы
интервалов является измерение температуры по Цельсию (°С).
Интервальная шкала позволяет применять практически всю параметрическую статистику для анализа данных, полученных с ее помощью. Помимо
медианы и моды для характеристики центральной тенденции используется
среднее арифметическое, а для оценки разброса – дисперсия. Для оценки величины статистической связи между переменными применяется коэффициент корреляции Пирсона и др.
Шкала отношений или шкала равных отношений классифицирует объекты пропорционально степени выраженности измеряемого свойства. В этой
шкале устанавливается нулевая точка, позволяющая при сравнении объектов
говорить о том, во сколько раз один объект больше или меньше другого.
Примерами служат шкала температур Кельвина, измерение массы, роста, веса, времени реакции и выполнения тестового задания и др. Общим в
этих примерах является применение единиц измерения и то, что нулевой
точке соответствует полное отсутствие измеряемого свойства. Например, измерив время решения задачи испытуемыми, можно сказать не только о том,
кто и на сколько секунд (минут) решил задачу быстрее, но и о том, во сколько раз быстрее.
К значениям шкалы применимы любые статистические меры.
Другие шкалы
Дихотомическая классификация – вариант шкалы наименований. Применяется в случае, когда измеряется свойство, имеющее только два уровня
выраженности: «есть-нет» («точечное» свойство). Примеров таких свойств
является наличие или отсутствие у испытуемого какой-либо наследственной
болезни (дальтонизм, болезнь Дауна, гемофилия и др.), абсолютного слуха и
др. В этом случае исследователь имеет право проводить «оцифровку» данных, присваивая каждому из типов цифру «1» или «0», и работать с ними как
со значениями шкалы интервалов.
Шкала разностей, в отличие от шкалы отношений, не имеет естественного нуля, но имеет естественную масштабную единицу измерения. Ей соответствует аддитивная группа действительных чисел. Классическим примером
этой шкалы является историческая хронология. Она сходна со шкалой интервалов. Разница лишь в том, что значения этой шкалы нельзя умножать/делить
на константу. Поэтому считается, что шкала разностей – единственная с точностью до сдвига. В психологии шкала разностей используется в методиках
парных сравнений.
Абсолютная шкала является развитием шкалы отношений и отличается
от нее тем, что обладает естественной единицей измерения. В этом ее сходство со шкалой разностей. Число решенных задач («сырой» балл), если задачи эквивалентны, – одно из проявлений абсолютной шкалы. В психологии
абсолютные шкалы не используются. Данные, полученные с помощью абсо6
лютной шкалы, не преобразуются, шкала тождественна сама себе. Любые
статистические меры допустимы.
Реже используются и такие типы шкал, как ординальная (порядковая) с
естественным началом, лог-интервальная, упорядоченная метрическая и др.
Гласс и Стэнли (1976) приводят следующую сводную таблицу шкал измерения:
Шкала
Характеристики
Наименований Объекты классифицированы, а классы обозначены номерами. То, что номер одного
класса больше или меньше другого, еще ничего не говорит о свойствах объектов, за исключением того, что они различаются.
Порядковая
Соответствующие значения чисел, присваиваемых предметам, отражают количество
свойства, принадлежащего предметам. Равные разности чисел не означают равных разностей в количествах свойств.
Интервальная Существует единица измерения, при помощи
которой предметы можно не только упорядочить, но и приписать им числа так, чтобы
равные разности чисел, присвоенных предметам, отражали равные различия в количествах
измеряемого свойства. Нулевая точка интервальной шкалы произвольна и не указывает
на отсутствие свойства.
Отношений
Числа, присвоенные предметам, обладают
всеми свойствами объектов интервальной
шкалы, но, помимо этого, на шкале существует абсолютный нуль. Значение нуль свидетельствует об отсутствии оцениваемого
свойства. Отношения чисел, присвоенных в
измерении, отражают количественные отношения измеряемого свойства.
Примеры
Раса, цвет глаз, номера на
футболках, пол, клинические диагнозы, автомобильные номера, номера
страховок
Твердость минералов,
награды за заслуги, ранжирование по индивидуальным чертам личности,
военные ранги.
Календарное время, шкалы температур по Фаренгейту и Цельсию.
Рост, вес, время, температура по Кельвину (абсолютный нуль).
§ 1.2. Переменные. Измерение переменных
Переменные – параметр реальности, который может изменяться и/или
изменяется в экспериментальном исследовании. Различают: независимые переменные – изменяемые экспериментатором; зависимые переменные – изменяемые под влиянием изменений независимой; внешние (побочные) недоступные управлению, но влияющие на зависимую, источник погрешности;
латентные – недоступные непосредственно измерению, фиксируются путем
анализа совместной вариации зависимых переменных; дополнительные –
учитываемые в эксперименте внешние переменные и т.д.
Переменными являются характеристики людей или вещей. Например,
вес, возраст, число студентов, время реакции, показатель экстраверсии, уровень интеллекта. Психологические переменные – это случайные величины,
т.к. заранее неизвестно, какое значение они примут.
7
Переменные могут быть дискретными, когда их измерения дают только
отдельные значения (например, количество детей) и не могут принимать
промежуточных значений (например, 0,5). Другие переменные могут быть
непрерывными, измерения которых могут дать любое значение внутри какойлибо области (к ним относятся вес, возраст, время реакции и др.).
Точного измерения переменной нельзя достигнуть, т.к. измерение всегда
должно где-то оборвать точное значение. Поэтому точное значение переменной – это косвенное значение. Оно является результатом процесса измерения.
Измерение любой непрерывной переменной должно сопровождаться
определением точности процесса измерения, чувствительность которого задается минимальной единицей цифровой шкалы. Например, рост человека
может быть измерен с точностью до сантиметра, возраст – с точностью до
дня. Следовательно, чувствительностью будут в этом случае сантиметры и
дни. Пределы для точного значения в окрестности любого найденного значения определяются путем прибавления и вычитания половины чувствительности измерительного процесса от найденного значения. Например, если рост
человека, измеренный с точностью до сантиметра, составляет 160 см, то его
действительный рост в это время и в этих условиях равен 160 ± 0,5 см, т.е.
будет находиться в интервале между 159,5 см и 160,5 см.
§ 1.3. Символы, данные и операции. Обозначение сигма
Для указания множества чисел, не записывая конкретно каждое из них,
используется любая произвольная величина, например,
(читается как « с
индексом i»). заменяет число, а i (подстрочный индекс) указывает, какое
число имеет i-й номер. Когда индекс зафиксирован, например, на значении 3,
то
означает определенное число – третий член некоторой группы.
обозначает одно число,
– другое, причем 1 и 2 являются только обозначениями (наименованиями). На основе индекса исследователь не можем сказать,
что больше
или . Любой ряд чисел можно обозначить через , , ,
… , где
– первое число в последовательности из n чисел, а
– последнее. Например, группы чисел 20, 32, 12, 45 можно обозначить через , ,
и , где,
– число 20,
– число 32,
– число 12, а
– число 45.
Символы являются полезным и стенографически экономным средством.
Они созданы для простоты обработки результатов исследования.
Данные можно классифицировать применительно к любому количеству
характеристик. Они могут быть расположены в таблице по строкам и столбцам. Каждый элемент такого расположения можно описать, если известна
группа (столбец), в которой он находится, и его положение в этой группе
(строку). Например:
Порядок внутри
Номер группы
группы
1
2
3
Первый (1)
Второй (2)
8
где
– это первый элемент третьей группы, равный 4,7,
, соответственно, – второе число во второй группе. Величиной
можно обозначить каждое из чисел таблицы, придавая i значение 1 или 2, а j – 1, 2 или 3.
Анализ большинства данных включает сложение, вычитание, умножение и деление чисел. Например,
+
заменяет сумму первого и второго
числа в последовательности ,
… . В случае, когда необходимо сложить все числа группы, используется обозначение сигма (∑).
∑ - это греческая прописная буква «сигма». Общепризнанно, что краткое
обозначение ∑ является экономным.
Сокращение записи + +…+ выглядит так:
и читается как «сумма , где i изменяется от 1 до n». Или
читается
как «сумма , когда i пробегает значение от 1 до 3».
При использовании ∑-обозначения основные операции (сложение, вычитание, умножение, деление и др.) над числами остаются неизменными, меняется лишь их запись. Например:
+
+…+
;
;
.
Тема 2. Представление данных в психологии.
Выборочные статистики
§ 2.1. Наглядное представление данных. Графическое представление
распределения частот. Правила построения графиков
Графическое представление данных является ценным дополнением к
статистическому анализу и обобщению. График или диаграмма является
наглядным представлением результатов исследования и служит эффективным средством выявления точки зрения исследователя. Если количественные
данные – абстрактны, то рисунок или график дает более конкретно представление.
В известной книге Дж. Гласса и Дж. Стэнли (1976. С. 44) приводятся
разнообразные графики и диаграммы, наглядно представляющие результаты
исследования эксплуатации автобусов в США. Каждый график наглядно интерпретирует конкретный вопрос.
9
Анализ данных начинается обычно с изучения частоты встречаемости
того или иного признака в множестве наблюдений. Для этого строятся таблицы и графики распределения частот. Если признак принимает лишь несколько возможных значений (до 10-15), то таблица распределения частот
показывает частоту встречаемости каждого значения признака. Если указывается, сколько раз встречается каждое значение признака, то это таблица абсолютных частот распределения. Если указывается доля наблюдений, приходящихся на то или иное значение признака, то говорят об относительных
частотах распределения. Пример таблицы распределения частот:
10
faj
foj
Fcum
Значение (абсолютная (относительная (накопленная
частота)
частота)
частота)
1
3
0,05
0,05
2
12
0,20
0,25
3
21
0,35
0,60
4
15
0,25
0,85
5
9
0,15
1,00
Сумма:
60
1
Абсолютная и относительная частоты связаны соотношением:
,
где fa – абсолютная частота некоторого значения признака, N – число наблюдений, f0 – относительная частота значения признака. Сумма всех абсолютных частот равна числу наблюдений – N, а сумма всех относительных частот
равна 1. Нередко относительная частота применяется для оценки вероятности
встречаемости значения.
Во многих случаях признак может принимать множество различных
значений, например, если мы измеряем время решения тестовой задачи. В
этом случае о распределении признака позволяет судить таблица сгруппированных частот, в которых частоты группируются по разрядам или интервалам значений признака.
Таблицы распределения накопленных частот показывают, как частоты
накапливаются по мере возрастания значений признака. Напротив каждого
значения (интервала) указывается сумма частот встречаемости всех наблюдений, величина признака которых не превышает данного значения (меньше
верхней границы данного интервала).
Обычное распределение частот не дает вполне ясной картины. Поэтому
для более наглядного представления строится график распределения частот
или график накопленных частот.
Существует три общих метода графического представления распределения частот: гистограмма (или столбиковая диаграмма), полигон распределения и сглаженная кривая.
Гистограмма – последовательность столбцов, каждый из которых опирается на один разрядный интервал, а его высота отражает число случаев (частоту) в этом разряде. Обозначение горизонтальных и вертикальных шкал
гистограммы зависит от частоты и разряда показателей. Принято распространять шкалу на один разрядный интервал вправо и влево от заданного
диапазона. Чтобы фигура не получилась слишком приплюснутой или вытянутой, обычно выбирают шкалы так, чтобы ширина гистограммы составляла
около одной или двух третей ее высоты, т.е. чтобы отношение высоты к ширине было, примерно, 3:5. Середина столбца совмещается с серединой интервала разряда. Пример гистограммы:
11
Построение полигона распределения во много напоминает посторенние
гистограммы. В гистограмме каждый столбец заканчивается горизонтальной
линией на высоте, соответствующей частоте в этом разряде. В полигоне он
заканчивается точкой над серединой своего разрядного интервала на той же
высоте. Далее точки соединяются отрезками прямых. Т.к. на разрядах справа
и слева от разрядов распределения частота имеет нулевое значение, полигон
заканчивается соединением точек, представляющих наивысший и наинизший
разряды, с координатной осью на серединах следующих интервалов. Пример
изображения полигона для данных гистограммы:
Не редко вместо гистограммы и полигона строят сглаженную кривую.
Разница состоит в том, что сглаженная кривая проводится по точкам
настолько близко, насколько это возможно. Гладкая кривая называется кривой процентилей (или огивой). Эта кривая широко применяется при представлении оценок.
Дж. Гласс и Дж. Стэнли (1976. С. 54-55) приводят некоторые правила
построения графических изображений, изданные еще в 1915 г. комитетом
представителей групп, интересующихся графическими методами. Эти правила актуальны и сегодня.
Общие правила построения графиков:
1. Общая структура графиков должна предполагать чтения слева
направо.
2. Когда используется возможность изображать количества линейных
величин, например, с помощью площадей или объемов, вероятнее всего, что
их не удастся верно истолковать.
3. Вертикальную шкалу для кривой независимо от ее назначения следует выбрать так, чтобы на рисунке оказалась нулевая отметка.
4. Если нулевая линия вертикальной шкалы окажется не перпендикулярной по отношению к графику, то нулевая линия должна быть показана с
помощью горизонтальной оси.
5. Нулевые линии шкал для кривой следует резко отграничивать от
других координатных линий.
12
6. Для кривых, которые имеют шкалу, изображающую проценты, желательно, выделить линию 100 % или другие линии, используемые в качестве
основ для сравнения.
7. Когда шкала относится к датам, а представляемый период является
неполным, лучше не выделять первые и последние ординаты, т.к. подобная
диаграмма не отмечает начало или конец времени.
8. Когда кривые рисуются в логарифмических координатах, ограничительные линии должны находиться на том же уровне (кратном десяти) на логарифмических шкалах.
9. Рекомендуется показывать не больше координатных линий, чем это
необходимо, чтобы облегчить чтение диаграммы.
10. Кривые линии диаграммы должны резко отличаться от прямых.
11. Для кривых, характеризующих группы наблюдений, рекомендуется
по возможности ясно указывать на диаграмме все кривые, представляющие
отдельные наблюдения.
12. Горизонтальную шкалу для кривых следует читать слева направо, а
вертикальную – снизу вверх.
13. Цифры на шкалах следует располагать слева и снизу или вдоль соответствующих осей.
14. Часто желательно включать в график цифровые данные или изображаемые формулы.
15. Если цифровые данные не попали на график, желательно привести
данные в таблице, сопровождающей график.
16. Все обозначения и цифры для удобства чтения следует располагать
от основания как начала или с правого края как начала.
17. Наименования следует делать яснее и полнее. Если это требуется,
необходимо дополнительно вводить подзаголовки или пояснения.
§ 2.2. Нормальное распределение
В XVII в. в Европе проводились исследования, в частности, Б. Паскалем
и П. Ферма, которые впоследствии оформились в теорию вероятностей. Эти
исследования проводились как частные и финансировались игроком азартных игр Шевалье де Мере, которому было важно понять причину удачи.
В начале XVIII в. разрабатывались методы по решению задач теории вероятностей. Дж. Стирлингом была выведена формула, аппроксимирующая
произведение первых n целых чисел, которое часто встречается в задачах
теории вероятностей:
. Благодаря этой формуле
стало возможным оценить вероятность того, что n независимых испытаний
события с вероятностью Р получения одного («удача») из двух исходов обеспечат r «удач». Эту задачу удалось решить ученому де Муавру.
Перед де Муавром стояла задача в нахождении такого уравнения кривой, которая бы хорошо аппроксимировала кривую, полученную соединением концов отрезков на рисунке:
13
Ему удалось показать, что уравнение кривой, наиболее близко проходящей
от кривой, соединяющей концы отрезков, имеет следующую формулу:
,
где и – высота кривой над всяким заданным значением X на графике распределения частот; π – отношение длины окружности к диаметру круга (приблизительно равное 3,142); е – основание системы натуральных логарифмов
(приблизительно равное 2,718), а μ и σ – числа, которые определяют положение кривой относительно числовой оси и регулируют ее размах.
Представленный выше график – это простая симметричная, колоколообразная кривая, которая называется нормальной кривой. Говорят о некоторой
нормальной кривой, т.к. представленное уравнение лишь задает некоторую
типичную форму графика. Меняя значения μ и σ, можно сдвигать конкретную нормальную кривую по числовой оси вверх и вниз и менять ее размах.
Величина μ соответствует среднему распределения частот большой выборки,
похожего на нормальную кривую, а σ – стандартному отклонению этого распределения.
Буква z используется для обозначения нормально распределенной переменной с μ= 0 и σ = 1. См. рисунок ниже:
Из рисунка видно, что кривая не пересекает и не касается оси z в точках
-3 и 3; кривая симметрична относительно вертикали, проведенной через z = μ
= 0; площадь между кривой и осью z = 1. Нормальная кривая всегда будет
симметрична относительно μ.
Еще одной особенностью кривой является ее изгиб. По обе стороны от μ
(равного 0), кривизна сначала уменьшается по мере удаления от оси симметрии, а затем снова увеличивается. Т.е. кривая имеет точку перегиба, лежащую на расстоянии в одну σ от μ (равного 1).
Нормальная кривая, представленная на рисунке выше, называется единичной нормальной кривой, т.к. площадь под ней равна 1. Среднее и стандартное отклонение кривой (μ = 0, σ = 1) очень удобны, т.к. любую другую
14
нормальную кривую можно совместить со стандартной простым преобразованием – вычитанием μ и делением на σ.
Чтобы найти ординату и (высоту кривой над осью z) для какого-либо
значения единичной нормальной кривой или площадь под кривой между какими-либо двумя значениями z, можно воспользоваться специальными статистическими таблицами. Например, требуется найти площадь под единичной нормальной кривой слева от z = -2,50. Значение -2,50 находится в первом
столбце таблицы. Справа, во втором столбце, озаглавленном «Площадь»,
находится число 0,0062. Таким образом, слева от z = -2,50 содержится только
62 десятитысячных площади под единичной нормальной кривой. Высота
единичной нормальной кривой в точке z = -2,50 определяется в столбце «Ордината» справа от столбца «Площадь». Для z = -2,50, и = 0,0175.
Т.к. общая площадь под кривой = 1, то площади (но не ординаты) можно
рассматривать как доли или проценты целого. 97,5% площади под единичной
нормальной кривой лежит слева от 1,96.
Таблицы также используются для определения площади под единичной
нормальной кривой между двумя произвольными значениями z. Например,
площадь слева от z = -1,27 составляет 0,1020, а площадь слева от z = 0,50
равна 0,6915. Следовательно, площадь между -1,27 и 0,50 определяется разностью 0,6915 – 0,1020 = 0,5895. Таким образом, около 59 % площади лежит
между этими точками:
Существует бесконечное множество нормальных кривых, отличающихся друг от друга значениями μ и σ. Однако их объединяет одно общее свойство, которое заключается в доле площади под кривой между любыми двумя
точками, выраженными в стандартных отклонениях. Так, в любом нормальном распределении приблизительно:
68 % площади под кривой лежит в пределах одной σ от среднего в
любом направлении: μ ± 1σ;
95 % площади под кривой лежит в пределах двух σ от среднего μ;
99,7 % площади под кривой лежит в пределах трех σ от среднего μ.
Нормальное распределение – это распределение плотности вероятности
р(х) значений зависимой переменной по отношению к независимой под влиянием множества не взаимодействующих факторов.
Нормальная кривая – это кривая, описывающая полигон частот измерений нескольких различных переменных. Необходимо знать, что ни одна совокупность данных не может иметь точно нормального распределения. Од15
нако исследователям иногда полезно, допуская незначительную ошибку,
утверждать, что значения переменной «нормально распределены».
Различают единичное (стандартное) и двумерное нормальное распределение. Для единичного нормального распределения значение X указывает,
что точка отстоит от среднего на X единиц. Отклонение значения от его
среднего есть X – μ. Число стандартных отклонений, которое отделяет X от
среднего, равно
. Эта величина называется единичным (стандартным) нормальным отклонением.
Если X имеет нормальное распределение со средним μ и стандартным
отклонением σ, то
обладает единичным нормальным распределением, но не наоборот. Форма нормальной кривой не изменяется при вычитании μ и делении на σ.
Если X имеет нормальное распределение со средним μ и стандартным
отклонением σ, то
характеризуется нормальным распределением со средним 0 и стандартным отклонением 1, т.е.
имеет
единичное нормальное распределение.
Площадь между Х1 и Х2 в нормальном распределении со средним μ и
стандартным отклонением σ равна площади между
и
в единичном нормальном распределении.
Теория корреляции тесно связана с нормальным распределением и двумерным нормальным распределением. Одной из задач статистики с момента
ее зарождения как самостоятельной дисциплины было описание характера
связи переменных. Например, являются ли умные дети менее развитыми физически, чем дети с более скромными интеллектуальными задатками?
Наблюдается ли у высоких родителей тенденция иметь высоких детей? Эти
вопрос можно изучать как проблему описания характера связи значений переменных X и Y, т.е. вопросы о двумерных связях (связях между двумя переменными).
Если измеряются две характеристики у большой группы объектов, то
полученные данные можно представить двумерным распределением частот,
где для каждого лица существует пара значений – X и Y. Двумерное распределение задает частоты, с которыми различные пары значений X и Y встречаются в группе лиц. Например, так выглядит двумерное распределение частот для группы лиц, у которых измерялся уровень интеллекта (значение X) и
физическая сила (значение Y):
16
Многие двумерные распределения, построенные по данным психологических исследований, имеют характерную форму. Поверхность, проведенная
через концы отрезков, представляющих частоты в двумерном распределении,
напоминает колокол, который можно вытягивать в направлениях X и Y и
вращать вокруг центра в плоскости X – Y. Такое уравнение поверхности
называется двумерным нормальным распределением. Гладкая непрерывная
колоколообразная поверхность обеспечивает математически удобное и практически удовлетворительное представление многочисленных двумерных
нормальных распределений.
Двумерное нормальное распределение, подобно обычному нормальному
распределению, задается семейством трехмерных поверхностей. Например,
двумерное нормальное распределение (поперечное сечение) выглядит так:
Все двумерные нормальные распределения имеют следующие характеристики:
Распределение значений X без учета значений Y, которым они соответствуют, есть нормальное распределение.
Распределение значений Y без учета значений X, которым они соответствуют, есть нормальное распределение.
Для каждого фиксированного значения X (например, X1) значения Y
для объектов, имеющих X1, дают нормальное распределение с дисперсией
.
Для каждого фиксированного значения Y1 переменной Y значения X
для объектов, имеющих Y1, дают нормальное распределение с дисперсией
.
Средние значения Y для каждого отдельного значения X ложатся на
прямую.
§ 2.3. Первичные описательные статистики: меры центральной тенденции, меры изменчивости, меры связи
К первичным описательным статистикам (Descriptive Statistics) относят числовые характеристики распределения измеренного на выборке признака. Каждая такая характеристика отражает в одном числовом значении
свойство распределения множества результатов измерения. Основное назначение каждой из первичных описательных статистик – замена множества
значений признака, измеренного на выборке, одним числом (например, средним значением как мерой центральной тенденции). Описание группы при
17
помощи первичных статистик позволяет интерпретировать результаты измерений, в частности, путем сравнения первичных статистик разных групп.
Мера центральной тенденции (Central Tendency) — это число, характеризующее выборку по уровню выраженности измеренного признака. Свойства (значения), используемые для описания совокупности данных, могут
быть описаны показателями, известными как «статистики свертки». Различные меры центральной тенденции совокупности данных предполагают
разные определения «центрального положения».
Существуют три способа определения «центральной тенденции», каждому из которых соответствует своя мера: мода, медиана и выборочное среднее.
Наиболее просто получаемой мерой центральной тенденции является
мода. Мода (Mode) – такое значение в множестве наблюдений, которое
встречается наиболее часто. Это значение признака, а не его частота. Например, в совокупности значений (2, 6, 6, 8, 9, 9, 9, 10) модой является 9, потому
что оно встречается чаще любого другого значения. Мода представляет собой наиболее частое значение (в данном примере 9), а не частоту этого значения (в примере равную 3).
Однако не всякая совокупность значений имеет единственную моду в
строгом понимании этого определения, поэтому рабочее определение моды
содержит особенности и соглашения, которые следует учитывать. Соглашения об использовании моды:
1. Если все значения в группе встречаются одинаково часто, принято
считать, что группа оценок не имеет моды. Например, в группе (0,5; 0,5; 1,6;
1,6; 3,9; 3,9) мода отсутствует.
2. В случае, когда два соседних значения имеют одинаковую частоту и
они больше частоты любого другого значения, мода есть среднее этих двух
значений. Например, мода группы значений (0, 1, 1, 2, 2, 2, 3, 3, 3, 4) равна
2,5.
3. Когда два несмежных значения в группе имеют равные частоты и
они больше частот любого значения, то существуют две моды. Например, в
группе значений (10, 11, 11, 11, 12, 13, 14, 14, 14, 17) модами являются 11 и
14. В этом случае говорят, что группа оценок является бимодальной. Большие
множества данных часто рассматриваются как бимодальные, когда они образуют полигон частот, даже если частоты на двух вершинах не строго равны.
Различают большие и меньшие моды. Наибольшей модой в группе называется единственное значение, которое удовлетворяет определению моды. В
группе может быть и несколько меньших мод. Эти меньшие моды представляют собой локальные вершины распределения частот. Например, на представленном ниже рисунке наибольшая мода наблюдается при значении 6, а
меньшие – при значениях 3,5 и 10:
18
Медиана, Md (Median) – такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам, так что одна половина всех значений оказывается больше медианы, а другая – меньше.
Вычисление медианы производится следующим образом:
1. Если данные содержат нечетное число значений, то медиана является
средним значением для случая, когда они упорядочены. Например, для ряда
чисел 11, 13, 18, 19, 20 Md = 18.
2. Если данные содержат четное число различных значений, то медианой будет точка, лежащая посередине между двумя центральными значениями, когда они упорядочены. Например, для ряда чисел 4, 9, 13, 14 Md = (9 +
13)/2 = 11.
3. Если в данных есть объединенные классы, необходимо провести табулирование частот.
Среднее (Mean) или выборочное среднее, среднее арифметическое –
сумма всех значений измеренного признака, деленная на количество суммированных значений.
Среднее совокупности n значений обозначается через и определяется
как
.
Или:
.
Свойства среднего:
Если к каждому значению переменной прибавить одно и то же число, то среднее увеличится на это число или уменьшится, если оно отрицательное.
Если каждое значение переменной умножить на одно и то же число,
то среднее увеличится в это же число раз, если делить – то уменьшится.
Сумма всех отклонений от среднего равна нулю.
Среднее отклонение от среднего равно нулю.
Каждая мера центральной тенденции обладает характеристиками, которые делают ее ценной в определенных условиях. Мода наиболее просто вычисляется, ее можно определить на глаз. Кроме того, для очень больших
групп данных это достаточно стабильная мера центра распределения.
Медиана занимает промежуточное положение между модой и средним с
точки зрения ее вычисления, если последнее осуществляется вручную. Эта
мера получается почти прямым счетом и особенно легко в случае ранжиро-
19
ванных данных. В больших массивах данные сначала можно сгруппировать,
что значительно проще ранжирования, после этого легко найти медиану.
Среднее множества данных предполагает в основном арифметические
операции. На величину среднего влияют значения всех результатов. Медиана
и мода не требуют для определения всех значений. На величину среднего
влияют результаты, которые можно назвать «выбросами», т.е. данные, находящиеся далеко от центра группы оценок.
В процессе выбора меры центральной тенденции необходимо учитывать
следующее:
1. В малых группах мода может быть нестабильной. Например, мода
группы (1, 1, 1, 3, 5, 7, 7, 8) равна 1, но если одна из единиц превратится в
нуль, а другая – в два, то мода станет равной 7.
2. На медиану не влияют величины «больших» и «малых» значений.
Например, в группе из 50 данных медиана не изменится, если наибольшее
значение утроится.
3. На величину среднего влияет каждое значение. Если одно какоенибудь значение меняется на с единиц,
изменится в том же направлении
на с/n единиц.
4. Некоторые множества данных не имеют центральной тенденции, что
часто вводит в заблуждение при вычислении только одной меры центральной
тенденции. Это характерно для групп, имеющих более чем одну моду.
5. Центральная тенденция групп данных, содержащих крайние значения, измеряется медианой, когда гистограмма унимодальна. Одно крайнее
значение может сместить среднее группы гораздо дальше того места, которое
стоит рассматривать как центральную область. Например, если 9 человек
имеют доходы от 4500 до 5200 долларов со средним 4900 долларов, а доход
10-го составляет 20 000 долларов, то средний доход для 10 лиц равен 6410
долларов. Этот результат не позволяет судить обо всей группе. В качестве
меры центральной тенденции здесь необходимо было избрать медиану. Так,
экономисты и журналисты часто выбирают для отчета «доход по медиане»
для избегания подобного случая.
6. В унимодальных выборках, которые симметричны (когда половины
гистограммы, расположенная ниже моды, – зеркальное отражение другой половины), среднее, медиана и мода совпадают.
7. В случае, когда группа данных является выборкой из большей симметричной группы, среднее выборки будет ближе к центру большой группы,
чем медиана или мода.
Меры изменчивости (Dispersion) применяются в психологии для численного выражения величины межиндивидуальной вариации признака.
Наиболее простой и очевидной мерой изменчивости является размах, указывающий на диапазон изменчивости значений.
Размах (Range) измеряет на числовой шкале расстояние, в пределах которого изменяются оценки. Различают два типа размаха: включающий и исключающий.
20
Исключающий размах – это разность максимального и минимального
значений в группе. Например, исключающий размах значений 0, 2, 3, 5, 8 равен 8(8 - 0 = 8). Значения: -0,2; 0,4; 0,8; 1,6 имеют исключающий размах, равный 1,8 (1,6 - (-0,2) = 1,8).
Включающий размах – это разность между естественной верхней границей интервала, содержащего максимальное значение, и естественной нижней
границей интервала, включающего минимальное значение. Например, рост
пяти мальчиков измеряется с точностью до ближайшего см. Получены следующие значения: 150, 155, 157, 165, 168 см. Фактический рост самого низкого мальчика находится где-то между 149,5 и 150 см и действительная нижняя граница равна 149,5 см. Верхняя граница интервала, содержащего максимальное значение, составляет 168,5 см. Следовательно, включающий размах равен разности 168,5 - 149,5 = 19, которая на единицу больше, чем 168 150.
Исключающим размахом является расстояние между минимальным и
максимальным имеющимися значениями группы, что позволяет исключить
возможное значение, находящееся выше максимального или ниже минимального. Включающий размах достаточно велик, чтобы наряду с косвенными включить все возможные значения.
Размах определяется только двумя значениями в группе, он не учитывает распределения всех значений, помимо максимального и минимального.
Например, если 100 значений равномерно распределены от 1 до 10, то включающий размах равен 10,5 - 0,5= 10. Но если одно значение приходится на 1,
другое – на 10, а остальные 98 расположены на уровне 5, то включающий
размах все еще равен 10. В разных случаях эти два типа неоднородности
имеют различный смысл; но их нельзя различить, пользуясь только размахом. Размах является довольно грубой, но общераспространенной мерой изменчивости.
Дисперсия,
(Variance) – мера изменчивости для метрических данных,
пропорциональная сумме квадратов отклонений измеренных значений от и
арифметического среднего.
Чем больше изменчивость в данных, тем больше отклонения значений
от среднего, тем больше величина дисперсии. Величина дисперсии получается при усреднении всех квадратов отклонений:
Следует отличать теоретическую (генеральную) дисперсию – меру изменчивости бесконечного числа измерений (в генеральной совокупности, популяции в целом) и эмпирическую (выборочную) дисперсию – для реально
измеренного множества значений признака. Выборочное значение в статистике используется для оценки дисперсии в генеральной совокупности:
21
Свойства дисперсии:
Если значения измеренного признака не отличаются друг от друга
(равны между собой), дисперсия равна нулю.
Прибавление постоянного (не меняющегося) числа к каждому значению в совокупности не меняет величину дисперсии.
Прибавление константы к каждому значению переменной не меняет
дисперсию.
Умножение каждого значения переменной на константу с изменяет
дисперсию в с2 раз.
При объединении двух выборок с одинаковой дисперсией, но с разными средними значениями дисперсия увеличивается.
При объединении двух групп к внутригрупповой дисперсии каждой
группы добавляется дисперсия, обусловленная различием между группами
(их средними). Чем больше различие между средними значениями, тем
больше увеличивается дисперсия объединенных групп.
Мерой изменчивости, тесно связанной с дисперсией, является стандартное отклонение. Стандартное отклонение, s (Std. deviation) (сигма, среднеквадратическое отклонение) определяется как положительное значение квадратного корня из дисперсии. Для определения s надо сначала найти s2, а затем вычислить квадратный корень из s2:
На практике чаще используется стандартное отклонение, а не дисперсия,
т.к. сигма выражает изменчивость в исходных единицах измерения признака,
а дисперсия – в квадратах исходных единиц.
Если меры центральной тенденции и изменчивости применяется для
описания одной переменной, то меры связи служат для описания связи (или
корреляции) между переменными. Любое эмпирическое исследование
направлено на изучение взаимосвязей двух или более переменных.
Различают 2 класса задач:
исследование корреляций – когда две переменные представлены в
числовой шкале;
исследование различий – когда хотя бы одна из двух переменных
представлена в номинативной шкале.
Взаимосвязь чаще всего описывается при помощи функций, которые графически изображаются в виде линий. Если изменение одной переменной на
единицу всегда приводит к изменению другой переменной на одну и ту же
величину, функция является линейной (график – прямая линия), любая другая
связь – нелинейная. Если увеличение одной переменой связано с увеличением
другой, то связь – положительная (прямая), если с уменьшением – связь отрицательная (обратная). Если направление изменения одной переменной не
меняется с возрастанием (убыванием) другой переменной, такая функция
называется монотонной, в противном случае – немонотонной. Примеры:
22
Функциональная связь между переменными выступает эмпирически как
вероятностная: одному и тому же значению одной переменной соответствует
распределение различных значений другой переменной и наоборот. Примером является соотношение роста и веса людей: взаимосвязь между признаками будет положительной, однако она будет отличаться от строгой, линейной
математической функции. Функциональная взаимосвязь явлений может быть
выявлена только как вероятностная связь соответствующих признаков.
Наглядное представление о характере вероятностной связи дает диаграмма рассеивания – график, оси которого соответствуют значениям двух
переменных, а каждый испытуемый представляет собой точку:
В качестве числовой характеристики вероятностной связи используются
коэффициенты корреляции.
Коэффициент корреляции – это количественная мера силы и направления вероятностной взаимосвязи двух переменных; принимает значения в
диапазоне от -1 до +1.
Сила связи достигает максимума при условии взаимно однозначного соответствия – каждому значению одной переменной соответствует только одно значение другой переменной и наоборот. При этом эмпирическая взаимо23
связь совпадает с функциональной линейной связью. Показателем силы связи
является абсолютная величина коэффициента корреляции без учета знака
(положительного или отрицательного).
Направление связи определяется прямым или обратным соотношением
значений двух переменных: если возрастанию значений одной переменной
соответствует возрастание значений другой переменной, то взаимосвязь
называется прямой (положительной); если возрастанию значений одной переменной соответствует убывание значений другой переменной, то взаимосвязь называется обратной (отрицательной). Показателем направления связи является знак коэффициента корреляции.
На сегодняшний день разработано множество различных коэффициентов корреляции. Наиболее важные и незаменимые в исследовании их них –
это коэффициенты корреляции Пирсона, Спирмена и Кендалла. Их особенностью является то, что они отражают взаимосвязь двух признаков, измеренных в количественной шкале (ранговой или метрической).
Различают четыре типа измерений переменных:
1. Измерения в дихотомической шкале наименований. Фиксируется
наличие или отсутствие чего-либо. Данные представляют собой нули и единицы. Порядок оценивания является произвольным. Например, мужчина (1)
– женщина (0), женат (1) – холост (0).
2. Измерения в дихотомической шкале наименований в предположении нормального распределения. Данные говорят о том, будет ли объект занимать положение выше (1) пли ниже (0) некоторой точки в нормальном распределении. Например, если в отношении большой группы учащихся
известно, превышает ли коэффициент интеллекта отметку 120 (1) или нет (0),
то единицы и нули представляли бы собой дихотомические данные, основанные на нормальном распределении.
3. Измерения в шкале порядка. Данные представляют собой последовательность несвязанных рангов 1, 2, … , n. Эти ранги могут быть присвоены
измерениям исходных данных или могут быть прямым переводом восприятий в числа. Например, группа чисел 115, 20, 36, 240 ранжируется номерами
1, 2, 3, 4.
4. Измерения в шкалах интервалов или отношений. Существует единица измерения (кг, см, час и т.д.), а нулевая точка на шкале соответствует
отсутствию (т.е. нулю) измеряемой переменной. Результатом может быть
любое действительное число, а разности между отметками отражают разности значений характеристики.
Если измерение можно произвести на уровне шкал интервалов или отношений, то результаты можно преобразовать в любую из трех других
названных шкал. Там, где присутствуют два множества значений Xi и Yi для n
объектов, X и Y можно измерить любым из четырех описанных способов. Таким образом, существуют 16 (4x4) возможных пар измерений для двух переменных, которые могут коррелировать. Шесть ячеек с буквами в круглых
скобках подобны ячейкам с аналогичными буквами без круглых скобок. Ме24
ра корреляции для двух переменных в шкалах интервалов и отношений (случай I таблицы) – коэффициент корреляции Пирсона. См. таблицу:
Шкала
переменной Y
Дихотомия
Дихотомия, основанная на нормальном распределении
Шкала порядка
Шкала интервалов или отношений
Дихотомия
А
В
C
D
Шкала переменной X
Дихотомия, осноШкала инШкала
ванная на нормальтервалов или
порядка
ном распределении
отношений
(B)
(C)
(D)
E
(F)
(G)
F
G
H
I
(I)
J
Коэффициент корреляции r-Пирсона (Pearson r) применяется в исследовании взаимосвязи двух метрических переменных, измеренных на одной и
той же выборке. Например, связан ли уровень интеллекта студентов с успеваемостью в университете? Для этого необходимо оценить два показателя –
уровень интеллекта студентов и их успеваемость, а затем сравнить их.
Положение объекта относительно остальных в выборке по X и Y, определяемое средними двух распределений, проявляется в величинах и знаках
отклонений (Xi - ) и (Yi - ) соответственно. Если объект имеет высокий
уровень по обеим переменным, то произведение (Xi - )·(Yi - ) будет большим и положительным. Если объект имеет низкий уровень, произведение
будет также большим и положительным, т.к. произведение двух отрицательных чисел положительно. В случае, когда X и Y в основном связаны прямо
(большие значения с большими, а малые значения с малыми), то большинство произведений (Xi - )·(Yi - ) будет положительным, а сумма этих произведений для всех объектов, следовательно, будет большой и положительной:
.
Если X и Y имеют обратную связь (большое X встречается с малым Y и
наоборот), то многие объекты с положительными значениями (Xi - ) будут
тяготеть к отрицательным значениям (Yi - ), а отрицательные (Xi - ) – к
положительным (Yi - ). Произведение (Xi - )·(Yi - ) будет отрицательным. Следовательно,
будет отрицательной, когда X и
Y связаны обратной зависимостью.
В случае, когда X и Y не имеют систематической связи (большие X сочетаются с малыми Y также часто, как и с большими Y; аналогично для малых
X), среди объектов с большими положительными значениями (Xi - ) у некоторых (Yi - ) будут положительные, у других – отрицательные. При образовании произведений (Xi - )·(Yi - ) одни сомножители станут положительными,
а
другие
–
отрицательными.
Сумма
произведений
будет приблизительно балансировать положительные
и отрицательные члены и поэтому будет близкой к нулю.
Величина
велика и положительна, в случае, если
X и Y сильно связаны прямой зависимостью; близка к нулю, в случае отсут25
ствия связи между X и Y; велика и отрицательна, когда X и Y сильно связаны
обратной связью. Однако сумма произведений отклонений не является
обобщенной мерой связи. Ее величина зависит от числа пар значений, участвующих в подсчете. Необходимо научиться измерять связь независимо от
объема выборки. Усреднение данных помогает в этом. Если исследователь не
хочет, чтобы статистика зависела от объема выборки, для необходимых расчетов он использует среднее.
Величина
является мерой связи X и Y и
называется ковариацией X и Y (sxy). Формула ковариации:
.
Ковариация X с самим собой – это дисперсия X:
.
Ковариация представляет собой адекватную меру в той же степени, в
какой шкала (среднее и дисперсия) переменных не является произвольной и
имеет некоторый смысл. Вычитание значений X и Y из соответствующих
средних сделало sxy независимым от средних. Чтобы избавить меру связи от
влияния стандартных отклонений двух групп значений, надо разделить sxy на
sx и sy. В результате этого, получается искомая мера связи X и Y. Такая мера
связи называется коэффициентом корреляции r-Пирсона (rxy или r), равным
произведению моментов:
.
Обозначение r происходит от слова регрессия, т.к., коэффициент корреляции
Пирсона, изначально, применялся при изучении регрессии физических характеристик людей.
Расчетная формула rxy:
.
Коэффициент корреляции Пирсона – это мера линейной (прямолинейной) связи между переменными. Этот коэффициент не чувствителен к криволинейным связям. Он позволяет определить, насколько пропорциональна изменчивость двух переменных. Если переменные пропорциональны друг другу, то графически связь между ними можно представить в виде прямой линии
с положительным (прямая пропорция) или отрицательным (обратная пропорция) наклоном. Если известна пропорция между переменными, заданная
условием графика прямой линии, то по известным значениям переменной X
можно точно предсказать значение переменной Y.
Другой мерой связи является коэффициент «фи» (φ). Коэффициент φ
применяется, когда обе переменные измеряются в дихотомических шкалах
наименований, фиксируется наличие или отсутствие чего-либо, и данные
представляют собой нули и единицы. Порядок оценивания в этой шкале является произвольным (случай А таблицы). Например, мужчина (1) – женщина
(0), женат (1) – холост (0). Коэффициент «фи» – это коэффициент Пирсона,
26
вычисленный по номинально-дихотомическим данным. Его формула более
проста, чем формула коэффициента Пирсона:
,
где рх – доля людей, имеющих единицу по X;
qx – доля людей, имеющих нуль по X, что равно 1 – рx;
рy – доля людей, имеющих единицу по Y;
qy – доля людей, имеющих нуль по Y, что равно 1 – рy;
рхy – доля людей, которые имеют единицу как по X, так и по Y.
Следовательно, φ – коэффициент корреляции Пирсона между двумя переменными, каждая из которых имеет оценки 0 и 1.
Если заменить фактические частоты на буквы, можно получить следующую таблицу сопряженности 2х2:
Признак X
Итог
1
1
a
b
a+b
Признак Y
c
d
с+d
Итог:
a+c b+d
n
Тогда формула будет выглядеть следующим образом:
.
Приведенные уравнения алгебраически эквивалентны.
φ может принимать значение +1 только в том случае, когда (a + b) и (b +
d) равны (следовательно, a = d) в таблице сопряженности, размером 2 х 2, т.е.
когда доли единиц по обоим параметрам X и Y одинаковы. Тоже верно в случае, когда (a + с) и (с + d) равны.
В случае, когда обе переменные измеряются в шкалах порядка, мерой
связи служит коэффициент ранговой корреляции r-Спирмена (случай H таблицы четырех типов измерений переменных). Исходные данные в таком случае могут быть преобразованы в ранги или просто быть рангами. Например,
преобразования упорядоченных оценок выпускников-школьников в ранги:
для каждого учащегося вычисляются средние баллы, рангу 1 присваивается
максимальный средний балл, а рангу n – минимальный. Данные часто представляются в подобной форме, когда более совершенные измерения не требуются, невозможны или неудобны. Независимо от того, как образуются ранги 1, 2,..., n, две последовательности рангов для одних и тех же n объектов
также могут коррелировать.
Способ описания связи между двумя последовательностями рангов состоит в том, чтобы вычислить коэффициент корреляции между n парами рангов. Коэффициент корреляции, равный произведению моментов, вычисленный по двум группам n последовательных, несвязанных рангов 1,…, n, называется коэффициентом ранговой корреляции Спирмена (rs) (Spearman’s rho).
Формула коэффициента корреляции:
,
27
где Xi – Yi – разность рангом по X i-го объекта и его же рангом по Y.
Коэффициент rs равен коэффициенту корреляции, определяемому произведением моментов и вычисленному по рангам. Величина rs не бывает
меньше -1 или больше +1. Она равна +1 только в том случае, когда ранги
всех объектов точно совпадают по X и Y.
Коэффициент корреляции Спирмена особенно удобен, когда исходные
данные представляют собой ранги. Например, когда эксперты ранжируют
людей или предметы. Этот коэффициент тесно связан с коэффициентом корреляции r-Пирсона: коэффициент корреляции Спирмена равен коэффициенту
корреляции Пирсона, вычисленному для двух предварительно ранжированных переменных.
Существует и другой коэффициент корреляции для данных, проранжированных и по X и по Y – коэффициент корреляции τ-Кендалла. Он использует иное понимание «связи» и ее оценки.
Коэффициент корреляции τ-Кендалла является альтернативой коэффициента корреляции Спирмена. Согласно Кендаллу, о направлении связи
можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по X совпадает по направлению с изменением по Y, то
это свидетельствует о положительной связи между переменными, если не
совпадает – то наблюдательная отрицательная связь.
Мера связи, называемая «тау» и обозначаемая τ представляет собой
счетчик числа несовпадений в ранжировках X и Y.
Коэффициент корреляции τ-Кендалла – это разность относительных частот совпадений и инверсий при переборе всех пар испытуемых в выборке.
При наличии несвязанных рангов все n(n-1)/2 пар дадут либо совпадение, либо инверсию. В случае, когда ранжировки по X и по Y идентичны, будет n(n1)/2 совпадений и ни одной инверсии. Если Y представляет собой величину,
обратную X, общее число совпадений и инверсий будет равно нулю и n(n-1)/2
соответственно.
Формула коэффициента корреляции τ-Кендалла:
,
где P – общее число совпадений, Q – общее число инверсий.
Разность P–Q принято обозначать буквой S, следовательно, формула
корреляции будет иметь следующий вид:
.
Т.к. P+Q = n(n-1)/2, уравнение можно записать как:
.
При подсчете τ-Кендалла данные сначала упорядочиваются по переменной X. Далее для каждого испытуемого подсчитывается, сколько раз его ранг
по Y оказывается меньше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Совпадения». Сумма всех значений столбца
«Совладения» и есть Р – общее число совпадений, которое подставляется в
последнюю формулу для вычисления τ-Кендалла.
28
Несмотря на то, что данный коэффициент корреляции, на первый взгляд,
кажется более простым в вычислительном отношении, при возрастании численности выборки, в отличие от r-Спирмена, объем вычислений τ-Кендалла
возрастает в геометрической прогрессии. Например, при n = 12 необходимо
перебрать 66 пар испытуемых, а при n = 48 объем вычислений возрастает более чем в 17 раз.
Если в измерениях встречаются одинаковые значения, исследователь
сталкивается с проблемой связанных рангов (Tied Ranks) при их ранжировании. В такой ситуации действует следующее правило ранжирования: объектам с одинаковыми значениями приписывается один и тот же, средний ранг.
Сумма рангов при этом не меняется. Например, если два студента получили
одинаковый балл по тесту, им приписывается одинаковый ранг: (1 + 2)/2 =
1,5.
При наличии связанных рангов формулы корреляции r-Спирмена и τКендалла не подходят. Изменчивость данных становится меньше. Следовательно, уменьшается возможность оценить степень связи между измеренными свойствами.
Тема 3. Математическая обработка данных. Статистика
§ 3.1. Статистический вывод: оценивание. Понятие генеральной совокупности и выборки. Случайный выбор. Выборочное распределение.
Свойства оценок. Интервальное оценивание.
Статистический вывод – это рассуждение от частного к общему, от явного к неявному. Задача статистического вывода – это прирост знания о
больших классах предметов, лиц или событий по их сравнительно малым
классам. Всякая большая (конечная или бесконечная) совокупность предметов, которые мы хотим исследовать или относительно которых мы собираемся делать выводы, называется генеральной совокупностью. Это множество
объектов эквивалентных по конечному множеству свойств.
Термин генеральная совокупность приобретает подлинный смысл в сочетании с определением выборки из совокупности. Выборка – это часть или
подмножество совокупности. Другими словами, выборка – это множество
испытуемых, выбранных для участия в исследовании с помощью определенной процедуры из генеральной совокупности. Объем выборки – число испытуемых, включенных в выборочную совокупность.
Выборка из совокупности производится специально, чтобы изучить
свойства совокупности. Теоретически совокупности могут быть как бесконечно большими, так и конечными. Истинные бесконечные генеральные совокупности – нечто искусственное или умозрительное. Например, собрание
всех положительных чисел, совокупность подбрасываний двух игральных
костей, которые можно бросать до бесконечности. Почти каждая представляющая интерес генеральная совокупность физических предметов, по сравнению с умозрительными возможностями, конечна. Например, численность
населения России, количество вокзалов в городе и т.д.
29
Конечная генеральная совокупность может быть очень большой (например, количество песчинок на пляже), но если процесс подсчета элементов совокупности является осуществимым, то совокупность конечна. Если отношение объема генеральной совокупности к объему выборки больше 100, методы
вывода для конечных и бесконечных совокупностей дают одинаковые результаты. Принято применять статистические методы, основанные на бесконечных совокупностях, всякий раз, когда совокупность разумно велика (содержит несколько сотен или более элементов), а выборка не составляет ее
существенной доли.
Значения различных описательных мер, вычисленных для генеральных
совокупностей, называются параметрами. Для выборок те же описательные
меры называются статистиками. Параметр описывает совокупность так же,
как статистика – выборку. Принято обозначать статистики латинскими буквами, а параметры – греческими. Символ принят для выборочного среднего, а греческая буква μ обозначает генеральное среднее. Выборочная дисперсия обозначается s2, а генеральная как σ2. Статистика, вычисленная по выборке, рассматривается как оценка параметра совокупности. Оцениватель –
функция от значений в выборке, дающая величину, называемую оценкой.
Оценка дает некоторую информацию о параметре. Например, выборочное
среднее – оцениватель среднего или среднего значения совокупности.
Выборки и вычисляемые по ним оценки дают определенное представление о характеристиках совокупности. Чтобы служить основой для получения
оценок параметров совокупности, выборка (простая случайная выборка)
должна быть представительной, репрезентативной. Если случайные выборки
из совокупности будут реализовываться многократно, в большой серии они
представят совокупность.
Некоторые случайные выборки из совокупности характеризуют ее не
полно: одни случайные выборки служат хорошим представлением совокупности, другие нет. Если извлеченная выборка случайна, можно сделать вывод
о том, что она представляет совокупность во всех отношениях случайно.
Важной особенностью случайной выборки является то, что можно определить, каких типов непредставительности следует ожидать в большой серии
или в большой группе случайных выборок. Ход рассуждений в статистическом выводе таков: нахождение оценки параметра по выборке и последующее определение того, насколько представительной может быть подобная
выборка для оценивания параметра.
Оценка представительности осуществляется с помощью исследования
выборочных распределений. Понятие выборочного распределения – основа
целого раздела теории статистического вывода. Статистика или оценка, вычисленная по выборке, обладает некоторым выборочным распределением.
Одна из основных теорем теории статистического вывода касается распределения выборочного среднего
Эта теорема называется центральной
предельной теоремой. Предположим, что выборки извлекаются из бесконечно большой совокупности. Среднее этой совокупности – μ, а дисперсия – σ2.
Из генеральной совокупности берутся случайные выборки объема n. Каково
30
распределение выборочного среднего ? Если n «достаточно велико» (и невозможно внести большую ясность в вопрос об объеме n), то выборочное
среднее будет описываться законом, близким к нормальному. Кроме того,
среднее всех выборочных средних будет равно μ, среднему генеральной совокупности, а дисперсия выборочных средних составляет величину σ2/n, где
σ2/n – дисперсия совокупности. Например, μ = 15, а σ2 = 100. Из совокупности извлекаются случайные выборки объемом 100. Тогда
выборок будет
2
приблизительно нормальным со средним 15 и дисперсией 1 (σ x/n = 100/100 =
1). Выборочное распределение будет таким:
Независимо от формы исследуемой совокупности средние больших выборок подчиняются нормальному распределению. Объем n, обеспечивающий
близость выборочного распределения
к нормальному, зависит от вида совокупности.
Ожидаемое значение , представляющее собой генеральное среднее
распределения выборочных средних, равно μ, среднему совокупности, из которой извлекаются выборки.
Дисперсия ошибки среднего – дисперсия средних случайных выборок
объема n из совокупности с дисперсией σ2 равна σ2/n.
Стандартная ошибка среднего – стандартное отклонение выборочного
распределения средних бесконечного числа выборок объема n из совокупности с дисперсией σ2:
.
Оценивание коэффициента корреляции совокупности служит другим
примером выборочного распределения. Т.к. коэффициент корреляции описывает всю совокупность, он является параметром, а не выборочной статистикой. Поэтому ρ – коэффициент корреляции в совокупности, а r – коэффициент корреляции выборки. Стандартное отклонение выборочного распределения r называется стандартной ошибкой коэффициента корреляции. Только в этом частном случае он равен 0,11. Стандартная ошибка r обозначается
σr. Около 68 % выборок будут иметь значения r между -0,11 и +0,11; примерно 95 % выборок – между -0,22 и +0,22; в большинстве случаев выборки будут давать величину r от -0,33 до +0,33.
Существует три свойства оценок: несмещенность, состоятельность и
относительная эффективность.
31
При оценивании параметра оценка является несмещенной, если среднее
выборочного распределения оценки равно величине оцениваемого параметра. Независимо от характера совокупности, выборочное среднее представляет собой несмещенную оценку генерального среднего μ. Если выборки извлекаются из любого симметричного распределения случайным образом, то
выборочная медиана – также несмещенная оценка генерального среднего μ.
Другими словами, среднее медиан бесконечного числа случайных выборок
из нормального распределения равно μ, среднему нормального распределения (которое есть также его медиана и мода).
Величина s2x называется несмещенной оценкой генеральной дисперсии
σ², a
представляет собой отрицательно смещенную оценку
σ². Т.е.
.
и приближается к равенству только при n → ∞.
иногда называют «асимптотически несмещенной» оценкой
σ². Это связано с тем, что смещение уменьшается с ростом n.
Величина s2x – несмещенная оценка σ². При этом sx, выборочное стандартное отклонение не является несмещенной оценкой σ, стандартного отклонения совокупности. Нелинейное преобразование несмещенной оценки не дает
несмещенную оценку, поэтому стандартное отклонение выборки – смещенная оценка стандартного отклонения совокупности. Величина смещения зависит от вида совокупности: если совокупность описывается нормальным законом, то среднее выборочное распределение s меньше σ. Характерно, что:
.
Если n большое, то смещение незначительно. При этом s остается смещенной (но состоятельной) оценкой а. При n → ∞ выражение
→ 1, и
смещение исчезает.
Смещение или несмещенность оценки зависит от вида распределения измерений в совокупности, из которой извлекаются выборки:
Параметр Характер совокупности Оценка
Характеристика оценки
μ
Любая совокупность
Несмещенная
μ
Симметричная
Медиана Несмещенная
μ
Симметричная и униМода Несмещенная
модальная
μ
Ассиметричная
Медиана Смещенная
μ
Ассиметричная
Мода Смещенная
σ²
Любая совокупность
s2x
Несмещенная
σ
Нормальная
sx
Отрицательно смещенная
ρxy
Двумерно-нормальная
rxy
Отрицательно смещенная
Состоятельная оценка, даже если она смещенная, при постоянном увеличении объема выборки приближается к значению параметра, который она
32
оценивает. Некоторые смещенные оценки являются состоятельными. Например, стандартное отклонение выборки – смещенная, но состоятельная оценка
σ. При увеличении объема выборки s будет приближаться к σ. Т.е. чем больше выборка s, тем ближе к σ. Другими словами, состоятельная оценка параметра вычисляется по выборке так, что если аналогичный расчет выполнялся
для всей совокупности, он дал бы значение параметра. Выборочное среднее –
это состоятельная оценка μ, т.к. если бы выборка превратилась в совокупность, то оказалось бы равным μ. Выборочное среднее – это также несмещенная оценка μ.
«Эффективность» относится к точности оценки параметра. Она имеет
отношение к изменчивости оценки от выборки к выборке. Например, дисперсия ошибки выборочного среднего,
– мера эффективности как оценки μ.
Дисперсия ошибки выборочного коэффициента корреляции,
– мера эффективности r как оценки ρ.
Дисперсия ошибки оценки – одно из наиболее важных ее свойств. Дисперсия ошибки любой статистики – это дисперсия выборочного распределения статистики.
Для большей точности определяется эффективность
по сравнению с
Md как отношение дисперсий их ошибок. – более эффективная оценка μ,
чем Md:
Часто критерии несмещенности и эффективности объединяют при выборе «наилучшей» оценки параметра. Например, «наилучшей» оценкой μ в
нормальной совокупности могут быть и выборочное среднее, и медиана, и
мода. Несмещенными, в таком случае, являются все три оценки. Какая из
оценок является наиболее эффективной, т.е. какая оценка обладает минимальной дисперсией ошибки? По сравнению с выборочным средним, наименее эффективна выборочная мода, медиана менее эффективна. Следовательно, наиболее эффективной является выборочное среднее. Она выигрывает во
всех отношениях. Для оценки генерального среднего μ любой совокупности
применяется исключительно Это связано с тем, что по сравнению с любой
другой несмещенной оценкой μ оно имеет наименьшую дисперсию ошибки.
Это показывает, что свойства несмещенности и эффективности одинаково
важны.
Другой распространенный вид оценивания, основанный на понятии точечной оценки, называется интервальной оценкой. Интервальное оценивание – это крайне полезный метод теории статистического вывода.
Интервальная оценка параметра – это интервал числовой оси, в котором
лежит значение этого параметра. Например, при извлечении выборки для
33
оценки μ можно получить интервал (15,25 – 20,46), который между нижней
(15,25) и верхней (20,46) границами содержит значение μ. Вместо вычисления одной точки как оценки параметра определяется группа смежных точек –
интервал, и одна из этих точек будет являться значением параметра.
На рисунке, представленном ниже, стандартное отклонение выборочного распределения , стандартная ошибка среднего, равно . Т.к. распределение нормально, 68 % наблюдений лежит в пределах одного стандартного
отклонения μ, т.е. 68 % выборочных средних, которые были бы получены
при повторных случайных выборках, находились бы в интервале от
до
. Около 95 % средних расположено в интервале от
до
, т.к.
примерно 95 % площади под нормальной кривой лежит в пределах двух
стандартных отклонений среднего. С помощью таблицы нормированного
нормального распределения можно точно определить, сколько стандартных
отклонений следует отложить от μ в каждом направлении, чтобы установить
интервал, включающий 90, 99 или любой другой процент площади под кривой. Например, из таблиц можно увидеть, что 5 % площади под нормальной
кривой расположено выше оценки z = 1,64, а 5 % площади – ниже оценки z =
-1,64. Другими словами, 90 % площади под нормальной кривой лежит в пределах 1,64 стандартных отклонений по обе стороны от среднего μ, т.е. внутри
диапазона
. Для представленного рисунка это означает, что 90 %
выборочных средних, полученных при повторяющемся случайном выборе,
было бы расположено в интервале
и
.
Если 90 % значений расположено внутри диапазона
прибавление и вычитание
к любому дает интервал от
до
от μ, то
, который в 90 % случаев заключает μ в своих границах. Графи-
ческий пример:
34
Выборочное среднее, полученное в результате извлечения случайной
выборки объема n, находится на расстоянии одного стандартного отклонения,
, выше μ. Перед извлечением выборки вероятность того, что среднее выборки находилось бы в пределах расстояния
от μ, составляла
0,90. Т.к. конкретное находится в пределах
от μ, когда прибавляется
и отнимается
от , получается интервал, в который входит μ. Если
лежит выше
или ниже
, то
расположено немного
дальше от μ, чем на расстоянии
. Вероятность того, что выборочное
среднее будет отстоять от μ на расстоянии, большем
равна 0,10.
Это означает, что в 10 % случайных выборок, которые можно взять из совокупности, прибавление
к и вычитание
из приведут к образованию интервала, не содержащего μ в своих границах. Этот интервал
представлен на следующем графике:
Если интервальная оценка параметра строится так, что известна вероятность попадания значения параметра в границы интервала, то интервал называется доверительным. При определении интервала следует учитывать вероятность того, что доверительный интервал «накроет» параметр своими пределами. Доверительный коэффициент – это вероятность того, что случайно
выбранный интервал из совокупности всех возможных доверительных интервалов, будет содержать искомый параметр. Вероятность и доверительный
коэффициент применимы к повторяющемуся процессу построения доверительных интервалов.
Механизм построения доверительного интервала для μ относительно
для выборок большого объема в случае, когда σ² известна, таков. Выборки
объема n достаточно большие, чтобы гарантировать приблизительную нормальность выборочного распределения , извлекаются из совокупности с
неизвестным средним μ и известной дисперсией σ². Относительно необходимо построить доверительный интервал для μ. Выбирается доверительная
вероятность 1 – α. Если, например, требуется доверительная вероятность
0,95, то α будет равен 0,05. В таблицах приводятся значения z, выше которых
35
лежит
% площади под единичной нормальной кривой. Оценка z обо-
значается символом
. Доверительный интервал 1 – α относительно
дается формулой:
или следующим эквивалентным выражением:
.
Например, n = 400, σ² = 36, доверительная вероятность = 0,95 (1 – α =
0,95), поэтому α = 0,05. Согласно таблице,
% = 2,5 % площади под
единичной нормальной кривой лежит выше значения z = 1,96. Следовательно, z0,975 = 1,96. Если известно, что
= 51,04, то доверительный интервал
0,95
для
μ
относительно
определяется
так:
.
Для всех значений ρ известно распределение r по случайным выборкам
из двумерной нормальной совокупности с коэффициентом корреляции ρ. Когда ρ = 0 и берутся выборки, объемом 30 и более, выборочное распределение
r близко к нормальному с нулевым средним и стандартным отклонением ,
равным
. Когда ρ = 0,6, выборочное распределение r не является
нормальным, его среднее
; стандартное отклонение
;
выборочное распределение имеет резкую отрицательную асимметрию.
Стандартное отклонение выборочного распределения r для случайных
выборок объема n из двумерной нормальной совокупности с коэффициентом
корреляции ρ есть:
.
С увеличением ρ от 0 до 1 в выборочном распределении r резко возрастает отрицательная асимметрия. С уменьшением ρ от 0 до -1 увеличивается
положительная асимметрия распределения.
Английский ученый Р. Фишер установил, что специальное математическое преобразование выборочного коэффициента корреляции дает величины
с таким выборочным распределением, что дисперсии одинаковы для всех
значений ρ. Это преобразование называется Z-преобразованием Фишера. Zпреобразование любого r обозначается как , Z-преобразование ρ – как .
имеет следующую формулу:
.
вычисляется по такой же формуле, как и
, где вместо r подставляется ρ:
.
36
Чаще всего
не вычисляют по формуле, а пользуются таблицей, в которой величина
дается для значения r от 0 до +1,000 с шагом 0,001. Если r
отрицательно, то знак меняется.
Z-преобразованием Фишера обеспечивает все необходимое для решения
задачи определения доверительных интервалов для r. Стандартное отклонение
всех повторяющихся случайных выборок равно
, независимо от
значения ρ. Следовательно, 90 % значений , полученных по случайным
выборкам, будет лежать в пределах 1,64 стандартных отклонений – на расстоянии
от , 95 %
– в пределах
от
и т.д. Независимо от n распределение
приблизительно нормально. Следовательно,
если прибавить и отнять некоторую величину, пропорциональную
, от
, то исследователь будет иметь определенную вероятность попадания
в
эти интервалы. Т.к.
нормально распределено со средним
и стандартным
отклонением
, то выражение
распределено по нормальному закону
с нулевым средним и единичным стандартным отклонением. Следовательно,
вероятность
или
вероятность
.
Поэтому интервал
накрывает
накрывает
с вероятность 0,95, а интервал
с вероятность 0,99. Графически это выглядит
так:
Например, имеем n = 84 (выборка извлечена случайно из двумерной
нормальной совокупности) и r = 0,245. Необходимо найти доверительный
интервал с доверительной вероятностью 0,95. Для этого следует преобразовать значение r в
по таблице Z-преобразований. Тогда
. Далее находим произведение стандартной ошибки
на 1,96. Тогда
После этого 95 %-й доверительный интервал для
можно получить в результате подстановки данных в соответствующую
формулу. Таким образом, нижней границей интервала служит
,
а
верхней
–
.
37
§ 3.2. Статистический вывод: проверка гипотез. Научная и статистическая гипотезы. Проверка статистической гипотезы. Ошибка I рода, уровень значимости и критическая область. Ошибка II рода, вероятность
ошибки и мощность критерия
Первым, кто опубликовал данные по проверке статистических гипотез
был Дж. Арбутнот. Его работа вышла в 1710 г. и называлась «Доводы в пользу божественных пророчеств. Выведенные на основе постоянных и систематических наблюдений над рождением обоих полов». Отметив, что записи на
протяжении 82 лет свидетельствуют о большем числе родившихся мальчиков, Арбутнот показал, что эти данные опровергают гипотезу, что рождения
мужчин и женщин равновероятны (с вероятностью 1/2). Если бы вероятность
рождения мужчины точно равна 1/2, то вероятность того, что за 82 года родилось больше мужчин, чем женщин, была бы бесконечно мала. Более точной величиной будет (1/2)82. По мнению Арбутнота, большая доля рождения
мужчин – результат закона моногамии, т.к. более вероятно, что мужчину могут убить на войне или он умрет от непосильной работы, не достигнув зрелости. Статистические характеристики Арбутнота были безупречны, но теология оказалась несостоятельной для полигамных обществ. Современные исследователи часто имеют дело с вероятностными выводами различных гипотез.
Гипотеза (Hipothesis – полагаемое в основу, предположение) – утверждение о существовании явления, истинность или ложность которого недоказуема дедуктивно, а может быть проверена только экспериментальным путем.
Различают два вида гипотез: научные и статистические. Научная гипотеза – это предполагаемое решение проблемы. Это разумное, обоснованное и развитое предположение. Научная гипотеза формулируется как теорема. Статистическая гипотеза (Н) – утверждение относительно неизвестного параметра. Например, утверждение «
» – статистическая гипотеза, которая гласит, что неизвестное среднее конкретной совокупности равно 36. Это утверждение либо справедливо, либо ошибочно.
Статистические гипотезы можно проверять относительно любых мелких
проблем, обладающих ограниченной применимостью и не имеющих научной
значимости. Не все научные гипотезы требуют статистической проверки, и
не все статистические гипотезы представляют научный интерес. Например,
при изучении тревожности и творчества у дошкольников исследователь на
основе работ других авторов может прийти к выводу, что между показателями существует обратная взаимосвязь. Отсюда можно сделать неправильные
выводы. Поэтому следует провести собственное исследование, чтобы доказать достоверность гипотезы.
Берется случайная выборка для изучения взаимосвязи между двумя переменными в совокупности. Предполагается (гипотеза еще не выдвигается),
что взятая выборка – случайная выборка объемом 100 человек из гипотетической бесконечной совокупности, в которой данные, касающиеся изучаемых
переменных, характеризуются двумерным нормальным распределением. Это
38
не проверяется, а является, скорее, разумеющимся. Встает вопрос о ρ, корреляции между переменными в совокупности. Т.е. рассматривается задача статистического вывода. Выдвигается гипотеза, что ρ – какое-то конкретное
число. Следовательно, требуется оценить утверждение «
», что означает: корреляция между признаками в совокупности равна 0. Это статистическая гипотеза. Далее решается, принять ли эту гипотезу как истинную или
отвергнуть ее как ложную. Метод принятия решения относительно справедливости статистической гипотезы называется проверкой гипотезы.
Независимо от величины r выборки нельзя с уверенностью заключить,
что ρ равно или не равно нулю. Важно знать, что при проверке любой статистической гипотезы решение никогда не принимается с полной уверенностью, т.к. всегда допускается риск принятия неправильного решения. Сущность проверки статистической гипотезы состоит в том, что она является
средством контроля и оценки этого риска.
Следующим этапом проверки статистической гипотезы является извлечение выборки из совокупности и проведение непосредственно наблюдения.
Например, берем случайную выборку из 100 человек, проводим тестирование, направленное на оценку изучаемых показателей, и устанавливаем связь
между этими оценками. В результате, получаем значение r.
Неопределенность в принятии решения относительно
возникает
в связи с ошибкой выборки (так называемой флуктуацией выборки). В этом
случае задача проверки гипотезы связывается с нахождением выборочного
распределения оценки параметра, относительно которого делается предположение. Также определяется, какое выборочное распределение получилось
бы, если проверяемая гипотеза была бы истинной.
После этого можно ответить на вопрос: «Вероятно ли, что H – истинна
после получения r?» или «Разумно ли ожидать появление величины r, отличающейся от нуля на какое-то число, в случае, когда H – справедлива?» Если
ответ утвердителен, то проверяемая гипотеза принимается, если нет – отвергается. При этом нельзя с уверенность заключить, что «H – верна» или «H –
ошибочна», т.к. такая уверенность невозможна без знания свойств полной
совокупности.
Например, выпадение осадков в виде дождя составляет 90 % времени.
«Разумно» проснуться однажды утром и заявить, что сегодня по всем признакам дождя не ожидается? Да, это вполне вероятно. С другой стороны, если на дождливую погоду приходится только 10 % общего времени, то неразумно утверждать, что дождь идет ежедневно. Другими словами, 90 % – залог постоянно дождливой погоды, а остальные 10 % делают подобное утверждение маловероятным.
Если
справедлива, то выборочное распределение сохранится. В
случае, когда проверяемая гипотеза
ошибочна, распределение r передвинется по шкале выше (если ρ выше нуля) или ниже (если ρ ниже нуля)
по сравнению с распределением.
Например, стандартное отклонение σr распределения на рисунке
39
составляет 0,071. Вероятность того, что величина ρ превышает (1,96) σr =
0,140, равна 0,025. Вероятность того, что она лежит ниже -0,140, также равна
0,025. Поэтому вероятность того, что значение, выбранное из распределения
на рисунке, будет лежать выше 0,140 или ниже -0,140, составляет 0,05. Площадь заштрихованных участков на краях равна 5 % (по 2,5 % на каждом хвосте распределения). Следовательно, правило принятия решений будет звучать
так: разумно принять решение о верности гипотезы
, если r для выборки объемом 200 лежит в интервале от -0,140 до +0,140, и решить, что она
ошибочна, если r ниже -0,140 или выше 0,140.
Сущность проблемы проверки гипотез – формулирование таких правил
принятия решений и оценка вероятности того, что они приведут нас к ошибочным заключениям. Например, пусть ρ точно равно 0. Принимается решение о том, что гипотеза
ошибочна, в том случае, когда r выходит за
пределы интервала от -0,140 до +0,140. Какой процент из бесконечного числа
случайных выборок объемом 200 будет давать значения r, отклоняющиеся от
0 на 0,140, когда фактическая величина ρ равна нулю? Ответ: 5% выборок.
Следовательно, если
верна, то правило принятия решений, которое
было принято, заставило бы решить, что
ошибочна в 5% выборок
(или с вероятностью 0,05), когда в действительности гипотеза была верной.
4 этапа проверки гипотезы:
1 этап: Формулируется проверяемая гипотеза. Такую гипотезу принято
называть нуль-гипотезой (обозначается как ). Например,
.
2 этап: Высказываются предположения, необходимые для определения
выборочного распределения статистики, оценивающей параметр, относительно которого высказывается гипотеза. Выборочное распределение этой
статистики определяется для случая, в котором гипотеза 1-го этапа верна.
3 этап: Принимается степень риска для неправильного вывода на основе
выборочных показаний об ошибочности гипотезы H. Риск, представленный
как вероятность, обозначается α и называется уровнем значимости («объем»
теста) проверки гипотезы. «Проверка значимости» – синонимом «проверки
гипотезы». Исходя из принятого риска, определяется группа значений выборочной статистики, позволяющих принять решение об ошибочности гипотезы H, если выборка приносит подобное значение. Группа таких значений
называется критической областью. На представленном ниже рисунке видно,
что уровень значимости равен 0,05 (заштрихованные участки по краям пло-
40
щадью 5 % (по 2,5 % на каждом хвосте); одна часть критической области
располагается от 0,140 до +1,00, а другая от -0,140 до -1,00:
Критическая область иногда называется областью отбрасывания, т.к.
появление выборочного значения, находящегося в критической области, приводит к отклонению гипотезы
.
4 этап: Из совокупности извлекается одна выборка, рассматривается
значение статистики и принимается решение относительно истинности H.
Это заключительный этап в проверке гипотезы, сформулированной на 1-ом
этапе.
Выборочные данные приводят к принятию одного из двух решений относительно H: «H – верна» или «H – ошибочна»: первое решение «принимает
H», последнее решение «отклоняет H». По данным любой выборки невозможно сделать определенный вывод, что
справедлива или ошибочна. Следует принять такое решение относительно H, которое обладает большой вероятностью.
Если H верна и свойства выборки позволяют принять H, то правильное
решение обеспечено. Если H верна, а приходится отклонить H, решение оказывается неверным. Подобное Неверное решение называется ошибкой 1-го
типа или ошибкой I-го рода.
Ошибка I рода возникает тогда, когда отвергается истинная гипотеза H.
Нельзя знать заранее, будет ли решение «отклонить H» верным или в данном
случае наблюдается ошибка I рода. Для получения этой информации необходимо знать, будет ли H верной или ошибочной, но если известна истина относительно H, то нет необходимости в теории статистического вывода. В оптимальном варианте известна вероятность (частота появления в длинном ряду) принятия правильного решения или ошибки I рода.
Величиной вероятности ошибки I рода можно управлять. Для любой
произвольной процедуры проверки гипотезы вероятность ошибки I рода обозначается символом α. Символу α можно придавать любые значения.
Например, 0,20, 0,10, 0,001 и д.р. Их задает сам исследователь. Однако принято выбирать α малым (0,05; 0,01; 0,001), т.к. α устанавливает вероятность
принятия неправильного решения некоторого типа.
Решение принять H, то есть заключить, что «H справедлива», может
быть неверным. Например, считать, что ρ = 0, когда на самом деле ρ = 0,1.
Ошибка принятия ложной H называется ошибкой второго типа или ошибкой II рода.
41
Ели гипотеза
ошибочна, то должна быть верной другая альтернативная гипотеза (обозначается как ). В исследовании редко выдвигается единственное альтернативное значение параметра. Обычно альтернативная гипотеза сложна, т.е. предполагает множество значений параметра, по
сравнению с простой (нуль-гипотеза), где делается предположение относительно одного значения:
Нуль-гипотеза:
;
Альтернативная гипотеза:
.
В теории проверки гипотез утверждается, что может наблюдаться одно
из двух «состояний природы»: верна либо , либо . После анализа выборки будет принято одно из двух решений: либо принимается
(следовательно, отклоняется ), либо принимается
( , следовательно, отвергается). Существует 4 возможных сочетания этих «состояний природы» и
решений с обоснованием:
Состояние природы
верна
верна
Ошибка I рода
Правильное решение
Отклонить
(вероятность = α)
(вероятность = 1– β)
(Принять )
Решение
Правильное решение
Ошибка II рода
Отклонить
(вероятность = β)
(Принять ) (вероятность = 1 – α)
Вероятность ошибки II рода, то есть принятия , когда верна , обозначается символом β. Пример:
В психологии редко встречается, что мощность критерия гипотезы для
одного или двух альтернативных значений параметра обеспечивает достаточную информацию. Обычно определяется мощность критерия для нескольких альтернативных значений параметра. Эти значения мощности изображаются на графике в сравнении с величинами параметра, а затем точки соединяются плавной линией. Полученная кривая (кривая мощности) обеспечивает адекватное определение мощности в зависимости от альтернативных
значений параметра. Пример кривой мощности:
42
Несмотря на то, что исследователь может варьировать численность выборки n и уровень значимости α, для любого заданного значения ρ, отличного
от нуля, мощность критерия
возрастает с увеличением n (например, от 10 до 100) и α (например, от 0,01 до 0,05).
В целом о процедурах проверки гипотез:
1. Для данного значения проверяемого параметра (например ρ = 0,40)
мощность критерия
увеличивается с ростом объема выборки n.
2. Для данного значения проверяемого параметра (например ρ = 0,40)
мощность критерия
увеличивается, когда возрастает α (например, от 0,01 до 0,05), вероятность отклонения верной нульгипотезы. Во многих случаях желательно установление уровня риска ошибки I рода порядка 0,10 (т.е. α = 0,10), чтобы гарантировать
приемлемую мощность критерия.
3. Для фиксированных значений α и n мощность критерия
увеличивается, когда истинное значение проверяемого параметра сильнее
отклоняется от значения, предполагаемого в . Например, если n =
100, а α = 0,01, то мощность критерия
больше при ρ равном
0,60, чем при ρ равном 0,40 (или -0,40).
§ 3.3. Параметрические методы вывода. Выводы о среднем значении совокупности. Выводы относительно дисперсии совокупности. Выводы
относительно ρ-коэффициента корреляции совокупности
Осуждение свойств вывода каждой статистики осуществляются в данной последовательности:
- формулирование нуль-гипотезы ( ) и альтернативной гипотезы ( ),
альтернативная гипотеза будет «ненаправленной», так что возникает необходимость в изменении критических значений в том случае, когда требуется
«односторонняя» проверка;
- формулирование допущений, сделанных в процессе проверки;
- определение выборочной статистики, используемой при испытании
и ;
- образование выборочного распределения проверяемой статистики для
и ;
- определение критических значений критерия;
- построение доверительных интервалов в окрестности выборочной статистики.
Выводы о среднем значении совокупности, μ
Промеряемая гипотеза состоит в том, что среднее μ генеральной совокупности равно некоторому действительному числу a. Альтернативная гипотеза выражается в том, что μ отличается от a:
.
Принимается, что переменная X в рассматриваемой совокупности обладает нормальным распределением. Величина
неизвестна.
проверяется с помощью статистики:
43
, где
.
Если
верна, то t имеет t-распределение Стьюдента с n-1 степенями свободы. Когда величина , т.е. когда μ равно некоторой величине b,
отличающейся от а, выборочное распределение t имеет вид и разброс tраспределения Стьюдента с п-1 степенями свободы, но среднее этого распределения равно величине
.
% доверительный интервал для μ строится следующим образом:
.
а) Использование независимых выборок для выводов относительно
Проверяемая гипотеза состоит в том, что разность между средними значениями двух совокупностей,
, равна нулю против альтернативной
гипотезы о том, что эта разность отлична от нуля:
.
Принимается, что X1 имеет нормальное распределение со средним μ1 и
дисперсией , а X2 – нормальное распределение со средним μ2 и той же дисперсией . Допущение о равных дисперсиях в двух совокупностях связано с
понятием однородности дисперсий. Кроме этого, предполагается, что выборка объемом n1 случайным образом извлекается из совокупности 1, а независимая выборка объема n2 случайно берется из совокупности 2.
Основное следствие допущения независимых выборок заключается в
том, что 2 выборочных средних значения, 1 и 2, будут некоррелированными для бесконечного множества пар выборок. Гипотеза независимости
нарушилась бы, например, если бы 1 выборка была случайной группой 10летних мальчиков, а 2 – группой их сестер. Два средних значения парных
выборок «брат – сестра» имели бы корреляционные связи для большинства
переменных.
Проверяется
против
с помощью следующего критерия:
,
где 1 и 2 – выборочные средние из совокупностей 1 и 2 соответственно;
и
– несмещенные оценки из выборок 1 и 2 с общей генеральной дисперсией ;
и
– объемы выборки.
Когда верна , распределение t в данном выражении для пар выборок
идентично t-распределению Стьюдента с
степенями свободы.
Когда верна
и, следовательно,
отлична от нуля, распределение t в
указанном уравнении имеет вид и разброс t-распределения Стьюдента, но
44
среднее отличается от 0 – величина разности зависит от значений
, ,
и .
% доверительный интервал для
относительно
строится следующим образом:
,
где
– величина, равная знаменателю выражения выше.
б) Выводы относительно
при использовании зависимых выборок
Совокупность 1 имеет среднее , а совокупность 2 – . Проверяемая
нуль-гипотеза аналогична предыдущей:
.
Принимается, что выборки 1 и 2 случайно извлекаются из нормальных
совокупностей с одинаковой дисперсией
. В этом примере требующиеся
выборки не являются независимыми, т.е. может существовать корреляция 1
и 2 для повторяющихся пар выборок. Например: 1-я выборка представлена
годовалыми детьми, а 2-я состоит из близнецов детей 1-й выборки.
Всегда есть возможность «объединить в пары» данные из двух различных выборок. Пары можно описать наименованиями типа «брат – сестра»,
«до – после» и т.д. Следовательно, данные, собранные по различным выборкам, будут представлены в виде n пар наблюдений
и
для
.
Группирование данных по зависимым выборкам предстоит использовать для
проверки гипотезы о том, что
. Гипотеза, состоящая в том, что 1
и 2 имеют одинаковое среднее, то есть
, эквивалентна гипотезе о
том, что
обладает нулевым средним в генеральной совокупности.
Разность
между нормально распределенными переменными 1 и 2 –
нормально распределенная величина.
Обозначим разность пар наблюдений из выборок 1 и 2,
–
, символом di. Имеем критерий:
,
где
– среднее n значений разностей;
– стандартное отклонение n значений разностей
n – число пар наблюдений.
Если верна гипотеза
, то t в выражении
;
будет
подчиняться t-распределению Стьюдента с
степенями свободы. Если
правильной оказывается гипотеза
, то t будет описываться
распределением, по форме идентичным t-распределению Стьюдента с
степенями свободы, однако со средним, отличным от нуля по величине и
направлению в зависимости от значения
.
45
% доверительный интервал для
строится следующим образом:
.
относительно
Выводы относительно дисперсии совокупности,
Проверяемая гипотеза состоит в том, что генеральная совокупность имеет дисперсию , равную некоторому числу а, в противоположность гипотезе
о том, что
отличается от а:
.
Следует принять, что переменная X обладает нормальным распределением в совокупности и что взята случайная выборка из n наблюдений, по которой следует оценить .
Для проверки
в противовес
используется статистика:
, где
.
Когда верна , выборочное распределение
в уравнении
будет распределением хи-квадрат с
степенями свободы. Когда справедлива , а
фактически равна некоторому числу b, отличному от нуля,
то выборочное распределение
будет b/a раз повторять
.
% доверительный интервал для неизвестной
строится
следующим образом:
.
а) Выводы относительно
по независимым выборкам
Имеется две совокупности (1 и 2). Проверяется, равны ли их дисперсии
и
или нет:
.
Предполагается, что выборка объемом n1 случайно извлекается из нормальной совокупности со средним
и дисперсией ; независимая случайная выборка объемом n2 извлекается из второй нормальной совокупности со
средним и дисперсией . При проверке
значения
и несущественны и не представляют интереса.
Для проверки
против
используется отношения двух выборочных
дисперсий:
.
Когда верна гипотеза
представляет собой F-распределение с
, выборочное распределение
и
степенями свободы.
46
5
1
Когда имеет место
распределение с
распределение
и
повторяет
раз F-
, распределение
будет иметь
степенями свободы.
Таким образом, если фактически
вид F-распределения, преобразованного умножением на 2.
% доверительный интервал для отношения
ится следующим образом:
к
стро-
б) Выводы
по зависимым выборкам
Проверяемая нуль-гипотеза состоит в том, что 2 совокупности характеризуются одинаковой дисперсией:
.
Предполагается, что берутся 2 возможно зависимые выборки, одна объема n из нормальной совокупности с дисперсией , а другая того же объема
n из нормальной совокупности дисперсией . Значения
и
в данном
случае не рассматриваются.
При проверке
против , используется критерий:
,
где
и
– дисперсии 1-й и 2-й выборок соответственно; n – число пар
наблюдений, объединяющих каждое наблюдение 1-й выборки с одним
наблюдением 2-й выборки,
– коэффициент корреляции, найденный по парам наблюдений.
Когда верна
, выборочное распределение t в уравнении представляет собой t-распределение Стьюдента с
степенями свободы.
Выводы относительно ρ-коэффициента корреляции совокупности
Проверяемая гипотеза состоит в том, что коэффициент корреляции Пирсона между переменными X и Y, т.е.
, равен некоторому значению а в рассматриваемой совокупности:
.
Принимается, что случайная выборка n пар наблюдений (Xi, Yi) берется
из двумерной нормальной совокупности, в которой корреляция между X и Y
определяется величиной
. Средние и дисперсии двумерной нормальной
совокупности не представляют интереса.
Для проверки
против
сначала вычисляют
, выборочный коэффициент корреляции. Величина
преобразуется далее с помощью Zпреобразования r Фишера в
. Для проверки нуль-гипотезы о том, что
, используется следующая статистика:
47
,
где
– Z-преобразованное значение, соответствующее выборочному
;
– Z-преобразованное значение, соответствующее а, предполагаемому значению
в ; n – объем выборки.
Когда верна , т.е.
, то z в уравнении имеет нормальное распределение со средним 0 и стандартным отклонением 1, т.е. z имеет единичное
нормальное распределение. Если верна , а
, которое отличается от
а, то z в уравнении описывается нормальным распределением с единичным
стандартным отклонением, а распределение группируется вокруг среднего
.
Доверительные интервалы для
строятся путем определения доверительного интервала для Zρ относительно Zr и последующего преобразования
верхних и нижних пределов имеющегося интервала в исходную шкалу r, с
повторным обращением к таблицам.
Первый этап построения
% доверительного интервала для
– вычисление:
,
где
и n определены в предыдущем уравнении;
– процентиль вида
в единичном нормальном распределении.
Данное уравнение определяет положение 2-х точек на шкале Zпреобразования. С этими двумя значениями следует обращаться к таблице,
чтобы найти 2 соответствующих значения
. Эти значения
образуют
% доверительный интервал
.
а) Выводы о
по независимым выборкам
В данном случае выводы касаются возможной разности между корреляцией
X и Y в 1-й совокупности и корреляцией и тех же переменных во 2-й
совокупности. Например, сильнее ли коррелированы способности X и успеваемость Y у мальчиков (1-я совокупность), чем у девочек (2-я совокупность)? Нуль-гипотеза утверждает, что
, альтернативная гипотеза говорит об обратном:
.
Полагается, что из двумерной нормальной совокупности 1 с коэффициентом корреляции
извлекается случайная выборка объема , а независимая случайная выборка объема
берется из двумерной нормальной совокупности 2 с корреляцией .
Проблемы
статистического
вывода
решаются
методами
Zпреобразования Фишера. Выборки 1 и 2 берутся соответственно из совокупностей 1 и 2. Вычисляются 2 выборочных коэффициента корреляции, и ,
а затем их преобразуют в Zr1 и Zr2, с помощью таблицы. Для проверки
используется статистика:
48
.
Если фактически
, то z в данном уравнении имеет нормальное
распределение с нулевым средним и единичным стандартным отклонением
по повторяющимся парам независимых случайных выборок. Если
и
отличаются, то среднее выборочное распределение z в уравнении будет удаляться от нуля (станет определяться разностью
), при этом стандартное отклонение сохраниться прежним.
Доверительные интервалы для
построены по методу определения доверительных интервалов для Z-преобразования
и . Для определения
% доверительного интервала для
вычисляется:
.
Два значения на шкале Z, полученные из уравнения, преобразуются в шкалу r
с помощью таблицы. Полученные значения r образуют
% доверительного интервала для
.
б) Выводы о
при зависимых выборках
Проверяемая нуль-гипотеза состоит в том, что переменная X имеет одинаковую корреляцию с двумя другими переменными, Y и Z, против утверждения альтернативной гипотезы, что
и
не равны:
.
Предполагается, что существуют 3 двумерные нормальные совокупности для каждой пары переменных X и Y, X и Z, Y и Z. Извлекается простая
случайная выборка объема n, по которой определяются 3 коэффициента корреляции rxy, rхz и ryz. Очевидно, что эти 3 оценки не независимы.
Статистикой для проверки
против утверждения
служит:
,
где n – объем выборки; rxy – выборочная корреляция X и Y; rхz – выборочная
корреляция X и Z; ryz – выборочная корреляция Y и Z.
Ели подтверждается , т.е.
, то z в уравнении имеет выборочное распределение для всех выборок n, которое аппроксимируется нормальным распределением с нулевым средним и единичным стандартным отклонением. Когда верна , среднее выборочного распределения z в уравнении
уходит от нуля, а стандартное отклонение остается неизменным.
§ 3.4. Непараметрические методы вывода. Сравнение двух независимых
выборок: критерий Манна-Уитни. Сравнение двух зависимых выборок:
критерий Вилкоксона
К методам сравнения выборок относят способы проверки статистических гипотез о различии выборок по уровню выраженности признака, измеренного в количественном шкале. Непараметрические методы сравнения вы49
борок являются аналогами параметрических методов сравнения средних значений. Они применяются в тех случаях, когда не выполняются основные
предположения, лежащие в основе параметрических методов.
При выборе параметрического или непараметрического выбора сравнения необходимо иметь в виду, что первые обладают заведомо большей чувствительностью, чем вторые. Поэтому применение непараметрического вывода становится оправданным, когда не выполняются исходные предположения, лежащие в основе применения параметрического метода.
Применение непараметрических методов сравнения выборок является
оправданным в случае, если:
- распределение значений признака в генеральной совокупности не соответствует нормальному закону;
- размер выборки не меньше 10 и не больше 100 человек;
- не выполняется требование гомогенности дисперсии при сравнении
средних значений для независимых выборок.
Структура исходных данных и интерпретация результатов применения
для непараметрических методов такая же, как и в случае с параметрическими. Нуль-гипотеза содержит утверждение об идентичности генеральных совокупностей по уровню выраженности изучаемого признака. При отклонении
нуль-гипотезы допустимо принятие двусторонней альтернативы о конкретном направлении различий в соответствии с выборочными данными. Для
принятия стат. решения в таких случаях применяются двусторонние критерии и критические значения для проверки ненаправленных альтернатив.
Наиболее популярным и чувствительным (мощным) аналогом критерия
t-Стьюдента для независимых выборок является U-критерий Манна-Уитни
(Mann-Whitney U).
Эмпирическое значение критерия показывает, насколько совпадают (пересекаются) два ряда значений измеренного признака. Чем меньше совпадение, тем больше различаются эти два ряда. Основная идея критерия основана
на представлении всех значений двух выборок в виде общей последовательности упорядоченных значений.
Основной статистической гипотезе (
соответствует ситуация, когда
значения одной выборки равномерно распределены среди значений другой
выборки, т.е. когда два ряда значений пересекаются в наибольшей возможной степени. Альтернативной гипотезе (
соответствует ситуация, когда
значения одной из выборок будут преобладать на одном из концов объединенного ряда (пересечение двух рядов тогда будет минимальным).
Критерий Манна-Уитни – это общее число случаев, в которых значения
одной группы превосходят значения другой группы, при попарном сравнении значений первой и второй групп. Соответственно, вычисляются значения
критерия: Ux и Uy.
Для вычислений «вручную» используются следующие формулы:
,
,
50
,
где n – объем выборки X; m – объем выборки Y; Rx и Ry – суммы рангов для X
и Y в объединенном ряду. В качестве эмпирического значения критерия берется наименьшее из Ux и Uy. Чем больше различия, тем меньше эмпирическое значение U.
Значение р-уровня тем меньше, чем меньше значение U, т.к. критерий U
отражает степень совпадения (перекрещивания) двух рядов значений.
При расчетах «вручную» используют таблицы критических значений
критерия Манна-Уитни (Наследов, 2012, с. 368-369). Можно также воспользоваться специализированным программным обеспечением (например, пакеты STATISTICA, SPSS).
Наиболее чувствительным (мощным) аналогом критерия t-Стьюдента
для зависимых выборок является критерий Т-Вилкоксона (Wilcoxon signedrank test). Критерий Т – это упорядочивание величин разностей (сдвигов)
значений признака в каждой паре его измерений. Он основан на ранжировании абсолютных разностей пар значений зависимых выборок. Далее рассчитывается сумма рангов для положительных разностей и сумма рангов для отрицательных разностей. Идея критерия заключается в подсчете вероятности
получения минимальной из этих разностей при условии, что распределение
положительных или отрицательных разностей равновероятно и равно ½.
Для расчета критерия «вручную» необходимо подсчитать суммы рангов
для положительных и отрицательных разностей. Меньшая из сумм принимается в качестве эмпирического значения критерия, значение которого сравнивается с табличным значением (Наследов, 2012, с. 370), рассчитанным для
условия равной вероятности положительных и отрицательных разностей для
данного объема выборки. Чем больше различия, тем меньше эмпирическое
значение Т, тем менее вероятно получение такого значения при условии равной вероятности встречаемости положительных и отрицательных разностей,
следовательно, тем меньше значение р-уровня.
Для расчета критерия Т можно воспользоваться специализированным
программным обеспечением (например, пакеты STATISTICA, SPSS).
2.3. Практические занятия (вебинары)
Занятие 1. Представление данных в психологии. Выборочные статистики
Цель занятия – сформировать у студента навыки работы с графическими представлениями данных и первичными описательными статистиками.
1.1. Построение распределения частот: гистограмма, полигон, сглаженная кривая.
1.2. Определение мер центральной тенденции: мода, медиана, среднее.
1.3. Вычисление мер изменчивости: размах, дисперсия, стандартное отклонение.
1.4. Определение мер связи: корреляция, ковариация, коэффициент
корреляции Пирсона, коэффициент «фи», коэффициент ранговой кор51
реляции Спирмена, коэффициент корреляции Кендалла.
Занятие 2. Математическая обработка данных. Статистика
Цель занятия – сформировать у студента навыки работы с основными
методами математической и статистической обработки данных психологических исследований.
2.1. Случайный выбор. Выборочное распределение. Интервальное оценивание.
2.2. Проверка статистической гипотезы. Ошибка I рода, уровень значимости и критическая область. Ошибка II рода, вероятность ошибки и
мощность критерия.
2.3. Выводы о среднем значении совокупности. Выводы относительно
дисперсии совокупности. Выводы относительно ρ-коэффициента корреляции совокупности.
2.4. Непараметрические методы вывода: критерий Манна-Уитни, критерий Вилкоксона.
2.4. Самостоятельная работа студента
Раздел
дисциплины
Раздел 1. Основы измерения и
количественного описания
данных.
Тема раздела
Вид СРС
1. Выполнение
письменного домашнего задания.
2. Возможно написание реферата.
2. Представление данных 1. Выполнение
в психологии. Выборочписьменного доные статистики.
машнего задания.
2. Подготовка к
практическим занятиям.
3. Возможно написание реферата.
Раздел 2. Стати- 1. Математическая обра1. Выполнение
стический выботка данных. Статистиписьменного довод: оценивание ка.
машнего задания.
и проверка ги2. Подготовка к
потез
практическим занятиям.
3. Возможно написание реферата.
Контрольная
Итоговая контрольная ра- Подготовка к конработа
бота по пройденному кур- трольной работе.
су.
Трудоемкость
(час)
1. Измерения и шкалы.
10
16
22
8
52
Итого:
56
2.5. Домашнее задание
Раздел 1. Основы измерения и количественного описания данных
Тема 1. Измерения и шкалы
Задание 1: Провести анализ учебной литературы. Написать конспект на
заданную тему в электронном виде. Составить глоссарий основных понятий.
Задание 2: Определить, в какой шкале (наименований, порядка, интервалов, отношений) представлены предложенные измерения.
Задание 3: Перевести предложенные выражения в сигма-обозначения.
Задание 4: Развернуть предложенные выражения.
Сохранить созданные документы с расширением «.doc» и с помощью
Internet отправить на проверку преподавателю.
Рекомендуемая литература:
1. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Изд-во «Прогресс», 1976.
2. Наследов А.Д., Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. СПб.: Речь,
2012.
3. Сидоренко Е.В. Методы математической обработки в психологии.
СПб.: Питер, 2007.
Тема 2. Представление данных в психологии. Выборочные статистики
Задание 1: Провести анализ учебной литературы. Написать конспект на
заданную тему в электронном виде. Составить глоссарий основных понятий.
Задание 2: На основе предложенных данных необходимо:
а) Построить гистограмму, полигон распределения частот.
б) Определить меры центральной тенденции (моду, медиану, среднее).
с) Вычислить меры изменчивости (размах, дисперсию, стандартное отклонение).
д) Определить меры связи (ковариацию, коэффициент корреляции
Пирсона, коэффициент «фи», коэффициент ранговой корреляции Спирмена).
Построить диаграмму рассеивания.
Сохранить созданные документы с расширением «.doc» и с помощью
Internet отправить на проверку преподавателю.
Рекомендуемая литература:
1. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Изд-во «Прогресс», 1976.
2. Наследов А.Д., Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. СПб.: Речь,
2012.
3. Сидоренко Е.В. Методы математической обработки в психологии.
СПб.: Питер, 2007.
53
Раздел 2. Статистический вывод: оценивание и проверка гипотез
Тема 1. Математическая обработка данных. Статистика
Задание 1: Провести анализ учебной литературы. Написать конспект на
заданную тему в электронном виде. Составить глоссарий основных понятий.
Задание 2: На основе предложенных данных необходимо:
а) Построить 95 %-й и 99 %-й доверительные интервалы.
б) Сделать выводы о среднем значении совокупности. Выводы относительно дисперсии совокупности. Выводы относительно ρ-коэффициента корреляции совокупности.
в) С помощью критерия Манна-Уитни оценить различия между генеральными совокупностями, из которых извлечены выборки, по уровню признака.
г) Сопоставить предложенные показатели с помощью критерия Вилкоксона.
Сохранить созданные документы с расширением «.doc» и с помощью
Internet отправить на проверку преподавателю.
Рекомендуемая литература:
4. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Изд-во «Прогресс», 1976.
5. Наследов А.Д., Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. СПб.: Речь,
2012.
6. Сидоренко Е.В. Методы математической обработки в психологии.
СПб.: Питер, 2007.
54
3. ФОРМЫ КОНТРОЛЯ ОСВОЕНИЯ ДИСЦИПЛИНЫ
Форма текущего контроля:
Оценка работы студента на практических занятиях
(максимальная оценка – «отлично»);
Оценка выполнения письменного домашнего задания
(«зачет»/«незачет»).
Форма промежуточного контроля:
Оценка выполнения реферативной работы
(максимальная оценка – «отлично»).
Форма итогового контроля
Оценка выполнения контрольной работы
(максимальная оценка – «отлично»);
Экзамен
(максимальная оценка – «отлично»).
3.1. Темы рефератов
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Применение измерительных шкал в психологии.
Представление данных в психологии.
Первичные описательные статистики.
Коэффициенты корреляции.
Генеральная совокупность и выборка.
Проверка статистических гипотез.
Ошибки первого и второго рода. Мощность критерия.
Корреляционный анализ данных.
Параметрические методы анализа данных.
Непараметрические методы анализа данных.
Для самостоятельного изучения:
Дисперсионный анализ.
Факторный анализ.
Кластерный анализ.
3.2. Темы контрольной работы
1. Наглядное представление данных:
a) Построение распределения частот (гистограмма, полигон).
2. Первичные описательные статистики:
a) Определение мер центральной тенденции (мода, медиана,
среднее);
b) Вычисление мер изменчивости (размах, дисперсия, стандартное отклонение);
c) Определение мер связи (коэффициент корреляции Пирсона,
55
коэффициент «фи», коэффициент ранговой корреляции Спирмена).
3. Параметрические методы вывода:
a) Выводы о математическом ожидании;
b) Выводы относительно дисперсии совокупности;
c) Выводы относительно коэффициента корреляции совокупности
Пирсона, коэффициента «фи», коэффициента ранговой корреляции Спирмена.
4. Непараметрические методы вывода:
a)
Критерий Манна-Уитни;
b)
Критерий Вилкоксона.
3.3. Вопросы для подготовки к экзамену
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
Измерение. Измерительные шкалы.
Переменные и их измерение.
Символы, данные и операции.
Обозначение сигма.
Наглядное представление данных.
Графическое представление распределения частот.
Правила построения графиков.
Первичные описательные статистики
Меры центральной тенденции
Меры изменчивости
Меры связи
Понятие генеральной совокупности и выборки.
Случайный выбор.
Выборочное распределение.
Точечное оценивание. Свойства оценок.
Интервальное оценивание. Построение интервальных оценок.
Научная и статистическая гипотезы.
Проверка статистической гипотезы.
Ошибка I рода, уровень значимости и критическая область.
Ошибка II рода, вероятность ошибки и мощность критерия.
Выводы о среднем значении совокупности.
Выводы относительно дисперсии совокупности.
Выводы относительно ρ-коэффициента корреляции совокупности.
Критерий Манна-Уитни.
Критерий Вилкоксона.
56
4. УЧЕБНО-МЕТОДИЧЕСКОЕ И ИНФОРМАЦИОННОЕ
ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ
4.1. Основная литература
1. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Изд-во «Прогресс», 1976.
2. Наследов А.Д., Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. СПб.: Речь, 2012.
3. Сидоренко Е.В. Методы математической обработки в психологии. СПб.:
Питер, 2007.
4.2. Дополнительная литература
1. Дружинин В.Н. Экспериментальная психология. СПб.: Питер, 2002.
2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. СПб.: Питер, 2005.
3. Кошелев В.Е. Excel 2007. М.: ООО «Бином-Пресс», 2008.
4.3.1. Программное обеспечение
Для реализации учебной программы необходимо, чтобы рабочее место
преподавателя и студента было оснащено компьютером с доступом в сеть
Internet и следующим программным обеспечением (ПО):
1.
Windows XP;
2.
Microsoft Office Word 2007;
3.
Microsoft Office Excel 2007.
4.3.2. Электронные библиотечные системы
http://www.wikiznanie.ru – гипертекстовая электронная энциклопедия
«ВикиЗнание»
http://ru.wikipedia.org – свободная многоязычная электронная энциклопедия «Википедия»
http://www.megabook.ru – мегаэнциклопедия Кирилла и Мефодия
4.4. Глоссарий
Выборка – множество испытуемых, выбранных для участия в исследовании с помощью определенной процедуры из генеральной совокупности.
Объем выборки – число испытуемых, включенных в выборочную совокупность.
Генеральная совокупность – всякая большая (конечная или бесконечная) совокупность предметов, которые мы хотим исследовать или относительно которых мы собираемся делать выводы.
Гипотеза (Hipothesis – полагаемое в основу, предположение) – утверждение о существовании явления, истинность или ложность которого недоказуема дедуктивно, а может быть проверена только экспериментальным путем.
57
Гистограмма – последовательность столбцов, каждый из которых опирается на один разрядный интервал, а его высота отражает число случаев (частоту) в этом разряде.
Диаграмма рассеивания – график, оси которого соответствуют значениям двух переменных, а каждый испытуемый представляет собой точку.
Дисперсия (Variance) – мера изменчивости для метрических данных,
пропорциональная сумме квадратов отклонений измеренных значений от и
арифметического среднего. Различают теоретическую (генеральную) дисперсию – меру изменчивости бесконечного числа измерений (в генеральной
совокупности, популяции в целом) и эмпирическую (выборочную) дисперсию
– для реально измеренного множества значений признака.
Доверительный коэффициент – это вероятность того, что случайно
выбранный интервал из совокупности всех возможных доверительных интервалов, будет содержать искомый параметр.
Если интервальная оценка параметра строится так, что известна вероятность попадания значения параметра в границы интервала, то интервал
называется доверительным.
Измерение – процедура установления взаимооднозначного соответствия
между множеством объектов (состояний) и множеством символов (чисел). В
более узком значении – вид эмпирического исследования, в ходе которого
исследователь выявляет качественные и количественные характеристики
объекта (множества объектов) с помощью внешних средств (приборов, тестов и пр.).
Интервальная оценка параметра – это интервал числовой оси, в котором лежит значение этого параметра.
Корреляционное исследование – направлено на выявление статистической значимости между двумя и более переменными. Применяется при невозможности манипуляции переменными.
Коэффициент корреляции – это количественная мера силы и направления вероятностной взаимосвязи двух переменных; принимает значения в
диапазоне от -1 до +1.
Медиана, Md (Median) – значение признака, которое делит упорядоченное (ранжированное) множество данных пополам, так что одна половина
всех значений оказывается больше медианы, а другая – меньше.
Мера центральной тенденции (Central Tendency) – число, характеризующее выборку по уровню выраженности измеренного признака.
Меры изменчивости (Dispersion) применяются в психологии для численного выражения величины межиндивидуальной вариации признака.
Меры связи служат для описания связи (или корреляции) между переменными.
Метод (греч μετοδοζ – путь, теория, учение) – способ научного познания
объекта или практической деятельности, реализующий познавательную позицию субъекта к объекту исследования.
Метод принятия решения относительно справедливости статистической
гипотезы называется проверкой гипотезы.
58
Методика – система и последовательность действий исследования,
средств (инструментов, приборов, обстановки), позволяющая решить исследовательскую задачу. С помощью методики фиксируют характеристики поведения и воздействуют на объект. Как правило, для регистрации сходных
сторон объекта существует множество методик (методическая избыточность), что обеспечивает взаимную верификацию данных, получаемых различными методиками.
Мода (Mode) – значение в множестве наблюдений, которое встречается
наиболее часто. Это значение признака, а не его частота.
Научная гипотеза – это разумное, обоснованное и развитое предположение.
Нормальная кривая – это кривая, описывающая полигон частот измерений нескольких различных переменных.
Нормальное распределение – это распределение плотности вероятности р(х) значений зависимой переменной по отношению к независимой под
влиянием множества не взаимодействующих факторов.
Нуль-гипотеза – часть статистической гипотезы, состоящей из исследовательской гипотезы (Н1 – гипотеза о различиях) и нуль-гипотезы (Н0 – гипотеза отсутствия различий).
К первичным описательным статистикам (Descriptive Statistics) относят числовые характеристики распределения измеренного на выборке признака. Каждая такая характеристика отражает в одном числовом значении
свойство распределения множества результатов измерения. Основное назначение каждой из первичных описательных статистик – замена множества
значений признака, измеренного на выборке, одним числом (например, средним значением как мерой центральной тенденции).
Переменные – параметр реальности, который может изменяться и/или
изменяется в экспериментальном исследовании. Различают: независимые переменные – изменяемые экспериментатором; зависимые переменные – изменяемые под влиянием изменений независимой; внешние (побочные) недоступные управлению, но влияющие на зависимую, источник погрешности;
латентные – недоступные непосредственно измерению, фиксируются путем
анализа совместной вариации зависимых переменных; дополнительные –
учитываемые в эксперименте внешние переменные и т. д.
Размах (Range) измеряет на числовой шкале расстояние, в пределах которого изменяются оценки. Различают два типа размаха: включающий и исключающий. Исключающий размах – это разность максимального и минимального значений в группе. Включающий размах – это разность между естественной верхней границей интервала, содержащего максимальное значение,
и естественной нижней границей интервала, включающего минимальное значение.
Репрезентативность выборки – соответствие свойств исследуемой выборки свойствам генеральной совокупности. Она достигается случайным выбором объекта из совокупности, подбором пар, члены которых эквивалентны
и относятся в разные группы, или комбинацией этих способов.
59
Среднее (Mean) или выборочное среднее, среднее арифметическое –
сумма всех значений измеренного признака, деленная на количество суммированных значений.
Стандартное отклонение (Std. deviation) (сигма, среднеквадратическое
отклонение) определяется как положительное значение квадратного корня из
дисперсии.
Статистическая гипотеза – утверждение относительно неизвестного
параметра.
Статистический вывод – это рассуждение от частного к общему, от
явного к неявному.
Шкала (лат. scala – лестница), в буквальном смысле, – измерительный
инструмент.
60
5. МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ
ДИСЦИПЛИНЫ
5.1. Теоретические занятия (лекции):
a. комплект видео лекций;
b. комплект электронных презентаций/слайдов;
c. презентационная техника (проектор, экран, компьютер/ноутбук);
d. рабочее место преподавателя, оснащенное компьютером с доступом в Интернет;
e. рабочее место студента, оснащенное компьютером с доступом в
Интернет, предназначенное для работы в электронной образовательной среде.
5.2. Практические занятия (вебинары):
a. презентационная техника (проектор, экран, компьютер/ноутбук);
b. пакеты ПО общего назначения (Microsoft Office Word, Excel);
c. рабочее место преподавателя, оснащенное компьютером с доступом в Интернет;
d. рабочее место студента, оснащенное компьютером с доступом в
Интернет, предназначенное для работы в электронной образовательной среде.
5.3. Самостоятельная работа студента:
a. пакеты ПО общего назначения (Microsoft Office Word, Excel);
b. рабочее место студента, оснащенное компьютером с доступом в
Интернет, предназначенное для работы в электронной образовательной среде.
5.4. Контрольная работа:
a. рабочее место преподавателя, оснащенное компьютером с доступом в Интернет;
b. рабочее место студента, оснащенное компьютером с доступом в
Интернет, предназначенное для работы в электронной образовательной среде.
5.5. Зачет:
a. рабочее место преподавателя, оснащенное компьютером с доступом в Интернет;
b. рабочее место студента, оснащенное компьютером с доступом в
Интернет, предназначенное для работы в электронной образовательной среде.
61
Приложение 1
МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПРЕПОДАВАТЕЛЮ ПО ПРОВЕДЕНИЮ ЛЕКЦИОННЫХ ЗАНЯТИЙ
Для данной дисциплины разработан комплект видео лекций и электронных презентаций/слайдов. Теоретические занятия (лекции) проводятся с
использованием технологии дистанционного обучения. Используя презентационную технику (проектор, экран, компьютер/ноутбук), преподаватель
транслирует студентам лекционный материал и комментирует его, выполняя
операции по решению задачи изучаемой темы.
Приложение 2
МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ СТУДЕНТАМИ ПО ВЫПОЛНЕНИЮ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Для обеспечения самостоятельной работы студентов разработан Webсайт информационной поддержки, содержащий программу изучаемой дисциплины и все необходимые материалы. При выполнении самостоятельной работы студенты более детально знакомятся с курсом лекций, используя рекомендуемые источники литературы. С помощью контрольных вопросов студенты проверяют уровень понимания пройденного материала. При выполнении домашних заданий студенты вырабатывают умения применять полученные знания на практике.
Приложение 3
МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПРЕПОДАВАТЕЛЮ ПО ПРОВЕДЕНИЮ ПРАКТИЧЕСКИХ ЗАНЯТИЙ
Практическое занятие проводится после проведения теоретического
(лекционного) занятия и выполнения студентом самостоятельной работы. На
практическом занятии студенты могут получить разъяснения от преподавателя по возникающим вопросам при выполнении самостоятельной и/или домашней работы. Перед завершением практического занятия студент с помощью Internet отправляет преподавателю документ с решенным на занятии заданием. Преподаватель проверяет выполненное студентом задание и выставляет оценку в рабочую ведомость.
62