Анализ данных в социальных науках
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Блюменау Нина Федоровна
Анализ данных в психологии и
социальных науках
Конспект лекций
Рига, 2017
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
1
CОДЕРЖАНИЕ
Введение.......................................................................................................................................10
1. Измерение.................................................................................................................................16
1.1. Измерительные шкалы.............................................................................................17
1.1.1. Шкала наименований................................................................................17
1.1.2. Порядковая шкала......................................................................................18
1.1.3. Шкала интервалов......................................................................................21
1.14. Шкала отношений.......................................................................................21
1.2. Мощность шкалы……………………………………………………………...…...24
1.3. Особенности обработки данных в зависимости от шкал......................................25
1.3.1 Номинальная шкала....................................................................................25
1.3.2. Порядковая шкала......................................................................................26
1.3.3. Метрические шкалы..................................................................................26
1.4. Переменные величины.............................................................................................27
1.5. Популяция и выборка...............................................................................................28
1.5.1. Популяция (Population).............................................................................28
1.5.2. Выборка (Sample).......................................................................................29
2. Основные показатели описательной статистики..................................................................29
2.1. Объем выборки.........................................................................................................29
2.2. Среднее арифметическое.........................................................................................30
2.3. Стандартная ошибка среднего.................................................................................30
2.4. Медиана.....................................................................................................................30
2.5. Мода...........................................................................................................................31
2.6. Дисперсия..................................................................................................................31
2.7. Стандартное отклонение..........................................................................................31
2.8. Размах.........................................................................................................................34
2.9. Асимметрия...............................................................................................................34
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
2
2.10. Стандартная ошибка асимметрии.........................................................................36
2.11. Эксцесс.....................................................................................................................37
2.12. Стандартная ошибка эксцесса...............................................................................38
2.13. Квартили..................................................................................................................39
2.14. Шкала стенов….…………………………………………............………………..40
3. Общие рекомендации к объему выборки..............................................................................44
4. Расчет описательных статистик с помощью компьютерной программы SPSS.................45
5. Гендерные различия агрессии у подростков.........................................................................47
5.1. Ввод данных..............................................................................................................47
5.1.1. Описание переменных...............................................................................50
5.1.2. Ввод данных...............................................................................................59
5.1.3. Проверка правильности ввода данных....................................................60
5.2. Описательная статистика.........................................................................................64
5.3. Графические иллюстрации уровней агрессии мальчиков и девочек...................74
5.3.1. Коробчатые диаграммы.............................................................................74
5.3.2. Диаграммы для средних значений...........................................................86
5.3.2.1. Построение с помощью Excel....................................................86
5.3.2.2. Построение с помощью SPSS. Способ 1..................................87
5.3.2.3. Построение с помощью SPSS. Способ 2..................................91
6. Распределения..........................................................................................................................94
6.1. Случайные величины...............................................................................................94
6.2. Нормальное распределение.....................................................................................97
6.3. Распределение «Хи-квадрат» ( χ 2 ).......................................................................100
6.4. Распределение Стьюдента или t-распределение..................................................103
6.5. Распределение Фишера-Снедекора или f-распределение...................................105
7. Проверка статистических гипотез с помощью SPSS.........................................................108
7.1. Виды статистических гипотез...............................................................................108
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
3
7.2. Ошибки 1-ого и 2-ого рода....................................................................................110
7.3. Статистический критерий......................................................................................111
7.4. Критическая область. Критические точки...........................................................112
7.5. Нахождение критических точек с помощью
компьютерной программы GRETL......................................................................115
7.6. Нахождение критических точек распределения χ 2 с помощью
компьютерной программы Excel……………………………………..………….119
7.7. р-value......................................................................................................................120
7.8. Вычисление р-value с помощью компьютерной программы GRETL................123
Домашнее задание 1..........................................................................................126
7.9. Мощность критерия................................................................................................126
7.10. Параметрические и непараметрические критерии............................................127
8. Проверка нормальности распределения данных с помощью SPSS..................................128
9. Гендерные различия агрессии у подростков. Продолжение…….....................................129
9.1.Проверка нормальности распределения данных..................................................129
9.1.1. Стандартные ошибки асимметрии и эксцесса......................................129
9.1.2. Критерий Колмогорова-Смирнова.........................................................130
9.1.3. Критерий Колмогорова-Смирнова в модификации Лиллифора и
критерий Шапиро-Уилкса.................................................................................134
9.1.4. Получение гистограмм с нормальной кривой......................................138
9.1.5. Выбор критерия для исследования гендерных различий....................147
9.2. Исследование различия уровня агрессии с помощью U-критерия МаннаУитни..............................................................................................................................147
9.3. Исследование различия средних уровней агрессии с помощью
параметрического t-теста..............................................................................................152
Домашнее задание 2..........................................................................................157
10. Классификация методов статистического вывода о различии........................................158
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
4
11. Исследование связи.............................................................................................................158
11.1. Корреляционная диаграмма.................................................................................159
11.2. Коэффициенты корреляции.................................................................................162
11.3. Проверка статистической значимости коэффициента
корреляции Пирсона............................................................................................168
11.4. Проверка статистической значимости коэффициентов
корреляции Спирмена и Кендалла……………………………………………176
Домашнее задание 3..........................................................................................177
11.5. Частная корреляция………………………………………………………….….178
11.6. Нелинейный характер связи................................................................................180
11.7. Частотный анализ.................................................................................................181
11.8. Исследование связи, когда коэффициентами одна переменная
количественная, а другая номинальная..............................................................181
11.9. Исследование связи между номинальными переменными..............................182
11.10. Сравнение корреляций для двух независимых выборок................................183
11.11. Сравнение коэффициентов корреляции двух зависимых выборок...............185
11.12. Схема исследования связи.................................................................................188
12. Связь между самооценкой и агрессией подростков.........................................................189
12.1. Ввод данных..........................................................................................................190
12.2. Описательная статистика и проверка нормальности распределения..............194
12.2.1. Показатели описательной статистики.................................................194
12.2.2. Гистограммы с нормальной кривой.....................................................196
12.2.3. Критерий Колмогорова-Смирнова в модификации Лиллифора и
критерий Шапиро-Уилкса.................................................................................198
12.2.4. Графическая иллюстрация: Boxplots...................................................202
12.3. Вычисление коэффициентов корреляции..........................................................205
12.4. Корреляционные диаграммы...............................................................................208
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
5
12.5. Нелинейный регрессионный анализ. Выбор вида связи...................................212
12.6. Графическая иллюстрация результатов регрессионного анализа....................227
12.7. Переход к низким и к высоким показателям.....................................................233
12.7.1. Анализ двух групп самооценки............................................................235
12.7.2. Анализ двух групп вербальной агрессии............................................264
13. Критерий согласия χ 2 –Пирсона.......................................................................................270
13.1. Выявление различий в распределениях признаков. Критерий согласия χ 2 Пирсона (Chi-square, Pearson).......................................................................................270
13.2. Сравнение эмпирического распределения признака с равномерным
распределением..............................................................................................................272
13.3. Сравнение двух эмпирических распределений.................................................282
14. Исследование выборов терминальных ценностей (ТЦ) по М. Рокичу...........................296
15. Многофункциональные статистические критерии. Критерий Фишера- ϕ ∗ ...................309
16. Частотный анализ для примера исследования связи между самооценкой и
агрессией.....................................................................................................................................316
Домашнее задание 4..........................................................................................335
Домашнее задание 5..........................................................................................335
21. ANOVA.................................................................................................................................336
21.1. Основные понятия................................................................................................289
21.2. Однофакторный дисперсионный анализ «One-way ANOVA».........................293
21.3. Пример применения One Way ANOVA с помощью SPSS................................303
21.4. Множественные сравнения средних...................................................................310
Домашнее задание 6..........................................................................................317
21.5. Многофакторный дисперсионный анализ ANOVA..........................................318
21.6. Общая линейная модель.......................................................................................329
21.6.1. Однофакторный ANOVA......................................................................329
21.6.2. Двухфакторный ANOVA......................................................................334
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
6
21.7. Пример применения двухфакторного ANOVA с помощью SPSS...................338
Домашнее задание 5..........................................................................................363
22. Регрессионный анализ……………………...……………………………………………..364
22.1. Простая линейная регрессия……………………………………………………364
22.1.1. Cуммы квадратов отклонений (Sums of Squares)...............................370
22.1.2. Коэффициент детерминации (R square)…...…………………………372
22.1.3. Cредние квадраты отклонений.............................................................374
22.1.4. Cтандартная ошибка прогноза (St.andard Error of
Estimate)……...…...........................................................................................................376
22.1.5. Adjusted R Square (Скорректированный R-квадрат)………………..377
22.1.6. Дисперсионный анализ ANOVA……………………………………..378
22.1.7. Статистическая значимость параметров регрессии...........................380
22.1.8. Уравнение линейной регрессии для стандартизованных данных…382
22.1.9. Решение с помощью SPSS....................................................................384
22.1.10. Сохранение прогнозируемых значений и остатков…………..…...388
22.2. Пример с применением SPSS: «Тревожность-Тест»1…..………...………..…388
22.1.1. Линейная модель…………...………………………………………….389
22.2.2. Оценка нелинейности…………………………………………………393
I. Построение квадратической регрессионной модели с помощью
нелинейного регрессионного анализа………………………………………..395
II. Построение квадратической регрессионной модели с помощью
добавления новой переменной……………………………………………….399
Домашнее задание 6..........................................................................................408
23. Множественный регрессионный анализ……………………………...…………………409
23.1. Постановка задачи………………………………………………………………409
23.2. Проверка значимости уравнения регрессии (ANOVA)…………………...….411
Наследов А.Д. (2005) SPSS: Компьютерный анализ данных в психологии и социальных науках. СПб.:
Питер.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
1
7
23.3. Коэффициент детерминации……………………………………………..…….415
23.4. Скорректированный R-квадрат (Adjusted R Square)………………………….416
23.5. Стандартная ошибка прогноза……………………………………………...…..417
23.6. Условия получения приемлемых результатов
множественного регрессионного анализа…………………………….………418
23.7. Пример: «Помощь»……………………………………………………………..419
23.7.1. Анализ исходных данных…………………………………………….419
23.7.2. Основные методы множественного регрессионного анализа с
помощью SPSS………………………………………………………………...425
23.7.3. Метод «Enter» (Включение)………………………………………………….432
23.7.4. Метод «Forward» (Прямой)….………………………………………………..434
23.7.5. Метод «Backward» (Обратный)……………………………………..………..438
23.7.6. Пошаговые методы……………………………………………………...…….441
23.8. Пример: «Эксплицитные и имплицитные аттитюды к мобильным
операторам: эмоциональные и когнитивные аспекты».............................................443
Домашнее задание 7..........................................................................................446
24. Анализ надежности………………………………………………………………………..447
24.1. Коэффициент альфа Кронбаха…………………………………………………448
24.2. Рекомендации по оценке внутренней согласованности шкалы……….……..463
Домашнее задание 8..........................................................................................464
25. Факторный анализ…………………………………………………………………….…..464
25.1. Основные понятия................................................................................................464
25.2. Постановка задачи...................……………………………………….…………467
25.3. Анализ главных компонент.................................………………..……………..471
25.4. Определение числа факторов……………………..…………………………....476
25.5. Восстановление коэффициентов корреляции....................................................477
25.6. Факторная структура……………………………………………………………480
25.7. Проблема общности…………………………………………………………….481
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
8
25.8. Методы факторного анализа………………………………..………………….484
25.9. Вращение факторов.......…………………………...............................................486
25.10. Оценка значений фактора………..…………..................……………………..490
25.11. КМО и критерия сферичности Бартлетта……...……………………………..497
25.12. Пример обработки на компьютере…………..………………………………..498
Домашние задания.....................................................................................................................511
Приложение 1. Методика Басса-Дарки....................................................................................516
Приложение 2. Математическая часть работы «Исследование гендерных различий
агрессивности у подростков 14-15 лет»..................................................................................530
Приложение 3. Методика Дембо-Рубинштейна.....................................................................557
Приложение 4. Математическая часть работы «Исследование связи между самооценкой и
агрессией в подростковом возрасте».......................................................................................562
Приложение 5. Исследование связи эмоционального истощения со стажем......................648
Литература..................................................................................................................................655
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
9
Введение
В ХХ веке в социальных науках стали активно использоваться математические
методы. С развитием вычислительной техники происходило совершенствование этих
методов. Наряду с математиками статистические методы, теорию вероятностей и
вычислительные методы развивали физики, биологи, генетики, психологи, медики и
ученые из других областей науки. Их именами названы многие статистические термины.
Например, теоретическое распределение Фишера-Снедекора. Рональд Фишер –
статистик, биолог, генетик, основатель дисперсионного анализа (ANOVA). Благодаря
работе Фишера, регрессионный анализ используется для того, чтобы сделать вывод о связи
между переменными. Известен статистический критерий Фишера.
Термин «регрессия» был впервые применен к статистике географом, психологом и
антропологом Фрэнсисом Гальтоном, который внес существенный вклад в развитие
статистики и генетики. В 1870 году он собрал данные о высоте потомков экстремально
высоких и экстремально низких деревьев2. Он хотел выяснить, как связаны деревья со
своими предками. Ученый опубликовал результаты исследования в 1886 году под
названием «Регрессия к среднему в наследственности». Из наблюдений Гальтона следует,
что потомство не стремится походить на родителей по размеру, но всегда получается
более средним — ниже, чем предки, если предки были высокими, и выше, чем предки,
если предки были низкими. Френсис Гальтон является, также, одним из основателей
факторного анализа.
Карл Пи́рсон (1857 — 1936) — английский математик, статистик, биолог и
философ;
основатель
математической
статистики,
один
из
основоположников
биометрики.
Широко известен коэффициент корреляции Спирмена. Психолог Чарльз Эдвард
Спирмен был, также, одним из основателей факторного анализа, наряду с психологами
Луисом Леоном Терстоуном, Реймондом Бернард Кеттелом и Гансом Юргеном Айзенком
и другими учеными.
В
настоящее
математическое
время
обоснование.
любые
По
исследования
требованиям
в
психологии
Американской
должны
иметь
Психологической
Например, «Кто изобрел понятие о статистической регрессии?». Доступно в
http://lpgenerator.ru/blog/2015/12/16/kto-izobrel-ponyatie-o-statisticheskoj-regressii/
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
10
2
Ассоциации (АРА3) в научных статьях обязательно должны быть представлены
статистические
методы
обработки
данных.
Существует
специальная
система
статистических сокращений, которые не нуждаются в пояснениях. Разработан комплекс
статистических компьютерных программ, который назвали «Statistical Package for Social
Sciences», сокращенно – SPSS. Сейчас SPSS используют не только в социальных науках.
Существует
уже
вполне
традиционное
убеждение,
что
психология
без
количественных исследований, связывающих теорию с практикой, развиваться не может.
Любую экспериментальную гипотезу принято доказывать с применением математических
методов. Современному психологу необходимо уметь организовывать исследование так,
чтобы его результаты можно было бы обработать с применением математических
методов, уметь выбирать адекватные методы обработки данных, анализировать и
интерпретировать полученные результаты.
Без статистической обработки данных невозможно защитить бакалаврскую работу,
магистерскую работу и докторскую диссертацию по психологии.
Психологу необходимо уметь совершать переход от психологического языка к
языку математики. Определять математическую идентификацию исследовательской
ситуации, выбирать валидные методики для измерения переменных и адекватные методы
анализа данных. Обрабатывать данные, анализировать их математически, получать
результаты. А затем, поработав с математикой, необходимо переходить обратно, на
психологический язык, давать результатам психологическую интерпретацию.
Основной целью преподавания статистических методов студентам-психологам
является подготовка студентов к будущей научной работе, начальными этапами которой
служат курсовая, дипломная и магистерская работы.
При решении реальных задач даже в рамках учебного процесса (выполнения
курсовых, дипломных, магистерских работ) приходится сталкиваться с обработкой
большого количества данных. Существует множество статистических компьютерных
программ, позволяющих быстро и качественно это делать. Психолог должен знать
APA – American Psychological Association. http://www.apa.org/. APA является ведущей научной и
профессиональной организацией, представляющей психологию в Соединенных Штатах. Миссия АРА
состоит в том, чтобы продвигать создание, коммуникации и применение психологических знаний на благо
общества и улучшения жизни людей. APA была основана в июле 1892 года небольшой группой ученых.
Первым президентом АРА был Грэнвилл Стэнли Холл (1844-1924) (Granville Stanley Hall, см.
http://www.newworldencyclopedia.org/entry/G._Stanley_Hall). В 2016 году президентом АРА избрана Susan H.
McDaniel http://www.apa.org/about/governance/council/members/susan-h-mcdaniel.aspx.
3
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
11
возможности статистических программ и уметь их применять. В данном учебном пособии
рассматривается применение компьютерных программ SPSS, GRETL и MS Excel.
Для усвоения данного предмета требуется предварительное изучение курса
«Статистические методы в психологии», основ психометрики и умение пользоваться
компьютером (MS Word, Excel, Internet).
Статистическая терминология на русском и латышском языках существенно
отличается от соответствующей английской терминологии, используемой в учебниках на
английском языке, в научной литературе и в компьютерных программах. Поэтому каждое
новое понятие необходимо знать на латышском, русском и английском языках.
Все примеры, которые рассматриваются в данном конспекте лекций основаны на
реальных данных, взятых из курсовых, дипломных и магистерских работ, а также из
учебников, научных статей и других публикаций. Часто используются сокращения на
латышском языке.
Конспект лекций «Анализ данных в психологии и социальных науках»
предназначен для студентов как бакалаврской, так и магистерской программ.
Основной целью предлагаемого курса является возможность приобрести знания и
развить компетентности в выборе адекватных статистических методов обработки данных,
в обработке данных, в анализе полученных результатов, а также в использовании
компьютерных программ MS Excel, GRETL и SPSS для решения теоретических и
практических задач современной психологии и других социальных наук.
Основными задачами данного курса лекций являются:
•
Формирование теоретических и практических компетентностей по применению
современных
статистических
методов
и
компьютерных
программ
для
исследования;
•
Содействие
в
развитии
научно-исследовательских
навыков,
критического
отношения, способностей давать объективные оценки и самооценку, а также
личностного развития будущих исследователей.
Формируемые компетентности:
Ø Общенаучные:
способность
и
готовность
к
синтезу
знаний
в
области
статистических и вычислительных методов при осуществлении исследований, к
анализу конкретной исследовательской ситуации.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
12
Ø Инструментальные: использование специфической терминологии статистики,
работа с информацией из разных источников, освоение навыков оформления
научных отчетов, использования различных компьютерных программ.
Ø Социально личностные и культурные: способности к самосовершенствованию, к
переоценке накопленного опыта, знаний и информационных технологий; к
критическому восприятию информации, к её проверке аналитическими методами;
способности выявлять и анализировать психологические проблемы, используя
статистические методы и вырабатывать рекомендации в области возможного
практического использования результатов исследования, способности анализа
полученных результатов с точки зрения психологической этики.
Ø Профессиональные: знания фундаментальных основ статистики как базы для
использования статистических методов в психологическом исследовании, умения
оценивать достоверность и надёжность результатов, интерпретировать результаты
и разрабатывать рекомендации для их применения.
Полученные компетентности могут дать возможность студентам применить их к
написанию выпускных работ, явятся основой для продолжения образования и к
осуществлению научных исследований.
Конспект лекций содержит:
•
теоретическое описание основных понятий статистики,
•
руководство по использованию компьютерных программ Excel и SPSS
(версия 17.0) для решения конкретных психологических задач,
•
список основной и дополнительной литературы,
•
файлы данных в Excel, для примеров, разбираемых в конспекте,
•
файлы с вариантами домашних заданий,
•
некоторые методики психологических измерений,
•
приложения с примерами оформления домашних заданий.
Без самостоятельного выполнения домашних заданий освоение курса невозможно.
К
конспекту
лекций
прилагаются
файлы
данных,
предназначенные
для
самостоятельного освоения курса и для выполнения домашних заданий (Таблица 1).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
13
Конспектом лекций могут пользоваться как бакалавры, так и магистранты.
Конспект може быть использован для дистанционного обучения.
Конспект может быть также использован как самоучитель по основам
компьютерной обработки данных исследования в социальных науках.
Выставляемая студенту оценка складывается из оценки выполнения домашних
заданий (50%) и из оценки, полученной при выполнении экзаменационной работы (50%).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
14
Таблица 1
Файлы данных, предназначенные для самостоятельного освоения курса и для выполнения
домашних заданий
Фолдер
Файлы в фолдере
Agr_Data.xlsx
Agr_Data_Factor.xlsx
Agr_Varianti_(1-16).xlsx
12_16_Agressija&Samoocenka Samoocenka_Agressija_Data.xlsx
Samoocenka_Agresija_Data_Varianti_(1-16)
13_15_Chi_Square
Data_Chi_Rokich.xlsx
Pivo_PIT_reklama.xlsx
Smertnaja_Kaznj.xlsx
Trevozhnostj_Figuri.xlsx
Chi_Square_Varianti_(1-16).pdf
21_One_way_ANOVA
Data_EI_Oneway_ANOVA.xlsx
Varianti_Stazh-EI_(1-16).xlsx
21_Two_way_ANOVA_Rats
Rats.xlsx
Rats_Varianti_(1-16).xlsx
22_Regression_Simple
Exam.xlsx
IQ(8)_Mathematics(9).xlsx
Prostaja_regressija_zadanie_Varianti_(1-20).docx
23_Regression Multiple
MR_help.xlsx
MR_Magazines_Varianti_(1-16).xlsx
24_Cronbach_Alfa
Test_Altruizm_Alfa.xlsx
ALFA_Varianti_(1_16).xlsx
Test_IQ.xlsx
25_Factor_Analysis
Домашнее
задание
5_8_9_Agressija
1
2
3
4
5
6
7
8
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
15
1. Измерение
Американский психолог-психофизик, автор теории психофизических измерений
Стивенс Стэнли Смит в середине ХХ века дал следующее определение измерению.
Под измерением понимают процедуру приписывания числовых форм объектам или
событиям в соответствии с определенными правилами.
Эти правила устанавливают соответствие между измеряемым свойством объекта и
результатом измерения (в частности - числом).
Американский психолог. Стивенс (Stevens) Стэнли Смит родился 4 ноября 1906 года,
в Огдене, штат Юта1. В конце 30-х годов выступил с программой
перестройки психологии на основе идей операционализма.
Профессор Гарвардского университета, с 1944 года руководил
организованной им лабораторией психофизики. Инициатор
направления, альтернативного классической психофизике Густава
Теодора Фехнера - немецкого психолога, одного из первых
экспериментальных
психологов,
основоположника
психофизиологии и психофизики. Фехнер пользовался так
называемым косвенным методом шкалирования ощущений. Стенли
и его ученики обратились к «прямым» методам, при которых от
испытуемого требуется непосредственная оценка ощущений
относительно некоторого эталона. Стенли сформулировал «закон
степенной
функции
Стивенса»
в
противоположность
«логарифмическому» закону Вебера ‒ Фехнера. С именем Стивенса
связан новый этап развития психофизики - разработка принципа прямого измерения
психических величин. На основе этого принципа им были предложены «прямые» методы
экспериментального изучения ощущений. Результатом работы Стивенса в области
теоретической психофизики явилась нейроквантовая теория сенсорного порога и теория
сенсорных шкал. Стенли Стивенс скончался 18 января 1973 года в Вайле, штат Колорадо.
1
http://dic.academic.ru/dic.nsf/bse/136109/%D0%A1%D1%82%D0%B8%D0%B2%D0%B5%D0%BD%D1%81
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
16
1.1. Измерительные шкалы
Шкала (лат. scala – лестница) – это некоторая числовая структура, подобранная для
конкретной эмпирической структуры данных, т.е. результат числового представления
эмпирической структуры данных. Современная классификация шкал была предложена в 1946
году Стэнли Смитом Стивенсом2.
Идея шкалирования состоит в замещении интересующих нас эмпирических объектов
числами, которые удобны в обращении.
Шкалы разделяют на метрические и неметрические. Если есть или может быть
установлена единица измерения, то шкалу называют метрической. В противном случае –
неметрической.
Рассмотрим измерительные шкалы, которые называют шкалами Стенли Стивенса
(1946).
1.1.1. Шкала наименований (Nominal Scale, Nominālā skala)
Измерение в номинальной шкале предполагает группировку объектов по классам
(категориям). Внутри класса объекты должны быть идентичны по измеряемому свойству.
Классы нумеруют произвольным способом.
Как правило, шкалу наименований используют, когда приходится иметь дело с такими
признаками, которые невозможно выразить количественно.
1. Пример: признак - национальность:
латыш - 11
русский - 23
поляк – 34
еврей - 41
немец – 58
2. Пример:
признак - пол:
мужской – 1
женский – 0.
2
Stevens, S.S. (1946). On the theory of Scales of Measurement. Science, 103(2684), 677-680. Retrieved in
http://science.sciencemag.org/content/103/2684/677
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
17
То, что присвоенное число больше или меньше другого присвоенного числа никак не
связано со свойством объекта. Например, то, что 1 > 0 для Примера 2 (признак - пол) не говорит
о том, что какого-то «полового качества» в мужчине больше, а в женщине меньше. Или,
например, в Примере 1, не говорит о том, что немец, которому присвоили число 58, имеет
количество «признака национальности больше», чем поляк, которому присвоили число 34.
Числа, присвоенные категориям в номинальной шкале, говорят только о том, что
качества этих категорий отличаются.
Разновидностью номинальных шкал является дихотомическая шкала наименований, в
которой признак имеет всего две категории (Пример 2).
Результат измерения в номинальной шкале дает ответ на вопрос:
«К какой группе принадлежит результат измерения?»
1.1.2. Порядковая шкала (Ordinal Scale, Kārtas skala)
Порядковая шкала – неметрическая шкала.
Измерение в этой шкале предполагает приписывание свойствам объектов чисел, в
зависимости от степени выраженности измеряемого свойства.
Фиксируется различие степеней измеряемого свойства.
Баллы в порядковой шкале говорят только о месте одного объекта, по отношению к
другим объектам, но не отвечают на вопрос: на сколько значение признака одного объекта
отличается от другого.
1.Пример. Признак – внешняя красота. Местам, полученным в конкурсе красоты можно
поставить в соответствие значения признака - баллы:
Света – 1, Маша – 2, Таня -3, Оля -4.
Присвоение баллов является измерением в порядковой шкале. Присвоенные баллы в
говорят о том, что Света самая красивая, а Оля самая некрасивая.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
18
Но вовсе не следует, что Света красивее Маши ровно на столько же, насколько Таня
красивее Оли, хотя разности между соответствующими баллами равны: 2-1=4-3.
Числа, приписанные объектам в порядковой шкале, говорят только о месте одного
объекта, по отношению к другим объектам, но не отвечают на вопрос: на сколько больше или
меньше выражено измеряемое свойство у одного объекта, чем у другого объекта.
Пример 2. В Таблице 1.1 приведены результаты измерения памяти школьников по
специальному тесту в баллах (признак Х, столбец 3). В этом тесте большему баллу
соответствует лучшая память. Если нет дополнительных исследований эмпирических данных,
то можно считать, что данные измерения представлены в порядковой шкале. Таня запоминает
лучше всех, хуже всех запоминает Юра. У Марины память лучше чем Коли, но хуже чем у
Тани, и т.д.
При обработке данных, измеренных в порядковых шкалах, часто приходится
ранжировать данные.
Присвоим результатам теста ранги так, чтобы большему баллу соответствовал больший
ранг.
Упорядочим баллы в порядке убывания (Таблица 1.1, столбец 3). В первом столбце
запишем номера участников, начиная с 10 в убывающем порядке.
Если оценка встречается один раз, то ей присваивается обычный (несвязанный) ранг,
совпадающий с порядковым номером оценки. Если имеется группа одинаковых оценок, то
каждой из них присваивается один и тот же (связанный) ранг, который равен сумме
порядковых номеров этих одинаковых оценок, деленной на количество этих оценок.
Танин балл (15) встречается один раз. Танин ранг будет совпадать с ее порядковым
номером – 10. Запишем его в столбце 4. Это несвязанный ранг.
У Оли и Светы одинаковые баллы (по 14). Их ранги равны
8+9
= 8, 5 Это связанные
2
ранги.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
19
Правильность присвоения рангов можно проконтролировать - сумма всех рангов равна
сумме порядковых номеров и равна:
n (n + 1)
.
2
Объем выборки n = 10. n - совпадает с количеством участников тестирования.
Контроль правильности присвоения рангов:
Сумма всех рангов = 10 + 8, 5 + 8, 5 + 6 + 6 + 6 + 4 + 3 + 2 + 1 = 55 .
Сумма всех порядковых номеров в Таблице 1.1. равна
1 + 2 + L + n = 1 + 2 + 3 + L + 10 = 55 .
С другой стороны,
n (n + 1) 10 ⋅ (10 + 1)
= 55 .
=
2
2
55=55, следовательно, ранжирование выполнено верно.
Таблица 1.1.
Присвоение рангов для Примера 3. Результаты измерения памяти школьников по
специальному тесту
Nr.
Имя
Оценка за тест
в баллах
(признак Х)
Ранг, присвоенный
оценке
1
2
3
4
10
Таня
15
10
9
8
7
6
5
4
3
2
1
Оля
Света
Ася
Катя
Андрей
Марина
Миша
Коля
Юра
14
14
10
10
10
9
8
5
3
8,5
8,5
6
6
6
4
3
2
1
Подсчет связанных рангов
5
8+9
= 8, 5
2
5+6+7
=6
3
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
20
3.Пример. Признак – способности по математике. Для выявления способностей по
математике использовался специальный тест, содержащий 60 вопросов. Каждый ответ
оценивался «правильно» - 1, «неправильно» - 0. В результате были получены баллы:
Валерий – 45, Дмитрий -34, Антон – 15, Виталий – 22.
Результаты можно упорядочить по способностям к математике.
Самым способным оказался Валерий (45), затем Дмитрий (34), затем Виталий (22),
затем Антон (15). Пусть имеются нормы, например,
0-10 очень плохие способности;
11-20 плохие способности;
21-40 средние способности;
41-50 хорошие способности;
51-60 очень хорошие способности.
Тогда, Валерий относится к группе учеников с хорошими способностями по
математике, Дмитрий и Виталий относятся к группе учеников со средними способностями, а
Антон – к группе с плохими способностями.
Результат измерения в порядковой шкале дает ответы на вопросы:
1) «К какой группе принадлежит результат измерения?»
2) «Как можно упорядочить результаты измерения?»
1.1.3. Шкала интервалов (Interval Scale, Intervālu skala)
1.1.4. Шкала отношений (Ratio Scale, Proporcionālā skala)
Это – метрические шкалы.
А. Общее для шкал интервалов и отношений
Обе шкалы предназначены для признаков, которые могут быть выражены
количественно.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
21
При этом равные разности чисел, присвоенных объектам, соответствуют равным
различиям выраженности измеряемого свойства объектов.
Поэтому измерение в шкалах интервалов и отношений дает возможность применения
единицы измерения (метрики).
Измерение в этих шкалах предполагает приписывание объектам чисел, которые
отражают не только различия в степени выраженности измеряемого свойства, но и то,
насколько больше или меньше выражено свойство.
Б. Различие между шкалами интервалов и отношений
Шкала интервалов: Нулевая точка выбрана условно.
Свойство, которое измеряется, не исчезает, если результат измерения равен нулю.
Условность выбора нулевой точки позволяет судить только о том, насколько больше
или меньше выражено свойство, но не дает ответа на вопрос, во сколько раз больше или
меньше выражено свойство.
Примеры:
Ø Исчисление времени в соответствии с Григорианским календарем. Нулевая точка
выбрана условна и связывается с рождеством Иисуса Христа. Она не говорит об
исчезновении времени.
Ø Температура, определяемая в физике через кинетическую энергию движения молекул3,
измеренная по шкале Цельсия. Температура 00С не говорит об остановке молекул. Она
принята условно, как температура, при которой замерзает вода.
Результат измерения в шкале интервалов дает ответы на вопросы:
1) К какой группе принадлежит результат измерения?
2) Как можно упорядочить результаты измерения?
3) Насколько один результат измерения больше другого результата измерения?
В молекулярно-кинетической теории температура определяется как величина, характеризующая приходящуюся
на одну степень свободы среднюю кинетическую энергию частиц макроскопической системы, находящейся в
состоянии термодинамического равновесия.
3
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
22
Шкала отношений: Нулевая точка указывает на полное отсутствие выраженности
измеряемого свойства.
Название шкалы связано с тем, что отношение присваиваемых при измерении чисел
можно интерпретировать как отношение выраженности измеряемых свойств объектов. Дает
ответ на вопрос насколько больше или меньше выражено свойство, а также на вопрос, во
сколько раз больше или меньше выражено свойство.
Примеры:
Ø Исчисление времени в соответствии с иудейским календарем. Нулевая точка указывает
на сотворение мира. Она говорит об отсутствии времени;
Ø Рост, равный нулю, говорит об исчезновении роста, как свойства;
Ø Вес, равный нулю, говорит об исчезновении веса, как свойства.
Ø Температура, измеренная по шкале Кельвина. Абсолютный ноль 00К соответствует
-2730С – есть наиболее низкая возможная температура, при которой в принципе
невозможно извлечь из вещества тепловую энергию, то есть соответствует
прекращению движения молекул.
Результат измерения в шкале интервалов дает ответы на вопросы:
1) К какой группе принадлежит результат измерения?
2) Как можно упорядочить результаты измерения?
3) Насколько один результат измерения больше другого результата измерения?
4) Во сколько раз один результат измерения больше другого результата
измерения?
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
23
1.2. Мощность шкалы
Мощность
шкалы
-
это
способность
шкалы
различать
свойства
или
дифференцирующая способность шкалы.4
То есть способность шкалы отвечать на вопросы (Таблица 1.2):
А. К какой группе принадлежит результат измерения?
B. Как можно упорядочить результаты измерения?
C. Насколько один результат измерения больше другого результата измерения?
D. Во сколько раз один результат измерения больше другого результата измерения?
По мере возрастания мощности шкалы можно расположить следующим образом:
1) наименований, 2) порядковая, 3) интервалов, 4) отношений.
Метрические шкалы оказываются более мощными, чем неметрические. Они лучше
дифференцируют испытуемых. Метрические шкалы не ограничивают исследователя в выборе
последующего анализа.
Неметрические шкалы менее мощные, чем метрические. Они содержат меньше
информации о различии объектов (участников исследования) по измеренному свойству.
Таблица 1.2
Мощность шкал
Шкала
На какие вопросы отвечает результат измерения
Номинальная неметрическая
A
Порядковая
неметрическая
A
B
Интервалов
метрическая
A
B
C
Отношений
метрическая
A
B
C
D
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. C. 27.
4
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
24
Переход к менее мощным шкалам от более мощных часто приводит к утрате
эмпирической информации об индивидуальных свойствах участников исследования.
Поэтому надо стараться по возможности при исследовании применять более мощные
измерительные шкалы. И только если нет выбора, тогда используется любая доступная
исследователю шкала.
1.3. Особенности обработки данных в зависимости от шкал
1.3.1 Номинальная шкала
Методы анализа:
Частотный анализ.
Таблицы сопряженности (Crosstabs).
Критерий «Хи-квадрат» - Chi-square test.
Сравнение процентных долей по критерию ϕ ∗ -угловое преобразование Фишера.
Мера центральной тенденции: МОДА. То есть наиболее часто встречающийся категория
признака.
Исключение: Дихотомические переменные.
Для дихотомических переменных можно определять коэффициенты корреляции,
значения которых можно интерпретировать (например, коэффициент корреляции «фи»
для
двух
дихотомических
переменных,
точечно-бисериальный
коэффициент
корреляции для дихотомической и метрической переменных5. Эти коэффициенты
вычисляются по формуле для коэффициента корреляции Пирсона).
5
Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
25
1.3.2. Порядковая шкала
Методы анализа:
Частотный анализ.
Процентили.
В задачах связи: коэффициенты ранговой корреляции Спирмена и «Тау»Кендалла ( τ -Кендалла).
В задачах различия: непараметрические критерии, у которых вычисление
наблюдаемых значений основано на рангах.
Мера центральной тенденции: МЕДИАНА.
Если объем выборки равен нечетному числу, то посередине упорядоченного в
возрастающем порядке ряда оценок находится одна оценка, которую называют МЕДИАНОЙ.
Если объем выборки равен четному числу, то посередине упорядоченного в
возрастающем порядке ряда оценок находятся две оценки. Их полусумму называют
МЕДИАНОЙ.
50-% оценок не превышают оценку, равную медиане!
Иногда возможно вычисление среднего значения.
1.3.3. Метрические шкалы
В SPSS обработка данных, измеренных в метрических шкалах (интервальной и
отношений) не отличается. Поэтому, метрические переменные описываются как интервальные
(Scale).
Методы анализа:
Переменные, измеренные в метрических шкалах, распределение которых соответствует
нормальному распределению, могут обрабатываться любыми статистическими методами.
Меры центральной тенденции: СРЕДНЕЕ (когда данные имеют нормальное
распределение), МЕДИАНА (когда распределение данных отличается от нормального
распределения, когда имеются экстремальные значения «выбросы»).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
26
ЗАМЕЧАНИЕ.
На величину среднего влияет каждое значение признака. То есть среднее весьма
чувствительно к экстремальным значениям или к «выбросам».
Поэтому, если есть «выбросы», то лучше использовать непараметрическую статистику,
а в качестве меры центральной тенденции - медиану.
ПРИМЕР.
В некоторой фирме работают 10 человек. Их заработная плата (€ в неделю) равна:
65;
75;
80;
80;
80;
80;
80;
80;
Средняя зарплата на фирме составляет M =
80;
10000
65 + 75 + 7 ⋅ 80 + 10000
= 1070 €.
10
Медиана равна Mdn = 80, что говорит о том, что 50% сотрудников фирмы получают
зарплату не выше 80 € в неделю. Таким образом, в данной ситуации медиана является более
объективной характеристикой уровня жизни работающих на фирме, чем среднее
арифметическое.
1.4. Переменные величины
Каждый признак можно рассматривать как переменную величину, значения которой
принимают в данном исследовании различные численные значения.
Различаются непрерывные и дискретные переменные.
Непрерывные переменные могут принимать любые значения из некоторого
определенного числового интервала. Например, вес, рост, время реакции, продолжительность
жизни и т.д.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
27
Дискретные переменные могут принимать лишь отдельные значения. Например, число
детей в семье, число пользователей интернета и т.д.
1.5. Популяция и выборка
Математическая статистика – это наука о математических методах систематизации
и использования статистических данных для научных и практических выводов.
В математической статистике можно выделить две основные части:
1) Описательная статистика (Descriptive Statistics);
2) Теория статистического вывода (Inferential Statistics).
Освоение описательной статистики предусматривает знание математики в рамках
средней школы. Теория статистического вывода подразумевает знание высшей математики,
в том числе таких математических дисциплин, как теория вероятностей, математический
анализ. Теория статистического вывода всегда пользуется терминами теории вероятностей.
1.5.1. Популяция (Population)
Популяция (Генеральная совокупность) – это все множество объектов, в отношении
которых формулируется исследовательская гипотеза6.
Если, все же, исследованию подвергаются все объекты популяции, то такое
исследование называют полным или сплошным.
Количество всех объектов популяции называют ее объемом (size).
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. C. 19.
6
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
28
1.5.2. Выборка (Sample)
Часть объектов популяции, отобранных для того, чтобы после их изучения, сделать
заключение о всей популяции, называют выборкой.
Количество всех объектов выборки называют объемом выборки (Sample size).
Метод исследования, позволяющий делать заключение о характере изучаемых свойств
популяции на основе рассмотрения некоторой ее части (выборки), называется выборочным
методом.
Практически все исследования являются выборочными, а их выводы распространяются
на популяцию.
Когда исследовательская гипотеза сформулирована, возникает проблема организации
выборки. Заключение, полученное путем изучения выборки, можно распространить на всю
популяцию. Но возникает вопрос – насколько точно это полученное исследователем
заключение будет отражать истину. Выборка называется репрезентативной, если точность
полученного заключения удовлетворяет исследователя. В противном случае – выборка
называется недостаточной. Другими словами, репрезентативность (представительность) – это
свойство выборки достаточно полно отражать изучаемое свойство популяции. Чтобы выборка
отражала свойства популяции, она должна быть сформирована случайно. Неслучайный отбор
может исказить истину и привести к ошибочным выводам. Случайный отбор предполагает
создание таких условий, чтобы каждый объект популяции имел равные с другими объектами
шансы попасть в выборку (Random Sample).
2. Основные показатели описательной статистики
2.1. Объем выборки. Izlases apjoms. Count
Это число наблюдений. Как правило – это число участников, анкеты которых
включены в обработку данных. Обозначение по требованиям АРА7 - N.
Valid – имеющиеся в наличии данные; Missing – пропущенные данные.
7
APA – American Psychological Association. http://www.apa.org/.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
29
2.2. Среднее арифметическое. Vidējais. Mean
Это сумма всех оценок, деленная на их количество. Обозначение - x , обозначение по
требованиям АРА8 - М.
2.3. Стандартная ошибка среднего. Vidēja standatrkļūda. Standard
Error of Mean
Стандартная ошибка среднего sx (по АРА Mean Square Error: MSE) показывает, что если
из популяции извлекать случайные выборки одинакового объема, то примерно 68%
выборочных средних будет находиться в диапазоне x ± s X , то есть в интервале ( x − sx ; x + sx ) .
2.4. Медиана. Mediāna. Median
Если объем выборки равен нечетному числу, то посередине упорядоченного в
возрастающем порядке ряда оценок находится одна оценка, которую называют МЕДИАНОЙ.
Если объем выборки равен четному числу, то посередине упорядоченного в
возрастающем порядке ряда оценок находятся две оценки. Их полусумму называют
МЕДИАНОЙ.
50-% данных не превышают значения, равного медиане!
Обозначения медианы: Md, Me. Обозначение медианы по АРА: Mdn.
8
APA – American Psychological Association. http://www.apa.org/.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
30
2.5. Мода. Moda. Mode
Мода – это наиболее часто встречающаяся оценка.
Если существует несколько мод, то в SPSS принято показывать наименьшую моду.
СРЕДНЕЕ, МЕДИАНА и МОДА – это показатели центральной тенденции.
Если распределение данных не отличается от нормального распределения, то эти
показатели равны.
Моду обычно используют для номинальных измерений. Обозначение: Мо.
2.6. Дисперсия. Dispersija. Variance
Слово дисперсия означает «рассеяние».
Характеризует разброс данных относительно среднего. Чем выше дисперсия, тем
больше разброс данных.
Пусть дан эмпирический9 ряд данных: x1 , x2 , K , xn .
Выборочная дисперсия MS (Mean Square) определяется как отношение суммы квадратов
n
отклонений баллов от среднего значения SS = ∑ ( xi − x ) (Sum of Squares), деленная на число
2
i =1
степеней свободы df = n − 1 :
MS =
SS
.
df
Обозначение по АРА: s2, MS.
9
наблюдаемый
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
31
2.7. Стандартное отклонение. Standartnovirze. Standard Deviation
Стандартное отклонение ( sx ) - это квадратный корень из дисперсии:
Характеризует разброс данных относительно среднего. Чем выше стандартное
отклонение, тем больше разброс данных.
Обозначение по sx . Обозначение по АРА: SD.
Стандартное отклонение иногда может быть использовано для разбивки данных по
уровню оценок. Самостоятельный процесс разбивки данных, как правило, возможен только
тогда, когда в соответствующих адаптированных психологических методиках она не
приводится. Разбивать данные с помощью среднего арифметического и стандартного
отклонения можно, если эмпирическое распределение данных не отличается от нормального
распределения.
Из теории вероятностей известно, что если распределение данных подчиняется
нормальному закону распределения, то:
1) Вероятность того, что оценки попадут в интервал ( x − s x ; x + s x ) равна 68. 3%10;
2) Вероятность того, что оценки попадут в интервал ( x − 2 sx ; x + 2 sx ) равна 95. 5%;
3) Вероятность того, что оценки попадут в интервал ( x − 3sx ; x + 3sx ) равна 99. 73%.
Вероятность того, что оценки окажутся вне интервала ( x − 3sx ; x + 3sx ) ничтожно мала:
.27%.
То есть для нормально распределенных данных должен выполняться так называемый
закон «трех сигма» (для нашего случая σ = SD= sx ):
Отклонения нормально распределенных данных от среднего значения не превышают
трех стандартных отклонений.
10
Максимальное возможное значение вероятности равно 1 или 100%. Минимальное значение – 0 или 0%.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
32
Если
эмпирическое
распределение
данных
не
отличается
от
нормального
распределения и в соответствующих методиках нет указаний, какие оценки считать высокими,
низкими и адекватными (средними), то можно поступать следующим образом (Рис.2.1).
При нормальном распределении данных вероятность оценки среднего уровня равна
68.3%;
Вероятность оценки высокого или низкого уровня равна
(95.5-68.3):2=13.6%;
Вероятность оценки очень высокого или очень низкого уровня равна
(99.73-95.5):2=2.115%;
Вероятность оценки очень высокого или очень низкого уровня равна
(100-99.73):2=.135%.
Если распределение данных подчиняется нормальному закону распределения, то за
пределами трех стандартных отклонений могут находиться оценки, не принадлежащие данной
популяции.
Чрезмерно
низкий
уровень
Очень
Низкий
низкий
уровень
уровень
Средний
уровень
Высокий Очень
уровень высокий
уровень
.135%
2.115% 13.6%
68.3%
13.6% 2.115%
Чрезмерно
высокий
уровень
.135%
Х
Рис.2.1. Разбивка данных на уровни в случае нормального распределения
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
33
2.8. Размах. Variācijas amplitūda. Range
Размах – это разность между максимальной и минимальной оценками:
l = x max − x min .
ДИСПЕРСИЯ, СТАНДАРТНОЕ ОТКЛОНЕНИЕ и РАЗМАХ – это основные меры
изменчивости.
2.9. Асимметрия. Asimetrija. Skewness
Является мерой несимметричности распределения относительно среднего значения.
Обозначение: А.
Если А=0, то распределение имеет симметричную форму. При отрицательной
асимметрии левый «хвост» длиннее. При положительной асимметрии правый «хвост»
длиннее. Примеры приведены на Рис.2.211.
При нормальном распределении данных асимметрия равна нулю. Поэтому, если
асимметрия сильно отличается от нуля, распределение данных не является нормальным.
Критерием отличия от нуля является стандартная ошибка асимметрии.
Для вычисления асимметрии в SPSS и в Excel используется формула:
A=
n
n
( n −1)( n − 2) ∑
i =1
( xi − x )
s3
3
,
(2.9.1)
где s – стандартное отклонение.
11
Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
34
Для оценки величины асимметрии можно использовать следующее правило:12
•
При -0.5 ≤ A ≤ .0.5 распределение можно считать симметричным;
•
При -1 ≤ А < -0.5 или при 0.5 < A ≤ 1 распределение умеренно асимметричное;
•
При A < -1 или при А > 1 распределение асимметрично.
Рис.2.2. Примеры распределений с нулевой ( A = 0 ), левосторонней ( A > 0 ) и правосторонней
( A < 0 ) асимметриями
12
Are the Skewness and Kurtosis Useful Statistics? (2016). Retrieved in https://www.spcforexcel.com/knowledge/basicstatistics/are-skewness-and-kurtosis-useful-statistics
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
35
2.10. Стандартная ошибка асимметрии. Asimetrijas standartkļūda.
Standard Error of Skewness
Стандартная ошибка асимметрии SES характеризует отклонение, которое может
существовать между значениями асимметрий некоторого признака для множества выборок
одного и того же объема, случайным образом извлекаемых из популяции. Близкме к нулю
значения SES указывают на симметричность распределения изучаемого признака популяции.
В этом случае можно считать, что изучаемый признак в выборке тоже имеет симметричное
распределение. Высокие значения SES указывают на более высокое отклонение распределения
признака в выборке от симметричного распределения.
Стандартная ошибка асимметрии SES показывает, что если из популяции извлекать
случайные выборки одинакового объема, то примерно 68% выборочных асимметрий будет
находиться в диапазоне A ± SES , то есть в интервале ( A − SES ; A + SES ) .
Стандартная ошибка асимметрии вычисляется по объему выборки13:
SES =
6n ( n −1)
( n − 2)( n +1)( n + 3)
.
(2.10.1)
Если наблюдения подчиняются нормальному закону распределения, то асимметрия
равна нулю. Поэтому большое отличие асимметрии от нуля свидетельствует о том, что
распределение данных не соответствует нормальному распределению.
Стандартная ошибка асимметрии – это одна из мер степени отличия асимметрии от
нуля.
Если показатель асимметрии по абсолютной величине превышает свою стандартную
ошибку:
A ≥ SES ,
(2.10.2)
то распределение данных не соответствует нормальному распределению14.
13
Cramer, D. (1997). Basic Statistics for Social Research. Routledge. P.85.
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С.60.
14
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
36
2.11. Эксцесс. Ekscess. Kurtosis
Эксцесс – это показатель островершинности или плосковершинности кривой
распределения. За эталон принимают вершину кривой для нормального распределения (Е=0).
Примеры приведены на Рис.2.315.
Обозначение: Е.
Рис.2.3. Примеры распределений с нулевым ( E = 0 ), положительным ( E > 0 ) и отрицательным
( E < 0 ) эксцессами
Для вычисления эксцесса в SPSS и в Excel используется формула:
E=
n ( n + 1)
n
( n −1)( n − 2)( n − 3) ∑
i =1
( xi − x )
s4
4
−
3 ( n − 1)
2
( n − 2)( n − 3)
,
(2.11.1)
где s – стандартное отклонение.
15
Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
37
2.12. Стандартная
ошибка
эксцесса.
Ekscesa
standartkļūda.
Standard Error of Kurtosis
Стандартная ошибка эксцесса SEK
указывает на отклонение, которое может
существовать между значениями показателей эксцесса некоторого признака для множества
выборок одного и того же объема, случайным образом извлекаемых из популяции. Близкие к
нулю значения SEK говорят о том, что выборочные эксцессы мало отличаются между собой
и от нуля и поэтому распределение признака в данной выборке не отклоняется от
распределения с нулевым эксцессом.
Стандартная ошибка эксцесса SEK показывает, что если из популяции извлекать
случайные выборки одинакового объема, то примерно 68% выборочных значений эксцесса
будет находиться в диапазоне E ± SEK , то есть в интервале
( E − SEK; E + SEK ) .
Стандартная ошибка эксцесс вычисляется по объему выборки16:
n2 −1
=
SEK = 2SES ∗
( n − 3)( n + 5)
24n ( n −1)
.
( n − 2)( n − 3)( n + 3)( n + 5)
2
(2.12.1)
Если наблюдения подчиняются нормальному закону распределения, то эксцесс равен
нулю. Поэтому сильное отличие эксцесса от нуля свидетельствует о том, что распределение
данных не соответствует нормальному распределению.
Стандартная ошибка эксцесса – это одна из мер степени отличия эксцесса от нуля.
Если показатель эксцесса по абсолютной величине превышает свою стандартную
ошибку:
E ≥ SEK ,
(2.12.2)
то распределение данных не соответствует нормальному распределению17.
16
Cramer, D. (1997). Basic Statistics for Social Research. Routledge. P.89.
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С.60.
17
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
38
Неравенства (2.10.2) и (2.12.2) выдвигают завышенные требования к асимметрии и к
эксцессу (в смысле их отличия от нуля). Другие критерии на неравенство показателя
асимметрии и эксцесса нулю и на соответствие эмпирического распределения нормальному
распределению с помощью асимметрии и эксцесса (D'Agostino-Pearson omnibus test)
приведены в Приложении 6, чтение которого станет доступным после освоения п.п. 6-7).
2.13. Квартили. Kvartiles. Quartiles
Квартиль – это один из видов процентилей (Procentile, Percentile)
Квартили – это показатели, которые делят упорядоченный по возрастанию ряд
данных на четыре одинаковые части.
Существуют три квартили: Q1 , Q2 , Q3 .
Процентили – это показатели, которые делят упорядоченный по возрастанию ряд
данных на сто одинаковых частей
Существует 99 процентилей: P1 , P2 ,K, P99 .
P50=Q2=Md
P25=Q1
P1
P10
P20 P25 P30
P75=Q3
P40
P50
P60
P70 P75 P80
P90
P99
Рис.2.4. Процентили, квартили и медиана
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
39
Справедливы соотношения (Рис.2.4): P25 = Q1 ; P50 = Q2 = Mdn ; P75 = Q3 .
Процентиль Pk дает информацию о том, что k-% данных, не превышает значения,
совпадающего с Pk .
Таким образом,
25-% данных не превышают значения, равного квартили Q1 .
50-% данных не превышают значения, равного медиане и квартили Q2 .
75-% данных не превышают значения, равного квартили Q3 .
Довольно часто используют меру изменчивости – междуквартильный размах
(Interquartie Range):
Q = Q3 - Q1 .
(2.13.1)
2.14. Шкала стенов
Одной из тестовых шкал, основным назначением которой является представление
индивидуальных результатов тестирования в удобном для интерпретации виде, является шкала
стенов.
По результатам применения теста строится распределение «сырых» оценок и
проверяется соответствие этого распределения нормальному распределению.
Если распределение «сырых» оценок соответствует нормальному распределению, то
переходят к шкале стенов.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
40
Если распределение «сырых» оценок не соответствует нормальному распределению, то
производят либо эмпирическую нормализацию (изменение содержания тестовых заданий),
либо нелинейную нормализацию18.
Шкала стенов от 1 до 10.
Шкала стенов была предложена Кеттелом (1970). Ее также называют шкалой
«стандартной десятки» (standard ten).
Реймонд Бернард Кеттел (Cattell Raymond Bernard)19 (20 марта 1905
– 2 февраля 1998) - британский и американский психолог, внесший
существенный вклад в развитие дифференциальной психологии в
областях черт личности, способностей и мотивации. Автор одной из
наиболее влиятельных теорий личности, разработанных в психологии
XX века, автор теории гибкого и кристаллизированного интеллекта.
Являлся последовательным сторонником мультивариативных
исследований в психологии. Опубликовал 55 книг и более 500 статей.
Автор 16-факторной модели личности и создатель соответствующей
психодиагностической методики.
Раймонд Бернард Кэттелл родился в Стаффордшире в 1905 году. В 16
лет поступил в Королевский колледж Лондонского университета, где обучался химии и
физике. В 1924г. Кэттелл получил степень бакалавра по специальности «химия» в Лондонском
университете. За несколько месяцев до окончания и получения диплома с отличием решил
посвятить свою карьеру психологии. В 1929 году получил степень доктора психологии в
Лондонском университете. Будучи студентом-дипломником, работал в качестве ассистента у
выдающегося психолога Чарльза Спирмена, разработавшего метод факторного анализа. С 1932
по 1937 гг. Кэттелл руководил психиатрической клиникой города Лейсестера в должности
директора. В 1937 году ему присвоили степень доктора наук Лондонского университета. После
этого Кэттелл сотрудничал с профессором Э. Л. Торндайком в педагогическом колледже
Колумбийского университета в Нью-Йорке. С 1938 года Кэттелл работал профессором
психологии в Университете Кларка, а с 1941 - лектором в Гарвардском университете. В 1944
году Кэттелл перешёл в Иллинойсский университет на пост профессора-исследователя в
области психологии. Там он руководил лабораторией по исследованию личности и анализа
группового поведения (занимал эту должность 30 лет). В 1973 году Кэттелл переехал в
Боулдер, где основал Институт по исследованию основ морали и самореализации. С 1977 года
стал консультирующим профессором при Гавайском университете, а также почетным
профессором в Иллинойсе. Умер Кэттелл 2 февраля 1998 года в возрасте 92 лет в своём доме
на Гавайях.
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С.57-59.
18
19
https://ru.wikipedia.org/wiki/%D0%9A%D1%8D%D1%82%D1%82%D0%B5%D0%BB%D0%BB,_%D0%A0%D1%
8D%D0%B9%D0%BC%D0%BE%D0%BD%D0%B4_%D0%91%D0%B5%D1%80%D0%BD%D0%B0%D1%80%D
0%B4
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
41
Точка отсчета: среднее арифметическое x «сырых» баллов (Рис.2.14.1). От точки
s
отсчета откладываются интервалы, равные половине стандартного отклонения x .
2
При этом все значения меньше 1, получаемые при переводе в шкалу стенов, относятся
к стену 1, а все значения больше 10 - к стену 10.
Y
Кривая нормального
распределения
1
2πs x
0.135%
2.2%
13.6%
34.2%
34.2%
13.6%
2.2%
0.135%
X
x − 3s x
x − sx
x − 2s x
x + sx
x
x + 2s x
x + 3s x
Х
Стены
1
2
3
4
5
6
7
8
9
10
Рис.2.14.1. Определение шкалы стенов.
Справа от среднего значения интервалы соответстуют 6, 7, 8, 9 и 10 стенов. Последний
из этих интервалов открыт.
Слева от среднего значения интервалы соответстуют 5, 4, 3, 2 и 1 стенов. Последний из
этих интервалов открыт.
Данные, выраженные в стенах позволяют сравнивать между собой результаты
измерений признака с помощью различных тестов.
При переводе «сырых» баллов в шкалу стенов используется формула
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
42
xi , СТЕНЫ = 5.5 +
2( xi − x )
,
sx
(2.14.1)
где xi - «сырой» балл, x – среднее значение, sx - стандартное отклонение. Результат вычисления
по формуле (2.14.1) должен быть округлен до целого числа.
Если сравнить с классификацией п.2.7, то
•
•
•
•
•
Очень низкий уровень: 1 стен;
Низкий уровень: 2, 3 стена;
Средний уровень: 4, 5, 6, 7 стенов;
Высокий уровень: 8, 9 стенов;
Очень высокий уровень: 10 стенов.
Как можно перевести переменную в стены с помощью SPSS
1. Загрузить файл Test.sav
2. Analyze
Descriptive Statistics
3. Поставить галочку в окне
Descriptives…
Save standardized values as variable;
4. Перенести переменную в окно «Variables»
OК
5. В файле данных Test.sav появится новая стандартизованная переменная, которую
надо назвать zballi
6. Загрузить файл Syntax_steni.sp
7. В этом файле должна находиться следующая программа:
if (zballi<-2) steni=1 .
if (zballi>=-2 AND zballi<-1.5) steni=2 .
if (zballi>=-1.5 AND zballi<-1) steni=3 .
if (zballi>=-1 AND zballi<-0.5) steni=4 .
if (zballi>=-0.5 AND zballi<0) steni=5 .
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
43
if (zballi>=0 AND zballi<0.5) steni=6 .
if (zballi>=0.5 AND zballi<1) steni=7 .
if (zballi>=1 AND zballi<1.5) steni=8 .
if (zballi>=1.5 AND zballi<2) steni=9 .
if (zballi>=2) steni=10 .
execute.
8. Edit
Select All
Run
All
9. В файле данных Test.sav появится новая переменная steni.
3. Общие рекомендации к объему выборки20
Объем выборки зависит от задач исследования. Очевидно, что больший объем выборки
позволяет получить более надежные результаты.
Объем выборки зависит от ее однородности. Чем более однородна выборка, тем меньше
может быть ее объем.
Объем выборки зависит от изменчивости изучаемого свойства. Чем больше
изменчивость свойства, тем больше должен быть объем выборки. Изменчивость можно
уменьшить, увеличивая объем выборки.
Объем выборки также зависит от применяемых статистических методов. Например,
общие рекомендации по выбору объема выборки следующие:
- Для сравнения 2-х выборок, их общая численность должна быть не менее 50 человек.
Число людей в сравниваемых группах должно быть примерно одинаковым.
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С. 21.
20
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
44
- Для изучения взаимосвязи между какими-либо свойствами объем выборки должен
быть не меньше 30-35 человек (если предполагается линейный характер взаимосвязи). Если
характер взаимосвязи ожидается нелинейным, то объем выборки должен быть увеличен.
Например, если один из признаков – это тревожность, то может потребоваться создать такую
выборку, в которой число людей с низкой тревожностью 30-35, с адекватной тревожностью
30-35 и с высокой тревожностью 30-35.
Для изучения связи между номинальными переменными используется частотный
анализ. Минимальный объем выборки определяется так называемыми «теоретическими
частотами» (критерий «Хи-квадрат») и зависит от количества категорий номинальных
переменных. Он должен быть достаточно большим. Каким именно – определяется при
рассмотрении конкретных случаев.
Можно утверждать, что объем выборки может быть определен только после изучения
теории,
формулировки
цели
исследования,
исследовательской
гипотезы
или
исследовательских вопросов, методик исследования и определения статистических методов,
которые будут использоваться для анализа эмпирических данных.
4. Расчет описательных статистик с помощью компьютерной
программы SPSS
SPSS английское название компьютерной программы:
Statistical Package for Social Sciences
Статистический пакет для социальных наук
Разработан специально для социальных исследований. Ввод данных и статистический
анализ соответствуют типам данных, встречающихся в анкетах и методам аналаза,
применяющимся в социальных науках.
В настоящее время его применяют и для других исследований.
С помощью программы SPSS показатели описательной статистики можно вычислить
разными способами. Основные из них показаны в Таблице 4.1.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
45
Таблица 4.1.
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
Case
Summaries
▲
Explore
Frequencies
Mean (Среднее)
Median (Медиана)
Mode (Мода)
Quartiles (Квартили)
Percentiles (Процентили)
Variance (Дисперсия)
Standard Deviation (Стандартное отклонение)
Standard Error of Mean (Стандартная ошибка среднего)
Sum (Сумма)
Minimum (Минимум)
Maximum (Максимум)
Range (Размах)
Q=Q3-Q1
Skewness (Асимметрия)
Standard Error of Skewness (Стандартная ошибка
асимметрии)
Kurtosis (Эксцесс)
Standard Error of Kurtosis (Стандартная ошибка эксцесса)
Confidence Interval for Mean (Доверительный интервал для
среднего)
Outliers (Выбросы)
Стандартизация переменных: Z-преобразование
Descriptives
Расчет показателей описательной статистики в SPSS21 (Бююль)
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
Работу с программой SPSS рассмотрим на примерах.
Получение описательных статистик рассмотрим на примере исследования гендерных
различий агрессивности у мальчиков и девочек по опроснику «Басса-Дарки».
Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и
восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». C. 164-165.
21
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
46
5. Гендерные различия агрессии у подростков
5.1. Ввод данных
Проверяется гипотеза о наличии гендерных различий агрессии у подростков.
Используется опросник Басса-Дарки22 (Приложение 1). Данные23 находятся в файле
Agr_Data.xlsx.
Ввод данных в SPSS
Запустить SPSS для Windows, дважды щелкнув левой кнопкой мыши на значке SPSS.
На появившемся окне (Рис.5.1.1) поставить точку около “Type in data”. OK.
Рис.5.1.1. Запуск программы SPSS.
Психологические тесты. Т.2 (2005) Под ред. Карелина А.А. М.: ВЛАДОС. С.77-85
Данные взяты из курсовой работы студентки Высшей школы психологии (Сейчас Балтийская Международная
Академия - БМА) Наталии Баранчук, выполненной в 2003-2004 учебном году.
22
23
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
47
Откроется одно из нескольких окон SPSS - редактор данных (Рис.5.1.2) – электронная
таблица.
В заголовке стоит “Untitled”, что означает «Без имени».
Над таблицей имеется меню и панель символов. Строки таблицы соответствуют
наблюдениям. Например, при анкетировании одна строка соответствует одному испытуемому.
Столбцы соответствуют переменным.
В каждой ячейке хранится одно значение переменной.
Номер строки активного элемента
Toolbars – строка инструментов
Columns - столбцы
Активный элемент –- ячейка
Rows - строки
Просмотр данных
Полосы прокрутки
Просмотр переменных
Рис.5.1.2. Электронная таблица. Просмотр данных
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
48
Рис.5.1.3. Электронная таблица. Просмотр переменных
Фрагмент таблицы данных, которые надо ввести, находится в Таблице 5.1.1. Полная
таблица данных - в файле Agr_Data.xlsx.
Таблица 5.1.1
Показатели уровней агрессии подростков по методике Басса – Дарки
Пол:
Шифр
испытуемого 0-девочка;
1-мальчик
m1
m2
m3
m4
FA
NA
K
N
Ap
Az
VA
SP
5
5
5
6
8
8
7
6
6
8
7
7
3
3
1
4
6
5
3
3
6
7
4
5
7
4
5
7
4
3
5
5
Обозначения:
FA
NA
K
N
Ap
Az
VA
SP
Физическая агрессия
Косвенная агрессия
Раздражение
Негативизм
Обида
Подозрительность
Вербальная агрессия
Угрызения совести и чувство вины
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
49
5.1.1. Описание переменных
Ввод данных следует начать с описания переменных (Variable View).
Левой клавишей мыши щелкнуть на Variable View (Просмотр переменных).
В результате появится окно (Рис.5.1.3), в котором надо описать каждую из переменных.
1. Прежде всего необходимо дать имя переменной (Name). При выборе имени следует
соблюдать основные правила.
1) Имя каждой переменной должно быть единственным. Дублирование имени не
допускается.
2) Имена могут содержать:
- буквы латинского или русского алфавита;
- цифры;
- символ подчеркивания;
- точку;
- символы: @, $ и #.
3) Не разрешаются пробелы, знаки других алфавитов и специальные символы, такие как
!
?
«
*
4) Имя должно начинаться с буквы.
5) Последний символ имени не может быть точкой или знаком подчеркивания.
6) Длина переменной не должна быть больше 8 символов
7) Недопустимо в названиях использовать слова:
all
and
or
not
with
by
eq
ne
lt
le
gt
ge
to
В настоящем примере мы дадим переменным следующие имена (Таблица 5.1.2):
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
50
Таблица 5.1.2
Описание переменных. Имена переменных, метки и значения.
Переменная
Обозначение
Имя в SPSS
(Label)
Шифр испытуемого
Пол (0-девочка; 1-мальчик)
Физическая агрессия
Косвенная агрессия
Раздражение
Негативизм
Обида
Подозрительность
Вербальная агрессия
Угрызения совести и чувство вины
Dzimums
FA
NA
K
N
Ap
Az
VA
SP
Метки значений
(Values)
kod
sex
fa
na
k
n
ap
az
va
sp
(0-M; 1-Z)
2. Тип переменной (Type). По умолчанию все переменные численные с максимальной
длиной 8 знаков, дробная часть состоит из 2 знаков. Если требуется что-то изменить,
необходимо встать мышью на соответствующую ячейку и щелкнуть по кнопке с тремя
точками:
После чего откроется диалоговое окно (Рис.5.1.4) Define Variable Type – Определение типа
переменной.
Рис.5.1.4. Диалоговое окно Define Variable Type.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
51
В нашем примере необходимо изменить тип переменной kod, так как это не численная
переменная, а строка символов. Поэтому для нее надо выбрать String.
С такими переменными нельзя выполнять никаких вычислений, но можно проводить
подсчеты ее повторяемости.
3. Формат столбца (Width) и количество десятичных разрядов (Decimals) меняется по
необходимости.
4. Метка переменной (Label) – это более подробное название переменной. Оно может
содержать 256 символов. Это то, что будет выдаваться в таблицах, на рисунках в выходной
информации. Например, если мы хотим, чтобы в выходной информации вместо символов fa
на диаграмме было бы напечатано: «Физическая агрессия», то в колонке Label надо написать:
Физическая агрессия.
5. Метки значений (Values). Это более подробное описание переменной. Например,
переменную sex (Пол) для значения 1 можно задать название «Z» (мальчик), а для значения 0
– название «М» (девочка). При этом эти же названия будут в выходной информации.
6. Пропущенные значения (Missing values). Допускаются два вида пропущенных
значений:
- Пропущенные значения, определяемые системой (System-defined missing values) – если
в матрице данных есть незаполненные ячейки, то SPSS идентифицирует их как пропущенные
значения. Тогда в ячейке, где пропущено значение, появляется запятая;
- Пропущенные значения, задаваемые пользователем (User-defined missing values). С
помощью кнопки Missing пользователь при желании может объявить эти значения
пропущенными. Пропущенные значения можно исключить из последующих вычислений.
7. Столбцы (Columns) – ширина столбца, которую будет иметь в таблице данный
столбец при отображении значений.
8. Выравнивание (Alignment). Можно задавать вид отображения значений в таблице:
выровненными по правому краю, по центру, или по левому краю.
9. Шкала измерения (Measure). Можно задать номинальную (Nominal), порядковую
(Ordinal) или метрическую шкалу (интервалов или отношений: Scale). Это будет иметь
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
52
значение только при создании интерактивных графиков – когда номинальная и порядковая
шкала измерений объединяются в «категориальный» тип.
НАЧАЛО РАБОТЫ
«Шифр испытуемого»
1. В ячейку Name 1 напишем слово kod
После этого в остальных ячейках строки 1 появится некоторая информация.
2. Type.
Встанем мышью на соответствующую ячейку Type-1 и щелкнем по кнопке с тремя точками:
Откроется диалоговое окно (Рис.5.1.4) Define Variable Type – Определение типа переменной.
Выберем String (Рис.5.1.5):
Рис.5.5. Диалоговое окно Variable Type.
OK
3. Width –
8
4. Decimals: 0
5. Label:
6. Values:
7. Missing:
8. Columns: 8
Shifrs
None
None
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
53
9. Align:
Center
10. Measure: Nominal
«Пол»: sex
11. В ячейку Name 2 напишем sex
12. Decimals: 0
13. Width –
1
14. Label:
Dzimums
15. Values:
Нажмем кнопку:
Появится диалоговое окно (Рис.5.1.6):
Рис.5.1.6. Диалоговое окно Value Labels.
Value 0
Value Label
M
Add
Value 1
Value Label
Z
Add
В результате получаем (Рис.5.1.7):
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
54
Рис.5.1.7. Диалоговое окно Value Labels с введенными данными.
OK
16. Missing:
None
17. Columns: 4
18. Align:
Left
19. Measure: Nominal
Сохранить данные!
(File, Save и т.д.) Дать имя файлу!
Например, «Data.sav».
В результате должен появиться новый файл (Output 1) с сообщением о том, что файл
сохранен по такому-то адресу. Например (Рис.5.1.8):
Рис.5.1.8. Новый файл Output 1 сообщением о файле с исходными данными.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
55
«Физическая агрессия»
20. В ячейку Name 3 напишем fa
21. Type
Numeric
22. Width –
8
23. Decimals: 2
24. Label:
FA
25. Values:
None
26. Missing:
None
27. Columns: 8
28. Align:
Right
29. Measure: Scale
«Косвенная агрессия»
30. В ячейку Name 4 напишем na
31. Type
Numeric
32. Width –
8
33. Decimals: 2
34. Label:
NA
35. Values:
None
36. Missing:
None
37. Columns: 8
38. Align:
Right
39. Measure: Scale
«Раздражение»
40. В ячейку Name 5 напишем k
41. Type
Numeric
42. Width –
8
43. Decimals: 2
44. Label:
K
45. Values:
None
46. Missing:
None
47. Columns: 8
48. Align:
Right
49. Measure: Scale
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
56
«Негативизм»
50. В ячейку Name 6 напишем n
51. Type
Numeric
52. Width –
8
53. Decimals: 2
54. Label:
N
55. Values:
None
56. Missing:
None
57. Columns: 8
58. Align:
Right
59. Measure: Scale
«Обида»
60. В ячейку Name 7 напишем ap
61. Type
Numeric
62. Width –
8
63. Decimals: 2
64. Label:
Ap
65. Values:
None
66. Missing:
None
67. Columns: 8
68. Align:
Right
69. Measure: Scale
«Подозрительность»
70. В ячейку Name 8 напишем az
71. Type
Numeric
72. Width –
8
73. Decimals: 2
74. Label:
Az
75. Values:
None
76. Missing:
None
77. Columns: 8
78. Align:
Right
79. Measure: Scale
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
57
«Вербальная агрессия»
80. В ячейку Name 9 напишем va
81. Type
Numeric
82. Width –
8
83. Decimals: 2
84. Label:
VA
85. Values:
None
86. Missing:
None
87. Columns: 8
88. Align:
Right
89. Measure: Scale
«Угрызения совести и чувство вины»
90. В ячейку Name 10 напишем sp
91. Type
Numeric
92. Width –
8
93. Decimals: 2
94. Label:
SP
95. Values:
None
96. Missing:
None
97. Columns: 8
98. Align:
Right
99. Measure: Scale
В результате получится (Рис.5.1.9).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
58
Рис.5.1.9. Описание переменных
5.1.2. Ввод данных
Перейти в окно Data View и ввести данные (их можно скопировать из Excel или из
Word). Фрагмент результата (Рис.5.1.10):
Рис.5.1.10. Введенные данные. Фрагмент.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
59
5.1.3. Проверка правильности ввода данных
После ввода данных, не следует сразу приступать к их анализу. Прежде всего следует
проверить правильность ввода.
Способ 1.
Analyze (Анализ)
Reports (Отчеты)
Case Summaries... (Итоги по наблюдениям, Рис.5.1.11)
Рис.5.1.11. Диалоговое окно Summarize Cases
Пометить все переменные и верхней горизонтальной стрелочкой перенести их в окно
Variables (Рис.5.1.12).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
60
Рис.5.1.12. Диалоговое окно Summarize Cases с заданными функциями
OK
Результаты появятся в файле Output1, который надо сохранить (в том же фолдере) под
каким-либо именем, например, TEST. Точнее TEST.spv.
Рассмотрим, что мы получили.
Таблица 5.1.3 (Case Processing Summary) показывает, что введены все значения и
ничего не пропущено.
Таблица 5.1.3
Фрагмент таблицы Case Processing Summarya
Cases
Included
N
Kods
Dzimums
FA
NA
K
Excluded
Percent
60
60
60
60
60
100.0%
100.0%
100.0%
100.0%
100.0%
N
Total
Percent
.0%
.0%
.0%
.0%
.0%
N
Percent
60
60
60
60
60
100.0%
100.0%
100.0%
100.0%
100.0%
a. Limited to first 100 cases.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
61
Таблица 5.1.4 (Case Summaries) выводит все данные и их можно проверить, сравнив с
оригиналом.
Данный способ проверки требует много времени и не очень большого объема данных.
Таблица 5.1.4
Фрагмент таблицы Case Summariesa
Kods Dzimums
1
m1
M
2
m2
M
3
m3
M
4
m4
M
5
m5
M
6
m6
M
a. Limited to first 100 cases.
FA
NA
K
5.00
5.00
5.00
6.00
4.00
5.00
8.00
8.00
7.00
6.00
8.00
6.00
6.00
8.00
7.00
7.00
6.00
6.00
N
Ap
Az
VA
SP
3.00
3.00
1.00
4.00
3.00
3.00
6.00
5.00
3.00
3.00
4.00
3.00
6.00
7.00
4.00
5.00
5.00
6.00
7.00
4.00
5.00
7.00
7.00
6.00
4.00
3.00
5.00
5.00
6.00
7.00
Способ 2.
В общем случае рекомендуется проводить частотный анализ значений переменных:
Analyze (Анализ)
Descriptive Statistics (Описательная статистика)
Frequencies (Частоты)
Перенести в Variables переменные:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
62
Рис.5.1.13. Диалоговое окно Frequencies
Выходная информация – частотные таблицы: общая и по всем переменным. Например,
Таблица 5.1.5.
Таблица 5.1.5
Statistics
Dzimums
N
Valid
Missing
FA NA
60
60
K
N
60 60 60
Ap Az VA SP
60 60
60
60
Valid - имеющиеся в наличии, допустимые, Missing – пропущенные.
Таблица 5.1.6
Dzimums
Frequency
Valid
M
30
Z
30
Total
60
Percent
50.0
Valid Percent
Cumulative Percent
50.0
50.0
50.0
50.0
100.0
100.0
100.0
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
63
Таблица 5.1.7
FA
Frequency
Valid
Percent
Valid Percent
Cumulative
Percent
4.00
6
10.0
10.0
10.0
5.00
18
30.0
30.0
40.0
6.00
9
15.0
15.0
55.0
7.00
5
8.3
8.3
63.3
8.00
6
10.0
10.0
73.3
9.00
11
18.3
18.3
91.7
10.00
4
6.7
6.7
98.3
11.00
1
1.7
1.7
100.0
Total
60
100.0
100.0
И так далее.
Frequency – частота;
Percent – проценты;
Valid Percent – допустимые проценты;
Cumulative Percent – накопленные проценты.
Результаты анализа позволяют выявить недопустимые значения. Особое внимание надо
обращать на максимальные и минимальные значения. Например, если максимальный
показатель физической агрессии окажется равным 104, то в данных имеется ошибка.
Файл TEST.spv рекомендуется закрыть.
5.2. Описательная статистика
Вариант I
После ввода данных начинается их обработка, в зависимости от сформулированной
исследователем гипотезы. Но, как правило, показатели описательной статистики вычисляются
всегда.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
64
Для
вычисления
показателей
описательной
статистики
имеется
следующие
возможности (Таблица 4.1)24.
1)
Analyze (Анализ)
Descriptive Statistics (Описательная статистика)
Descriptives... (Описательная статистика)
2)
Analyze (Анализ)
Descriptive Statistics (Описательная статистика)
Frequencies (Частоты)
3)
Analyze (Анализ)
Descriptive Statistics (Описательная статистика)
Explore... (Исследовать)
4)
Analyze (Анализ)
Reports (Отчеты)
Case Summaries... (Итоги по наблюдениям)
Для рассматриваемой задачи о гендерных различиях необходимо получить
показатели описательной статистики для мальчиков и для девочек по-отдельности, чтобы
потом их сравнить.
Поэтому, в начале работы надо расщепить данные отдельно на мальчиков и девочек,
используя группирующую переменную «Dzimums» (sex).
Data
Split file...(Рис.5.2.1)
Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и
восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». C. 164-165.
24
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
65
Рис. 5.2.1. Анализ всех случаев, без создания групп
Organize output by groups
Перенести переменную «Dzimums [sex]» в окно “Groups Based on” ...(Рис.5.2.2).
OK
Рис.5.2.2. Организация выхода по группам
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
66
В результате данные окажутся разбитыми на 2 группы: мальчиков и девочек.
Результаты будут выдаваться по группам мальчиков и девочек отдельно.
Откроется новый файл Qutput 2 с сообщением:
SORT CASES BY sex. SPLIT FILE SEPARATE BY sex.
Новый файл с выходной информацией Output2 надо сохранить (в том же фолдере) под
каким-либо именем, например, Results. Точнее Results.spv.
Получение показателей описательной статистики
Analyze
Descriptive Statistics
Frequencies...
Перенести в окно “Variables”переменные:
“FA [fa]”, “NA [na]”, “K [k]”, “N [n]”, “Ap [ap]”, “Az [az]”, “VA [va]”, “SP [sp]”.
Рис.5.2.3. Перенос переменных для получения описательной статистики
Statistics
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
67
Рис.5.2.4. Заказ показателей описательной статистики
Отметить статистики, значения которых надо получить (Рис.5.17).
Continue
OK
Выходная информация:
Выходная информация выдается в виде таблиц, в которых данные необходимо
округлить (до 2 знаков после запятой). Обработку таблиц удобно проводить с помощью
Компьютерной программы Excel (Файл Agr_Results.xls). В результате получаются таблицы
5.2.1 и 5.2.2.
В Таблицах 5.8-5.9 отмечены случаи, когда показатели асимметрии и эксцесса по
абсолютной величине превосходят свои стандартные ошибки. В этих случаях распределение
данных отличается от нормального распределения.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
68
Таблица 5.2.1.
Показатели описательной статистики для девочек
Meitenes
FA
30
NA
30
K
30
N
30
Ap
30
Az
30
VA
30
SP
30
Mean
5.33
7.17
6.43
2.27
4.67
5.53
6.07
5.03
Std. Error of Mean
0.22
0.20
0.17
0.19
0.19
0.25
0.22
0.25
Median
5.00
7.00
6.00
2.00
5.00
6.00
6.00
5.00
Mode
5.00
8.00
6.00
3.00
5.00
6.00
7.00
5.00
Std. Deviation
1.21
1.12
0.94
1.01
1.06
1.38
1.23
1.38
Variance
1.47
1.25
0.87
1.03
1.13
1.91
1.51
1.90
Skewness
2.03
-0.03
0.61
0.05
-0.38
0.18
-0.61
0.19
Std. Error of Skewness
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
Kurtosis
6.66
-1.16
0.76
-1.20
-1.01
-0.83
-0.61
-0.59
Std. Error of Kurtosis
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
Range
6.00
4.00
4.00
3.00
3.00
5.00
4.00
5.00
Minimum
4.00
5.00
5.00
1.00
3.00
3.00
4.00
3.00
N
Valid
Missing
Maximum
Percentiles
10.00
9.00
9.00
4.00
6.00
8.00
8.00
8.00
25
5.00
6.00
6.00
1.00
4.00
4.00
5.75
4.00
50
5.00
7.00
6.00
2.00
5.00
6.00
6.00
5.00
75
6.00
8.00
7.00
3.00
5.25
6.25
7.00
6.00
a Dzimums = Z
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
69
Таблица 5.2.2.
Показатели описательной статистики для мальчиков
Zēni
FA
30
NA
30
K
30
N
30
Ap
30
Az
30
VA
30
SP
30
Mean
8.03
5.00
6.27
4.33
4.07
5.10
9.60
5.20
Std. Error of Mean
0.30
0.38
0.24
0.19
0.22
0.19
0.37
0.21
Median
8.50
5.00
6.00
5.00
4.00
5.00
10.00
5.00
Mode
9.00
5.00
5.00a
5.00
3.00
4.00
10.00
5.00
Std. Deviation
1.65
2.10
1.34
1.03
1.23
1.06
2.04
1.16
Variance
2.72
4.41
1.79
1.06
1.51
1.13
4.18
1.34
Skewness
-0.60
-0.41
0.31
-1.35
0.58
0.53
-0.61
0.58
Std. Error of Skewness
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
Kurtosis
-0.43
0.00
-0.49
0.54
-0.46
-0.93
0.33
0.05
Std. Error of Kurtosis
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
Range
6.00
8.00
5.00
3.00
5.00
3.00
8.00
5.00
Minimum
5.00
1.00
4.00
2.00
2.00
4.00
5.00
3.00
N
Valid
Missing
Maximum
Percentiles
11.00
9.00
9.00
5.00
7.00
7.00
13.00
8.00
25
7.00
4.00
5.00
4.00
3.00
4.00
8.75
4.00
50
8.50
5.00
6.00
5.00
4.00
5.00
10.00
5.00
75
9.00
7.00
7.00
5.00
5.00
6.00
11.00
6.00
a Multiple modes exist. The smallest value is shown. b Dzimums = Z
Вариант 2
Если данной процедуре предшествовало разбиение данных на группы, то необходимо
вернуться к исходной неразбитой группе.
Data
Split file...
Reset
OK
В файле с выходной информацией Results.spo появится сообщение:
SPLIT FILE OFF.
Начало новой процедуры:
Analyze
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
70
Descriptive Statistics
Explore
Рис.5.2.5. Получение показателей описательной статистики в Explore
Перенести переменную «Пол [sex]» в окно “Factor List”.
Перенести в окно “Dependent List”переменные:
“FA [fa]”, “NA [na]”, “K [k]”, “N [n]”, “Ap [ap]”, “Az [az]”, “VA [va]”, “SP [sp]”.
Поставить точку у Statistics (Рис.5.2.5).
OK
Выходная информация:
Таблица с информацией об обработанных наблюдениях (Таблица 5.10).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
71
Таблица 5.2.3
Фрагмент таблицы «Case Processing Summary» (Обработанные наблюдения)
Cases
Valid
Dzimum
s
FA
NA
K
N
Missing
Percent
N
Total
Percent
N
Percent
M
30
100.0%
.0%
30
100.0%
Z
30
100.0%
.0%
30
100.0%
M
30
100.0%
.0%
30
100.0%
Z
30
100.0%
.0%
30
100.0%
M
30
100.0%
.0%
30
100.0%
Z
30
100.0%
.0%
30
100.0%
В приведенном фрагменте Таблицы 5.2.3 «Описательные статистики» (таблица 5.2.3
продолжается дальше вниз для других переменных) отмечено, что показатели асимметрии и
эксцесса по абсолютной величине превосходят свои стандартные ошибки. Распределение
данных в этих случаях отличается от нормального распределения.
Дополнительные показатели описательной статистики в Таблице 5.2.4:
•
95%Confidence Interval for Mean (Lower Buond; Upper Bound) (95% доверительный
интервал для среднего (нижняя граница; верхняя граница));
•
5% Trimmed Mean (5% усеченное среднее). Это среднее значение, вычисленное без
учета 5% наименьших и 5% наибольших значений);
•
Interquartile Range (Междуквартильный размах). Это разность между третьим и первым
квартилями: Q = Q3 − Q1 .
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
72
Таблица 5.2.4
Описательные статистики. Фрагмент таблицы.
Dzimums
FA
M
Statistic
Mean
95% Confidence Interval for
Mean
5.3333
Lower Bound
4.8804
Upper Bound
5.7863
5% Trimmed Mean
5.2037
Median
5.0000
Variance
1.21296
Minimum
4.00
Maximum
10.00
Range
6.00
Interquartile Range
1.00
2.033
Skewness
Kurtosis
Mean
95% Confidence Interval for
Mean
6.661
.833
.30127
Lower Bound
7.4172
Upper Bound
8.6495
8.0556
Median
8.5000
Std. Deviation
.427
8.0333
5% Trimmed Mean
Variance
.22145
1.471
Std. Deviation
Z
Std. Error
2.723
1.65015
Minimum
5.00
Maximum
11.00
Range
6.00
Interquartile Range
2.00
Skewness
-.599
.427
Kurtosis
-.430
.833
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
73
5.3. Графические иллюстрации уровней агрессии
мальчиков и девочек
5.3.1. Коробчатые диаграммы
Коробчатые диаграммы (Рис.5.3.1) состоят из прямоугольника, занимающего
пространство от первого до третьего квартиля.
Линия внутри прямоугольника соответствует медиане.
X
Extremes
zone
Outliers
zone
Nr
Nr
Q
3Q
1,5
Q
Q3
Q= Q3 -Q1
Mdn
Q1
1,5
Outliers
zone
Extremes
zone
3Q
Nr
Nr
Рис.5.3.1. Коробчатая диаграмма
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
74
Значения, удаленные от границ более чем на три длины построенного
прямоугольника (экстремальные значения или «выбросы»), помечаются на диаграмме
звездочками с номером соответствующего наблюдения (Extremes).
Значения,
(экстремальные
удаленные
значения
более,
или
чем
на
полторы
длины
помечаются
«выбросы»),
прямоугольника
кружкам
с
номером
соответствующего наблюдения (Outliers).
На коробчатой диаграмме отмечаются минимальное и максимальное значения,
если они не являются выбросами (Extremes и Outliers).1
ЗАДАНИЕ. Даны фрагменты частотных таблиц и квартили. По этим данным
рекомендуется вручную построить коробчатые диаграммы и сверить с диаграммами,
FA
5.00
NA
6.00
VA
5.75
50
5.00
7.00
6.00
75
6.00
8.00
7.00
Percentiles
25
4.00
25
FA
7.00
NA
4.00
VA
8.75
50
8.50
5.00
10.00
75
9.00
7.00
11.00
Frequency
VA
Frequency
VA
Frequency
Frequency
NA
Frequency
a Пол = Z(мальчик)
FA
Frequency
FA
a Пол = M (девочка)
NA
Percentiles
полученными в SPSS
6
5.00
4
5.00
1
1.00
4
4.00
6
5.00
2
5.00
14
6.00
2
6.00
10
4.00
7
5.00
1
6.00
1
6.00
7
7.00
3
7.00
5
5.00
8
6.00
10
7.00
1
7.00
2
8.00
6
8.00
11
6.00
3
7.00
11
8.00
3
10.00
1
9.00
11
9.00
3
7.00
5
8.00
2
9.00
5
Total
30
10.00
3
Total
30
8.00
2
Total
30
10.00
11.00
12.00
13.00
9
4
3
2
Total
30
a Пол = M
11.00
1
Total
30
a Пол = Z
a Пол = M
9.00
1
Total
30
a Пол = Z
a Пол = M
a Пол = Z
Для «Физической агрессии» построение изображено на Рис.5.3.1.
1
Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и
восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». C. 173.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
75
12
1,5Q
10
24
3Q
Ф изичес кая агрес с ия
8
Q=2
1,5Q
6
Q=1
1,5Q
4
1,5Q
2
N=
30
30
дев очка
мальчик
Пол
Рис.5.3.2. Коробчатая диаграмма для «Физической агрессии» девочек и мальчиков:
построение
Из Рис.5.3.2 видно, что уровень физической агрессии выше у мальчиков.
Среди девочек имеется девочка-драчунья (*24), у которой экстремально высокий
уровень физической агрессии. Информация о ней поволяет разыскать ее родителей, с тем,
чтобы принять меры относительно ее здоровья.
Если распределение данных не отличается от нормального распределения, то
разбивку данных на высокие, средние и низкие осуществляют по стандартным
отклонениям (п. 2.7).
В любых случаях2 разбивку данных на уровни можно осуществлять используя
квартили:
2
Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация
данных. СПб: Речь, 2004. C.43.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
76
Низкие показатели – ниже Q1 ;
Средние показатели - ( Q1 ; Q3 ) ;
Высокие показатели - выше Q3 .
X
Extremes’
zone
Outliers’
zone
Nr
Q3+3Q
Nr
Q3+1,5Q
Чрезвычайно
высокий
уровень
Очень
высокий
уровень
Высокий
уровень
Q3
Q3
Mdn Q=Q3-Q1
Q1
Q1
Средний
уровень
Низкий
уровень
Q1-1,5Q
Outliers’
zone
Extremes’
zone
Очень
низкий
уровень
Nr
Q1-3Q
Nr
Чрезвычайно
низкий
уровень
Рис.5.3.3. Разбивка данных на уровни по коробчатой диаграмме.
Очевидно, что более детальную разбивку можно осуществлять используя
коробчатые диаграммы (Рис.5.3.3).
В пределах «коробки» ( Q1 ; Q3 ) будут лежать средние показатели.
Ниже «коробки» (ниже Q1 ) – низкие показатели. Причем для (Q1 − 1,5Q; Q1 ) низкие; для (Q1 − 3Q; Q1 − 1,5Q ) - очень низкие показатели (зона Outliers); для показателей,
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
77
которые меньше, чем Q1 − 3Q - чрезвычайно низкие показатели (зона Extremes), для
которых соответствующие испытуемые могут быть уже представителями другой
популяции («патологически недоразвитых», для признака «способности»).
Выше «коробки» (выше Q3 ) – высокие показатели. Причем для (Q3 ; Q3 + 1,5Q ) высокие; для
(Q3 + 1,5Q; Q3 + 3Q )
- очень высокие показатели (зона Outliers); для
показателей, которые больше, чем Q3 + 3Q - чрезвычайно высокие показатели (зона
Extremes), для которых соответствующие испытуемые могут быть уже представителями
другой популяции («гениев», для признака «способности»).
Получение коробчатых диаграмм с помощью SPSS
Analyze
Descriptive Statistics
Explore
Plots
Plots
Рис.5.3.4. Получение коробчатой диаграммы, где все переменные вместе
Continue
OK
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
78
В результате получим коробчатые диаграммы для всех переменных на одном
рисунке (Рис.5.3.5).
Рис.5.3.5. Коробчатая диаграмма, где все переменные вместе
Коробчатые диаграммы для переменных по-отдельности (Рис.5.3.6-5.3.13) можно
получить так:
Analyze
Descriptive Statistics
Explore
Plots
Plots
Factor Levels Together
Continue
OK
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
79
Рис.5.3.6. Коробчатые диаграммы для переменной «ФА» (физическая агрессия)
Рис.5.3.7. Коробчатые диаграммы для переменной «NА» (косвенная агрессия)
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
80
Рис.5.3.8. Коробчатые диаграммы для переменной «К» (раздражение)
Рис.5.3.9. Коробчатые диаграммы для переменной «N» (негативизм)
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
81
Рис.5.3.10. Коробчатые диаграммы для переменной «Ар» (обида)
Рис.5.3.11. Коробчатые диаграммы для переменной «Аz» (Подозрительность)
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
82
Рис.5.3.12. Коробчатые диаграммы для переменной «VА» (вербальная агрессия)
Рис.5.3.13. Коробчатые диаграммы для переменной «SP» (Угрызения совести)
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
83
Для получения информации о выбросах на коробчатых диаграммах надо
выполнить следующие действия.
Analyze
Descriptive Statistics
Explore
Statistics
Statistics
Статистические показатели Descriptives уже вычислены, поэтому флажок для них
можно снять. Установим флажок для выбросов: Outliers.
Рис.5.3.14. Диалоговое окно Explore: Statistics
Outliers
Continue
OK
Выходная информация:
Таблица 5.3.1
–
это
фрагмент
выходной
таблицы
«Extreme Values»с
информацией о выбросах и других максимальных (highest) и минимальных (lowest)
значениях обрабатываемых данных. Выводятся по 5 наименьших и наибольших значений.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
84
Таблица 5.3.1
Фрагмент выходной таблицы «Extreme Values»
Dzimums
FA
M
Highest
Lowest
Z
Highest
Lowest
Case Number
Value
1
24
10.00
2
19
7.00
3
22
7.00
4
4
6.00
5
7
6.00a
1
28
4.00
2
25
4.00
3
17
4.00
4
13
4.00
5
8
4.00b
1
38
11.00
2
31
10.00
3
36
10.00
4
50
10.00
5
32
9.00c
1
58
5.00
2
54
5.00
3
43
5.00
4
41
5.00
5
55
6.00d
Примечания к Таблице 5.3.1
a Only a partial list of cases with the value 6.00 are shown in the table of upper extremes. (В таблице наименьших
экстремальных значений показан только частичный список наблюдений со значением 6.00.)
b Only a partial list of cases with the value 4.00 are shown in the table of lower extremes. (В таблице наименьших
экстремальных значений показан только частичный список наблюдений со значением 4.00.)
c Only a partial list of cases with the value 9.00 are shown in the table of upper extremes. (В таблице наибольших
экстремальных значений показан только частичный список наблюдений со значением 9.00.)
d Only a partial list of cases with the value 6.00 are shown in the table of lower extremes. (В таблице наименьших
экстремальных значений показан только частичный список наблюдений со значением 6.00.)
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
85
5.3.2. Диаграммы для средних значений
5.3.2.1. Построение с помощью Excel
По данным описательной статистики в Excel строится Таблица 5.3.2.1.1 для
средних значений:
Таблица 5.3.2.1.1
Средние значения для мальчиков и для девочек
M
Z
FA
5.33
8.03
NA
7.17
5.00
K
6.43
6.27
N
2.27
4.33
Ap
4.67
4.07
Az
5.53
5.10
VA
6.07
9.60
SP
5.03
5.20
Затем строится график (Рис.5.3.2.1.1).
Рис.5.3.2.1.1. Диаграмма для средних значений
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
86
5.3.2.2. Построение с помощью SPSS. Способ 1
Образуем новый файл с данными Data_Factor.sav, предварительно подготовив их в
Excel (Agr_Data_Factor.xlsx).
Данные надо ввести по-другому: образовать новую переменную (factor) и
группирующую переменную для ее уровней fac_ind (1-FA, 2-NA, 3-K, 4-N, 5-Ap, 6-Aiz, 7VA, 8-SP) (Рис.5.3.2.2.1-5.3.2.2.3).
Рис.5.3.2.2.1. Ввод данных с переменной «factor» и с группирующей переменной «fac_ind»
Рис.5.3.2.2.2. Описание группирующей переменной «fac_ind»
Рис.5.3.2.2.3. Окно значений переменной «factor» и группирующей переменной «fac_ind»
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
87
Graphs
Chart Builder
Choose form: Bar (Рис.5.3.2.2.4)
Перенести нужный тип графика в окно верхнее правое окно (Рис.5.3.2.2.4). Для
определения осей координат надо
•
на ось Х (X-Axis) из колонки Variables поставить номинальную группирующую
переменную Faktors[fac_ind];
•
в прямоугольник (Cluster on X: set color) из колонки Variables поставить
номинальную группирующую переменную Dzimums [sex];
•
на ось Y (Y-Axis) из колонки Variables поставить переменную Faktors [factor].
Получившийся вид окна изображен на Рис.5.3.2.2.6.
OK
В файле Results.spv появится нужный график (Рис.5.3.2.2.7).
Рис.5.3.2.2.4. Окно «Chart Builder»
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
88
Рис.5.3.2.2.5. Окно «Chart Builder» с определенным типом графика
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
89
Рис.5.3.2.2.6. Окно «Chart Builder» с определенным типом графика и с определенными
переменными
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
90
Рис.5.3.2.2.7. Диаграмма для средних значений, построенная с помощью SPSS
5.3.2.3. Построение с помощью SPSS. Способ 2
Откроем файл с данными Data_Factor.sav.
Graphs
Legacy Dialogs3
Bar (Рис.5.3.2.3.1)
Clustered
Define
В появившемся окне «Define Clustered Bar: Summaries for Groups of Cases»
распределить переменные Faktors[fac_ind] в окно «Category Axis», группирующую
3
То, что взято из более старых версий SPSS.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
91
переменную Dzimums [sex] в окно «Define Clusters by», переменную Faktors [factor] в окно
«Variable». Получившийся вид окна изображен на Рис.5.3.23.
Рис.5.3.2.3.1. Окно «Bar Charts» для выбора построения кластерной диаграммы средних значений.
Рис.5.3.2.3.2. Окно «Define Clustered Bar: Summaries for Groups of Cases». Все переменные
распределены по окнам.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
92
Нажать на кнопку
Options
Появится окно – Рис.5.3.2.3.3.
Display error bars
Standard deviation
Multiplier 1.0
Рис.5.3.2.3.3. Окно «Options».
OK
В файле Results.spv появится нужный график (Рис.5.3.2.3.4.). На Рис.5.3.2.3.4
изображен отредактированный график для средних: изменен цвет фона и столбиков, числа
на вертикальной оси округлены до целых, все буквы увеличены для того, чтобы график
после сжатия был бы читаемым.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
93
Рис.5.3.24. Диаграмма для средних значений, построенная и отредактированная с помощью SPSS.
6. Распределения
6.1. Случайные величины
Случайной величиной, называется переменная, которая в результате испытания
принимает одно из возможного множества своих значений, какое именно – заранее
неизвестно.
Случайные величины принято обозначать большими (прописными) буквами
латинского алфавита: X, Y, Z,..., а их значения - маленькими (строчными) буквами: x, y, z...
Случайные величины бывают двух видов:
1) дискретными (прерывными);
2) непрерывными.
Рассмотрим дискретные случайные величины.
Случайная величина называется дискретной, если значения которые она может
принимать образуют дискретный ряд чисел, конечный или бесконечный.
Например, дискретной случайной величиной можно считать:
- количество студентов на лекции;
- количество цыплят, вылупившихся за ночь;
- оценку, полученную на экзамене.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
94
Соответствие между всеми возможными значениями дискретной случайной
величины и их вероятностями называется законом распределения вероятностей данной
случайной величины.
Непрерывной
случайной
величиной называют
переменную,
которая
может
принимать все значения из некоторого конечного или бесконечного промежутка.
Например, непрерывной случайной величиной можно считать:
- продолжительность жизни;
- расход воды за месяц;
- дальность полета пули.
Значения дискретной случайной величины можно прогнозировать до испытания.
Например, количество студентов на лекции. А продолжительность жизни нельзя.
Непрерывная случайная величина может принимать все значения из некоторого
промежутка. Число ее возможных значений бесконечно. Однако, вероятность того, что
значение непрерывной случайной величины будет равняться в точности любому
заданному числу x равна нулю.
Поэтому находят вероятность того, что значение, принятое непрерывной
случайной величиной X в данном испытании окажется в некотором интервале [ a; b ] . Эту
вероятность обозначают P ( a ≤ X ≤ b ) или Р( a < X < b).
Распределением вероятностей непрерывной случайной величины называют закон,
с помощью которого можно найти вероятность того, что ее значение окажется после
испытания в интервале
[ a; b] .
Этот закон задают с помощью функции плотности
распределения вероятностей y = f ( x ) (probability density function, PDF). Вероятность
того, что значение непрерывной случайной величины X окажется в интервале
[ a; b]
вычисляют по формуле:
b
P ( a ≤ X ≤ b ) = ∫ f ( x )dx .
(6.1.1)
a
Символ в правой части равенства (6.1.1) называют определенным интегралом от функции
y = f ( x ) по промежутку [ a; b ] . Определенные интегралы изучают в разделе высшей
математики «Математический анализ». Интегралы, которые используются в теории
вероятностей и в математической статистике, как правило, вычисляют с помощью
компьютерных программ.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
95
Функция f ( x ) должна удовлетворять трем основным требованиям:
1) f ( x ) ≥ 0 - быть неотрицательной;
2) Быть такой, чтобы интеграл в правой части формулы (6.1.1) существовал;
3) P ( −∞ < X < +∞ ) =
+∞
∫ f ( x )dx = 1
как вероятность достоверного события, что
−∞
после испытания, случайная величина X примет одно значение x ∈ ( −∞; + ∞ ) .
График функции y = f ( x ) называют кривой распределения.
Определенный интеграл (6.1.1), равный вероятности P ( a ≤ X ≤ b ) равен площади
фигуры S, ограниченной сверху кривой распределения и опирающейся на отрезок [ a; b ]
(Рис.6.1.1). Поэтому
P (a ≤ X ≤ b) = S .
(6.1.2)
Площадь между всей кривой распределения и осью Ох равна единице, так как она
совпадает с вероятностью достоверного события.
y
y = f ( x)
S = P(a≤X≤b)
a
x
b
Рис.6.1.1 Площадь заштрихованного участка под кривой распределения совпадает с
вероятностью: S = P ( a ≤ X ≤ b ) .
Наиболее
часто
в
математической
статистике
используют
нормальное
распределение, распределение «Хи-квадрат, t-распределение Стьюдента и f-распределение
Фишера-Снедекора. Рассмотрим их подробнее.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
96
6.2. Нормальное распределение
Normal Distribution
Функция плотности распределения вероятностей для нормального распределения:
f ( x) =
1
σ 2π
e
−
( x−µ )
2
2σ 2
(6.2.1)
В формуле (6.2.1) присутствуют:
1) два знаменитых иррациональных числа (бесконечные непериодические
десятичные дроби) число «пи»: π = 3.141592653589790... и
число Эйлера «е»: e = 2.718281828459050... ;
2) параметр µ , в точности равный математическому ожиданию (выборочный
аналог которого – среднее арифметическое) непрерывной случайной величины Х,
вычисленному с помощью соответствующего интеграла;
3) параметр σ , в точности равный стандартному отклонению (выборочный аналог
которого – выборочное стандартное отклонение) непрерывной случайной величины Х,
вычисленному с помощью соответствующего интеграла.
Нормальное распределение описывается двумя параметрами: µ и σ .
Кривую нормального распределение (график функции y = f ( x ) ) называют кривой
Гаусса. Она имеет форму колокола (Рис.6.2.1).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
97
y
y=
1
1
σ 2π
e
−
( x − µ )2
2σ 2
σ 2π
x
µ − 3σ µ − 2σ
µ −σ
µ
µ +σ
µ + 2σ
µ + 3σ
Рис.6.2.1. Кривая Гаусса для нормального распределения с параметрами µ и σ .
Для нормального распределения справедлив закон «трех стандартных отклонений»
или закон «трех сигма» («3 σ »):
Отклонения
нормально
распределенной
случайной
величины
от
ее
математического ожидания µ не превышают 3σ .
Вероятность того, что значения нормально распределенной случайной величины Х,
попадут в интервал ( µ − σ ; µ + σ ) , равна .6827 или 68.27%.
Вероятность того, что значения нормально распределенной случайной величины Х,
попадут в интервал ( µ − 2σ ; µ + 2σ ) , равна .9545 или 95.45%.
Вероятность того, что значения нормально распределенной случайной величины Х,
попадут в интервал ( µ − 3σ ; µ + 3σ ) , равна .9973 или 99.73%.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
98
y
σ
1
2π
0.341 0.341
0.136
0.136
0.022
x
0.022
µ
µ −σ
0.6827
µ +σ
0.9545
µ − 2σ
µ + 2σ
0.9973
µ − 3σ
µ + 3σ
Рис.6.2.2. Иллюстрация к закону «трех сигма»
Вероятность того, что значения нормально распределенной случайной величины
отклонятся от µ в обе стороны на величину меньше 3σ равна .9973. Вероятность того,
что отклонения от µ на величину больше 3σ ничтожно мала:
1-.9973 = .0027 или 0.27%.
Иоганн Карл Фри́дрих Га́усс (Johann Carl Friedrich Gauß)4 – немецкий математик,
астроном и физик. Родился 30 апреля 1777 года в Брауншвейге. Дед Гаусса был
бедным крестьянином, отец — садовником, каменщиком, смотрителем каналов в
герцогстве Брауншвейг. Уже в три года мальчик умел читать и писать, даже
исправлял счётные ошибки отца. Школьный учитель математики, чтобы занять
детей на долгое время, предложил им сосчитать сумму чисел от 1 до 100. Юный
Гаусс заметил, что попарные суммы с противоположных концов одинаковы:
1+100=101, 2+99=101 и т. д., и мгновенно получил результат 50 х 101=5050. До
самой старости он привык большую часть вычислений производить в уме. Его
учитель М.Бартельс (впоследствии учитель Лобачевского) оценил исключительный
талант юного Гаусса и сумел выхлопотать ему стипендию от герцога
4
http://ru.wikipedia.org/wiki/%D0%93%D0%B0%D1%83%D1%81%D1%81,_%D0%9A%D0%B0%D1%80%D0%BB_%D0%
A4%D1%80%D0%B8%D0%B4%D1%80%D0%B8%D1%85
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
99
Брауншвейгского. Это помогло Гауссу закончить колледж Collegium Carolinum в Брауншвейге (1792—
1795). Свободно владея множеством языков, Гаусс некоторое время колебался в выборе между филологией
и математикой, но предпочёл последнюю. Он очень любил латинский язык и значительную часть своих
трудов написал на латыни; любил английскую, французскую и русскую литературу. (Продолжение в
Приложении 6).
Сэр Фрэнсис Га́льтон5 (Francis Galton; 16 февраля 1822 — 17 января 1911) —
английский исследователь, географ, антрополог и психолог; основатель
дифференциальной психологии и психометрики. Родился в Бирмингеме, в
Англии. Гальтон был двоюродным братом Чарльза Дарвина по их деду —
Эразму Дарвину. Его отцом был Самюэль Тертиус Гальтон, сын Самюэля
«Джона» Гальтона. Семья Гальтон была известной и весьма успешной в сфере
изготовления оружия и банкирском деле, в то время как Дарвины были
известны в областях медицины и науки. Оба эти семейства могли похвастать
тем, что их представители являлись членами Лондонского королевского
общества, которое в будущем стало британским эквивалентом Академии наук,
и любили изобретать в свободное время. И Эразм Дарвин, и Самюэль Гальтон
были одними из основателей знаменитого Лунного общества Бирмингема,
среди членов которого были: выдающиеся учёные и предприниматели. Также
оба семейства могли похвастать литературными талантами: Эразмусом Дарвином, известным благодаря
созданию длинных технических трактатов (учебников) в стихотворной форме, и тётей Мари Анной Гальтон,
известной благодаря работам по эстетике и религии и её знаменитой автобиографии, подробно
описывающей уникальное окружение её детства, состоящее из членов Лунного Общества. Фрэнсис Га́льтон
рано проявил одарённость: с полутора лет знал все буквы алфавита, самостоятельно читал с двух с
половиной лет, писал с трёх лет. (Продолжение в Приложении 6).
6.3. Распределение «Хи-квадрат» ( χ 2 )
Chi-Square Distribution or χ 2 - Distribution
Распределение «Хи-квадрат» впервые было описано немецким геодезистом,
математиком и астрономом Фридрихом Робертом Хельмертом (Friedrich Robert Helmert) в
1875-1876 годах6,7. В Германии это распределение традиционно известно как
распределение Хельмерта. В связи с гауссовской теорией ошибок Хелмерт исследовал
суммы квадратов k независимых стандартно нормально распределенных случайных
величин. Распределение «Хи-квадрат» было независимо вновь открыто английским
математиком
Карлом
Пирсоном
в
контексте
критерия
согласия
«хи-квадрат»,
опубликованного им в 1900 году. Название "хи-квадрат" происходит от стенографии
Пирсона, который использовал букву греческого алфавита χ (русская транскрипция –
5
http://ru.wikipedia.org/wiki/%D0%93%D0%B0%D0%BB%D1%8C%D1%82%D0%BE%D0%BD,_%D0%A4%D1%80%D1%8D%D0%BD%
D1%81%D0%B8%D1%81
6
Айвазян, С. А. (1983). Прикладная статистика. Основы моделирования и первичная обработка данных.
Москва: «Финансы и статистика». С.190.
7
https://en.wikipedia.org/wiki/Chi-squared_distribution
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
100
«Хи», английская - Chi): χ 2 . Идея семейства "хи-квадрат распределений" была развита
Рональдом Фишером (см.п. 6.5) в 1920-е годы. Сейчас распределение "хи-квадрат" носит
имя Пирсона.
Функция плотности распределения вероятностей для распределения χ 2 8:
(6.3.1)
где Г(x) специальная (не элементарная) функция, которая определяется через
несобственный интеграл и называется гамма-функцией9;
k = df (degrees of freedom) – параметр распределения χ 2 , который называется числом
степеней свободы.
Распределение χ 2 описывается одним параметром - числом степеней свободы k =df.
Кривые распределения χ 2 для некоторых k=df показаны на Рис.6.3.110.
Рис.6.3.1. Кривые распределения χ 2 для числа степеней свободы 1, 2, 3, 4, 6, 9.
8
В названии распределения использована греческая буква
9
Г
https://en.wikipedia.org/wiki/Chi-squared_distribution
χ - «хи».
10
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
101
Фридрих
Роберт
Хельмерт11
(Friedrich
Роберт
Helmert)
известный германский геодезист и математик. Родился 31 июля 1843 года в
Фрайберге, Kingdom of Saxony. Учился в школе в Фрайберге и в Дрездене. В
1859 году поступил в Политехническую Школу в Дрездене (ныне –
Технический Университет) для изучения инженерных наук. Особенный
интерес проявил к геодезии. Еще когда Фридрих был студентом, один из его
учителей (August Nagel) предложил ему научную работу в области геодезии.
В 1863 году Хельмерт стал ассистентом Нагеля. В 1867 году после изученияя
математики и астрономии он получил степень доктора в Лейпцигском
университете за диссертацию, написанную на основе своей работы с Нагелем.
После чего был назначен сперва наблюдателем в гамбургскую обсерваторию,
а затем в 1872 году - профессором в Аахенский политехнический институт
(RWTH Aachen). В Аахене (1880-1884) Хельмерт написал работы, которые заложили основы современной
геодезии. Метод наименьших квадратов был введен в геодезию Гауссом. Хельмерт написал прекрасную
книгу по методу наименьших квадратов, которая стала стандартным текстом. В 1876 году он открыл
распределение, которое впоследствии Карл Пирсон назвал «хи-квадрат». Хельмерт рассматривал его как
распределение выборочной дисперсии для нормального распределения. Это открытие и другие работы
Хельмерта вошли в немецкие учебники, в которых открытое Хельмертом распределение называлось
распределением Хельмерта. К сожалению, еще долгое время работы Хельмерта не были известны на
английском и других языках. Позже распределение Хельмерта вновь было открыто Карлом Пирсоном (1900)
и названо распределением Пирсона «хи-квадрат». С 1886 года был директором прусского геодезического
института в Потсдаме и одновременно (с 1887 года) профессором геодезии Берлинского Университета.
Кроме многочисленных статей математического и геодезического содержания в повременных ученых
изданиях, Гельмерту принадлежат: "Ausgleichungsrechnung nach der Methode der kl. Quadrate" (1872) и "Die
Mathematischen und Physikalischen Theorieen der Hoheren Geodasie" (1880 и 1884). Последнее сочинение,
особенно второй его том, занимает в геодезической литературе весьма почетное место. Математические
труды по теории ошибок; рассмотрел (1876) распределение хи-квадрат. В 1916 году он перенес инсульт и
умер от его последствий в следующем 1917 году, 15 июня в Потсдаме.
Карл Пирсон, 12, 13, 14 (англ. Karl (Carl)
Pearson, 27 марта 1857, Лондон - 27 апреля
1936, Лондон) - английский математик,
статистик, биолог и философ-позитивист;
основатель
математической
статистики.
Создатель методов оценки и измерения в
биологии и психологии. Автор свыше 650
опубликованных научных работ. Родился в
семье
преуспевающего
лондонского
адвоката.
Изучал
математику
в
Кембриджском
университете.
Закончил
Кембриджский университет в 1879 году.
Затем изучал физику в Гейдельбергском и
Берлинском университетах. Значительную
часть своих усилий он употребил на
разработку и применение статистических методов в биологии. Он считается одним из отцов современной
статистики. В молодости у Карла Пирсона появился интерес к проблемам наследственности, евгеники,
общим вопросам биологии и возможности применения методов статистики для их изучения. Его интерес
сформировался под влиянием эволюционной теории Дарвина, которую он хотел проверить с помощью
различных методов. Вместе с такими философами, как Юм и Мах, Пирсон разделял взгляды на причинность
как сопряженную вариацию ("корреляция"). Он предложил математическую формулировку идеи
корреляции. Результатом явился широко известный коэффициент корреляции Пирсона. Пирсон также
разработал непараметрический коэффициент d-квадрат. Оба коэффициента интенсивно использовались в
психологических исследованиях и внесли существенный вклад в развитие мультивариантных
статистических методов и в установление традиции использования количественных методов в этих
дисциплинах. Идеи Пирсона о корреляции и d-квадрате опубликованы в серии из 18 книг под заголовком
«Математический вклад в теорию эволюции». Пирсон включился в важную дискуссию с Уильямом
11
12
http://ru.wikipedia.org/wiki/%D0%9F%D0%B8%D1%80%D1%81%D0%BE%D0%BD,_%D0%9A%D0%B0%D1%80%D0%BB
http://www.psychology.ru/whoswho/Karl_Pearson.stm
14
http://www-history.mcs.st-andrews.ac.uk/Biographies/Pearson.html
13
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
102
Бэйтсоном о природе эволюции и ее измерении. Пирсон защищал биометрический подход, подчеркивая
важность непрерывных изменений как основного материала естественного отбора. Бэйтсон работал в
традиции чешского генетика растений Менделя (чьи работы были заново открыты в 1900) и придавал
гораздо большее значение дискретным изменениям и изучению размножения, как лучшего пути к
пониманию механизмов эволюции. Начиная с 1906 года Пирсон посвятил всю свою энергию развитию
статистики как отдельной науки. В 1910 году вместе с Гальтоном и Велдоном он основал влиятельный
журнал «Biometrika», посвящённый применению статистических методов в биологии, который
редактировал до самой смерти. В бытность его редактором журнал приобрел одиозную репутацию за явную
приверженность одной линии: Пирсон отвергал сразу, без исправлений и консультаций, все рукописи,
которые находил противоречащими направлению журнала. С 1884 по 1911 год он был профессором
прикладной математики и механики Лондонского университета, с 1911 года - директором Лаборатории
евгеники Лондонского университета, заслуженным профессором. В 1896 году был избран членом
Королевского общества, в 1898 году был награждён Медалью Дарвина. Опубликовал основополагающие
труды по математической статистике (более 400 работ). Разработал теорию корреляции, критерии согласия,
алгоритмы принятия решений и оценки параметров. С его именем связаны такие широко используемые
термины и методы, как: критерий согласия Пирсона (критерий хи-квадрат), коэффициент корреляции
Пирсона и корреляционный анализ, регрессия и многие другие. Пирсон много усилий приложил для
применения своих открытий в прикладных областях, прежде всего в биологии, евгенике, медицине. Ряд
работ относится к философии и к истории науки. Видным продолжателем его работ по прикладной
математической статистике стал Рональд Эйлмер Фишер.
6.4. Распределение Стьюдента или t-распределение
Student’s Distribution or t- distribution
Распределение Стьюдента было разработано английским химиком и статистиком
Уильямом С. Госсетом (William S. Gosset), когда он работал сотрудником ирландского
отделения пивоваренной компании Guinness. Компания Guinness запрещала своим
сотрудникам публиковать работы под собственными именами. Поэтому свои публикации
Уильям С. Госсет начиная с 1908 года в журнале "Биометрика" писал под псевдонимом
"Student", что в переводе означает "Студент".
Функция плотности распределения вероятностей для t-распределения Стьюдента:
,
(6.4.1)
где Г(x) специальная функция, которая определяется через несобственный интеграл и
называется гамма-функцией;
k = df (degrees of freedom) – параметр распределения t, который называется числом
степеней свободы.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
103
t-распределение Стьюдента описывается одним параметром - числом степеней свободы
k =df.
Кривые распределения t для некоторых k=df показаны на Рис.6.4.1.
Внешне t-распределение Стьюдента напоминает стандартизованное нормальное
распределение (частный случай нормального распределения, когда μ=0, σ=1). Оба
распределения имеют колоколообразную форму и являются симметричными. Однако
хвосты в t-распределении «тяжелее» (т.е. ограничивают большую площадь), а площадь
фигуры в центре распределения меньше, чем у стандартизованного нормального
распределения (Рис.6.4.1).
Yjhvfkmyjt
0.4
Y
Нормальное
распределение
k = 16
k=4
0.3
k =2
k =1
0.2
0.1
X
-3
-2
-1
1
2
3
Рис.6.4.1. Кривая Гаусса (стандартизованное нормальное распределение) и кривые tраспределения Стьюдента с числом степеней свободы k = 1 , k = 2 , k = 4 , k = 16 .
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
104
Уи́льям Си́ли Го́ссет15 (William Sealy Gosset, 13 июня 1876, Кентербери —
16 октября 1937, Беконсфильд) — известный учёный-статистик, более
известный под своим псевдонимом Стьюдент и за свои работы по
исследованию так называемого Распределения Стьюдента. Родился в
Кентербери, у Агнес Сили Видал и полковника Фредерика Госсета. Госсет
посещал колледж Винчестер, а затем прослушал курсы химии и математики
в Новом колледже Оксфорда. По окончании университета в 1899 году он
поступил на работу на пивоваренный завод Arthur Guinness Son & Co в
Дублине. Гиннесс был передовым предприятием пищевой промышленности,
и Госсет мог применить свои знания в области статистики как при варке
пива, так и на полях — для выведения самого урожайного сорта ячменя.
Госсет приобретал эти знания путём изучения, методом проб и ошибок,
проведя два года (1906—1907 гг.) в биометрической лаборатории Карла
Пирсона. Госсет и Пирсон были в хороших отношениях, и Пирсон помогал
Госсету в математической части его исследований. Так, Пирсон был
причастен к публикациям 1908 года (принёсших славу Стьюденту), но придавал мало значения этому
открытию. Исследования были обращены к нуждам пивоваренной компании и проводились на малом
количестве наблюдений. Биометристы же обычно имели дело с сотнями наблюдений и не испытывали
необходимости в развитии методов, основанных на малом их количестве. (Продолжение в Приложении 6).
6.5. Распределение Фишера-Снедекора или f-распределение
Fisher-Snedecor’s Distribution or f-distribution
Два самых выдающихся статистика XX столетия непосредственно причастны к
получению f-распределения. Один - крупнейший английский статистик Рональд Фишер
(1890-1962), предложивший первые теоретические формулировки, которые были
опубликованы в середине 20-х годов (Fisher, 1925). Другой - Джордж Снедекор (18811974), один из плеяды первых американских статистиков, разработавший способ
сравнения двух независимых выборок любого объема посредством вычисления
отношения двух оценок дисперсии. Он назвал это отношение f-отношением, в честь
Фишера.
Функция плотности распределения вероятностей для f-распределения ФишераСнедекора:
,
(6.5.1)
15
http://ru.wikipedia.org/wiki/%D0%93%D0%BE%D1%81%D1%81%D0%B5%D1%82,_%D0%A3%D0%B8%D0%BB%D1%8C%D1%8F%D0
%BC_%D0%A1%D0%B8%D0%BB%D0%B8
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
105
где B(x) - специальная функция, которая определяется через несобственный интеграл и
называется бета-функцией16;
k1 = df1, k2 = df2 (degrees of freedom) – параметры распределения f, которые называются
степенями свободы.
f-распределение Фишера-Снедекора описывается двумя параметрами - степенями
свободы k1 = df1, k2 = df2.
Кривые распределения f для некоторых k1 = df1, k2 = df2 (
показаны на
Рис.6.5.117.
y
x
Рис.3.5.1. Кривые f-распределения Фишера-Снедекора: F1,1, F2,1, F5,2, F10,1, F100,100,. На
рисунке обозначено: d1=k1, d2=k2.
Сэр Рональд Эймлер Фишер (Sir Ronald Aylmer Fisher,
родился 17 февраля 1890 в Лондоне, скончался 29 июля 1962
в Австралии)18. Его отец был успешным торговцем
предметами изящного искусства. Детство Рональда было
счастливым, он был обожаем тремя старшими сёстрами,
старшим братом и матерью, которая умерла, когда Рональду
было 14. Его отец 18 месяцев спустя обанкротился, проведя
несколько неудачных сделок. Хотя у Фишера было плохое
зрение, он был не по годам развитым учеником и в возрасте
16 лет выиграл «Neeld Medal» (конкурс по математике) в
школе Харроу (лат. Harrow School). По причине всё того же
плохого зрения, его обучали математике без использования «бумаги и пера», что развило
16
17
https://upload.wikimedia.org/wikipedia/commons/9/92/F_pdf.svg
18
http://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D1%88%D0%B5%D1%80,_%D0%A0%D0%BE%D0%BD%D0
%B0%D0%BB%D1%8C%D0%B4_%D0%AD%D0%B9%D0%BB%D0%BC%D0%B5%D1%80
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
106
способность представлять задачу в терминах геометрии. Фишер был знаменит умением
получать ответ, опуская промежуточные этапы. Он также проявлял сильный интерес к
биологии, в особенности, к эволюционному учению. Колоссальный вклад был внесён им в
развитие современной прикладной математической статистики. Его характеризуют как
«гения, едва не в одиночку заложившего основы современной статистики».
Фишер - один из основателей математической статистики и математической
популяционной генетики. Член Лондонского королевского общества (1929). Окончил
колледж в Кембридже (1912). Работал статистиком в «Меркантайл энд дженерал
инвестмент компани» (1913–1915). В 1919–1933 работал в отделе статистики
Ротемстедской экспериментальной станции. В 1933–1943 профессор евгеники
Лондонского университета. В 1943–1957 профессор генетики Кембриджского
университета, в 1956–1959 руководил одним из его колледжей. Основные труды по
теории статистики и генетической теории эволюции. Ввёл понятие достаточной
статистики, построил теорию точечных и интервальных статистических оценок,
разработал методику планирования экспериментов и внёс существенный вклад в создание
современной теории статистической проверки гипотез. Ввёл основные понятия генетики
количественных признаков, исследовал стохастические процессы в популяциях,
предложил ряд моделей действия естественного отбора, первый рассмотрел случай
сверхдоминирования
по
приспособленности,
предложил
теорию
эволюции
доминантности. Сформулировал т. н. фундаментальную теорему естественного отбора,
носящую его имя. Член Королевского статистического общества. Почётный член многих
академий, английских и иностранных научных обществ; почётный доктор наук и доктор
права многих университетов (Лондон, Гарвард, Чикаго, Калькутта, Глазго и др.).
Награжден Дарвиновской медалью Лондонского королевского общества19.
Джордж Уоддел Снедекор 20(George Waddel Snedecor; родился 20
октября 1881, скончался 15 февраля 1974) — американский математик и
статистик. Был учеником знаменитого статистика Рональда Фишера.
Существует мнение, что F-распределение рассчитал именно он и назвал
его в честь своего учителя. Работал вместе с Генри Уоллесом. Снедекор
основал первый в США факультет статистики в Государственном
Университете Айовы.
19
http://bse.sci-lib.com/article116512.html
20
http://ru.wikipedia.org/wiki/%D0%A1%D0%BD%D0%B5%D0%B4%D0%B5%D0%BA%D0%BE%D1%80,_%D0%94%D0%B6%D0%BE%
D1%80%D0%B4%D0%B6
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
107
7. Проверка статистических гипотез с помощью SPSS
7.1. Виды статистических гипотез
Гипотеза происходит от греческого слова hypothesis - основание, основа.
Статистической гипотезой называют предположение о свойствах популяции
совокупности. Статистическую гипотезу подтверждают или отвергают методами
математической статистики на основе выборочных данных.
Одновременно выдвигаются нулевая (основная) гипотеза H 0 и противоречащая ей
альтернативная гипотеза H1 :
Нулевая гипотеза H 0 всегда о том, что различия в популяции нулевые. В выборке
статистически значимых или существенных отличий нет. Все имеющиеся различия
несущественны, их можно объяснить случайными обстоятельствами.
Альтернативная (конкурирующая) гипотеза H1 о том, что в популяции имеются
различия. В этом случае в выборке различия статистически значимые. Это закономерно и
не может быть объяснено случайными причинами.
Альтернативная гипотеза – это то, что очень часто исследователь хочет доказать,
поэтому ее иногда называют экспериментальной гипотезой.
Альтернативная гипотеза может быть направленной или ненаправленной.
В Примерах 1-3 выборочная дисперсия отличается от гипотетической21 дисперсии.
Возникает вопрос: являются ли эти различия случайными или закономерными?
Случайные
различия
в
выборке
означают
отсутствие
различий
в
популяции.
Закономерные различия в выборке говорят о различиях в популяции.
Пример 1.
H 0 : Выборочная дисперсия
=25.34 имеет случайное отличие от гипотетической
дисперсии σ 02 =15.00;
21
предполагаемой
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
108
H1 : Выборочная дисперсия
=25.34 отличается от гипотетической дисперсии σ 02 =15.00
закономерно.
При справедливости H 0 различие может быть объяснено случайными причинами.
При справедливости быть H1 различие закономерно и не может быть объяснено
случайными причинами.
В Примере 1 альтернативная гипотеза является ненаправленной (nondirectional).
Пример 2.
H 0 : Выборочная дисперсия
=25.34 имеет случайное отличие от гипотетической
дисперсии σ 02 =15.00;
H1 : Выборочная дисперсия
=25.34 превышает от гипотетическую дисперсию σ 02 =15.00
закономерно.
Пример 3.
H 0 : Выборочная дисперсия
=12.51 имеет случайное отличие от гипотетической
дисперсии σ 02 =15.00;
H1 : Выборочная дисперсия
=12.51 меньше гипотетической дисперсии σ 02 =15.00
закономерно.
В Примерах 2 и 3 альтернативная гипотеза является направленной (directional).
Замечание. Те же самые гипотезы могут быть сформулированы для популяции.
Параметры популяции обычно обозначают буквами греческого алфавита.
Дисперсию популяции обозначим
Тогда для Примеров 1-3 гипотезы могут быть
записаны следующим образом.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
109
Пример 1.
Пример 2.
Пример 3.
H 0 : σ 2 = σ 02
H 0 : σ 2 = σ 02
H 0 : σ 2 = σ 02
H 1 : σ 2 ≠ σ 02 ,
H 1 : σ 2 > σ 02 ,
H1 : σ 2 < σ 02 ,
где σ 02 =15.00,
где σ 02 =15.00,
=25.34.
=25.34.
где σ 02 =15.00,
в
которой
=12.51.
7.2. Ошибки 1-ого и 2-ого рода
Статистическая
проверка
гипотез,
основе
лежат
выборочные
результаты, неизбежно связана с риском принять ошибочное решение. Возможны два
вида ошибок.
Ошибка 1-ого рода. Отклонить правильную нулевую гипотезу H 0 (α-error, type I error ).
Ошибка 2-ого рода. Принять неправильную нулевую гипотезу H 0 (β-error, Type II error).
Возможны 4 случая (Таблица 7.2.1).
Таблица 7.2.122
Возможные результаты процесса принятия решений
Истинное состояние
H 0 Верна
H 0 Неверна
Решение
Нет оснований отвергнуть
Отвергается
Правильное решение
Ошибка 1-ого рода
р=1-α
p=α
Ошибка 2-ого рода
Правильное решение
p=β
p=1-β=мощность (power)
Замечание. p – вероятность.
22
Howell, D.С. (1999). Fundamental Statistics for Behavioural Sciences. USA: Duxbury Press.
http://www.psych.utoronto.ca/courses/c1/statstoc.htm. P.133.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
110
Вероятность ошибки 1-ого рода называют уровнем значимости (significance level)
и обозначают буквой греческого алфавита α .
Обычно рассматривают уровни значимости α = .05 , α = .01 и α = .001 . Если
α = .05 - то это значит, что в 5 случаях из 100 имеется риск отвергнуть правильную
нулевую гипотезу.
Когда указывают, что различия достоверны на уровне значимости α = .01 , то
имеют в виду, что вероятность того, что они все-таки недостоверны, не превышает .01
(или 1%).
Вероятность ошибки 2-ого рода обозначают через β .
7.3. Статистический критерий
Критерий - от греческого слова criterion - средство для суждения - признак, на
основании которого производится оценка, средство проверки, - мерило оценки.
Для проверки нулевой гипотезы ( H 0 - гипотезы об отсутствии различий)
используют
специально
подобранную
случайную
величину,
которую
называют
статистическим критерием или просто критерием.
При справедливости нулевой гипотезы эта случайная величина имеет определенное
распределение
плотности
вероятностей
(стандартизованное
нормальное:
z-
распределение, распределение хи-квадрат (chi-square distribution), t-распределение
Стьюдента, f-распределение Фишера-Снедекора или другие распределения). Кривая
плотности распределения, как правило, имеет вид колокола – симметричного или
скошенного (Рисунки п.6).
Наблюдаемое или эмпирическое значение критерия – это значение критерия,
вычисленное по выборочным данным. Также принято критерий называть тестом, а его
эмпирическое значение - статистикой.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
111
7.4. Критическая область. Критические точки
Множество всех возможных значений статистики делится на две области.
Критической областью (critical region) называют совокупность значений статистики, при
которой нулевую гипотезу отвергают. Областью областью принятия гипотезы
(acceptance region) называют совокупность значений статистики, при которых нулевую
гипотезу нет оснований отвергнуть.
Критическими точками называют точки, отделяющие критическую область от
области принятия гипотезы (Рис.7.4.1).
Критической области соответствуют значения статистики, которые наименее
вероятны - так называемые, «хвосты» распределения.
Критические точки находятся по уровню значимости α
и по параметрам
соответствующих распределений из специальных таблиц или с помощью компьютерных
программ. Обычно их обозначают kα , или более конкретно, например:
при α = 0.05.
Вместо буквы k обычно пишут букву, соответствующую распределению случайной
величины ( z ; χ 2 ; t ; f и др.)
В
зависимости
ненаправленной),
от
различают
вида
альтернативной
«односторонние
гипотезы
гипотезы»
(направленной
(one-tailed
test)
–
или
для
направленных гипотез и «двусторонние гипотезы» (two-tailed test) – для ненаправленных
гипотез.
Односторонние
гипотезы,
бывают
левосторонними
(left-tailed)
и
правосторонними (right-tailed). В соответствии с этим определяются правосторонняя (onetailed), левосторонняя (one-tailed) и двухсторонняя (two-tailed) критические области
(Рис.7.4.1).
После вычисления значения статистики для имеющейся выборки, смотрят, в какую
из этих двух областей попало это вычисленное значение. Если оно попало в критическую
область, то нулевая гипотеза отвергается.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
112
Рис.7.4.1. Кривая распределения. На горизонтальной оси отложены наблюдаемые
значения критерия К – статистики, kα – критические точки.
(a) – правоторонняя критическая область (one-tailed), площадь правого «хвоста» равна α;
(b) – левоторонняя критическая область (one-tailed), площадь левого «хвоста» равна α;
(с) – двухсторонняя критическая область (two-tailed), площадь каждого «хвоста» равна
α/2.
Пример 4. Выборка, объема n = 17 взята из популяции, в которой признак имеет
нормальное распределение. Выборочная дисперсия равна
=25.34. Гипотетическая
дисперсия равна σ 02 =15.00. Сравнить выборочную дисперсию с гипотетической
дисперсией.
Решение
Из математической статистики следует, что для сравнения выборочной дисперсии с
гипотетической дисперсией следует использовать критерий χ 2 , наблюдаемое значение
(статистика) которого вычисляется по формуле23
Гласс Дж., Стенли Дж. Статистические методы в педагогике и в психологии. – Москва: Прогресс, 1976. С.
279-280.
23
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
113
χ 2 = (n − 1)
s x2
.
σ 02
(7.4.1)
Вычислим значение χ 2 - статистики:
=
.
Нулевая гипотеза:
H 0 : σ 2 = σ 02 ,
где
дисперсия популяции24.
Случайная величина χ 2 при справедливости нулевой гипотезы распределение χ 2 с df=n-1
степенями свободы.
Дальнейший ход решения задачи предполагает рассмотрение двух вариантов:
направленной и ненаправленной альтернативных гипотез.
Случай 1 (направленная альтернативная гипотеза)
H 1 : σ 2 > σ 02 25
В этом случае рассматриваем правостороннюю критическую область, уровни
значимости α = .05, α = .01. α = .001 и число степеней свободы df = 17-1 = 16.
Дальнейшее решение задачи проведем с помощью компьютерной программы
GRETL, которую можно бесплатно скачать в Интернете.
24
Эквивалентная формулировка нулевой гипотезы:
H 0 : Выборочная дисперсия
=25.34 имеет случайное отличие от гипотетической
дисперсии σ =17.00;
2
25
H1 : Выборочная дисперсия
=25.34 превышает от гипотетическую дисперсию
σ =15.00 закономерно.
2
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
114
7.5. Нахождение критических точек с помощью компьютерной
программы GRETL
Открываем программу GRETL. На верхней панели выбираем Tools (Рис.7.5.1)
Рис.7.5.1. Основное окно программы GRETL с выбранным на верхней панели
Tools.
Statistical tables
На появившемся окне gretl: critical values (Рис.7.5.2) выбираем chi-square и
заполняем таблицу:
Рис.7.5.2. Окно gretl: critical values.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
115
ОК
Выходная информация (Рис.7.5.3):
Рис.7.5.3. Критическое значение для уровня значимости .05 и числа степеней свободы 16
равно 26.2962.
Округляя получаем:
Аналогично находим:
Вычисленная статистика :
=
. Справедливо неравенство (Рис.7.4.5):
Вычисленная статистика оказалась в критической области для уровня значимости α=.05.
Поэтому нулевая гипотеза отклоняется и принимается альтернативная гипотеза.
=
α=.05
H0
α=.01
α=.001
H1
χ2
Рис.7.5.4. Правосторонняя критическая область для Примера 4.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
116
Ответ: Была использована правосторонняя альтернативная гипотеза. Выборочная
дисперсия
=25.34 статистически значимо превышает гипотетическую дисперсию
σ 02 =17.00. Уровень значимости α=.05.
Случай 2 (ненаправленная альтернативная гипотеза)
H 1 : σ 2 ≠ σ 02
В этом случае рассматриваем двухстороннюю критическую область, уровни
значимости α = .05, α = .01, α = .001 и число степеней свободы df = 17-1 = 16.
Для того, чтобы найти левую критическую точку, перед которой площадь,
ограниченная кривой распределения и осью Ох (Рис.7.4.1 (с), критическая точка kα1),
равна α/2. Чтобы ее найти надо подставить в «right-tailed probability» (Рис.7.5.2) 1- α/2=10.05/2=0.975.
Рис.7.5.5. Вычисление левой критической точки для двухсторонней критической
области
Результат вычисления
.
Для α = .01, «right-tailed probability» 1- α/2=1-.01/2=.995, для α = .001, «right-tailed
probability» 1- α/2=1-.001/2=.9995.
Критические точки:
,
.
Для того, чтобы найти правую критическую точку, за которой площадь,
ограниченная кривой распределения и осью Ох (Рис.7.4.1 (с), критическая точка kα2),
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
117
равна α/2. Чтобы ее найти надо подставить в «right-tailed probability» (Рис.7.5.2)
α/2=.05/2=.025.
Результат вычисления
.
Для α = .01, «right-tailed probability» α/2=.01/2=.005, для α = .001, «right-tailed
probability» α/2=.001/2=.0005.
Критические точки:
,
Вычисленная статистика
=
.
принадлежит области принятия нулевой
гипотезы, так как справедливо неравенство (Рис.7.5.6):
Поэтому нет основания отвергнуть нулевую гипотезу. Различия между выборочной
дисперсией и гипотетической дисперсией не найдены.
=
α=.001
H1
α=.01
α=.05
α=.05
α=.01
α=.001
H1
H0
χ2
Рис.7.5.6. Двухсторонняя критическая область для Примера 4.
Ответ: Была использована двухсторонняя альтернативная гипотеза. Статистически
значимых различий между выборочной дисперсией
=25.34 и гипотетической
дисперсией σ 02 =17.00 не найдено.
Из Примера 4 видно, что «двухвостовый» тест является более строгим, чем
«однохвостовый».
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
118
7.6. Нахождение критических точек распределения
χ2
с
помощью компьютерной программы Excel
Получим критическую точку распределения χ 2 для уровня значимости р=.05 и
числа степеней свободы df = 16 c помощью Excel.
Встанем на ячейку, в которой хотим получить ответ. Например, в С3 (Рис.7.6.1).
Рис.7.6.1. Получение критических точек распределения χ 2 . Выбор ячейки
Formulas
fx
Insert Function …
В появившемся окне найдем функцию CHISQ.INV.RT (Рис.7.6.2).
Рис.7.6.2. Выбор функции CHISQ.INV.RT
OK
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
119
В появившемся окне зададим уровень значимости р=0.05 (Probability) и число
степеней свободы df = 2 (Deg_freedom) (Рис.7.6.3).
Рис.7.6.3. Задание уровня значимости (Probability) и числа степеней свободы
(Deg_freedom).
OK
В ячейке С3 появится ответ (Рис.7.6.4).
Рис.7.6.4. Вычисленная в ячейке С3 критическая точка распределения χ 2 для
уровня значимости р=.05 и числа степеней свободы df = 16 .
7.7. р-value
Для проверки стптистических гипотез можно использовать не только критические
области и критические точки, но также p-value (p-вероятность, р-значение), которая
вычисляется для конкретных значений статистики – наблюдаемого значения критерия.
Формально р-value определяется (и вычисляется) следующим образом.
Пусть случайная величина К является критерием, который используется для
проверки нулевой гипотезы. Предполагается, что при справедливости нулевой гипотезы
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
120
распределение этой случайной величины известно. Наблюдаемое значение критерия или
К-статистику обозначим через Кe.
Для
правосторонней
альтернативной
гипотезы
р-value
определяется
как
вероятность того, что значения случайной величины К будут либо равны вычисленной
статистике Кe, либо больше ее (Рис.7.7.1):
р-value = Р(K≥Ke).
(7.7.1)
Для левосторонней альтернативной гипотезы р-value определяется как вероятность
того, что значения случайной величины К будут либо равны вычисленной статистики Кe,
либо меньше ее: (Рис.7.7.2)
р-value = Р(K≤Ke).
(7.7.2)
Для двухсторонней альтернативной гипотезы р-value определяется как как
удвоенная наименьшая вероятность из двух вероятностей Р(K≤Ke) и Р(K≥Ke):
р-value = 2 min{Р(K≤Ke), Р(K≥Ke)}.
Рис.7.7.1. Определение p-value (площадь
заштрихованной области под кривой
распределения)
для
правосторонней
альтернативной гипотезы:
р-value = Р(K≥Ke).
(7.7.3)
Рис.7.7.2. Определение p-value (площадь
заштрихованной области под кривой
распределения)
для
левосторонней
альтернативной гипотезы:
р-value = Р(K≤Ke).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
121
Таким образом, р-value – это вероятность того, что не следует отклонять нулевую
гипотезу, или вероятность ошибки при отклонении нулевой гипотезы.
р-value - это вероятность того, что обнаруженное различие носит случайный
характер.
Если эта вероятность большая, то различие случайное. Нет оснований отклонить
нулевую гипотезу. Например р = .678.
Если эта вероятность маленькая, то различия неслучайные, а закономерные.
Нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Например, р =
.002.
Чем меньше р-value, тем надежнее найденное различие.
p-value сравнивают с общепринятыми уровнями значимости α=.05, α=.01 или
α=.001. Если в результате применения статистического теста p-value окажется меньше,
чем выбранный уровень значимости, то нулевая гипотеза отвергается и принимается
альтернативная гипотеза. А если p-значение окажется больше заданного уровня
значимости, то нет оснований отвергнуть нулевую гипотезу. Это не означает, что нулевая
гипотеза истинна, просто не хватает аргументов, чтобы ее отвергнуть.
Исторически сложилось так, что принято считать26:
1) p > .05 - различия случайны;
2) α = .05 (или p ≤ .05 ) – различия значимы;
3) α = .01 (или p ≤ .01 ) – различия очень значимы;
4) α = .001 (или p ≤ .001 ) – различия максимально значимы.
Чем меньше значение р, тем сильнее аргументы против нулевой гипотезы.
В некоторых статистических компьютерных программах (в том числе и в SPSS) pvalue обозначают через Sig. (significance).
Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и
восстановление скрытых закономерностей. СПб.: ООО «ДиаСофтЮП». CC. 87-88.
26
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
122
7.8. Вычисление р-value с помощью компьютерной программы
GRETL
Пример 4. (См. пп.7.4-7.5) Выборка, объема n = 17 взята из популяции, в которой признак
имеет
нормальное
распределение.
Выборочная
дисперсия
равна
=25.34.
Гипотетическая дисперсия равна σ 02 =15.00. Сравнить выборочную дисперсию с
гипотетической дисперсией.
Решение
Из математической статистики следует, что для сравнения выборочной дисперсии с
гипотетической дисперсией следует использовать критерий χ 2 , наблюдаемое значение
(статистика) которого вычисляется по формуле27
s x2
χ = (n − 1) 2 .
σ0
2
(7.4.1)
Вычислим значение χ 2 - статистики:
=
.
Нулевая гипотеза:
H 0 : σ 2 = σ 02 ,
где
дисперсия популяции28.
Случайная величина χ 2 при справедливости нулевой гипотезы распределение χ 2 с
df=17-1=16 степенями свободы.
Дальнейший ход решения задачи предполагает рассмотрение двух вариантов:
направленной и ненаправленной альтернативных гипотез.
Случай 1 (направленная альтернативная гипотеза)
Гласс Дж., Стенли Дж. Статистические методы в педагогике и в психологии. – Москва: Прогресс, 1976. С.
279-280.
27
28
Эквивалентная формулировка нулевой гипотезы:
H 0 : Выборочная дисперсия
=25.34 имеет случайное отличие от гипотетической
дисперсии σ =17.00;
2
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
123
H 1 : σ 2 > σ 02 29
Для вычисленной статистики
, число степеней свободы df = 16.
Находим p-value.
Открываем программу GRETL. На верхней панели выбираем Tools (Рис.7.5.1),
P-value finder (Рис.7.8.1)
Рис.7.8.1. Выбор P-value finder.
Появляется окно gretl: p-value finder, на котором выбираем распределение chisquare, df=16, value=27.03 (Рис.7.8.2).
ОК
Рис.7.8.2. Окно P-value finder. Внесение информации.
29
H1 : Выборочная дисперсия
=25.34 превышает от гипотетическую дисперсию
σ =15.00 закономерно.
2
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
124
Выходная информация (Рис.7.8.3): для статистики 27.03, распределения chi-square,
df=16, p-value = .041, площадь справа от значения статистики (как на Рис.7.7.1). Площадь
слева равна .959.
Рис.7.8.3. Выходная информация.
Имеет место неравенство р = .041 < .05.
Поэтому нулевая гипотеза отклоняется и принимается альтернативная гипотеза.
Ответ: Была использована правосторонняя альтернативная гипотеза. Выборочная
дисперсия
=25.34 статистически значимо превышает гипотетическую дисперсию
σ 02 =17.00: χ2 (16) = 27.03, p = .041 < .05.
Случай 2 (ненаправленная альтернативная гипотеза)
H 1 : σ 2 ≠ σ 02
Это ненаправленная альтернативная гипотеза. Воспользуемся уже найденной
информацией (Рис.7.8.3) .
Для статистики 27.03, распределения chi-square, df=16, p-value = .041, площадь справа от
значения статистики (как на Рис.7.7.1). Площадь слева равна .959. р-value для
двухвостовой альтернативной гипотезы будет равно удвоенной наименьшей из этих двух
площадей:
p-value = .041 2 = .082 > .05.
Поэтому нет оснований отклонить нулевую гипотезу.
Ответ: Была использована двухсторонняя альтернативная гипотеза. Статистически
значимых различий между выборочной дисперсией
=25.34 и гипотетической
дисперсией σ 02 =17.00 не найдено: χ2(16) = 27.03, p = .082.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
125
Домашнее задание 1
Выборка, объема n = 20 взята из популяции, в которой признак имеет нормальное
распределение. Выборочная дисперсия равна
=32.56. Гипотетическая дисперсия равна
σ 02 =14.25. Сравнить выборочную дисперсию с гипотетической дисперсией. Рассмотреть
«однохвостовый» и «двухвостовый» тесты. Применить два метода решения:
•
С помощью критических областей и критических точек;
•
С использованием р-value.
Для нахождения критических точек и р-value использовать компьютерную программу
GRETL.
Примеры решения разобраны пп. 7.4-7.7.
7.9. Мощность критерия30
Одни и те же задачи могут быть решены с помощью различных критериев. При
этом некоторые критерии позволяют выявлять отличия там, где другие критерии не
способны их выявить. Один из критериев может быть более мощным, чем другой.
Мощностью критерия (рower of the test) называют вероятность того, что нулевая
гипотеза H 0 будет отвергнута, если верна альтернативная гипотеза H1 .
Мощность критерия – это способность критерия не допустить ошибку 2-ого рода.
Мощность критерия – это способность критерия выявлять различия, если они
имеются.
Мощность критерия – это способность критерия отклонить неверную H 0 .
30
Данный параграф написан в соответствии с книгой:
Сидоренко, Е. (2000). Методы математической обработки в психологии. СПб.: ООО «Речь».
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
126
7.10. Параметрические и непараметрические критерии
Существуют параметрические и непараметрические критерии.
Критерий называется параметрическим, если он основан на конкретном типе
распределения ГС.
Критерий называется непараметрическим, если он не базируется на типе
распределения ГС. (Критерий, свободный от распределения).
Параметрические
критерии
включают
в
расчетную
формулу
параметры
распределения (средние, стандартные отклонения, число степеней свободы и другие
параметры в зависимости от распределения). Например, t-критерий Стьюдента, Fкритерий Фишера и другие критерии.
Непараметрические не включают в формулу параметров распределения. Они
основаны на оперировании частотами или рангами31.
Критерии часто называют тестами.
Как у параметрических критериев, так и у непараметрических критериев есть свои
преимущества и недостатки.
Если параметры распределения известны, то применяются параметрические
критерии как более мощные, чем непараметрические.
Если параметры распределения неизвестны, то ничего не остается, как
использовать непараметрические критерии.
Поэтому параметрические критерии следует применять всегда, когда это возможно.
Теорией
вероятности
установлен
общий
характер
нормального
закона
распределения. Поэтому разумно предполагать, что в обычных случаях многие случайные
величины имеют распределение вероятностей близкое к нормальному распределению.
Поскольку свойства нормального распределения всесторонне изучены – очень важно
понять, можем ли мы считать признак нормально распределенным.
Непараметрические критерии можно применять для порядковых и метрических
переменных независимо от распределения.
31
Сидоренко, Е. (2000). Методы математической обработки в психологии. СПб: ООО «Речь». C.27.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
127
Параметричекие критерии в большинстве случаев корректно применять когда
распределение данных не отличается от нормального распределения. Бывают случаи,
когда распределение данных отличается от нормального распределения, но можно
применять параметрические критерии. Основное требование – это отсутствие «выбросов»,
которые влияют на средние значения, дисперсии и на стандартные отклонения.
Существуют и другие требования. Каждый случай, когда нет нормального распределения,
а мы хотим воспользоваться параметрическим критерием следует рассматривать
отдельно.
8. Проверка нормальности распределения данных с
помощью SPSS
Параметрические критерии применяют только тогда, когда известно, что
распределение признака является нормальным.
Если выборочное распределение не отличается от нормального распределения, то
это значит, что измеряемое свойство удалось отразить в метрической шкале32.
Если при изучении некоторого свойства мы произвели его измерение на выборке
участников и получили распределение эмпирических данных, отличающееся от
нормального распределения, то это значит, что либо выборка не репрезентативна
популяции, либо измерения произведены не в шкале равных интервалов.33
Общей причиной отклонения выборочного распределения признака от нормального
распределения чаще всего является особенность процедуры измерения: используемая
шкала может обладать неравномерной чувствительностью к измеряемому свойству в
разных частях диапазона его изменчивости.34
Методы проверки соответствия распределения данных нормальному закону
распределения в SPSS которыми мы будем пользоваться в рамках данного конспекта - это:
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и
интерпретация данных. СПб.: Речь. С.59.
33
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и
интерпретация данных. СПб.: Речь. С.51.
34
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и
интерпретация данных. СПб.: Речь. С.61.
32
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
128
1) Сравнение абсолютных величин показателей асимметрии и эксцесса с их
критическими значениями. Если хотя бы один из показателей асимметрии или эксцесса
превышает по абсолютной величине свою стандартную ошибку, то распределение
данных отличается от нормального распределения;
2) Критерий Колмогорова-Смирнова;
3) Критерий Колмогорова-Смирнова (модификация Лиллифора);
4) Критерий - Шапиро-Уилкса (если объем выборки меньше 50);
5) Визуальные сравнения:
- гистограммы с нормальной кривой,
- квантильные диаграммы Q-Q (Normal Q-Q Plots),
- Q-Q диаграммы с исключенным трендом (Detrended Normal Q-Q Plots).
В SPSS есть и другие методы сравнения распределения данных с нормальным
распределением.
9. Гендерные различия агрессии у подростков. Продолжение
9.1.Проверка нормальности распределения данных
9.1.1. Стандартные ошибки асимметрии и эксцесса
Сравнение абсолютных величин показателей асимметрии и эксцесса с их
критическими значениями было проведено при исследовании показателей описательной
статистики (Таблицы 5.2.1-5.2.2). В Таблицах 5.2.1-5.2.2 отмечены случаи, когда
показатели асимметрии и эксцесса по абсолютной величине превосходят свои
стандартные ошибки. В этих случаях распределение данных отличается от нормального
распределения.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
129
9.1.2. Критерий Колмогорова-Смирнова
Андрей Николаевич Колмогоров35 - советский математик, один из крупнейших
математиков ХХ века, родился 12 апреля (25 апреля по новому стилю) 1903 года в
Тамбове, где его мать задержалась по пути из Крыма домой в Ярославль. Мать
Колмогорова — Мария Яковлевна Колмогорова - дочь предводителя угличского
дворянства, попечителя народных училищ Ярославской губернии Якова Степановича
Колмогорова умерла при родах. Отец — Николай Матвеевич Катаев, по образованию
агроном принадлежал к партии правых эсеров, был сослан из Петербурга за участие в
народническом движении в Ярославскую губернию, погиб в 1919 году во время
деникинского наступления. Дед по отцовской линии был сельским священником в
Вятской губернии. Андрей Николаевич Колмогоров воспитывался в Ярославле сёстрами матери, одна из
них, Вера Яковлевна Колмогорова, официально усыновила Андрея и в 1910 году переехала с ним в Москву
для определения в гимназию. Тётушки Андрея в своём доме организовали школу для детей разного
возраста, которые жили поблизости, занимались с ними, для ребят издавался рукописный журнал «Весенние
ласточки». В нём публиковались творческие работы учеников — рисунки, стихи, рассказы. В нём же
появлялись и «научные работы» Андрея — придуманные им арифметические задачи. Здесь же мальчик
опубликовал в пять лет свою первую работу по математике. Вместе с Андреем в доме его деда провёл свои
детские годы Пётр Саввич Кузнецов, впоследствии известный советский лингвист. В семь лет Колмогорова
определили в частную гимназию Репман, одну из немногих, где мальчики и девочки учились вместе.
Андрей уже в те годы обнаруживает замечательные математические способности. По словам писателя
Владимира Гуйбаловского, учителя не успевали его учить, Андрей выучился математике сам по
«Энциклопедическому словарю Брокгауза и Ефрона». Было ещё увлечение историей, социологией. В 1918—
1920 годах жизнь в Москве была нелёгкой. В школах серьёзно занимались только самые настойчивые. В это
время Андрею пришлось уехать на строительство железной дороги Казань—Екатеринбург. Одновременно с
работой он продолжал заниматься самостоятельно, готовясь сдать экстерном за среднюю школу. По
возвращении в Москву испытал некоторое разочарование: удостоверение об окончании школы выдали, даже
не потрудившись проэкзаменовать. В первые студенческие годы, кроме математики, Колмогоров занимался
серьёзным образом в семинаре по древнерусской истории. Впоследствии Андрей стал академиком,
почетным членом многих иностранных академий и научных обществ. Скончался 20 октября 1987 года в
Москве. Похоронен на Новодевичьем кладбище.
Николай Васильевич Смирнов36 родился 17 октября 1900 года в Москве в семье
мелкого церковного служащего, одновременно работавшего письмоводителем в
канцелярии Большого театра. С Москвой связана вся жизнь и научная деятельность
Николая Васильевича. Завершение его гимназического образования совпало по
времени с Первой мировой войной, во время которой он служил в санитарных
частях. После Октябрьской революции Николай Васильевич — в рядах Красной
армии. В эти годы значительное место в кругу его интересов занимали философия и
филология. Пожалуй, именно это увлечение и помогло Николаю Васильевичу найти
свое истинное призвание и стать одним из крупнейших советских математиков.
Заметную роль здесь, по-видимому, сыграло его знакомство с известным поэтом В.
Хлебниковым, который постоянно подчёркивал, что наиболее плодотворных результатов в гуманитарных
науках и искусстве можно добиться лишь после обстоятельного знакомства с естественными науками. По
свидетельству своего друга художника С. П. Исакова Николай Васильевич, следуя этому совету, после
демобилизации в 1921 году поступил в Московский университет и сосредоточил свое главное внимание на
изучении математики, которая со временем вытеснила все другие его научные интересы и стала делом
35
https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BB%D0%BC%D0%BE%D0%B3%D0%BE%D1%80%D
0%BE%D0%B2,_%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B9_%D0%9D%D0%B8%D0%BA%D0
%BE%D0%BB%D0%B0%D0%B5%D0%B2%D0%B8%D1%87
36
https://ru.wikipedia.org/wiki/%D0%A1%D0%BC%D0%B8%D1%80%D0%BD%D0%BE%D0%B2,_%D0%9D%
D0%B8%D0%BA%D0%BE%D0%BB%D0%B0%D0%B9_%D0%92%D0%B0%D1%81%D0%B8%D0%BB%D1
%8C%D0%B5%D0%B2%D0%B8%D1%87_(%D0%BC%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%
82%D0%B8%D0%BA)
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
130
целой жизни. Окончил физико-математический факультет МГУ. С 1926 года долгие годы преподавал
математику в Тимирязевской сельскохозяйственной академии, в Московском городском педагогическом
институте и в Московском университете. К тому же времени относится окончательный выбор направления
научной деятельности, сосредоточенной главным образом в области теории вероятностей и математической
статистики. Начальный период математических исследований, выполненных Николаем Васильевичем,
завершился в 1938 году защитой докторской диссертации, в которой были заложены основы теории
решения непараметрических задач математической статистики, впоследствии принесших ее автору мировую
известность. При анализе работ Николая Васильевича отмечалась его непревзойденное мастерство точного
вычисления и исследования свойств многократных интегралов, распространенных на сложные области
(необходимость таких вычислений постоянно возникает в математической статистике, например, при
расчете коэффициентов доверия, уровней значимости, мощности критериев и т. п.). Аналитические методы,
разработанные Николаем Васильевичем, своеобразны и тонки. По их силе ему бесспорно принадлежит
ведущее место в современной математике. Совместно с Колмогоровым разработал критерий Колмогорова Смирнова. Скончался внезапно, 2 июня 1966 года.
Критерий Колмогорова-Смирнова (K-S) позволяет оценить вероятность того, что
выборка принадлежит популяции с нормальным распределением.
Нулевая гипотеза. Распределение данных имеет случайное отличие от нормального
распределения.
Альтернативная гипотеза. Распределение данных имеет закономерное отличие от
нормального распределения.
Как получить:
Разбить данные на мальчиков и девочек.
Analyze
Nonparametric Tests
1-Sample K-S...
Появится диалоговое окно для критерия Колмогорова-Смирнова проверки нормальности
распределения данных.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
131
Рис.9.1.2.1. Диалоговое окно для критерия Колмогорова-Смирнова
Перенести переменные следующим образом:
Рис.9.1.2.2. Переменные для критерия Колмогорова-Смирнова
OK
Выходная информация
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
132
NPar Tests
Dzimums = M
Таблица 9.1.2.1
One-Sample Kolmogorov-Smirnov Testc
FA
N
Normal
Parametersa,,b
Mean
Std. Deviation
Most Extreme
Absolute
Differences
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
NA
30
30
5.3333 7.1667
1.21296 1.11675
.275
.239
.275
.219
-.192
-.239
1.506 1.308
.021
.065
K
30
6.4333
.93526
.245
.245
-.188
1.342
.054
N
30
2.2667
1.01483
.232
.194
-.232
1.269
.080
Ap
Az
30
30
4.6667 5.5333
1.06134 1.38298
.257
.166
.143
.166
-.257
-.165
1.405
.910
.038
.378
VA
SP
30
30
6.0667 5.0333
1.22990 1.37674
.245
.176
.157
.176
-.245
-.157
1.342
.966
.054
.309
a. Test distribution is Normal.
b. Calculated from data.
c. Dzimums = M
Dzimums = Z
Таблица 9.1.2.2
One-Sample Kolmogorov-Smirnov Testc
FA
N
Normal
Parametersa,,b
Mean
Std. Deviation
Most Extreme
Absolute
Differences
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
NA
30
30
8.0333 5.0000
1.65015 2.10090
.221
.184
.146
.133
-.221
-.184
1.210 1.006
.107
.263
K
30
6.2667
1.33735
.162
.162
-.142
.885
.414
N
30
4.3333
1.02833
.375
.258
-.375
2.054
.000
Ap
Az
30
30
4.0667 5.1000
1.22990 1.06188
.240
.217
.240
.217
-.160
-.150
1.317 1.186
.062
.120
VA
SP
30
30
9.6000 5.2000
2.04434 1.15669
.178
.269
.122
.269
-.178
-.165
.973 1.471
.026
.301
a. Test distribution is Normal.
b. Calculated from data.
c. Dzimums = Z
Если Asymp. Sig. (2-tailed) или р ≤ .05, то распределение существенно отличается
от нормального. Если р > .05, то отличие эмпирического распределения данных от
нормального распределения не выявлено.
Критерий Колмогорова-Смирнова оказался недостаточно мощным. Он выявил
отличие распределения данных от нормального распределения лишь в 4 случаях из 16. Он
не выявил отличия от нормального распределения по переменным, у которых асимметрия
или эксцесс превышают свои критические значения.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
133
9.1.3. Критерий Колмогорова-Смирнова в модификации
Лиллифора и критерий Шапиро-Уилкса
Нулевая гипотеза. Распределение данных имеет случайное отличие от нормального
распределения.
Альтернативная гипотеза. Распределение данных имеет закономерное отличие от
нормального распределения.
Как получить:
(Можно не разбивать данные на мальчиков и девочек).
Analyze
Descriptive Statistics
Explore....
Появится диалоговое окно:
Рис.9.1.3.1. Диалоговое окно Explore.
Перенести в Dependent List переменные – уровни агрессии, а переменную Dzimums[sex]
перенести в окно Factor List:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
134
Рис.9.1.3.2. Перенос переменных
Plots
Normally plots with tests
Рис.9.1.3.3. Заказ критериев Колмогорова-Смирнова (K-S) и Шапиро-Уилкса (S-W).
Continue
OK
ВЫХОДНАЯ ИНФОРМАЦИЯ:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
135
Таблица 9.1.3.1
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Dzimums
Statistic
FA
NA
K
N
Ap
Az
VA
SP
df
Sig.
Statistic
df
Sig.
M
.275
30
.000
.775
30
.000
Z
.221
30
.001
.897
30
.007
M
.239
30
.000
.876
30
.002
Z
.184
30
.011
.923
30
.032
M
.245
30
.000
.880
30
.003
Z
.162
30
.044
.933
30
.061
M
.232
30
.000
.856
30
.001
Z
.375
30
.000
.681
30
.000
M
.257
30
.000
.854
30
.001
Z
.240
30
.000
.887
30
.004
.922
30
.030
M
.166
30
.034
Z
.217
30
.001
.841
30
.000
M
.245
30
.000
.846
30
.001
Z
.178
30
.017
.938
30
.082
M
.176
30
.018
.930
30
.050
Z
.269
30
.000
.902
30
.009
a. Lilliefors Significance Correction
В Таблице 9.1.3.1 представлены результаты двух тестов на нормальное
распределение:
- Лиллифора (модификация критерия Колмогорова-Смирнова);
- Шапиро-Уилкса (если объем выборки меньше 50).
Statistics – наблюдаемое значение критерия;
df – число степеней свободы;
Sig. – это вероятность ошибки (р).
При Sig. ≤ .05 распределение значимо отличается от нормального.
Критерий Колмогорова-Смирнова с поправкой Лиллифора оказался самым
мощным: он выявил 16 отличий эмпирического распределения данных от нормального
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
136
распределения данных в 16 случаях из 16 возможных. Критерий Шапиро-Уилкса нашел
только 14 различий.
Найденные различия выделены в таблице «Tests of Normality» в редакторе
программы SPSS, который появляется после двух щелчков мышью по таблице.
Вместе с таблицей «Tests of Normality» появляются Normal Q-Q Plots –
(диаграммы Q-Q), по которым визуально можно определить, достаточно ли близко
заданное распределение приближается к нормальному. Каждое наблюдаемое значение
сравнивается со значением, ожидаемым при нормальном распределении. При условии
точного выполнения нормального распределения все точки лежат на прямой. На Рис.8.68.7 эти диаграммы приведены для переменной FA (физическая агрессия). По осям
отложены процентили эмпирические (Х) и теоретические (Y).
Также появляются Detrended Normal Q-Q Plots (Диаграммы с исключенным
трендом). На них изображены отклонения наблюдаемых значений от ожидаемых при
нормальном распределении значений в зависимости от наблюдаемых значений. В случае
нормального распределения все точки лежат на горизонтальной прямой, проходящей
через нуль. Все значения переведены в стандартизованные z-оценки.
На Рис.9.1.3.4-9.1.3.7 эти диаграммы приведены для переменной FA (физическая
агрессия).
Normal Q-Q Plot of FA
Normal Q-Q Plot of FA
For SEX= Z
2.0
1.5
1.5
1.0
1.0
.5
.5
Expected Normal
Expected Normal
For SEX= M
2.0
0.0
-.5
-1.0
-1.5
3
4
5
6
7
Observed Value
8
9
10
11
0.0
-.5
-1.0
-1.5
4
5
6
7
8
9
10
11
12
Observed Value
Рис.9.1.3.4
Рис.9.1.3.5
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
137
Detrended Normal Q-Q Plot of FA
Detrended Normal Q-Q Plot of FA
For SEX= M
For SEX= Z
2.5
.3
.2
2.0
.1
1.5
.0
-.1
Dev from Normal
Dev from Normal
1.0
.5
0.0
-.5
3
4
5
6
7
8
9
10
11
-.2
-.3
-.4
-.5
4
Observed Value
5
6
7
8
9
10
11
12
Observed Value
Рис.9.1.3.6
Рис.9.1.3.7
9.1.4. Получение гистограмм с нормальной кривой
Гистограммы с нормальной кривой позволяют визуально сравнить эмпирическое
распределение данных с нормальным распределением. Нормальная кривая строится по
выборочному среднему и выборочному нормальному отклонению. Если эмпирическое
распределение данных не отличается от нормального распределения, то столбики
гистограммы хорошо вписываются в нормальную кривую.
Как получить гистограммы с нормальной кривой?
Способ 1
Data
Split file...
Перенести переменную «Dzimums [sex]» в окно “Groups Based on”.
OK
В результате данные окажутся разбитыми на 2 группы: мальчиков и девочек.
Результаты будут выдаваться по группам девочек и мальчиков отдельно.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
138
Analyze
Descriptive Statistics
Frequencies...
Перенести в окно “Variables”переменные (Рис.9.1.4.1):
“FA [fa]”
“N [n]”
“VA [va]”
“NA [na]”
“Ap [ap]”
“SP [sp]”
“K [k]”
“AZ [az]”
Снять галочку с Display frequency tables.
Рис.9.1.4.1. Диалоговое окно Frequencies.
Charts
Рис.9.1.4.2. Заказ гистограмм с нормальной кривой
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
139
Continue
OK
ВЫХОДНАЯ ИНФОРМАЦИЯ – гистограммы с нормальной кривой. На
Рис.9.1.4.3-9.1.4.4 приведены гистограммы с нормальными кривыми для переменной FA
(физическая агрессия) для мальчиков и девочек.
Интересно отметить, что на Рис.9.1.4.3 для переменной «Физическая агрессия» у
девочек среднее значение М = 5.33, а стандартное отклонение равно SD = 1.21. Тогда М +
3 SD = 5.33 + 3.63 = 8.96. Последний правый столбик гистограммы соответствует FA = 10.
Это та же самая девочка «драчунья», у которой на коробчатой диаграмме (Рис.5.20) была
звездочка – «выброс» типа «Extrem». Значение ее балла по «Физической агрессии»
превысило три стандартных отклонения. Очевидно, что эта девочка не совсем здорова.
Девочку надо найти и проверить, действительно ли этот факт имеет место. Если имеет, то
девочка нуждается в соответствующем лечении.
Рис.9.1.4.3. Гистограмма с нормальной кривой для девочек.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
140
Рис.9.1.4.4. Гистограмма с нормальной кривой для мальчиков.
Способ 2
Для экономии места можно получить диаграммы с нормальной кривой для
мальчиков и для девочек на одном рисунке. Для этого нужно, чтобы файл данных не был
бы разбит на две группы:
Data
Split file...
Reset
OK.
После чего можно заказывать гистограммы:
Graphs
Legacy Dialogs
Histogram…
Появится диалоговое окно (Рис.9.1.4.5). Для построения гистограмм с нормальной
кривой по «Физической агрессии» переменную FA [fa] надо перенести в окно «Variable»,
переменную Dzimums [sex] – в окно «Rows:», а в окошке «Display normal curve» надо
поставить галочку и нажать кнопку ОК.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
141
Рис.9.1.4.5. Построение гистограмм с нормальной кривой для мальчиков и девочек на одном
рисунке
После чего появится рисунок с двумя гистограммами (Рис.9.1.4.6).
Рис.9.1.4.6. Гистограммы с нормальной кривой по переменной «Физическая агрессия» для
мальчиков и девочек
Если переменную Dzimums [sex] перенести не в окно «Rows:» (Рис.9.1.4.5), а в
окно «Columns:», то получатся гистограммы с нормальной кривой в одной строке
(Рис.9.1.4.7).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
142
Рис.9.1.4.7. Гистограммы с нормальной кривой по переменной «Физическая агрессия» для
мальчиков и девочек
Ту же самую процедуру надо проделать для всех остальных переменных
(Рис.9.1.4.8-9.1.4.14.)
Рис.9.1.4.8. Гистограммы с нормальной кривой по переменной «Косвенная агрессия» для
мальчиков и девочек
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
143
Рис.9.1.4.9. Гистограммы с нормальной кривой по переменной «Раздражение» для мальчиков и
девочек
Рис.9.1.4.10. Гистограммы с нормальной кривой по переменной «Негативизм» для мальчиков и
девочек
Рис.9.1.4.11. Гистограммы с нормальной кривой по переменной «Обида» для мальчиков и девочек
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
144
Рис.9.1.4.12. Гистограммы с нормальной кривой по переменной «Подозрительность» для
мальчиков и девочек
Рис.9.1.4.13. Гистограммы с нормальной кривой по переменной «Вербальная агрессия» для
мальчиков и девочек
Рис.9.1.4.14. Гистограммы с нормальной кривой по переменной «Угрызения совести и чувство
вины» для мальчиков и девочек
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
145
Из анализа полученных гистограмм видно, что распределения данных отличаются
от нормального распределения.
Таблица.9.1.4.1
Sig.
0.000
0.002
0.003
0.001
0.001
0.030
0.001
0.050
0.007
0.032
0.061
0.000
0.004
0.000
0.082
0.009
2.03
-0.03
0.61
0.05
-0.38
0.18
-0.61
0.19
-0.60
-0.41
0.31
-1.35
0.58
0.53
-0.61
0.58
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
0.43
6.66
-1.16
0.76
-1.20
-1.01
-0.83
-0.61
-0.59
-0.43
0.00
-0.49
0.54
-0.46
-0.93
0.33
0.05
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
0.83
Нормальное
распределение
Sig. Statistic df
0.77 30
0.000
0.88 30
0.000
0.88 30
0.000
0.86 30
0.000
0.85 30
0.000
0.92 30
0.034
0.85 30
0.000
0.93 30
0.018
0.90 30
0.001
0.92 30
0.011
0.93 30
0.044
0.68 30
0.000
0.89 30
0.000
0.84 30
0.001
0.94 30
0.017
0.90 30
0.000
Std. Error of
Kurtosis
df
30
30
30
30
30
30
30
30
30
30
30
30
30
30
30
30
Kurtosis
Statistic
FA 0.27
NA 0.24
K 0.25
N 0.23
Ap 0.26
Az 0.17
VA 0.25
SP 0.18
FA 0.22
NA 0.18
K 0.16
N 0.37
Ap 0.24
Az 0.22
VA 0.18
SP 0.27
Shapiro-Wilk
Std. Error of
Skewness
Переменная
Kolmogorov-Smirnov
Skewness
Мальчики
Девочки
Группа
Результаты проверки соответствия распределения данных нормальному распределению
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
Результаты проверки на нормальность распределения с помощью анализа
показателей асимметрии и эксцесса (Таблицы 5.8-5.9) и с помощью критериев
Колмогорова-Смирнова с поправкой Лиллифора и Шапиро-Уилкса (Таблица 9.1.3.1)
можно свести в Таблицу 9.1.4.1 (сформированную в Excel, файл Agr_Rez.xls), с помощью
которой легко обобщить полученные результаты.
Эмпирическое распределение данных следует считать отличным от нормального
распределения, если хотя бы один из тестов выявил это отличие.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
146
9.1.5. Выбор критерия для исследования гендерных различий
Если обе сравниваемые переменные имеют нормальное распределения, то с
помощью t-тестов сравнивают средние. Если распределение хотя бы одной из переменных
отличается от нормального распределения, то с помощью U-критерия Манна-Уитни
сравнивают уровни признака.
Для выбора критерия сравнения агрессии мальчиков и девочек строят Таблицу 8.5:
Таблица 9.1.5.1
Выбор критерия сравнения
Нормальное распределение
FA
NA
K
N
Ap
Az
VA
SP
M
Z
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
Tests
U-Манна-Уитни
U-Манна-Уитни
U-Манна-Уитни
U-Манна-Уитни
U-Манна-Уитни
U-Манна-Уитни
U-Манна-Уитни
U-Манна-Уитни
9.2. Исследование различия уровня агрессии с помощью Uкритерия Манна-Уитни
Генри Бертольд Манн1 (Henry Berthold Mann) родился 27 октября 1905 года в
Вене в еврейской семье. В 1935 году получил степень доктора математики в
университете Вены. В 1938 году иммигрировал в США и долгое время жил в
Нью-Йорке, поддерживая себя репетиторством студентов. В 1942 году Фонд
Карнеги наградил Мистера Манна стипендией для изучения статистики по
исследованию операций в Колумбийском Университете. Свою первую книгу по
проектированию экспериментов Мистер Манн написал в 1949 году, которая
позволила статистикам конструировать и анализировать индивидуальные
эксперименты. Занимался теорией чисел, проектированием экспериментов,
статистикой, эконометрикой. В статистике Доктор Манн известен как создатель U
- статистики («Манна-Уитни"), которую развил Манн и его ученик и друг Дональд
Ренсом Уитни для непараметрической статистики, опубликованной в 1947 году. Доктор Манн был
профессором в Университете штата Огайо (1946 – 1964). Затем он стал профессором в математическом
научно-исследовательском центре Армии США в Университете Висконсин-Мэдисон (1964-1971). Потом
1
https://en.wikipedia.org/wiki/Henry_Mann
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
147
Доктор Манн был профессором в университете Аризоны (1971-1975). Генри Бертольд Манн скончался 1
февраля 2000 года в Туксоне (Tucson).
Американский статистик Уитни Дональд Ренсом2,3 (Whitney, Donald Ransom)
родился 27 ноября 1915 года в Кливленде, штат Огайо. В 1936 году Мистер Уитни
окончил колледж Оберлин. В 1939 году получил степень магистра в Принстонском
Университете, после чего, в 1939 году, начал свою преподавательскую карьеру в
Mary Washington College, а затем служил Военно-Морским Флоте США (19421946). Большую часть Второй Мировой Войны Уитни провел преподавая
навигацию офицерам. В 1948 году получил докторскую степень по математике в
Университете штата Огайо. Руководителем его докторской диссертации и другом
был Генри Манн. Вместе они разработали непараметрический U-тест МаннаУитни, опубликованный в 1947 году. Доктор Уитни играл важную роль в развитии
Лаборатории СтатистикиУниверситета штата Огайо. Позже он стал первым
председателем Департамента Статистики. Профессор Уитни работал в качестве
консультанта в ряде корпораций. Он был автором трех учебники по математике и статистике, был членм
Америкой Статистической Ассоциации и Американской Ассоциации Содействия Развитию Науки. Еще в
молодости Мистер Уитни сказал своей матери, что станет профессором математики в отставке. Своей цели
он достиг, наконец, в 1982 году – ушел в отставку. У него была жена, четверо детей, девять внуков и три
правнука. Доктор Уитни всю свою жизнь любил логическое мышление, игры, спорт, путешествия и
садоводство. Доктор Уитни пережил своих родителей, жену, братьев и сестер, внучку и приемного сына.
Скончался 16 августа 2007 года.
Так как распределение данных отличается от нормального распределения, то для
исследования различия в агрессии у мальчиков и девочек следует применить
непараметрический U-критерий Манна-Уитни.
Замечание. Непараметрические тесты могут, конечно, применяться и в случае
нормального распределения. Но тогда они будут иметь лишь 95% эффективность по
сравнению с параметрическими тестами4. Если выборки частично подчиняются
нормальному закону распределения, а частично нет, то рекомендуется всегда применять
U-критерий (тест) Манна-Уитни.
Data
Split File
Reset
OK
2
3
http://sections.maa.org/ohio/ohio_masters/whitney.pdf
http://www.worthingtonmemory.org/cemeteries/walnut-grove-cemetery/whitney-donald
4
Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и
восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». С. 234.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
148
Analyze
Nonparametric Tests
2 Independent Samples....
Рис.9.2.1. Диалоговое окно Two Independent-Samples Tests
В диалоговом окне (Рис.9.2.1) Two Independent-Samples Tests
поставить флажок у Mann-Whitney U
перенести в окно Test Variable List переменные:
FA [fa], NA[na], VA[va] и др.
Переменную Dzimums [sex] перенести в окно GroupingVariable
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
149
Рис.9.2.2. Диалоговое окно Two Independent-Samples Tests с введенными переменными
Define Groups
Group 1:
Group 2:
1
Рис.9.2.3. Диалоговое окно Two Independent-Samples. Определение сравниваемых групп
Continue
OK
Выходные данные
В файле RESULTS.spo появятся следующие Таблицы 9.2.1-9.2.2.
Прежде всего нам необходима последняя строка таблицы 9.2.1.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
150
Таблица 9.2.1
Test Statisticsa
FA
NA
K
N
Ap
Az
VA
SP
Mann-Whitney U
105.500
161.000 408.500
85.500
315.500
369.500
75.500
422.500
Wilcoxon W
570.500
626.000 873.500
550.500
780.500
834.500
540.500
887.500
Z
-5.196
-4.339
-.637
-5.542
-2.061
-1.229
-5.593
-.422
.000
.000
.524
.000
.039
.219
.000
.673
Asymp. Sig. (2-tailed)
a. Grouping Variable: Dzimums
Таблица 9.2.2
Ранги (Ranks)
Dzimums
FA
NA
K
N
Ap
Az
VA
SP
N
Mean Rank
Sum of Ranks
M
30
19.02
570.50
Z
30
41.98
1259.50
Total
60
M
30
40.13
1204.00
Z
30
20.87
626.00
Total
60
M
30
31.88
956.50
Z
30
29.12
873.50
Total
60
M
30
18.35
550.50
Z
30
42.65
1279.50
Total
60
M
30
34.98
1049.50
Z
30
26.02
780.50
Total
60
M
30
33.18
995.50
Z
30
27.82
834.50
Total
60
M
30
18.02
540.50
Z
30
42.98
1289.50
Total
60
M
30
29.58
887.50
Z
30
31.42
942.50
Total
60
Если
Sig.<=.05, то различие значимое,
Sig.<=.01, то различие очень значимое,
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
151
Sig.<=.001, то различие максимально значимое.
Максимально значимые различия имеются по переменным FA, NA, N, VA.
Значимые различия имеются по переменной Ap.
Для выяснения, чей же уровень агрессии выше: мальчиков или девочек, обратимся
к таблице рангов 9.2.2. Группа, у которой при значимых различиях средний ранг выше,
агрессивнее.
Физическая агрессия (FA) Выше у мальчиков: U = 105.5, р < .001;
Косвенная агрессия (NA) Выше у девочек U = 161.0, р < .001;
Негативизм (N)
Выше у мальчиков U = 85.5, р < .001;
Обидчивость (Ap) выше у девочек U = 315.5, р < .05;
Вербальная агрессия (VA) Выше у мальчиков U = 75.5, р < .001.
Различия по переменным К, Az, SP выявлены не были.
Те же выводы можно сделать анализируя коробчатые диаграммы.
9.3. Исследование различия средних уровней агрессии с
помощью параметрического t-теста
Для конкретной задачи некорректно прибегать к параметрическим критериям, так
как нет нормального распределения. Применение параметрического t-теста в данном
случае необосновано и за результаты ручаться нельзя. Но ради того, чтобы понять, как
работать на SPSS с параметрическими тестами, формально проведем всю процедуру
исследования.
Автором параметрического t-теста был Уи́льям Си́ли Го́ссет (псевдоним Стьюдент)
(См. п.6).
Analyze
Compare Means
Independent-Samples T Test....
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
152
Рис. 9.3.1. Independent-Samples T Test
В диалоговом окне (Рис.9.3.1) Independent-Samples T Test надо перенести в окно
Test Variable(s) переменные:
Физическая агрессия [fa], Косвенная агрессия[na], Вербальная агрессия[va] и др.
(Рис.9.3.2).
Рис.9.3.2. Independent-Samples T Test с введенными переменными
Переменную Пол [sex] перенести в окно GroupingVariable
Define Groups (Рис.9.3.3)
Group 1:
Group 2:
1
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
153
Continue
OK
Рис.9.3.3. Independent-Samples T Test с введенными переменными
Выходные данные
В файле RESULTS.spo появятся Таблицы 9.3.1-9.3.2.
Таблица 9.3.1.
Статистики групп (Group Statistics)
Dzimums
FA
NA
K
N
Ap
Az
VA
SP
N
Mean
Std. Deviation
Std. Error Mean
M
30
5.3333
1.21296
.22145
Z
30
8.0333
1.65015
.30127
M
30
7.1667
1.11675
.20389
Z
30
5.0000
2.10090
.38357
M
30
6.4333
.93526
.17075
Z
30
6.2667
1.33735
.24417
M
30
2.2667
1.01483
.18528
Z
30
4.3333
1.02833
.18775
M
30
4.6667
1.06134
.19377
Z
30
4.0667
1.22990
.22455
M
30
5.5333
1.38298
.25250
Z
30
5.1000
1.06188
.19387
M
30
6.0667
1.22990
.22455
Z
30
9.6000
2.04434
.37324
M
30
5.0333
1.37674
.25136
Z
30
5.2000
1.15669
.21118
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
154
В таблице (Independent Samples Test), фрагмент которой представлен в Таблице
9.3.2, имеются результаты двух тестов:
•
F-критерий Левена для сравнения дисперсий,
•
t-критерий Стьюдента для сравнения средних.
Если выборочные дисперсии различаются статистически незначимо (Sig.>0.05;
верхняя строка «Equal variances assumed»), то для сравнения средних используется tкритерий Стьюдента.
Если выборочные дисперсии различаются статистически значимо (Sig. ≤ 0.05;
нижняя строка «Equal variances not assumed»), то такая ситуация называется проблемой
Фишера-Беренса и для сравнения средних используется модификация t-критерия
Стьюдента.
Таблица 9.3.2
t-тест для независимых выборок (Independent Samples Test). Фрагмент выходной таблицы
Levene's Test for Equality of
Variances
F
FA
Equal variances assumed
t-test for Equality of Means
Sig.
3.645
t
.061
Equal variances not assumed
NA
Equal variances assumed
4.134
.047
Equal variances not assumed
K
Equal variances assumed
4.381
.041
Equal variances not assumed
N
Equal variances assumed
.089
.767
Equal variances not assumed
Ap
Equal variances assumed
.664
.418
Equal variances not assumed
Az
Equal variances assumed
3.091
.084
Equal variances not assumed
VA
Equal variances assumed
4.768
.033
Equal variances not assumed
SP
Equal variances assumed
Equal variances not assumed
.622
.433
df
Sig. (2-tailed)
-7.221
58
.000
-7.221
53.257
.000
4.988
58
.000
4.988
44.176
.000
.559
58
.578
.559
51.891
.578
-7.835
58
.000
-7.835
57.990
.000
2.023
58
.048
2.023
56.784
.048
1.361
58
.179
1.361
54.374
.179
-8.112
58
.000
-8.112
47.561
.000
-.508
58
.614
-.508
56.326
.614
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
155
Схема исследования:
1) Если дисперсии, проверенные с помощью теста Левена равны, то смотрят
результаты t-теста по строке Equal variances assumed.
2) Если дисперсии, проверенные с помощью теста Левена не равны, то смотрят
результаты t-теста по строке Equal variances not assumed.
Дисперсии не равны, если Sig. < .05.
Случаи неравных дисперсий в Таблице 9.3.2 выделены.
Если в соответствующей строке для t-теста:
Sig. ≤ .05, то различие средних значимое,
Sig. ≤ .01, то различие средних очень значимое,
Sig. ≤ .001, то различие средних максимально значимое.
Значимые результаты различия средних в Таблице 8.9 выделены.
Для выяснения, у кого выше среднии значения: у мальчиков или у девочек,
обращаются к Таблице 9.3.1 (Group Statistics). У кого при значимых различиях среднее
значение выше, тот и агрессия выше.
Результаты исследования те же, что и с непараметрическими критериями.
Физическая агрессия (FA) Выше у мальчиков t(58) = -7.22, р < .001;
Косвенная агрессия (NA) Выше у девочек t(44) = 4.99, р < .001;
Негативизм (N)
Выше у юношей t(58) = -7.84, р < .001;
Обидчивость (Ap) выше у девочек t(58) = 2.02, р < .05;
Вербальная агрессия (VA) Выше у мальчиков t(48) = -8.11, р < .001.
Различия по переменным К, Az, SP выявлены не были.
Следует помнить, что на величину среднего влияет каждое значение признака. То
есть среднее весьма чувствительно к «выбросам».
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
156
Средние также можно сравнивать если:
1) Группы достаточно большие, чтобы можно было бы судить о форме
распределения;
2) Распределения симметричны;
3) Отсутствуют «выбросы».
Если хотя бы одно из этих условий не выполняется, то следует ограничиться
медианой11 или сравнением уровней признака (например, критерий Манна-Уитни).
Домашнее задание 2
1. Варианты данных для Домашнего задания 2 находятся в файле
Agressija_Varianti_(1-16).xlsx
Номер варианта назначается преподавателем.
2. Требуется провести все необходимые вычисления и написать математическую часть для
работы с исследовательской гипотезой о наличии гендерных различий агрессии у
подростков. Пример написания находится в Приложении 2.
11
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С.43.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
157
10. Классификация методов статистического вывода о различии
Таблица 10.1
Методы сравнения, когда X – номинативный признак, Y – порядковый признак или
метрический признак12
Количество
выборок
(категорий Х)
Отличия от нормального
распределения не
выявлено
Нет
нормального
распределения
Признак Y
Зависимость
выборок
Две выборки
Независимые
Больше двух выборок
Зависимые
Независимые
Зависимые
Параметрические методы сравнения
t-Стьюдента для
независимых
выборок
t-Стьюдента для
зависимых
выборок
ANOVA
ANOVA с
повторными
измерениями
ANOVA
ANOVA с
повторными
измерениями
Непараметрические методы сравнения
U-Манна-Уитни,
критерий серий
Т-Вилкоксона,
критерий знаков
Н-КрусколаУоллиса
χ 2 − Фридмана
11. Исследование связи
Два признака могут быть связаны:
1. Функциональной связью, когда каждому значению признака X отвечает одно
определенное значение признака Y. В психологических задачах признаков, связанных
функциональной зависимостью нет;
12
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. C. 113
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
158
2. Стохастической или вероятностной связью, если одному значению признака X
соответствует распределение различных значений признака Y и наоборот. Например, связь
между ростом и весом людей13.
В частном случае, если вероятностная связь проявляется в том, что при изменении
одного из признаков изменяется среднее значение другого, то вероятностную связь
называют корреляционной14.
11.1. Корреляционная диаграмма
Наглядной иллюстрацией характера связи является корреляционная диаграмма, или
диаграмма рассеивания (Scatter).
Пусть значения признака X равны x1 ; x 2 ; K ; x n , а значения признака Y
соответственно равны y1 ;
y2 ; K ;
yn .
Графическое изображение на плоскости всех точек с координатами
(xi ; y i ) ,
называется корреляционной диаграммой или диаграммой рассеивания.
Например, для данных Таблицы 11.1.1 корреляционная диаграмма изображена на
Рис.11.1.1. Для четырех наблюдений с кодами s6, s7, s8, s9 компьютерные программы
рисуют всего лишь одну точку. Поэтому для изучения связи требуются не только
корреляционные диаграммы, которые не совсем точно отражают реальную ситуацию, но и
другие статистические показатели связи.
Корреляционные диаграммы иногда позволяют выявить случаи, когда корреляция
обусловлена неоднородностью выборки по той или другой переменной, а также
определить характер связи: линейность и монотонность.
13
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С. 66.
Гмурман, В.Е. (1999). Теория вероятностей и математическая статистика. – Москва: Высшая школа.
С. 253
14
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
159
Таблица 11.1.1
Значения признаков X и Y
Рис.11.1.1. Корреляционная диаграмма для
данных Таблицы 11.1.1.
Code
X
Y
s1
1
2
s2
1
4
s3
1
6
s4
2
1
s5
2
5
s6
3
4
s7
3
4
s8
3
4
s9
3
4
s10
4
6
Корреляционная диаграмма представляет собой некоторое скопление, "облако"
точек на плоскости. По форме и наклону этого "облака" по отношению к оси абсцисс
можно оценить наличие корреляционной связи и ее тип.
1. Если "облако" точек имеет приблизительно форму овала, вытянутого вдоль
некоторой воображаемой горизонтальной прямой (графика функции
y = const ), то
корреляционной связи между переменными нет (Рис.11.1.2).
2. Если "облако" точек вытянуто вдоль некоторой воображаемой наклонной прямой
(графика линейной функции
y = ax + b,
(a ≠ 0) ),
то между переменными имеется
линейная корреляционная связь (Рис.11.1.4-11.1.5).
3. Если "облако" точек распространяется вдоль некоторой воображаемой линии,
которая не является прямой (т.е. вдоль графика некоторой нелинейной функции y = f ( x ) ),
то корреляционная связь между переменными нелинейная (Рис. 11.1.3, 11.1.6, 11.1.7).
4. Если функция y = f ( x ) монотонная (возрастающая или убывающая), то говорят
о монотонной связи (Рис. 11.1.4-11.1.7). При этом если y = f ( x ) - возрастающая функция,
то есть большим значениям одной переменной соответствуют большие значения другой
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
160
переменной, то связь называют положительной (Рис. 11.1.4, 11.1.6). Если y = f ( x ) убывающая функция, то есть большим значениям одной переменной соответствуют
меньшие значения другой переменной, то связь называют отрицательной (Рис. 11.1.5,
11.1.7). Монотонная связь может быть, в частности, линейной (Рис. 11.1.4-11.1.5).
Y
Y 55
8
7
45
6
5
35
4
3
2
25
1
15
50
100
150
50
100
150
X
Рис.11.1.2. Связи нет
X
Рис.11.1.3. Нелинейная немонотонная связь
Y
Y 60
60
50
50
40
40
30
30
20
20
10
10
30
60
90
120
150
30
60
90
120
X
X
Рис.11.1.1. Линейная положительная связь
150
Рис.11.1.5. Линейная отрицательная связь
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
161
Y 70
Y 60
60
50
50
40
40
30
30
20
20
10
10
30
60
90
120
150
30
60
90
120
150
X
X
Рис.11.1.6. (Монотонная) нелинейная
Рис.11.1.7. (Монотонная) нелинейная
положительная связь
отрицательная связь
11.2. Коэффициенты корреляции
Количественной
мерой
силы
и
направления
корреляционной
связи
двух
переменных является коэффициент корреляции. Если данные представлены в порядковых
шкалах или в метрических шкалах, то для исследования связи используют коэффициенты
корреляции Пирсона (Pearson), Спирмена (Spearman) и «тау»-Кендалла (τ − Kendall).
Для оценки тесноты линейной связи используют коэффициент корреляции Пирсона
rxy = r .
Коэффициент корреляции Пирсона вычисляется с помощью формулы (11.2.1),
которая содержит средние арифметические значения и стандартные отклонения. Поэтому
на его значение оказывают влияние «выбросы» и отклонения распределения данных от
нормального распределения.
n
rXY =
∑ (x
i =1
n
∑ (x
i =1
i
− x )( y i − y )
i
n
− x ) ⋅ ∑ ( yi − y )
2
,
(11.2.1)
2
i =1
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
162
Коэффициент корреляции Пирсона принимает значения из интервала [-1;1].
Показателем силы связи является абсолютная величина коэффициента корреляции.
Направление связи определяется знаком коэффициента корреляции.
Если распределение данных по двум переменным не отличается от нормального
распределения, то вычисляют коэффициент корреляции Пирсона. Иногда его можно
использовать и в случае отсутствия нормального распределения, но при этом должны
выполняться условия 15:
- обе переменные не должны иметь выраженной асимметрии,
- должны отсутствовать «выбросы»,
- связь между переменными предполагается линейной.
Если распределение данных хотя бы для одной из переменных отличается от
нормального, то вычисляют коэффициенты ранговой корреляции Спирмена rS или
«τ (тау)»-Кендалла. Их используют для оценки тесноты монотонной связи. При
вычислении все значения признаков X и Y сначала переводятся в ранги. Поэтому
«выбросы» не оказывают столь заметного влияния на значения ранговых коэффициентов
корреляции.
Для вычисления коэффициента ранговой корреляции Спирмена rS используется
та же самая формула (11.2.1), что и для коэффициента Пирсона, только уже для
переменных, выраженных в рангах. В нее входят средние ранги и стандартные отклонения
рангов.
Пример.
Для вычисления коэффициента корреляции Пирсона по формуле (11.2.1)
используется Таблица 11.2.1 и в результате получается получается rXY = .71.
Для вычисления коэффициента корреляции Спирмена данные переводятся в
ранги (Таблицы 11.2.2 и 11.2.3).
15
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С. 89.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
163
Данные ранжируются таким образом, чтобы наименьшей оценке соответствовал
бы наименьший ранг, а наибольшей оценке – наибольший ранг.
По Таблицам 11.2.2 и 11.2.3 составляется Таблица 11.2.4 – исходные данные для
вычисления коэффициентов корреляции Спирмена по формуле (11.2.1). По этим данным
Таблицы 11.4 вычисляется коэффициент корреляции Спирмена. В результате получается
rS = .65.
Таблица 11.2.1
Исходные данные в баллах
Шифр
s1
s2
s3
s4
s5
s6
s7
s8
s9
s10
s11
s12
s13
s14
s15
Таблица 11.2.2
Ранги по Х
xi
yi
Шифр
Nr
xi
rang xi
145
137
125
124
122
116
113
111
109
102
87
82
79
55
45
49
30
45
33
40
44
28
33
35
24
39
35
10
23
11
s15
s14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
45
55
79
82
87
102
109
111
113
116
122
124
125
137
145
1
2
3
4
5
5
7
8
9
10
11
12
13
14
15
s13
s12
s11
s10
s9
s8
s7
s6
s5
s4
s3
s2
s1
Таблица 11.2.3
Ранги по Y
Шифр
Nr
yi
rang yi
s13
s15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
10
11
23
24
28
30
33
33
35
35
39
40
44
45
49
1
2
3
4
5
6
7.5
7.5
9.5
9.5
11
12
13
14
15
s14
s10
s7
s2
s4
s8
s9
s12
s11
s5
s6
s3
s1
Таблица 11.2.4
Данные в рангах
rang xi
Шифр
s15
s14
s13
s12
s11
s10
s9
s8
s7
s6
s5
s4
s3
s2
s1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
rang yi
2
3
1
9.5
11
4
9.5
7.5
5
13
12
7.5
14
6
15
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
164
Таблица 11.2.5
Классификация коэффициента корреляции Пирсона16 rXY
rXY
Характер связи
1
Функциональная, линейная, положительная
[ .7; 1)
Сильная линейная, положительная
[ .4; .7)
Умеренная линейная, положительная
[ .2; .4)
Слабая линейная, положительная
( -.2; .2 )
Линейной связи нет. Может быть нелинейная связь
( -.4; .2 ]
Слабая линейная, отрицательная
( -.7; -4 ]
Умеренная линейная, отрицательная
( -1; .7 ]
Сильная линейная, отрицательная
-1
Функциональная, линейная, отрицательная
Для вычисления коэффициента ранговой корреляции τ -Кендалла используется
подсчет совпадений и инверсий: если у пары испытуемых изменение по Х совпадает по
направлению с изменением по Y, то это говорит о положительной связи («совпадение»).
Если нет – то об отрицательной связи («инверсии»). Коэффициент ранговой корреляции
τ -Кендалла есть разность относительных частот совпадений и инверсий при переборе
всех пар испытуемых в выборке.
Для определения силы связи иногда (в случае небольших выборок) можно
использовать классификацию коэффициентов корреляции, приведенную в Таблице 11.2.5.
Если связь является немонотонной, то коэффициенты корреляции не подходят.
Коэффициенты корреляции также не подходят для номинальных переменных.
16
Raščevska, M., Kristapsone, S. (2000). Statistika psiholoģijas pētījumos. Rīga: SIA „IzglЖ
tЖ
bas soļi”. Lpp. 166-167.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
165
Чарльз Э́двард Спи́рмен17,18 (англ. Charles Edward Spearman) родился в Лондоне
10 сентября 1863 года в респектабельной семье. Будучи студентом колледжа, он
продемонстрировал превосходное мастерство в математике и в философии – в
науке, которой он был тайно предан всю свою жизнь. После окончания колледжа
Чарльз Спирмен прослужил четырнадцать лет в Британской Армии, в основном в
Индии. Он служил с честью и дослужился до звания майора. Несмотря на свои
несомненные военные успехи, впоследствии Спирмен считал 14 лет военной
службы величайшей ошибкой своей жизни, основанной на заблуждении юности,
что жизнь длинная19. На протяжении службы Спирмен продолжал интересоваться
философией и пришел к убеждению, что много дискутируемых в философии
вопросов могут быть успешно решены путем применения эмпиризма в психологии.
В возрасте 34 лет он демобилизовался и поступил на учебу в Лейпцигский университет (1897), в котором
изучал психологию под руководством Вильгельма Вундта. К систематическому изучению психологии
приступил в 1897 году в лейпцигской лаборатории Вундта. Хотя Вундт считается основателем-отцом
психологии, наибольшее влияние на Спирмена оказал сэр Фрэнсис Гальтон (1822-1911). Под влиянием идей
Гальтона Спирмен остановился на двух принципах, которыми руководствовался во всех работах своей
жизни. Во-первых, индивидуальные различия сенсорных, моторных и когнитивных способностей могут быть
точно измерены с помощью стандартных методов. Во-вторых, существует биологически обусловленная
общая ментальная способность, которая входит в каждый вид ментальной активности. В Лейпциге Спирмен
получил степень доктора наук (1906) и через год стал преподавать экспериментальную психологию в
Лондонском университете, в котором проработал вплоть до 1931 года (преподаватель, 1907-1911; профессор
мышления и логики, 1911-1928; профессор психологии, 1928-1931; заслуженный профессор в отставке).
После отставки Спирмен продолжал играть активную роль в области педагогической психологии. Он
преподавал в Северной Америке в Колумбийском университете. Там среди его учеников были Дэвид
Wechsler и Раймонд Б. Кеттелл. Благодаря усилиям Спирмена возникла «Лондонская школа» психологии,
которая с позиций строгого реализма, статистики и психометрики занималась изучением человеческих
способностей. Изучая корреляции между результатами выполнения различных заданий, Спирмен внес
значительный вклад в развитие факторного анализа в психологии. Также он предложил первый метод оценки
надежности психологических тестов. Разработал цикл статистических методов с целью измерения структуры
интеллекта. Изучая корреляции между результатами выполнения различных заданий и используя факторный
анализ, предложил двухфакторную теорию интеллекта. Согласно этой теории результаты даже несравнимых
когнитивных тестов отражают единый генеральный G-фактор (General ability), образующий основание
любых успешных умственных действий и ряд специальных факторов, нужных для решения задач в
отдельных областях («Способности человека», 1927). Эффективность любой интеллектуальной деятельности
обусловлена некоторой врождённой "общей способностью", G-фактором, и рядом "специфических
способностей" - S-факторами (Special ability), свойственных конкретным видам деятельности. Впоследствии,
уточняя свою теорию, Спирмен ввёл также так называемые групповые факторы, промежуточные между G и
S. Например, арифметические, технические, лингвистические способности. Тем не менее, основной целью
тестирования, по Спирмену, должно быть измерение у индивида G-фактора. Теория Спирмена вызвала
широкую дискуссию, породившую, в частности, альтернативную многофакторную теорию интеллекта (Дж.
Гилфорд). Развитие идей Спирмена в зарубежной психологии идёт по пути усовершенствования
математической процедуры и попыток психологического анализа выделяемых факторов, в первую очередь
G-фактора. Однако признание G-фактора врождённым и неизменным приводит к предвзятой оценке
результатов тестирования. В дальнейшем Спирмен сделал попытку распространить эту теорию на
психическое в целом. В течение трех десятилетий двухфакторная теория подвергалась острой критике. Одни
отрицали само существование общего фактора «G» как врожденного, других не убеждали его
математические доказательства. В ответ на это Спирмен и его сотрудники совершенствовали теоретическую
и статистическую базу. Но уже в 1930-х годах представление о двухфакторной структуре интеллекта стало
уступать многофакторным теориям Л. Терстона, Дж. Гилфорда. Одним из направлений научных поисков
17
http://www.dates.gnpbu.ru/3-8/Spearman/spearman.html
18
http://dictionary.pirao.ru/PSYfeisy/percy/s/spirmen.htm
19
http://www.education.com/reference/article/spearman-charles-edward-1863-1945/
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
166
Спирмена были фундаментальные законы психологии. В книге «The nature of intelligence and the principles of
cognition» (1923) они приняли форму эмпирической эпистемологии, принципы которой согласуются с
подходами в когнитивной психологии. Широко известен коэффициент ранговой корреляции Спирмена.
Спирмен разрабатывал также вопросы восприятия пространства и истории психологии. Чарльз Эдвард
Спирмен - английский психолог, профессор Лондонского и Честерфилдского университетов, член
Лондонского Королевского общества (1924), президент Британского психологического общества (19231926), почетный доктор и почетный член нескольких университетов, зарубежных академий и обществ. Один
из самых влиятельных английских психологов ХХ столетия. Специалист в области экспериментальной
психологии, истории и философии психологии, психологии личности, социальной психологии. Разработчик
многочисленных методик математической статистики. 17 сентября 1945 года, в возрасте 82 лет, Спирмен
покончил жизнь самоубийством, прыгнув из окна университетской больницы в Лондоне, пациентом которой
он был.
Мо́рис Джордж Ке́ндалл20 (Maurice George Kendall) - английский статистик,
широко известный из-за его вклада в статисику21. Морис Кендалл — автор
многочисленных трудов по статистике и теории вероятностей. Его именем
назван коэффициент ранговой корреляции «тау». Родился 6 сентября 1907 года
в Кеттеринге в Великобритании. Был единственным ребенком в семье. Будучи
маленьким ребенком выжил после менингита головного мозга, который в то
время часто кончался смертельным исходом. В 1914 году началась Первая
Мировая война. Отец Мориса переехала в Дерби, чтобы работать на RollsRoyce. Там Морис получил начальное образование. Уже в то время он показал,
маленькие знаки своих великих научных достижений, которые должны были
осуществиться в будущем. Ему не удалось поступить в гимназию. Он учился в
Центральной школе в Дерби. Его ранние интересы были связаны с изучением
языков, но в конце обучения в школе начали проявляться способности к
математике. Директор Центральной школы, добился, чтобы последний год Морис учился в гимназии. Морис
был удостоен стипендии на обучение в Сент-Джонс-колледже в Кембридже. В 1929 году он окончил
колледж с отличием по математике. Играл в крикет и в шахматы. Жизнь в Санкт-Джон весьма
контрастировала с жизнью в Дерби. Общительный характер Мориса принес ему много друзей, даже вне
группы, в которой он изучал математику. Поступил на службу в Министерство сельского хозяйства. Там он
заинтересовался работой со статистикой. Одной из первых его работ было исследование урожайности с
использованием факторного анализа. Качество его работы было такое, что в 1934 году он был избран членом
Королевского статистического общества Занимался теорией генерации случайных чисел. С началом войны
Кендалл оставался в Лондоне и в 1940 году покинул государственную службу, чтобы занять пост статистика
в Британской Палате Судоходства (the British Chamber of Shipping). С 1949 года преподавал в Лондонской
школе экономики и политических наук. С 1961 года в течение двух лет возглавлял Королевское
статистическое общество. Был управляющим директором консалтинговой компании, CEIR, известной позже
как Scientific Control Systems. В 1972 году возглавил проект Всемирного обследования рождаемости (англ.
World Fertility Survey) под патронажем Международного статистического института и Организации
Объединённых Наций (ООН). В знак признания за свою работу получил медаль от ООН. В 1974 году за
заслуги в теории статистики был посвящен Британским правительством в рыцари. Также был избран членом
Британской академии и получил высшую награду Королевского Статистического Общества the Guy Medal in
Gold. Кроме того, он служил президентом Operational Research Society, the Institute of Statisticians, и был
избран членом Американской Статистической Ассоциации Института математической статистики,
Эконометрического Общества, и Британского Компьютерного Общества. В 1980 году ушёл на пенсию из-за
болезни. Морис Кендалл написал много учебников и других публикаций, включая словарь статистических
терминов (1957). Он посвятил много сил для того, чтобы новые идеи в статистике стали как можно больше
широко доступными. Кендалл был, прежде всего, большим систематизатором и организатором. Он был
20
http://apprendre-math.info/anglais/historyDetail.htm?id=Kendall_Maurice
21
https://en.wikipedia.org/wiki/Maurice_Kendall
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
167
образцом и в других сферах, избегая личных споров, прикладывая усилия, чтобы быть справедливым к
молодым и к старым, зная, когда и как делегировать ответственность, и умея писать всегда в прозрачной,
сбалансированной прозе, редко достигаемой учеными. Скончался 29 марта 1983 года в Редхилле22,
Великобритания. На момент смерти он был почетным президентом Международного Статистического
Института.
11.3. Проверка статистической значимости коэффициента
корреляции Пирсона
Если признаки популяции Х и Y, нормально распределенные; выборка случайная,
объема n и выборочный коэффициент корреляции Пирсона: rxy = r , то встает вопрос:
«Является ли коэффициент корреляции Пирсона статистически значимым или его
отличие от нуля можно объяснить случайными причинами?», «Связаны ли признаки
линейной корреляционной связью?».
Ответ на эти вопросы дает проверка статистических гипотез.
H 0 : Выборочный коэффициент корреляции Пирсона r имеет случайное отличие от нуля.
H 1 : Выборочный коэффициент корреляции Пирсона r отличается от нуля закономерно.
Можно эти же гипоезы сформулировать и для популяции. Пусть ρ – коэффициент
корреляции популяции. Тогда:
Н0: ρ = 0,
Н1: ρ ≠ 0.
Если подтверждается нулевая гипотеза, то говорят, что связь между переменными не
выявлена. Может быть, найдется другой способ ее выявить.
22
http://www-groups.dcs.st-and.ac.uk/~history/Biographies/Kendall_Maurice.html
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
168
Если принимается альтернативная гипотеза, то говорят, что выборочный
коэффициент корреляции Пирсона статистически значим, и что переменные в популяции
связаны линейной (положительной или отрицательной связью, в зависимости от знака
коэффициента корреляции).
Критерий:
.
(11.3.1)
При справедливости нулевой гипотезы случайная величина Т имеет t-распределение
Стьюдента с df = n – 2 степенями свободы.
Альтернативная гипотеза ненаправленная (случай two-tailed, двухвостовый).
Пример.
Проверить, имеется ли линейная корреляционная связь между двумя переменными,
если
известны коэффициенты корреляции
Пирсона
r
и
объемы
выборок
n.
Сформулировать гипотезы и выводы о связи.
Исходные данные:
r
.321
-.302
.278
.278
.461
n
22
44
115
30
40
Гипотезы:
H 0 : Переменные в популяции не связаны между собой линейной корреляционной связью,
выборочный коэффициент корреляции Пирсона r отличается от нуля статистически
незначимо. Отличие r от нуля может быть объяснено случайными причинами.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
169
H 1 : Переменные в популяции связаны между собой линейной корреляционной связью,
выборочный коэффициент корреляции Пирсона r отличается от нуля статистически
значимо. Отличие r от нуля закономерно и не может быть объяснено случайными
причинами.
или
Н0: ρ = 0,
Н1: ρ ≠ 0.
Случай 1. r = .351; n =22.
Т-статистика:
t=
=1.5158.
p-value находим с помощью GRETL:
Открываем программу GRETL. На верхней панели выбираем Tools (Рис.7.7.1),
P-value finder (Рис.7.7.2)
Появляется окно gretl: p-value finder, на котором выбираем распределение t, df=16,
value=1.5158 (Рис.11.3.1).
ОК
Рис.11.3.1. Ввод информации для нахождения p-value.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
170
Выходная информация (Рис.11.3.2) для статистики 1.5158, распределения t, df = 20.
площадь справа от значения статистики (как на Рис.7.6.1) равна 0.0726082.
Two-tailed p-value = 0.145216 (= 0.0726082). Дополнение =1-0.145216= 0.854784.
Рис.11.3.2. Выходная информация для статистики 1.5158, распределения t, df =20.
Таким образом, p-value = .145 > .05.
Ответ: Нет оснований отклонить H 0 . Линейная связь между переменными в популяции
не найдена, выборочный коэффициент корреляции Пирсона r =.351 отличается от нуля
статистически незначимо: t(20)=1.52, p = .145 (two-tailed). Отличие r от нуля может быть
объяснено случайными причинами.
Замечание. Для правосторонней альтернативной гипотезы: Н1: ρ > 0 мы получили p = .073
> .05. Также нет оснований отклонить нулевую гипотезу.
Случай 2. r =-.302; n =44.
-2.0530.
p-value находим с помощью GRETL:
В окне gretl: p-value finder, выбираем распределение t, df = 42, value = -2.0530.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
171
Выходная информация:
t(42): area to the right of -2.053 = 0.976832
(to the left: 0.0231679)
(two-tailed value = 0.0463359; complement = 0.953664)
Two-tailed p-value = .046 < .05.
Ответ: На уровне значимости α = .05 справедлива H 1 : переменные в популяции связаны
между собой линейной отрицательной корреляционной связью, выборочный коэффициент
корреляции Пирсона r = -.302 отличается от нуля статистически значимо. Отличие r от
нуля закономерно и не может быть объяснено случайными причинами. Выявлена линейная
отрицательная корреляционная связь: t(42)=-2.05, p = .046 < .05 (two-tailed).
Случай 3. r = .278; n =115.
3.0765.
p-value находим с помощью GRETL:
В окне gretl: p-value finder, выбираем распределение t, df = 113, value = 3.0765.
Выходная информация:
t(113): area to the right of 3.0765 = 0.00131388
(two-tailed value = 0.00262776; complement = 0.997372)
Two-tailed p-value = .003 < .01.
Ответ: На уровне значимости α = .01 справедлива H 1 : переменные в популяции связаны
между
собой
линейной
положительной
корреляционной
связью,
выборочный
коэффициент корреляции Пирсона r =.278 отличается от нуля статистически значимо.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
172
Отличие r от нуля закономерно и не может быть объяснено случайными причинами.
Выявлена линейная положительная корреляционная связь: t(113) = 3.08, p = .003 < .01
(two-tailed).
Случай 4. r = .278; n =30.
1.5314.
p-value находим с помощью GRETL:
В окне gretl: p-value finder, выбираем распределение t, df = 28, value = 1.5314.
Выходная информация:
t(28): area to the right of 1.5314 = 0.068446
(two-tailed value = 0.136892; complement = 0.863108)
Two-tailed p-value = .137 > .05.
Ответ: Нет оснований отклонить H 0 . Линейная связь между переменными в популяции
не найдена, выборочный коэффициент корреляции Пирсона r =.278 отличается от нуля
статистически незначимо: t(28)=1.53, p = .137 (two-tailed). Отличие r от нуля может быть
объяснено случайными причинами.
Случай 5. r = .461; n =90.
4.8733.
p-value находим с помощью GRETL:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
173
В окне gretl: p-value finder, выбираем распределение t, df = 88, value = 4.8733.
Выходная информация:
t(88): area to the right of 4.8733 = 2.40923e-006
(two-tailed value = 4.81846e-006; complement = 0.999995)
или:
two-tailed value = 4.81846e-006 = 0.00000481846
Two-tailed p-value = .000 < .001.
Ответ: На уровне значимости α = .001 справедлива H 1 : переменные в популяции связаны
между
собой
линейной
положительной
корреляционной
связью,
выборочный
коэффициент корреляции Пирсона r = .461 отличается от нуля статистически значимо.
Отличие r от нуля закономерно и не может быть объяснено случайными причинами.
Выявлена линейная положительная корреляционная связь: t(88) = 4.87, p = .000 < .001
(two-tailed).
Если коэффициент корреляции Пирсона статистически значим, то выявлена
линейная корреляционная связь – положительная или отрицательная23. Если коэффициент
корреляции Пирсона статистически незначим, то возможны два варианта (Рис.11.3.3):
23
•
связь не выявлена;
•
связь нелинейная.
Если, конечно, корреляция не является ложной. См. п.11.5.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
174
Коэффициент корреляции Пирсона
Статистически значим
Статистически незначим
Выявлена линейная
корреляционная связь
Линейная корреляционная
связь не выявлена
Связь не выявлена
Есть нелинейная связь
Рис.11.3.3. Исследование связи с помощью коэффициента корреляции Пирсона
Используемые обозначении при обработке данных с помощью SPSS и принятая
терминология:24
Вероятность ошибки (р =Sig.). Значимость коэффициента корреляции
Обозначение
p > .05
Незначимо
ns
p <= .05
Значим
*
p <= .01
Очень значим
**
p <= .001
Максимально значим
***
24
Бююль Ахим, Цефель Петер (2002) SPSS: искусство обработки информации. Анализ статистических
данных и восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». С.88.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
175
11.4. Проверка статистической значимости коэффициентов
корреляции Спирмена и Кендалла
Проверка значимости коэффициента корреляции Спирмена осуществляется с
помощью того же Т- критерия, который используется для коэффициента корреляции
Пирсона.
Гипотезы для коэффициента корреляции Спирмена rS :
H0 :
Выборочный
коэффициент
корреляции
Спирмена
rS
отличается
от
нуля
статистически незначимо. Отличие rS от нуля может быть объяснено случайными
причинами. Монотонная корреляционная связь не выявлена.
H1 :
Выборочный
коэффициент
корреляции
Спирмена
rS
отличается
от
нуля
статистически значимо. Отличие rS от нуля закономерно и не может быть объяснено
случайными причинами. Между признаками имеется монотонная корреляционная связь.
Если
коэффициент
ранговой
корреляции
(Спирмена
или
τ -Кендалла)
статистически значим, то выявлена монотонная корреляционная связь – положительная
или отрицательная. Если коэффициент ранговой корреляции (Спирмена или τ -Кендалла)
статистически незначим, то возможны два варианта (Рис.11.4.1):
•
связь не выявлена;
•
связь немонотонная.
Проверка значимости коэффициента корреляции Кендалла осуществляется с
помощью другого критерия (нпример, Z-критерия25). Гипотезы такие же, как и для
коэффициента корреляции Спирмена.
25
Гмурман, В.Е. (1999). Теория вероятностей и математическая статистика. – Москва: Высшая школа.
С. 341-343.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
176
Коэффициент ранговой корреляции Спирмена или τ -Кендалла
Статистически значим
Статистически незначим
Выявлена монотонная
корреляционная связь
Монотонная корреляционная связь
не выявлена
Связь не выявлена
Есть немонотонная связь
Рис.11.4.1. Исследование связи с помощью коэффициентов ранговой корреляции
Спирмена или τ -Кендалла
Домашнее задание 3
Проверить, имеется ли корреляционная связь между двумя переменными, если известны
коэффициенты корреляции Пирсона r и объемы выборок n . Сформулировать гипотезы и
выводы о связи.
Исходные данные:
r
-.367
-.367
.298
.298
.523
n
18
59
119
31
45
Примеры решения разобраны в п.11.3.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
177
11.5. Частная корреляция
Иногда переменные X и Y могут коррелировать между собой только за счет того,
что обе они согласованно меняются под влиянием некоторой третьей переменной Z. Связь
между X и Y может отсутствовать, но коэффициенты корреляции могут быть
статистически значимыми. Это - ложная корреляция между X и Y.
Для исключения такой «искажающей» третьей переменной, как Z, необходимо
вычисление коэффициента частной корреляции X и Y с учетом Z (Partial Correlation)
rXY −Z :
rXY −Z =
(
rXY − rXZ rYZ
)(
2
1 − rXZ
1 − rYZ2
)
.
(11.5.1)
Если частная корреляция X и Y с учетом Z ( rXY −Z ) по абсолютной величине
существенно меньше абсолютной величины rXY , то весьма вероятно, что именно Z
является истинной причиной корреляции X и Y.
Пример 1. rXY =.56; rYZ = .80 ; rXZ = .70 ; rXY −Z =.00.
Корреляция между X и Y оказалась ложной. X и Y коррелируют исключительно за счет
согласованности изменчивости Z. Частная корреляция между ними с учетом Z равна нулю.
Пример 2. Исследовалась связь между ростом и длиной волос11. Корреляция оказалась
отрицательной: r (15 ) = −.700**, p = .004 < .01 . Чем больше рост, тем короче волосы
(Таблица 11.5.1) и наоборот.
При рассмотрении третьей переменной «Пол», оказалось что в группах мужчин и
женщин по-отдельности корреляции нет ни в одной из групп (Таблица 11.5.2).
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб: Речь. С. 86-87.
11
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
178
Таблица 11.5.1
Корреляционная матрица для признаков «Рост» – «Длина волос». Вся выборка
Correlations
Рост
Рост
Длина волос
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
1
.
15
-,700**
,004
15
Длина волос
-,700**
,004
15
1
.
15
**. Correlation is significant at the 0.01 level (2-tailed).
Таблица 11.5.2
Корреляционные матрицы для признаков «Рост» – «Длина волос». Выборки мужчин и
женщин
Correlationsa
Correlationsa
Рост
Рост
Длина волос
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
1
.
8
-,113
,790
8
Длина волос
-,113
,790
8
1
.
8
a. Пол = женский
Рост
Рост
Длина волос
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
1
.
7
-,238
,607
7
Длина волос
-,238
,607
7
1
.
7
a. Пол = мужской
Коэффициент частной корреляции равен rXY −Z = -.15, ns. Обнаруженная связь между
ростом и длиной волос оказалась ложной. Рост и длина волос коррелируют исключительно
за счет пола. Частная корреляция между ними с учетом переменной «пол» оказалось малой
и статистически незначимой (Рис.11.5.1).
Действительно, средний рост мужчин больше среднего роста женщин. Рост связан с
полом. Средняя длина волос мужчин меньше средней длины волос женщин. Длина волос
связана с полом. Как в выборке мужчин, так и в выборке женщины корреляции между
ростом и длиной волос не наблюдается. Поэтому статистически значимая отрицательная
корреляция между ростом и длиной волос во всей выборке оказалась ложной.
«За редким исключением факт наличия или отсутствия корреляции может быть
объяснен влиянием некоторой «третьей» переменной, упущенной из поля зрения
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
179
исследователя.
Таким
образом,
всегда
остается
возможность
альтернативной
интерпретации обнаруженной корреляции».12
18
16
14
12
10
Пол
Длина волос
8
му ж с кой
6
ж енский
4
Total Population
150
160
170
180
190
Рис.11.5.1. Связь между ростом и
длиной
волос.
Корреляционная
диаграмма с прямыми регрессии
группы мужчин, группы женщин и
объединенной группы.
Рост
11.6. Нелинейный характер связи
Если коэффициент корреляции Пирсона или Спирмена, или Кендалла близок к
нулю, это означает либо отсутствие связи, либо наличие нелинейной немонотонной связи.
Нелинейную немонотонную связь иногда можно обнаружить при визуальном
изучении корреляционной диаграммы.
Если из теоретического анализа или из изучения корреляционных диаграмм вид
связи остается неясным, то можно применить нелинейный регрессионный анализ. По
величине и уровню значимости коэффициента детерминации можно выбрать наиболее
вероятный вид связи. Затем разбить соответствующую переменную на интервалы
монотонности (например, по методике, или по квартилям или по корреляционным
диаграммам с линией регрессии). На каждом из участков монотонности вычислить
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С. 87.
12
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
180
коэффициенты корреляции Пирсона или Спирмена, или Кендалла, которые могут
оказаться статистически значимыми.
«Второй способ предполагает отказ от коэффициентов корреляции. Необходимо
ввести дополнительную номинальную переменную, которая делит исследуемую выборку
на контрастные группы по одной из переменных. Далее можно изучать различия между
этими группами по уровню выраженности»13.
11.7. Частотный анализ
От метрических или порядковых переменных можно перейти к номинальным
переменным. Или с самого начала исходные данные измерены в номинальных шкалах.
Тогда можно проводить частотный анализ. Наиболее часто используют критерий χ 2 («Хиквадрат», Chi-Square) Пирсона для сравнения распределений14 и критерий «Угловое
преобразование Фишера» для сравнения долей15. Это позволяет сформулировать вывод о
связи.
11.8.
Исследование
связи,
когда
коэффициентами
одна
переменная количественная, а другая номинальная
Если одна переменная количественная, а другая номинальная то для исследования
связи между ними коэффициент корреляции не подходит. Изучение такой связи возможно
при помощи сравнения групп, выделяемых по категориям номинальной переменной.
Группы сравниваются по уровню выраженности количественной переменной. В сравнении
может помочь классификация методов статистического вывода о различии (п.10).
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С. 88.
14
Сидоренко, Е. (2000). Методы математической обработки в психологии. СПб: ООО «Речь». C.113-141.
15
Сидоренко, Е. (2000). Методы математической обработки в психологии. СПб: ООО «Речь». C.158-176.
13
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
181
11.9. Исследование связи между номинальными переменными
Связь между переменными, измеренными в номинальной шкале или в порядковой
шкале не с очень большим количеством категорий, лучше всего представить в форме
таблиц сопряженности (Crosstabs).
Таблица сопряженности – это таблицы совместного распределения частот двух или
более номинальных признаков, измеренных на одной группе объектов. Например, таблица
для двух признаков: стратегии поведения старшеклассников в конфликтной ситуации и
самооценка (Таблица 11.9.1).
Статистическая значимость связи определяется с помощью критерия для сравнения
распределений – «Хи»-квадрат Пирсона (Pearson’s Chi-square Test). Этот тест проверяет,
есть ли значимое различие между наблюдаемыми и ожидаемыми частотами16.
Теоретические частоты nti вычисляются по формуле:
nti =
( Сумма частот строки ) ⋅ ( Сумма частот столбца ) ,
n
(11.9.1)
где суммы частот берутся из Таблицы 11.9.1:
Например, теоретическая частота для эмпирической частоты 22 (Заниженная
самооценка – Компромисс) будет равна
nei =
63*52
= 25.7953 .
127
Исследование связи с применением критерия – «Хи»-квадрат Пирсона будет
рассмотрена подробно в п.13.
16
Гласс, Дж., Стенли Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс.
С.180.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
182
Таблица 11.9.1
Таблица сопряженности. Связь между стратегиями поведения старшеклассников в
конфликтной ситуации и самооценкой
Соперничество
Заниженная
самооценка
Адекватная
самооценка
Суммы
Стратегия поведения
Сотрудничество
Компромисс
Избегание
Суммы
Приспособление
20
5
22
6
10
63
10
6
30
3
15
64
30
11
52
9
25
n=127
11.10. Сравнение корреляций для двух независимых выборок17
Признаки популяций: нормально распределенные;
Коэффициенты корреляции популяций: ρ1 , ρ 2 ;
Выборки: случайные, независимые, объемов n1 , n 2 ;
Выборочные коэффициенты корреляции Пирсона: r1 , r2 ;
Гипотезы:
H 0 : ρ1 = ρ 2 ,
H 1 : ρ1 ≠ ρ 2 ,
H 0 : Выборочные коэффициенты корреляции r1 и r2 отличаются друг от друга случайно.
H 1 : Выборочные коэффициенты корреляции r1 и r2
отличаются друг от друга
закономерно.
Критерий:
Z=
Z (r1 ) − Z (r2 )
1
1
+
n1 − 3 n 2 − 3
,
(11.10.1)
где
17
Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс.
С.283-285.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
183
Z (r ) =
1 1+ r
ln
2 1− r
(11.10.2)
- это Z-преобразование Фишера.
Z (r1 ) и Z (r2 ) можно найти либо путем вычисления по данной формуле с помощью
калькулятора или найти по Таблице 11.10.1.
Случайная величина Z при справедливости нулевой гипотезы имеет нормальное
распределение с параметрами µ Z = 0 и σ Z = 1 .
Критическая область: двусторонняя.
Таблица 11.10.118.
Значения преобразования Фишера Z (r ) =
r
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.99
0,00
0.0000
0.1003
0.2027
0.3095
0.4236
0.5493
0.6931
0.8679
1.0986
1.4722
2.6466
0,01
0100
1104
2132
3205
4356
5627
7089
8872
1270
5275
6996
0,02
0200
1206
2237
3316
4477
5763
7250
9076
1568
5890
7587
0,03
0300
1307
2342
3428
4599
5901
7414
9287
1881
6584
8257
1 1+ r
ln
2 1− r
0,04
0400
1409
2448
3541
4722
6042
7582
9505
2212
7380
9031
0,05
0500
1511
2554
3654
4847
6184
7753
9730
2562
8318
9945
0,06
0601
1614
2661
3769
4973
6328
7928
9962
2933
9459
3.1063
0,07
0701
1717
2769
3884
5101
6475
8107
1.0203
3331
2.0923
2504
0,08
0802
1820
2877
4001
5230
6625
8291
0454
3758
2976
4534
0,09
0902
1923
2986
4118
5361
6777
8480
0714
4219
6466
8002
Пример
Выяснить: статистически значимо или незначимо отличается выборочный
коэффициент корреляции r1 = -.88 (объем выборки n1 =45) от выборочного коэффициента
корреляции r2 = - .91 другой случайной выборки объема n2 =64.
Гипотезы:
H 0 : Выборочные коэффициенты корреляции r1 = - .88 и r2 = - .91 имеют случайное
отличие.
18
Krastiņš, O. (1998). Statistika un ekonometrija. Rīga: LR CSP. 436 lpp.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
184
H 1 : Выборочные коэффициенты корреляции r1 = - .88 и r2 = - .91 отличаются друг от друга
закономерно.
Преобразованные по Фишеру (11.10.2) коэффициенты корреляции равны:
Z(r1) = Z(- .88) = -1.3758;
Z(r2) = Z(- .91) = -1.5275.
Z-статистика:
z=
−1.3758 − ( −1.5275 )
1
1
+
45 − 3 64 − 3
= 0.76
Используя компьютерную программу GRETL (см. п.7.7) находим p-value Z –
стандартизованного нормального распределения, когда μ=0, σ=1:
Standard normal: area to the right of 0.76 = 0.223627
(two-tailed value = 0.447255; complement = 0.552745)
Откуда р-value:
p = .224 > .05.
Ответ: Нет оснований отклонить H 0 : Отличие между выборочными коэффициентами
корреляции r1 = 88 и r2 = .91 друг от друга статистически незначимо и может быть
объяснено случайными причинами.
11.11. Сравнение коэффициентов корреляции двух зависимых
выборок19
Популяции (X, Y), (X, Z), (Y, Z): двумерные, нормально распределенные;
Коэффициенты корреляции популяций: ρ xy , ρ xz , ρ yz ;
Выборка: случайная объема n ;
19
Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс.
С.285-286.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
185
Выборочные коэффициенты корреляции: rxy , rxz , ryz ;
H 0 : ρ xy = ρ xz ,
Гипотезы:
H 1 : ρ xy ≠ ρ xz ,
H 0 : Переменная X имеет одинаковую корреляцию с переменными Y и Z. Выборочные
коэффициенты корреляции rxy и rxz отличаются друг от друга статистически незначимо.
Отличие может быть объяснено случайными причинами.
H 1 : Переменная X имеет неодинаковые корреляции с переменными Y и Z. Выборочные
коэффициенты корреляции rxy и rxz отличаются друг от друга статистически значимо.
Отличие закономерно и не может быть объяснено случайными причинами.
Критерий:
Z=
(1 − r ) + (1 − r )
2 2
xy
2 2
xz
(r
xy
− rxz ) n
(
− 2r − (2ryz − rxy rxz ) 1 − r − r − r
3
yz
2
xy
2
xz
2
yz
)
,
(11.11.1)
Случайная величина Z при справедливости нулевой гипотезы имеет нормальное
распределение с параметрами µ Z = 0 и σ Z = 1 .
Критическая область: двусторонняя.
Пример
Выяснить: имеет ли переменная Х одинаковую корреляцию с переменными Y и Z.
Исходные данные:
rxy =-.67; rxz =-.81; ryz =-.56; объем выборки n =45.
H 0 : Переменная X имеет в популяции одинаковую корреляцию с переменными Y и Z.
Выборочные коэффициенты корреляции rxy и rxz отличаются друг от друга статистически
незначимо. Отличие может быть объяснено случайными причинами.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
186
H 1 : Переменная X имеет в популяции неодинаковые корреляции с переменными Y и Z.
Выборочные коэффициенты корреляции rxy и rxz отличаются друг от друга статистически
значимо. Отличие закономерно и не может быть объяснено случайными причинами.
Z-статистика:
z=
( −0.67 − ( −0.81) ) 45
(1 − ( −0.67 ) ) + (1 − ( −0.81) ) − 2 ( −0.56) − ( 2 ( −0.56) − ( −0.67 )( −0.81)) (1 − ( −0.67 ) − ( −0.81) − ( −0.56)
2 2
2 2
3
2
2
2
)
= 3.38
Используя компьютерную программу GRETL (см. п.7.7) находим p-value Z –
стандартизованного нормального распределения, когда μ=0, σ=1:
Standard normal: area to the right of 3.38 = 0.000362429
(two-tailed value = 0.000724858; complement = 0.999275)
Откуда р-value:
p = .000 < .001.
Ответ: Принимается H 1 : Переменная X имеет неодинаковые корреляции с переменными Y
и Z. Выборочные коэффициенты корреляции rxy и rxz отличаются друг от друга
статистически значимо. Отличие закономерно и не может быть объяснено случайными
причинами: Z=3.38, p = .000 < .001.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
187
11.12. Схема исследования связи
Приведем Таблицу 11.12.1, в которой классифицированы методы исследования
связи в соответствии с измерительными шкалами.
Таблица 11.12.1
Исследование связи20
Типы
шкал
Задачи:
I. X, Y количественные
Корреляционный
анализ
а) Коэффициент rПирсона для
Методы:
нормально
распределенных X,Y;
б) частная
корреляция и
сравнение
корреляций;
в) rS − Спирмена,
τ − Кендалла для
неноминальных X и
Y.
II. X, Y – номинальные
Анализ классификаций,
таблиц сопряженности,
последовательностей (серий)
Критерий χ 2 − Пирсона (для
классификаций и таблиц
сопряженности),
критерий Мак-Нимара (для
таблиц 2Х2 с повторными
измерениями),
критерий серий для
последовательностей,
критерий «Угловое
преобразование Фишера» для
сравнения долей.
III. X - номинальный,
Y - количественный
Сравнения выборок по
уровню выраженности
признака
Методы сравнения
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. C. 113.
20
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
188
12. Связь между самооценкой и агрессией подростков
Рассмотрим пример, как решить задачу об исследовании связи между самооценкой
и агрессией подростков с применением компьютерных программ SPSS и Excel.
Агрессия подростков измерялась с помощью методики Басса-Дарки34.
Самооценка подростков измерялась с помощью методики Дембо-Рубинштейна35.
Гипотеза работы: «Существует связь между самооценкой и агрессией в подростковом
возрасте.»
Термины и сокращения:
P
FA
NA
K
N
Самооценка
Физическая агрессия
Косвенная агрессия
Раздражение
Негативизм
Ap
Az
VA
SP
SP
Обида
Подозрительность
Вербальная агрессия
Угрызения совести и чувство вины
Угрызения совести и чувство вины
Таблица 12.1
Исходные данные. Фрагмент таблицы
Kod
1
2
3
4
5
P
80,5
84,83
76,66
91
79,33
FA
9
8
9
7
9
NA
7
7
8
7
8
K
5
6
4
5
8
N
3
3
4
5
1
Ap
5
4
3
3
3
Az
5
2
4
5
3
VA
7
5
6
7
6
SP
5
6
2
2
2
и так далее... Полностью36 Таблица 12.1 приведена в файле:
Samoocenka_Agresija_Data.xlsx.
34
Батаршев, А.В. (2005). Тестирование: Основной инструментарий практического психолога. М.: Дело.
С.195-200.
35
Ярославский государственный педагогический университет им. К.Д. Ушинского. Отдел образовательных
информационных технологий. Измерение самооценки по методике Дембо-Рубинштейн. http://citoweb.yspu.org/link1/metod/met35/node33.html
36
Данные взяты из дипломной работы студентки Высшей школы психологии (Сейчас Балтийский институт
психологии и менеджмента- БИМП) Татьяны Инкиной, выполненной в 2003-2004 учебном году.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
189
12.1. Ввод данных
1. Загрузить SPSS
2. Type in data (Рис.12.1.1)
ОК
3. Variable View
Введем описание всех переменных из Таблицы 12.1.
3.1. В ячейку Name 1 введем слово kod
После этого в остальных ячейках строки 1 появится некоторая информация.
3.2. Type – тип переменной
Numeric
String (Рис.12.1.2)
Рис.12.1.1. Начало работы
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
190
Рис.12.1.2. Тип переменной - строка
OK
3.3. Width – формат столбца:
8
3.4. Decimals: - количество знаков после запятой - 0
3.5. Label:
Kods
3.6. Values:
None
3.7. Missing:
None
3.8. Columns: 8
3.9. Align:
Center
3.10. Measure: Nominal
Сохранить файл под названием: Samoocenka_Agresija.sav.
«Cамооценка» „P”
3.11. В ячейку Name 2 напишем слово p
3.12. Type
Numeric
3.13. Width –
8
3.14. Decimals:
2
3.15. Label:
P
3.16. Values:
None
3.17. Missing: None
3.18. Columns:
8
3.19. Align:
Center
3.20. Measure: Scale
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
191
«Физическая агрессия»
3.21. В ячейку Name 3 напишем слово fa
3.22. Type
Numeric
3.23. Width –
8
3.24. Decimals:
2
3.25. Label:
FA
3.26. Values:
None
3.27. Missing: None
3.28. Columns:
8
3.29. Align:
Center
3.30. Measure: Scale
«Косвенная агрессия»
3.31. В ячейку Name 4 напишем слово na
3.32. Type
Numeric
3.33. Width –
8
3.34. Decimals:
2
3.35. Label:
NA
3.36. Values:
None
3.37. Missing: None
3.38. Columns:
8
3.39. Align:
Center
3.40. Measure: Scale
«Раздражение»
3.41. В ячейку Name 5 напишем слово k
3.42. Type
Numeric
3.43. Width –
8
3.44. Decimals:
2
3.45. Label:
K
3.46. Values:
None
3.47. Missing: None
3.48. Columns:
8
3.49. Align:
Center
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
192
3.50. Measure: Scale
И так далее. Укажем Name и Label:
Переменная
Name
Label
Самооценка
p
P
Физическая агрессия
Косвенная агрессия
Раздражение
Негативизм
fa
na
k
n
FA
NA
K
N
Переменная
Name
Label
Обида
av
Av
Подозрительность
Вербальная агрессия
Угрызения совести и чувство вины
ad
va
sp
Ad
VA
Sp
В результате должно получиться:
Рис.12.1.3. Вид переменных
В окно Data View скопировать данные из Excel.
Рис.12.1.4. Вид данных
(таблица далее продолжается).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
193
12.2. Описательная статистика и проверка нормальности
распределения
Analyze
Descriptive Statistics
Frecuencies
Убрать галочку с “Display frequencies tables”
Перенести переменные (кроме Kods [kod]) в окно “Variables”:
Statistics...
Расставить соответствующие галочки:
Quartiles, Mean, Median, Std.deviation, Variance, Range, Minimum, Maximum,
S.E. mean, Skewness, Kurtosis.
Continue
Charts...
Расставить соответствующие галочки:
Histograms, With normal curve
Continue
OK
Выходные данные
12.2.1. Показатели описательной статистики
Полученную Таблицу 12.2.1.1 желательно перевести в Excel, округлить показатели
описательной статистики до двух знаков после запятой и выделить все случаи, когда
показатели асимметрии и эксцесса по абсолютной величине превосходят свои стандартные
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
194
ошибки. В этих случаях распределение данных не соответствует нормальному
распределению. В результате получится Таблица 12.2.1.2.
Таблица 12.2.1.1
Описательная статистика (без округления)
P
N
FA
Valid
NA
K
N
Av
Az
VA
SP
145
145
145
145
145
145
145
145
145
Mean
62.2993
5.3586
4.6966
5.5586
2.8897
3.4069
3.6552
5.5034
3.9862
Std. Error of Mean
1.18526
.22095
.20065
.17089
.10592
.13149
.12471
.15602
.16081
Median
62.3300
5.0000
5.0000
5.0000
3.0000
3.0000
4.0000
6.0000
4.0000
14.27243 2.66061 2.41616 2.05776 1.27539 1.58332 1.50176 1.87870
1.93644
Missing
Std. Deviation
Variance
203.702
7.079
5.838
4.234
1.627
2.507
2.255
3.530
3.750
-.138
.042
.143
-.121
.169
.306
.644
-.260
-.044
.201
.201
.201
.201
.201
.201
.201
.201
.201
-.765
-1.380
-1.258
-.640
-.894
-.016
.517
-.404
-.322
.400
.400
.400
.400
.400
.400
.400
.400
.400
Range
60.34
10.00
8.00
8.00
5.00
8.00
8.00
8.00
9.00
Minimum
31.16
.00
1.00
1.00
.00
.00
1.00
1.00
.00
Maximum
91.50
10.00
9.00
9.00
5.00
8.00
9.00
9.00
9.00
25
52.9100
3.0000
2.0000
4.0000
2.0000
2.0000
2.0000
4.5000
2.0000
50
62.3300
5.0000
5.0000
5.0000
3.0000
3.0000
4.0000
6.0000
4.0000
75
71.5800
8.0000
7.0000
7.0000
4.0000
5.0000
5.0000
7.0000
5.0000
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Percentiles
В Таблице 12.2.1.2 отмечены случаи, когда показатели асимметрии и эксцесса по
абсолютной величине превосходят свои стандартные ошибки. В этих
распределение
данных
отличается
от
нормального
распределения.
случаях
Нормальное
распределение данных возможно только для переменной «SP».
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
195
Таблица 12.2.1.2
Описательные статистики
P
145
FA
145
NA
145
K
145
N
145
Av
145
Az
145
VA
145
SP
145
Mean
62.30
5.36
4.70
5.56
2.89
3.41
3.66
5.50
3.99
Std. Error of Mean
Median
1.19
62.33
0.22
5.00
0.20
5.00
0.17
5.00
0.11
3.00
0.13
3.00
0.12
4.00
0.16
6.00
0.16
4.00
14.27
203.70
2.66
7.08
2.42
5.84
2.06
4.23
1.28
1.63
0.04
0.20
-1.38
0.14
0.20
-1.26
-0.12
0.20
-0.64
0.17
0.20
-0.89
1.50
2.26
0.64
1.88
3.53
-0.26
1.94
3.75
-0.14
0.20
-0.77
1.58
2.51
0.31
0.20
0.20
0.52
0.20
-0.40
N
Valid
Missing
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
-0.04
0.20
0.40
0.40
0.40
0.40
0.40
-0.02
0.40
0.40
0.40
-0.32
0.40
Range
Minimum
60.34
31.16
10.00
0.00
8.00
1.00
8.00
1.00
5.00
0.00
8.00
0.00
8.00
1.00
8.00
1.00
9.00
0.00
Maximum
Percentiles 25
91.50
52.91
10.00
3.00
9.00
2.00
9.00
4.00
5.00
2.00
8.00
2.00
9.00
2.00
9.00
4.50
9.00
2.00
50
62.33
5.00
5.00
5.00
3.00
3.00
4.00
6.00
4.00
75
71.58
8.00
7.00
7.00
4.00
5.00
5.00
7.00
5.00
12.2.2. Гистограммы с нормальной кривой
Также появятся гистограммы
с
нормальной кривой
(Рис.12.2.2.1-12.2.2.9),
позволяющие визуально сравнить эмпирическое распределение данных с нормальным
распределением.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
196
Рис.12.2.2.1
Рис.12.2.2.2
Рис.12.2.2.3
Рис.12.2.2.4
Рис.12.2.2.5
Рис.12.2.2.6
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
197
Рис.12.2.2.7
Рис.12.2.2.8
Рис.12.2.2.9
12.2.3.
Критерий
Колмогорова-Смирнова
в
модификации
Лиллифора и критерий Шапиро-Уилкса
Analyze
Descriptive Statistics
Explore....
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
198
Рис.12.2.3.1. Диалоговое окно Explore
Перенести в Dependent List переменные (Рис.12.2.3.1)
Display Plots
Plots
Normally plots with tests (Рис. 12.2.3.2)
Continue
OK
Рис. 12.2.3.2. Заказ тестов на нормальность распределения
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
199
Сохранить выходной файл под именем S_A_Results.spv.
Выходные данные
Таблица 12.2.3.1
«Case Processing Summary» - Обработанные наблюдения
Cases
Valid
N
P
FA
NA
K
N
Av
Az
VA
SP
Missing
Percent
145
145
145
145
145
145
145
145
145
N
Total
Percent
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
N
.0%
.0%
.0%
.0%
.0%
.0%
.0%
.0%
.0%
Percent
145
145
145
145
145
145
145
145
145
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
Таблица 12.2.3.2
Tests of Normality (Тесты на нормальность)
Kolmogorov-Smirnova
Statistic
P
FA
NA
K
N
Av
Az
VA
SP
.085
.157
.137
.152
.185
.144
.189
.146
.172
df
Shapiro-Wilk
Sig.
145
145
145
145
145
145
145
145
145
.012
.000
.000
.000
.000
.000
.000
.000
.000
Statistic
.975
.913
.925
.950
.916
.944
.866
.959
.945
df
Sig.
145
145
145
145
145
145
145
145
145
.009
.000
.000
.000
.000
.000
.000
.000
.000
a. Lilliefors Significance Correction
Для ответа на вопрос, отличается ли распределение данных от нормального
распределения, необходимо проанализировать столбцы Таблицы 12.2.3.2 «Sig» – это
вероятность ошибки (р);
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
200
При Asymp.Sig.(2-tailed)<0,05 распределение значимо отличается от нормального
распределения.
Из Таблицы 12.2.3.2 видно, что распределение всех данных отличается от
нормального распределения.
Вместе с таблицей «Tests of Normality» появляются Normal Q-Q Plots –
(квантильные диаграммы Q-Q), по которым визуально можно определить, достаточно ли
близко заданное распределение приближается к нормальному распределению. Каждое
наблюдаемое значение сравнивается со значением, ожидаемым при нормальном
распределении. При условии точного выполнения нормального распределения все точки
лежат на прямой. На Рис. 12.2.3.3 эти диаграммы приведены для переменной FA
(физическая агрессия). По осям отложены процентили эмпирические (Х) и теоретические
(Y).37
Также появляются Detrended Normal Q-Q Plots (диаграммы с исключенным
трендом). На этих диаграммах изображены отклонения наблюдаемых значений от
ожидаемых значений при нормальном распределении в зависимости от наблюдаемых
значений. В случае нормального распределения все точки лежат на горизонтальной
прямой, проходящей через нуль. Все значения переведены в стандартизованные zоценки38. На Рис. 12.2.3.4 эти диаграммы приведены для переменной FA (физическая
агрессия).
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С.59-60.
38
Там же.
37
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
201
Рис. 12.2.3.3. Диаграмма диаграммы Q-Q.
Физическая агрессия.
Рис. 12.2.3.4. Диаграмма с
трендом. Физическая агрессия.
исключенным
12.2.4. Графическая иллюстрация: Boxplots
По переменной «Самооценка» и по шкалам агрессивности коробчатые диаграммы
заказываются отдельно. Процедура получения коробчатых диаграмм уже известная.
Получение коробчатых диаграмм
Analyze
Descriptive Statistics
Explore
Из списка зависимых переменных убрать P[p].
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
202
Plots
Plots
Рис.12.2.4.1. Заказ коробчатых диаграмм
Continue (Рис. 12.2.4.2)
OK
Повторить заказ, вернув переменную P[p] в список зависимых переменных и убрав из него
все остальные переменные.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
203
Рис. 12.2.4.2. Коробчатые диаграммы для шкал агрессивности
Рис. 12.2.4.3. Коробчатая диаграмма для самооценки
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
204
12.3. Вычисление коэффициентов корреляции
Если распределение данных между двумя переменными не отличается от
нормального, то вычисляют коэффициент корреляции Пирсона. Если распределение
данных хотя бы для одной из переменных отличается от нормального распределения, то
вычисляют коэффициенты ранговой корреляции Спирмена и τ (Тау)-Кендалла. В нашем
случае распределения всех переменных отличаются от нормального распределения.
Поэтому выбираем коэффициенты Спирмена и «Тау»-Кендалла.
Analyze
Correlate
Bivariate...
Переносим в окно Variables переменные и ставим галочки у Kendall’s tau-b и
Spearman (Рис.12.3.1)
OK
Рис.12.3.1. Заказ коэффициентов корреляции
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
205
Выходные данные
В результате получаем корреляционную матрицу, состоящую из двух частей:
коэффициенты корреляции Спирмена и коэффициенты корреляции Кендалла (Таблица
12.3.1).
Корреляционные
таблицы
симметричны
относительно
главной
диагонали
корреляционной матрицы (из верхнего левого угла – в правый нижний). Для определения
связи с самооценкой достаточно рассмотреть или первую строчку, или первый столбец
корреляционных матриц (Таблица 12.3.1). Все коэффициенты корреляции в первой строке
(соответственно в первом столбце) являются статистически незначимыми, поскольку все
Sig. (2-tailed) >0.05.
Поэтому монотонной связи не обнаружено. Возможно, что есть немонотонная
связь.
Если, все же, попробовать вычислить коэффициенты корреляции Пирсона
(поставив «галочку» у Pearson на Рис.12.3.1), то в результате получится корреляционная
матрица
(Таблица
12.3.2).
Коэффициент
корреляции
Пирсона
для
переменных
«Самооценка-Подозрительность», равный .166 оказался статистически значимым р = .046
< .05. Но вряд ли эту связь можно считать выявленной: ведь асимметрия по переменной
«Подозрительность» равна 0.644, что более, чем в три раза превышает ее стандартную
ошибку, равную 0.201. Кроме того, по корреляционной диаграмме «Самооценка Подозрительность» также трудно предположить существование связи.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
206
Таблица 12.3.1
Коэффициенты ранговой корреляции Спирмена и Кендалла для всей выборки
Correlations
P
Kendall's
tau_b
P
Correlation Coefficient
FA
1.000
.045
.979
.632
.213
.836
.490
.071
.851
.463
145
145
145
145
145
145
145
145
145
Correlation Coefficient
.002
1.000
.461**
.487** -.181**
-.035
.013
.388**
-.142*
Sig. (2-tailed)
.979
.026
.000
.000
.005
.589
.848
.000
145
145
145
145
145
145
145
145
145
-.028
.461**
1.000
.486** -.188**
-.044
.011
.319**
-.088
.632
.000
.167
145
145
145
-.075
.487**
.486**
.213
.000
.000
145
145
145
Correlation Coefficient
.013
-.181**
Sig. (2-tailed)
.836
.005
.004
.000
.121
.834
.000
145
145
145
145
145
145
145
145
145
Correlation Coefficient
.042
-.035
-.044
-.104
.103
1.000
-.019
-.045
.008
Sig. (2-tailed)
.490
.589
.498
.106
.121
.773
.487
.902
145
145
145
145
145
145
145
145
145
Correlation Coefficient
.112
.013
.011
-.030
-.014
-.019
1.000
.066
-.038
Sig. (2-tailed)
.071
.848
.865
.648
.834
.773
.320
.572
145
145
145
145
145
145
145
145
145
-.011
.388**
.319**
.338** -.230**
-.045
.066
1.000
-.006
.851
.000
.000
.000
.000
.487
.320
145
145
145
145
145
145
145
145
145
Correlation Coefficient
.045
-.142*
-.088
-.145*
-.054
.008
-.038
-.006
1.000
Sig. (2-tailed)
.463
.026
.167
.025
.419
.902
.572
.926
145
145
145
145
145
145
145
145
145
1.000
.018
-.027
-.111
.016
.060
.150
-.055
.060
.474
Correlation Coefficient
Correlation Coefficient
N
N
N
N
VA
Correlation Coefficient
Sig. (2-tailed)
N
SP
N
Spearman's P
rho
Correlation Coefficient
Sig. (2-tailed)
-.104
-.030
.338**
-.145*
.025
.000
.106
.648
.000
145
145
145
145
145
145
-.188** -.258**
1.000
.103
-.014 -.230**
-.054
.419
.926
.845
.474
.071
.508
145
145
145
145
145
Correlation Coefficient
.018
1.000
.628**
.644** -.233**
-.048
.017
.524**
-.183*
Sig. (2-tailed)
.826
.027
.000
.000
.005
.570
.840
.000
145
145
145
145
145
145
145
145
145
-.027
.628**
1.000
.627** -.239**
-.060
.014
.427**
-.115
.746
.000
.170
145
145
145
-.111
.644**
.627**
.183
.000
.000
145
145
145
Correlation Coefficient
.016
-.233**
Sig. (2-tailed)
.845
.005
.004
.000
.126
.839
.000
145
145
145
145
145
145
145
145
145
Correlation Coefficient
.060
-.048
-.060
-.132
.128
1.000
-.023
-.063
.007
Sig. (2-tailed)
.474
.570
.476
.112
.126
.781
.453
.929
145
145
145
145
145
145
145
145
145
Correlation Coefficient
.150
.017
.014
-.035
-.017
-.023
1.000
.083
-.047
Sig. (2-tailed)
.071
.840
.869
.679
.839
.781
.323
.573
145
145
145
145
145
145
145
145
145
-.055
.524**
.427**
.451** -.289**
-.063
.083
1.000
-.009
.508
.000
.000
.000
.000
.453
.323
145
145
145
145
145
145
145
145
145
Correlation Coefficient
.060
-.183*
-.115
-.184*
-.069
.007
-.047
-.009
1.000
Sig. (2-tailed)
.474
.027
.170
.026
.408
.929
.573
.910
145
145
145
145
145
145
145
145
Correlation Coefficient
Correlation Coefficient
N
N
Correlation Coefficient
Sig. (2-tailed)
N
SP
145
1.000 -.258**
145
N
VA
145
.183
N
Az
.000
145
145
Sig. (2-tailed)
Av
.865
145
.746
N
N
.498
145
145
Sig. (2-tailed)
K
.004
145
.826
N
NA
.000
145
N
FA
SP
-.011
Sig. (2-tailed)
Az
VA
.112
N
Av
Az
.042
Sig. (2-tailed)
N
Av
.013
N
K
N
-.075
N
NA
K
-.028
Sig. (2-tailed)
FA
NA
.002
N
.000
.004
.476
.869
.000
145
145
145
145
145
145
1.000 -.324**
-.132
-.035
.451**
-.184*
.026
.000
.112
.679
.000
145
145
145
145
145
145
-.239** -.324**
1.000
.128
-.017 -.289**
-.069
.408
.910
145
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
207
Таблица 12.3.2
Коэффициенты корреляции Пирсона для всей выборки
P
P
Pearson Correlation
1
Sig. (2-tailed)
N
145
FA Pearson Correlation
N
Av
Az
-.029
N
Av
Az
VA
*
SP
-.029
-.063
-.150
.052
.069
.073
.451
.072
.534
.411
.166
.046
-.093
.728
.264
.386
145
145
145
145
145
145
145
145
1
**
.672
.000
**
.668
.000
**
-.265
.001
-.065
.040
**
.440
-.203*
.015
Sig. (2-tailed)
.728
.634
.535
.000
N
145
145
145
145
145
145
145
145
145
-.063
**
**
**
.005
**
NA Pearson Correlation
K
Correlations
NA
K
FA
Sig. (2-tailed)
.451
.672
.000
1
N
145
145
-.150
**
Pearson Correlation
.632
.000
-.261
.002
-.069
.409
.948
.403
.000
-.149
145
145
145
145
145
145
145
**
.632
.000
1
**
-.355
.000
-.149
-.025
**
.073
-.186*
.025
.073
Sig. (2-tailed)
.072
.668
.000
.766
.426
.000
N
145
145
145
145
145
145
145
145
145
Pearson Correlation
.052
**
-.355
.000
1
.119
.056
**
.155
.502
-.272
.001
-.062
.534
-.261
.002
**
Sig. (2-tailed)
-.265
.001
**
N
145
145
145
145
145
145
145
145
145
Pearson Correlation
.069
-.065
-.069
-.149
.119
1
-.095
-.039
-.012
Sig. (2-tailed)
.411
.440
.409
.073
.155
.254
.641
.888
N
145
145
145
145
145
145
145
145
145
.166*
.046
.040
.005
-.025
.056
-.095
1
.042
-.057
.634
.948
.766
.502
.254
.614
.499
Pearson Correlation
Sig. (2-tailed)
N
VA Pearson Correlation
Sig. (2-tailed)
N
145
145
145
145
145
145
145
145
145
-.093
.535**
.000
.403**
.000
.426**
.000
-.272**
.001
-.039
.042
1
-.025
.641
.614
.264
.767
145
145
145
145
145
145
145
145
145
.073
-.149
-.062
-.012
-.057
-.025
1
.073
-.186*
.025
.455
.888
.499
.767
145
145
145
145
145
145
Sig. (2-tailed)
.386
-.203*
.015
N
145
145
SP Pearson Correlation
.455
145
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
12.4. Корреляционные диаграммы
Любая задача, связанная с исследованием связи, нуждается в изучении
корреляционных диаграмм (Рис.12.4.3-12.4.10).
Graphs
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
208
Legacy Dialogs
Scatter/Dot...
Рис.12.4.1. Заказ корреляционных диаграмм
Define
Появится диалоговое окно (Рис.12.4.2), в которое надо внести пару переменных,
связь между которыми изучается.
Рис.12.4.2. Заказ корреляционных диаграмм
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
209
OK
Рис. 12.4.3
Рис. 12.4.5
Рис. 12.4.4
Рис. 12.4.6
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
210
Рис. 12.4.7
Рис. 12.4.8
Рис. 12.4.9
Рис. 12.4.10
Статистически
незначимые
коэффициенты
корреляции
и
корреляционные
диаграммы свидетельствуют в пользу того, что связь между самооценкой и агрессией
может
оказаться
нелинейной.
Поэтому
есть
смысл
исследовать
нелинейные
корреляционные связи.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
211
12.5. Нелинейный регрессионный анализ. Выбор вида связи
регрессии
Регрессионный анализ будет подробно рассмотрен в п.22. Настоящий параграф
посвящен лишь одному из его аспектов - выбору вида связи.
При корреляционной связи точки на корреляционной диаграмме группируются
вдоль некоторой линии, которая "наилучшим" образом приближена ко всем точкам в
совокупности. Эта линия является графиком некоторой функции
ŷ = f ( x ) .
(12.5.1)
Уравнение (12.5.1) называют выборочным уравнением регрессии Y на Х, а график
функции ŷ = f ( x ) - выборочной линией регрессии Y на Х.
Если ŷ = f ( x ) линейная функция:
yˆ = f ( x ) = b0 + b1 x,
( b1 ≠ 0 ) ,
(12.5.2)
то уравнение (12.5.2) называют уравнением линейной регрессии, а график функции
ŷ = b0 + b1 x - прямой регрессии Y на Х.
Параметры линии регрессии определяют так, чтобы линия регрессии наилучшим
образом ложилась на полученную систему точек. Линию регрессии (Regression Line)
обычно строят «методом наименьших квадратов»: сумма квадратов отклонений
(вычисленных по оси Y) от каждой точки диаграммы рассеивания до линии является
минимальной.
Например, отклонением от точки
(xi ; y i )
до прямой регрессии с уравнением
ŷ = b0 + b1 x называют разность:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
212
ei = yi − yˆi = yi − ( b1 xi + b0 )
(Рис.12.5.1).
Фрагмент корреляционной диаграммы
Y
yi
ei
yˆi
(xi ; y i )
X
xi
Рис. 12.5.1. Фрагмент корреляционной диаграммы с прямой регрессии
С помощью компьютерной программы SPSS можно построить следующие линии
регрессии, которые наиболее часто встречаются на практике:
линейная модель (LIN):
ŷ = b0 + b1 x ,
(12.5.3)
квадратическая модель (QUA):
ŷ = b0 + b1 x + b2 x 2 ,
(12.5.4)
кубическая модель (CUB):
ŷ = b0 + b1 x + b2 x 2 + b3 x 3 .
(12.5.5)
Y – зависимая переменная (Dependent Variable);
Х – независимая переменная (Independent Variable).
Доля вариации зависимой переменной, обусловленная влиянием независимой
переменной, называется коэффициентом детерминации (R-square, Rsq).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
213
Коэффициент детерминации показывает, в какой степени изменчивость одной
переменной обусловлена влиянием другой переменной, а не случайными факторами.
Чем ближе R-square к единице, тем меньше разброс значений Y относительно линии
регрессии, тем сильнее зависимость Y от Х.
В случае линейной модели коэффициент детерминации совпадает с квадратом
2
коэффициента корреляции Пирсона: Rsq= rXY
.
Обработка на компьютере:
Analyze
Regression
Curve Estimation (Оценка с помощью кривой, подгон кривых)
В появившемся окне надо выбрать переменные по соответствующим осям и
поставить галочки у предлагаемых моделей функций: линейной, квадратической и
кубической.
Рис. 12.5.2. Заказ регрессионного анализа: линейная, квадратическая и кубическая модели
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
214
OK
Выходные данные для выбора линии регрессии
Самооценка – Физическая агрессия
Таблица 12.5.1
Описание модели (Model Description)
Model Name
Dependent Variable
Equation
1
1
2
3
Independent Variable
Constant
Variable Whose Values Label Observations in Plots
Tolerance for Entering Terms in Equations
MOD_1
FA
Linear
Quadratic
Cubic
P
Included
Unspecified
.0001
Таблица 12.5.2
Обработанные наблюдения (Case Processing Summary)
N
Total Cases
Excluded Casesa
Forecasted Cases
Newly Created Cases
145
a. Cases with a missing value in any variable are excluded from the analysis.
Таблица 12.5.3
Описание переменных (Variable Processing Summary)
Variables
Number of Positive Values
Number of Zeros
Number of Negative Values
Number of Missing Values
User-Missing
System-Missing
Dependent
Independent
FA
P
144
1
145
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
215
Таблица 12.5.4
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:FA
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.001
.121
1
143 .728
5.697
-.005
Quadratic
.502
71.538
2
142 .000
35.817
-1.044
.008
Cubic
.502
47.363
3
141 .000
36.821
-1.097
.009
-4.797E-6
The independent variable is P.
Рис.12.5.3. Корреляционная диаграмма с линиями линейной, квадратической и кубической
регрессии. Самооценка - физическая агрессия
Замечания:
1. Rsq - коэффициент детерминации. Коэффициенты детерминации равны:
для линейной модели: Rsq=0.000;
для квадратической модели: Rsq=0.502;
для кубической модели: Rsq=0.502.
2. В столбце «F» указаны наблюдаемые значения F-критерия для проверки
статистической значимости коэффициента детерминации Rsq.
3. По столбцу «Sigf» проверяется статистическая значимость коэффициента
детерминации.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
216
Если
Sigf <=0,05, то Rsq. значим,
Sigf <=0,01, то Rsq. очень значим,
Sigf =0,001, то Rsq. максимально значим.
Максимально
значимые
коэффициенты
детерминации
Rsq.
имеются
для
квадратической и кубической моделей.
4. Столбцы b0, b1, b2, b3 – это значения параметров в соответствующих уравнениях
регрессии.
Таблица 12.5.5
Регрессионные модели в задаче связи независимой переменной – самооценки и зависимой
переменной – физической агрессии
Модели
Линейная
Уравнение в общем
виде
ŷ = b0 + b1 x
Полученное уравнение
yˆ = −0.005 + 5.697 ⋅ x
Квадратическая
ŷ = b0 + b1 x + b2 x 2
yˆ = 35.817 − 1.044 x + 0.008 x 2
Кубическая
ŷ = b0 + b1 x + b2 x 2 + b3 x 3
yˆ = 36.821 − 1.097 x + 0.009 x 2 − 0.000005 x3
Переменная x- это самооценка, а переменная y- физическая агрессия.
В данном случае квадратическая модель мало отличается от кубической, но
является более простой, поэтому выбираем квадратическую модель.
5. Уравнение yˆ = 35.817 − 1.044 x + 0.008 x 2 может служить для прогноза агрессии по
самооценке. Например, если показатель самооценки некоторого подростка равен x=40, то
прогнозируемый показатель этой агрессии будет равен:
yˆ = 35.817 − 1.044 ⋅ 40 + 0.008 ⋅1600 = 6.857 ≈ 6.9 , (Рис.12.5.3).
6. Как видно из графика, квадратическая линия и кубическая практически
неразличимы.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
217
Физическая агрессия - Самооценка
Меняем переменные «Самооценка» и «Физическая агрессия» местами.
Analyze
Regression
Curve Estimation
Рис. 12.5.4. Заказ регрессионного анализа: переменные меняются местами
OK
Таблица 12.5.6
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:P
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.001
.121
1
143
.728
63.137
-.156
Quadratic
.002
.128
2
142
.880
64.894
-1.010
.079
Cubic
.019
.921
3
141
.432
53.761
8.314
-2.007
The independent variable is FA.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
218
.133
Статистически значимых отличий коэффициента детерминации от нуля не
выявлено. При изменении физической агрессии самооценка у подростков меняется
случайным образом.
Рис. 12.5.5. Корреляционная диаграмма с линиями линейной, квадратической и кубической
регрессии. Физическая агрессия - самооценка
Аналогичное исследование проводим для оставшихся случаев.
Самооценка – Косвенная агрессия
Таблица 12.5.7
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:NA
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.004
.572
1
143
.451
5.362
-.011
Quadratic
.443
56.366
2
142
.000
30.953
-.893
.007
Cubic
.443
37.437
3
141
.000
26.663
-.666
.003
The independent variable is P.
Выбираем квадратическую модель (Рис.12.5.6).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
219
2.051E-5
Косвенная агрессия - Самооценка
Таблица 12.5.8
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:P
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.004
.572
1
143
.451
64.050
-.373
Quadratic
.006
.412
2
142
.663
61.878
.811
-.122
Cubic
.007
.325
3
141
.807
58.794
3.587
-.781
.045
The independent variable is NA.
При изменении косвенной агрессии самооценка меняется случайным образом. (Рис.12.5.7).
Рис.12.5.7. Косвенная агрессия - Самооценка
Рис.12.5.6. Самооценка - Косвенная агрессия
Самооценка – Раздражение
Таблица 12.5.9
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:K
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.022
3.288
1
143
.072
6.905
-.022
Quadratic
.416
50.539
2
142
.000
27.546
-.733
.006
Cubic
.417
33.652
3
141
.000
22.746
-.480
.002
The independent variable is P.
Выбираем квадратическую модель (Рис.12.5.8).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
220
2.295E-5
Раздражение - Самооценка
Таблица 12.5.10
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:P
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.022
3.288
1
143
.072
68.080
-1.040
Quadratic
.034
2.470
2
142
.088
60.232
2.329
-.310
Cubic
.039
1.900
3
141
.132
50.899
9.811
-1.950
.105
The independent variable is K.
При изменении «раздражения» самооценка меняется случайным образом. (Рис.12.5.9).
Рис.12.5.9. Раздражение - Самооценка
Рис.12.5.8. Самооценка - Раздражение
Самооценка – Негативизм
Таблица 12.5.11
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:N
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.003
.390
1
143
.534
2.599
.005
Quadratic
.042
3.101
2
142
.048
-1.436
.144
-.001
Cubic
.043
2.117
3
141
.101
-4.229
.291
-.004
Возможна квадратическая модель (Рис.12.5.10).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
221
1.335E-5
Негативизм - Самооценка
Таблица 12.5.12
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:P
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.003
.390
1
143
.534
60.614
.583
Quadratic
.004
.304
2
142
.739
63.073
-1.422
.335
Cubic
.021
1.017
3
141
.387
50.581
17.105
-7.109
.861
The independent variable is N.
При изменении негативизма самооценка меняется случайным образом. (Рис.12.5.11).
Рис.12.5.10. Самооценка - Негативизм
Рис.12.5.11. Негативизм - Самооценка
Самооценка – Обида
Таблица 12.5.13
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:Av
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.005
.681
1
143
.411
2.931
.008
Quadratic
.029
2.143
2
142
.121
-1.037
.144
-.001
Cubic
.031
1.518
3
141
.212
3.338
-.087
.003
The independent variable is P.
При изменении самооценки «обида» меняется случайным образом. (Рис.12.5.12).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
222
-2.092E-5
Обида - Самооценка
Таблица 12.5.14
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:P
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.005
.681
1
143
.411
60.185
.621
Quadratic
.007
.516
2
142
.598
62.430
-.902
.209
Cubic
.010
.474
3
141
.701
65.741
-4.647
1.297
-.089
The independent variable is Av.
При изменении «обиды» самооценка меняется случайным образом (Рис.12.5.13).
Рис.12.5.13. Обида - Самооценка
Рис.12.5.12. Самооценка - Обида
Самооценка – Подозрительность
Таблица 12.5.15
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:Az
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.028
4.061
1
143
.046
2.566
.017
Quadratic
.029
2.110
2
142
.125
1.717
.047
.000
Cubic
.033
1.628
3
141
.186
8.035
-.287
.005
The independent variable is P.
Возможна линейная модель (Рис.12.5.14).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
223
-3.020E-5
Подозрительность - Самооценка
Таблица 12.5.16
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:P
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.028
4.061
1
143
.046
56.527
1.579
Quadratic
.029
2.149
2
142
.120
59.250
.038
.186
Cubic
.031
1.486
3
141
.221
52.075
5.904
-1.176
.093
The independent variable is Az.
Возможна линейная модель (Рис.12.5.15).
Рис.12.5.14. Самооценка - Подозрительность
Рис. 12.5.15. Подозрительность - Самооценка
Самооценка – Вербальная агрессия
Таблица Таблица 12.5.17
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:VA
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.009
1.258
1
143
.264
6.269
-.012
Quadratic
.239
22.352
2
142
.000
20.702
-.510
.004
Cubic
.242
15.042
3
141
.000
14.327
-.173
-.002
The independent variable is P.
Выбираем квадратическую модель (Рис.12.5.16).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
224
3.048E-5
Вербальная агрессия - Самооценка
Таблица 12.5.18
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:P
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.009
1.258
1
143
.264
66.204
-.710
Quadratic
.151
12.676
2
142
.000
36.024
12.455
-1.251
Cubic
.192
11.201
3
141
.000
67.375
-11.352
3.820
-.322
The independent variable is VA.
Выбираем квадратическую модель (Рис.12.5.17).
Рис.12.5.16. Самооценка - Вербальная агрессия
Рис.12.5.17. Вербальная агрессия - Самооценка
Самооценка – Угрызения совести, чувство вины
Таблица 12.5.19
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:SP
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.005
.757
1
143
.386
3.373
.010
Quadratic
.037
2.742
2
142
.068
-2.160
.201
-.002
Cubic
.043
2.087
3
141
.105
6.581
-.261
.006
The independent variable is P.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
225
-4.179E-5
При изменении самооценки «угрызения совести» меняются случайным образом
(Рис.12.5.18).
Угрызения совести, чувство вины - Самооценка
Таблица 12.5.20
Описание модели и параметры оценок (Model Summary and Parameter Estimates)
Dependent Variable:P
Model Summary
Equation
R Square
F
df1
Parameter Estimates
df2
Sig.
Constant
b1
b2
b3
Linear
.005
.757
1
143
.386
60.167
.535
Quadratic
.006
.441
2
142
.644
61.230
-.174
.090
Cubic
.009
.428
3
141
.733
58.934
2.715
-.719
The independent variable is SP.
При изменении
(Рис.12.5.19).
«угрызений
совести»
Рис.12.5.18. Самооценка - Угрызения совести
самооценка
меняется
случайным
образом
Рис.12.5.19. Угрызения совести - Самооценка
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
226
.062
12.6. Графическая иллюстрация результатов регрессионного
анализа
Отобразим линии регрессии на корреляционных диаграммах
для связей,
предполагаемых на основании результатов регрессионного анализа.
Graphs
Legacy Dialogs
Scatter/Dot...
Simple Scatter (Рис.12.6.1).
Define
Появится диалоговое окно (Рис.12.6.1), в которое надо внести пару переменных,
связь между которыми изучается.
Continue
OK
Двойным щелчком левой клавиши мыши на изображении графика, надо вызвать
окно редактора диаграмм (Chart editor) (Рис.12.6.1).
Рис.12.6.1. Редактор графиков
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
227
На верхней панели инструментов нажать на
. Появится диалоговое окно, на
котором надо выбрать линию квадратической регрессии (Quadratic) (Рис. 12.6.2).
Рис.12.6.2. Выбор линии регрессии
Apply
В редакторе диаграмм появится корреляционная диаграмма с квадратической
линией регрессии, наилучшим способом приближенная ко всем точкам в совокупности, с
указанием коэффициента детерминации Rsq=0.502.
Закрыв редактор диаграмм, мы должны получить корреляционную диаграмму с
параболой (Рис.12.6.3).
Если данную связь подтвердить с помощью коэффициентов корреляции, то можно
будет сделать вывод:
•
для группы участников с низкой самооценкой при увеличении самооценки
физическая агрессия уменьшается;
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
228
•
для группы участников с адекватной самооценкой при увеличении самооценки
физическая агрессия меняется случайным образом;
•
для группы участников с высокой самооценкой при увеличении самооценки
физическая агрессия увеличивается.
Аналогичным образом получим остальные диаграммы (Рис.12.6.4-12.6.9).
Рис. 12.6.3. Корреляционная диаграмма с линией регрессии: самооценка – физическая
агрессия.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
229
Рис.12.6.4. Корреляционная диаграмма с линией регрессии: самооценка – косвенная
агрессия.
Рис.12.6.5. Корреляционная диаграмма с линией регрессии: самооценка – раздражение.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
230
Рис.12.6.6. Корреляционная диаграмма с линией регрессии: самооценка – негативизм.
Рис.12.6.7. Корреляционная
подозрительность.
диаграмма
с
линией
регрессии:
самооценка
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
–
231
Рис.12.6.8. Корреляционная диаграмма с линией регрессии: самооценка – вербальная
агрессия.
Рис.12.6.9. Корреляционная диаграмма с линией регрессии: вербальная агрессия самооценка.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
232
Таким образом, с помощью регрессионного анализа показано, что в некоторых
случаях возможна нелинейная немонотонная связь квадратического типа. Для ее
обоснования можно поступать двояким образом:
1. По диаграмме рассеивания находятся точки интервалы монотонности. Выборка
делится на группы, различающиеся направлением связи между переменными. После этого
вычисляются коэффициенты корреляции для каждой группы.
2.
От
коэффициентов
корреляции
отказываются.
Вводят
номинативную
переменную, которая делит выборку на контрастные группы по одной из переменных.
Далее
изучаются
различия
между группами
по
уровню
выраженности
другой
переменной39.
3. По одной из переменных переходят:
§
к низким и высоким показателям или
§
к низким, средним и высоким показателям.
Переход лучше всего осуществлять в соответствии с методикой, при условии, что
эта методика адаптирована к соответствующим участникиым.
В каждой из трех групп вычисляют коэффициенты корреляции.
12.7. Переход к низким и к высоким показателям
Переход к низким, высоким и средним показателям правильнее всего осуществлять
с помощью методик измерения. Если, по каким-либо причинам в методике нормы не
указаны, или неясно, насколько методика адаптирована, то можно осуществлять разбивку
по выборочным данным.
Если
распределение
выборочных
данных
соответствует
нормальному
распределению, то разбивка данных на две группы может осуществляться с помощью
выборочного среднего x . Если оценки по тесту выше x , то их называют «выше среднего
уровня». Если ниже x , то «ниже среднего уровня» (Таблица 12.7.1).
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб.: Речь. С.89.
39
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
233
Если
распределение
выборочных
данных
не
соответствует
нормальному
распределению, то разбивка данных на две группы может осуществляться с помощью
медианы Mdn. Если оценки по тесту выше Mdn, то их называют «выше среднего уровня».
Если ниже Mdn, то «ниже среднего уровня» (Таблица 12.7.1).
Таблица 12.7.1
Разбивка данных на две группы: «выше среднего уровня» и «ниже среднего уровня»
В случае нормального
распределения данных
В любых случаях40
Если
распределение
Показатели
ниже среднего уровня
Ниже x
Показатели
выше среднего уровня
Выше x
Ниже Mdn
Выше Mdn
выборочных
данных
соответствует
нормальному
распределению, то разбивка данных на три группы может осуществляться с помощью
выборочного среднего x и стандартного отклонения s X . Если оценки по тесту выше
x + s X , то их называют «высокими». Если они находятся в интервале ( x − s X ; x − s X ) , то
они считаются «средними». Если ниже x − s X , то оценки «низкие» (Таблица 12.7.1).
Если
распределение
выборочных
данных
не
соответствует
нормальному
распределению, то разбивка данных на три группы может осуществляться с помощью
квартилей Q1 и Q3 Если оценки по тесту выше Q3 , то их называют «высокими». Если они
находятся в интервале от Q1 до Q3 , то они считаются «средними». Если ниже Q1 , то
оценки «низкие» (Таблица 12.7.2).
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб: Речь. C.43.
40
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
234
Таблица 12.7.2
Разбивка данных на три группы:«высокий», «средний» и «низкий» уровень
В случае нормального
распределения данных
В любых случаях41
Низкие
показатели
( x − 3s x ; x − s x )
Средние
показатели
( x − sx ; x + sx )
Высокие
показатели
( x + sx ; x + 3sx )
Ниже Q1 = P25
( Q1 ; Q3 )
Выше Q3 = P75
12.7.1. Анализ двух групп самооценки
В данном исследовании распределение всех данных статистически значимо
отличается от нормального распределения. Поэтому разбивка самооценки на две группы
будет осуществляться с помощью медианы. Из Таблицы 12.2.1.2 находим, что Mdn=62.33.
Это значит, что 50% оценок не превышает 62.33.
Ø Значение показателя, который меньше Mdn=62.33 будем считать показателем
самооценки ниже среднего уровня, «низкой самооценкой»;
Ø Значение показателя, который больше Mdn=62.33 будем считать показателем
самооценки выше среднего уровня, «высокой самооценкой»;
Низким показателям самооценки присвоим значение „1”. Высоким показателям
самооценки присвоим значение „2”.
Разбиение данных осуществляется автоматически, с помощью программы Syntax.
Откроем новое окно синтакса:
File
New
Syntax
и напишем здесь следующий текст программы (Рис.12.7.1.1):
41
Там же.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
235
if (p<=62.33) p1_ind=1 .
if (p>62.33) p1_ind=2 .
variable labels p1_ind 'P'.
value labels p1_ind 1 'Zems'
2 'Augsts'.
execute.
Рис. 12.7.1.1. Переход к низкому и высокому уровню самооценки. Ввод данных
Сохраним полученный файл синтаксиса под именем M_of_Syntax_SA.sps.
Для того, чтобы программа выполнила необходимые действия необходимо
ВЫДЕЛИТЬ ВЕСЬ ТЕКСТ (Edit – Select All) и нажать Run (пуск), All (Рис. 12.7.1.2).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
236
Рис. 12.7.1.2. Запуск программы
После выполнения всех выше перечисленных действий в наш исходный файл “
Samoocenka_Agresija.sav” автоматически будет добавлен один столбец данных. Появится
новая переменная с названием р1_ind, меткой (Label) P и значениями 1 – zems (низкий
уровень самооценки) и 2 – augsts - высокий уровень. Останется только поставить число
знаков после запятой (Decimals) равным нулю и выбрать Nominal Measure. (Рис. 12.7.1.3).
Рис. 12.7.1.3. Вид переменных с новой переменной p1_ind.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
237
Рис. 12.7.1.4. Вид данных с новой переменной p1_ind.
Полученный файл сохраним как (Save as) Samoocenka_Agressija_M.sav.
Расщепление файла
Для того, чтобы выбрать правильные коэффициенты корреляции, повторим
исследование данных для каждого из уровней самооценки. Разобьем файл на две группы:
Data
Split File
Organize output by groups
Рис. 12.7.1.5. Расщепление файла по группам самооценки
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
238
OK
Описательные статистики:
Analyze
Descriptive Statistics
Frequencies…
Рис. 12.7.1.6. Ввод переменных
Statistics
Рис. 12.7.1.7. Заказ показателей описательной статистики
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
239
OK
Таблица 12.7.1.1
Описательные статистики для участников с низкой самооценкой
P
N
73
73
NA
73
50.78
5.30
1.05
Valid
Missing
Mean
Std. Error of Mean
Median
Std. Deviation
FA
K
N
VA
73
73
73
4.78
5.62
2.93
5.58
0.31
0.28
0.26
0.15
0.25
53.82
5.00
5.00
5.00
3.00
5.00
8.96
2.64
2.39
2.21
1.26
2.12
Variance
80.31
6.99
5.73
4.88
1.59
4.50
Skewness
-0.30
-0.05
0.08
-0.24
0.05
-0.10
Std. Error of Skewness
0.28
0.28
0.28
0.28
0.28
0.28
-1.19
-1.34
-1.25
-0.75
-0.74
-0.81
0.56
0.56
0.56
0.56
0.56
0.56
Range
31.17
9.00
8.00
8.00
5.00
8.00
Minimum
31.16
0.00
1.00
1.00
0.00
1.00
Maximum
62.33
9.00
9.00
9.00
5.00
9.00
Percentiles 25
42.42
3.00
2.00
4.00
2.00
4.00
50
53.82
5.00
5.00
5.00
3.00
5.00
75
59.16
8.00
7.00
7.50
4.00
7.00
Kurtosis
Std. Error of Kurtosis
a. P = Zems
Таблица 12.7.1.2
Описательные статистики для участников с высокой самооценкой
P
N
Valid
Missing
72
FA
72
NA
72
73.98
5.42
0.89
0.32
71.58
7.55
K
N
VA
72
72
72
4.61
5.50
2.85
5.43
0.29
0.22
0.15
0.19
5.00
4.00
5.00
3.00
6.00
2.69
2.45
1.91
1.30
1.61
57.03
7.26
6.02
3.63
1.68
2.59
Skewness
0.43
0.13
0.21
0.04
0.29
-0.72
Std. Error of Skewness
0.28
0.28
0.28
0.28
0.28
0.28
-0.71
-1.45
-1.25
-0.48
-0.99
0.11
0.56
0.56
0.56
0.56
0.56
0.56
Range
29.00
9.00
8.00
7.00
4.00
7.00
Minimum
62.50
1.00
1.00
2.00
1.00
1.00
Maximum
91.50
10.00
9.00
9.00
5.00
8.00
Percentiles 25
68.87
3.00
2.00
4.00
2.00
5.00
50
71.58
5.00
4.00
5.00
3.00
6.00
75
79.79
8.00
7.00
7.00
4.00
7.00
Mean
Std. Error of Mean
Median
Std. Deviation
Variance
Kurtosis
Std. Error of Kurtosis
a. P = Augsts
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
240
В Таблицах 12.7.1.1 и 12.7.1.2 отмечены случаи, когда показатели асимметрии и
эксцесса
превышают
свои
стандартные
ошибки.
В
этих
случаях
нормального
распределения точно нет.
Получение гистограмм с нормальными кривыми
Для экономии места можно получить диаграммы с нормальной кривой для низкой и
высокой самооценки на одном рисунке. Для этого нужно, чтобы файл данных не был бы
разбит на две группы:
Data
Split file...
Reset
OK.
После чего можно заказывать гистограммы:
Graphs
Legacy Dialogs
Histogram…
Рис.12.7.1.8. Заказ гистограмм с нормальной кривой
Появится диалоговое окно (Рис.12.7.1.8). Для построения гистограмм с нормальной
кривой по P[p] переменную P[p] надо перенести в окно «Variable», переменную P[p1_ind] –
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
241
в окно «Columns», а в окошке «Display normal curve» надо поставить галочку и нажать
кнопку ОК.
После чего появится рисунок с двумя гистограммами (Рис. 12.7.1.9).
Ту же самую процедуру надо проделать для всех остальных переменных (Рис.
12.7.1.10-12.7.1.14.)
Рис.12.7.1.9. Гистограммы с нормальной кривой по переменной «Самооценка» для
высокой и низкой самооценок
На Рис.12.7.1.9-12.7.1.14 изображены гистограммы с нормальной кривой для
визуального сравнения с нормальным распределением.
Рис.12.7.1.10. Гистограммы с нормальной кривой по переменной «Физическая агрессия»
для высокой и низкой самооценок
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
242
Рис.12.7.1.11. Гистограммы с нормальной кривой по переменной «Косвенная агрессия»
для высокой и низкой самооценок
Рис.12.7.1.12. Гистограммы с нормальной кривой по переменной «Раздражение» для
высокой и низкой самооценок
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
243
Рис.12.7.1.13. Гистограммы с нормальной кривой по переменной «Негативизм» для
высокой и низкой самооценок
Рис.12.7.1.14. Гистограммы с нормальной кривой по переменной «Вербальная агрессия»
для высокой и низкой самооценок
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
244
Тесты на нормальность распределения:
Analyze
Descriptive Statistics
Explore…
Рис. 12.7.1.15. Заказ тестов на нормальность распределения
Plots
Рис.12.7.1.16. Заказ тестов на нормальность распределения
Continue
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
245
OK
Таблица 12.7.1.3
Тесты на нормальность распределения (Tests of Normality)
Kolmogorov-Smirnova
P
P
FA
NA
K
N
VA
Statistic
df
Shapiro-Wilk
Sig.
Statistic
df
Sig.
Zems
.140
73
.001
.908
73
.000
Augsts
.148
72
.001
.953
72
.009
Zems
.161
73
.000
.915
73
.000
Augsts
.159
72
.000
.900
72
.000
Zems
.151
73
.000
.926
73
.000
Augsts
.147
72
.001
.922
72
.000
.944
73
.003
Zems
.145
73
.001
Augsts
.159
72
.000
.941
72
.002
Zems
.167
73
.000
.927
73
.000
Augsts
.202
72
.000
.897
72
.000
Zems
.127
73
.005
.951
73
.007
Augsts
.180
72
.000
.922
72
.000
a. Lilliefors Significance Correction
Тесты Колмогорова-Смирнова с поправкой Лиллифора и Шапиро-Уилкса показали
несоответствие распределения данных нормальному распределению.
Построение коробчатых диаграмм
Analyze
Descriptive Statistics
Explore…
Убрать самооценку Р из списка переменных (Dependent List).
Plots
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
246
Рис. 12.7.1.17. Заказ коробчатых диаграмм
Continue
OK
Рис. 12.7.1.18. Коробчатые диаграммы
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
247
Заказать коробчатую диаграмму для самооценки.
Рис. 12.7.1.19. Коробчатая диаграмма для самооценки
Вычисление коэффициентов корреляции
Распределения данных не соответствует нормальному распределению Поэтому
надо вычислять непараметрические коэффициенты корреляции Спирмена и Кендалла.
Расщепление данных:
Data
Split File
Organize output by groups
В окно переменных ввести P[p_ind]
OK
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
248
Analyze
Correlate
Bivariate…
Рис.12.7.1.20. Заказ коэффициентов корреляции
OK
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
249
Таблица 12.7.1.4
Корреляционная матрица. Низкая самооценка
a
Correlations
Kendall's tau_b P
FA
NA
K
N
Ap
Az
VA
SP
Spearman's rho P
FA
NA
K
N
Ap
Az
VA
SP
P
Correlation Coefficient 1.000
Sig. (2-tailed)
.
N
73
Correlation Coefficient -.520**
Sig. (2-tailed)
.000
N
73
Correlation Coefficient -.513**
Sig. (2-tailed)
.000
N
73
Correlation Coefficient -.584**
Sig. (2-tailed)
.000
N
73
Correlation Coefficient .202*
Sig. (2-tailed)
.022
N
73
Correlation Coefficient .131
Sig. (2-tailed)
.133
N
73
Correlation Coefficient .016
Sig. (2-tailed)
.856
N
73
Correlation Coefficient -.389**
Sig. (2-tailed)
.000
N
73
Correlation Coefficient .171*
Sig. (2-tailed)
.049
N
73
Correlation Coefficient 1.000
Sig. (2-tailed)
.
N
73
Correlation Coefficient -.724**
Sig. (2-tailed)
.000
N
73
Correlation Coefficient -.681**
Sig. (2-tailed)
.000
N
73
Correlation Coefficient -.765**
Sig. (2-tailed)
.000
N
73
Correlation Coefficient .276*
Sig. (2-tailed)
.018
N
73
Correlation Coefficient .181
Sig. (2-tailed)
.126
N
73
Correlation Coefficient .022
Sig. (2-tailed)
.853
N
73
Correlation Coefficient -.537**
Sig. (2-tailed)
.000
N
73
Correlation Coefficient .229
Sig. (2-tailed)
.052
N
73
FA
-.520**
.000
73
1.000
.
73
.434**
.000
73
.585**
.000
73
-.304**
.001
73
-.049
.594
73
.002
.984
73
.413**
.000
73
-.184*
.043
73
-.724**
.000
73
1.000
.
73
.587**
.000
73
.757**
.000
73
-.387**
.001
73
-.058
.625
73
.003
.978
73
.569**
.000
73
-.236*
.045
73
NA
-.513**
.000
73
.434**
.000
73
1.000
.
73
.582**
.000
73
-.273**
.003
73
-.031
.737
73
.039
.677
73
.379**
.000
73
-.070
.440
73
-.681**
.000
73
.587**
.000
73
1.000
.
73
.730**
.000
73
-.339**
.003
73
-.038
.750
73
.052
.664
73
.485**
.000
73
-.089
.452
73
K
-.584**
.000
73
.585**
.000
73
.582**
.000
73
1.000
.
73
-.371**
.000
73
-.058
.523
73
.028
.768
73
.431**
.000
73
-.072
.433
73
-.765**
.000
73
.757**
.000
73
.730**
.000
73
1.000
.
73
-.464**
.000
73
-.071
.550
73
.034
.773
73
.580**
.000
73
-.090
.448
73
N
.202*
.022
73
-.304**
.001
73
-.273**
.003
73
-.371**
.000
73
1.000
.
73
.200*
.034
73
-.045
.646
73
-.324**
.000
73
-.004
.968
73
.276*
.018
73
-.387**
.001
73
-.339**
.003
73
-.464**
.000
73
1.000
.
73
.250*
.033
73
-.048
.686
73
-.413**
.000
73
-.007
.951
73
Ap
.131
.133
73
-.049
.594
73
-.031
.737
73
-.058
.523
73
.200*
.034
73
1.000
.
73
.085
.377
73
-.042
.649
73
.079
.399
73
.181
.126
73
-.058
.625
73
-.038
.750
73
-.071
.550
73
.250*
.033
73
1.000
.
73
.103
.388
73
-.060
.614
73
.101
.394
73
Az
.016
.856
73
.002
.984
73
.039
.677
73
.028
.768
73
-.045
.646
73
.085
.377
73
1.000
.
73
.026
.784
73
-.015
.873
73
.022
.853
73
.003
.978
73
.052
.664
73
.034
.773
73
-.048
.686
73
.103
.388
73
1.000
.
73
.033
.784
73
-.019
.872
73
VA
-.389**
.000
73
.413**
.000
73
.379**
.000
73
.431**
.000
73
-.324**
.000
73
-.042
.649
73
.026
.784
73
1.000
.
73
-.019
.839
73
-.537**
.000
73
.569**
.000
73
.485**
.000
73
.580**
.000
73
-.413**
.000
73
-.060
.614
73
.033
.784
73
1.000
.
73
-.023
.846
73
SP
.171*
.049
73
-.184*
.043
73
-.070
.440
73
-.072
.433
73
-.004
.968
73
.079
.399
73
-.015
.873
73
-.019
.839
73
1.000
.
73
.229
.052
73
-.236*
.045
73
-.089
.452
73
-.090
.448
73
-.007
.951
73
.101
.394
73
-.019
.872
73
-.023
.846
73
1.000
.
73
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).
a. P = zems
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
250
Таблица 12.7.1.5
Корреляционная матрица. Высокая самооценка
a
Correlations
Kendall's tau_b P
FA
NA
K
N
Ap
Az
VA
SP
Spearman's rhoP
FA
NA
K
N
Ap
Az
VA
SP
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
P
1.000
.
72
.485**
.000
72
.496**
.000
72
.380**
.000
72
-.042
.635
72
-.062
.477
72
.042
.637
72
.427**
.000
72
-.085
.330
72
1.000
.
72
.701**
.000
72
.686**
.000
72
.522**
.000
72
-.058
.631
72
-.086
.473
72
.055
.647
72
.555**
.000
72
-.114
.342
72
FA
.485**
.000
72
1.000
.
72
.495**
.000
72
.388**
.000
72
-.063
.495
72
-.029
.752
72
.028
.761
72
.358**
.000
72
-.109
.232
72
.701**
.000
72
1.000
.
72
.674**
.000
72
.515**
.000
72
-.085
.476
72
-.038
.752
72
.035
.769
72
.466**
.000
72
-.140
.242
72
NA
.496**
.000
72
.495**
.000
72
1.000
.
72
.388**
.000
72
-.120
.196
72
-.073
.428
72
-.005
.960
72
.239**
.009
72
-.104
.255
72
.686**
.000
72
.674**
.000
72
1.000
.
72
.519**
.000
72
-.154
.196
72
-.094
.433
72
-.008
.947
72
.341**
.003
72
-.136
.253
72
K
.380**
.000
72
.388**
.000
72
.388**
.000
72
1.000
.
72
-.144
.125
72
-.168
.072
72
-.087
.353
72
.178
.055
72
-.232*
.012
72
.522**
.000
72
.515**
.000
72
.519**
.000
72
1.000
.
72
-.181
.127
72
-.211
.076
72
-.111
.352
72
.233*
.049
72
-.295*
.012
72
N
-.042
.635
72
-.063
.495
72
-.120
.196
72
-.144
.125
72
1.000
.
72
.014
.882
72
.028
.773
72
-.123
.195
72
-.092
.329
72
-.058
.631
72
-.085
.476
72
-.154
.196
72
-.181
.127
72
1.000
.
72
.017
.890
72
.036
.761
72
-.148
.213
72
-.125
.297
72
Ap
-.062
.477
72
-.029
.752
72
-.073
.428
72
-.168
.072
72
.014
.882
72
1.000
.
72
-.143
.133
72
-.037
.695
72
-.038
.681
72
-.086
.473
72
-.038
.752
72
-.094
.433
72
-.211
.076
72
.017
.890
72
1.000
.
72
-.178
.135
72
-.054
.653
72
-.059
.623
72
Az
.042
.637
72
.028
.761
72
-.005
.960
72
-.087
.353
72
.028
.773
72
-.143
.133
72
1.000
.
72
.133
.161
72
-.062
.515
72
.055
.647
72
.035
.769
72
-.008
.947
72
-.111
.352
72
.036
.761
72
-.178
.135
72
1.000
.
72
.171
.150
72
-.076
.523
72
VA
.427**
.000
72
.358**
.000
72
.239**
.009
72
.178
.055
72
-.123
.195
72
-.037
.695
72
.133
.161
72
1.000
.
72
.011
.907
72
.555**
.000
72
.466**
.000
72
.341**
.003
72
.233*
.049
72
-.148
.213
72
-.054
.653
72
.171
.150
72
1.000
.
72
.014
.906
72
SP
-.085
.330
72
-.109
.232
72
-.104
.255
72
-.232*
.012
72
-.092
.329
72
-.038
.681
72
-.062
.515
72
.011
.907
72
1.000
.
72
-.114
.342
72
-.140
.242
72
-.136
.253
72
-.295*
.012
72
-.125
.297
72
-.059
.623
72
-.076
.523
72
.014
.906
72
1.000
.
72
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).
a. P = augsts
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
251
Построение корреляционных диаграмм с прямыми регрессии
Убрать расщепление файла:
Data
Split File
Reset
OK
Graphs
Legacy Dialogs
Scatter/Dot...
Рис. 12.7.1.21. Заказ корреляционных диаграмм
Define
Появится диалоговое окно (Рис.12.7.22), в которое надо внести пару переменных,
связь между которыми изучается.
Рис.12.7.1.22. Заказ корреляционных диаграмм с учетом групп самооценки
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
252
OK
В результате появится корреляционная диаграмма, в которой точки, относящиеся к
наблюдениям из разных групп самооценки отличаются по цвету.
Щелкнув два раза мышью по корреляционной диаграмме, мы войдем в редактор
графиков – Chart Editor.
Рис.12.7.1.23. Редактор графиков. Корреляционная диаграмма с учетом групп
самооценки
Для того, чтобы получить две регрессионные прямые для высокой и низкой
самооценок, надо нажать на
. По умолчанию появятся прямые регрессии (Рис.12.7.1.24).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
253
Рис.12.7.1.24. Прямые регрессии для групп с низкой и с высокой самооценкой поотдельности
Для того, чтобы получить параболу – линию регрессии для всех наблюдений – надо
в редакторе графиков нажать на
.
Поставить точку у окошка квадратической регрессии (Quadratic) (Рис.12.7.1.25).
Apply
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
254
Рис.12.7.1.25. Выбор квадратической линии регрессии
Закрыть редактор графика.
Полученная корреляционная диаграмма и коэффициенты корреляции показывают:
В группе участников с высокой самооценкой связь самооценки с физической
агрессией монотонная, положительная. Коэффициент корреляции Спирмена rS =0.701;
p ≤ 0.001 (Таблица 12.7.1.5);
В группе участников с низкой самооценкой связь самооценки с физической
агрессией монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.724;
p ≤ 0.001 (Таблица 12.7.1.4);
Для всей группы участников корреляционная связь самооценки с физической
агрессией не найдена. Коэффициент корреляции Спирмена rS =-0.018 (Таблица 12.3.1).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
255
Рис.12.7.1.26. Корреляционная диаграмма (Самооценка – Физическая агрессия) с прямыми
регрессиями для участников с низкой самооценкой и для участников с высокой
самооценкой и с линией квадратической регрессии для всех наблюдений.
Для остальных случаев схема получения корреляционных диаграмм с прямыми
регрессии сохраняется. Рассмотрим результаты.
Самооценка – Косвенная агрессия
В группе участников с высокой самооценкой связь самооценки с косвенной
агрессией монотонная, положительная. Коэффициент корреляции Спирмена rS =0.686;
p ≤ 0.001 (Таблица 12.7.1.5);
В группе участников с низкой самооценкой связь самооценки с косвенной агрессией
монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.681; p ≤ 0.001
(Таблица 12.7.1.4);
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
256
Для всей группы участников корреляционная связь самооценки с косвенной
агрессией не найдена. Коэффициент корреляции Спирмена rS =-0.027 (Таблица 12.3.1).
Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.27.
Рис.12.7.1.27. Корреляционная диаграмма (Самооценка – Косвенная агрессия) с прямыми
регрессиями для участников с низкой самооценкой и для участников с высокой
самооценкой и с линией квадратической регрессии для всех наблюдений.
Самооценка – Вербальная агрессия
В группе участников с высокой самооценкой связь самооценки с вербальной
агрессией монотонная, положительная. Коэффициент корреляции Спирмена rS =0.555;
p ≤ 0.001 (Таблица 12.7.1.5);
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
257
В группе участников с низкой самооценкой связь самооценки с вербальной
агрессией монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.537;
p ≤ 0.001 (Таблица 12.7.1.4);
Для всей группы участников корреляционная связь самооценки с вербальной
агрессией не найдена. Коэффициент корреляции Спирмена rS =-0.055 (Таблица 12.3.1).
Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.28.
Рис.12.7.1.28. Корреляционная диаграмма (Самооценка – Вербальная агрессия) с прямыми
регрессиями для участников с низкой самооценкой и для участников с высокой
самооценкой и с линией квадратической регрессии для всех наблюдений.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
258
Самооценка – Раздражение
В группе участников с высокой самооценкой связь самооценки с раздражением
монотонная, положительная. Коэффициент корреляции Спирмена rS =0.522; p ≤ 0.001
(Таблица 12.7.1.5);
В группе участников с низкой самооценкой связь самооценки с раздражением
монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.765; p ≤ 0.001
(Таблица 12.7.1.4);
Для всей группы участников корреляционная связь самооценки с раздражением не
найдена. Коэффициент корреляции Спирмена rS =-0.111 (Таблица 12.3.1).
Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.29.
Рис.12.7.1.29. Корреляционная диаграмма (Самооценка – Раздражение) с прямыми
регрессиями для участников с низкой самооценкой и для участников с высокой
самооценкой и с линией квадратической регрессии для всех наблюдений.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
259
Самооценка – Негативизм
В группе участников с высокой самооценкой связь самооценки с негативизмом не
найдена. Коэффициент корреляции Спирмена rS =0.058 (Таблица 12.7.1.5);
В группе участников с низкой самооценкой связь самооценки с негативизмом
монотонная, положительная. Коэффициент корреляции Спирмена rS =0.276; p ≤ 0.05
(Таблица 12.7.1.4);
Для всей группы участников корреляционная связь самооценки с негативизмом не
найдена. Коэффициент корреляции Спирмена rS =0.016 (Таблица 12.3.1).
Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.30.
Рис.12.7.1.30. Корреляционная диаграмма (Самооценка – Негативизм) с прямыми
регрессиями для участников с низкой самооценкой и для участников с высокой
самооценкой и с линией квадратической регрессии для всех наблюдений.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
260
Самооценка – Обида
В группе участников с высокой самооценкой связь самооценки с обидой не найдена.
Коэффициент корреляции Спирмена rS =-0.086 (Таблица 12.7.1.5);
В группе участников с низкой самооценкой связь самооценки с обидой не найдена.
Коэффициент корреляции Спирмена rS =0.181 (Таблица 12.7.1.4);
Для всей группы участников корреляционная связь самооценки с обидой не
найдена. Коэффициент корреляции Спирмена rS =0.060 (Таблица 12.3.1).
Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.31.
Рис.12.7.1.31. Корреляционная диаграмма (Самооценка – Обида) с прямыми регрессиями
для всех участников, для участников с низкой самооценкой, для участников с высокой
самооценкой.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
261
Самооценка – Подозрительность
В
группе
участников
с
высокой
самооценкой
связь
самооценки
с
подозрительностью не найдена. Коэффициент корреляции Спирмена rS =0.055 (Таблица
12.7.1.5);
В группе участников с низкой самооценкой связь самооценки с подозрительностью
не найдена. Коэффициент корреляции Спирмена rS =0.022 (Таблица 12.7.1.4);
Для
всей
группы
участников
корреляционная
связь
самооценки
с
подозрительностью не найдена. Коэффициент корреляции Спирмена rS =0.150 (Таблица
12.3.1).
Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.32.
Рис. 12.7.1.32. Корреляционная диаграмма (Самооценка – Подозрительность) с прямыми
регрессиями для всех участников, для участников с низкой самооценкой, для участников с
высокой самооценкой.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
262
Самооценка – Угрызения совести
В группе участников с высокой самооценкой связь самооценки с угрызениями
совести не найдена. Коэффициент корреляции Спирмена rS =-0.114 (Таблица 12.7.1.5);
В группе участников с низкой самооценкой найдена положительная монотонная
связь самооценки с угрызениями совести. Коэффициент корреляции Кендалла τ =0.171;
p ≤ 0.05 (Таблица 12.7.1.4);
Для всей группы участников корреляционная связь самооценки с угрызениями
совести не найдена. Коэффициент корреляции Спирмена rS =0.060 (Таблица 12.3.1).
Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.33.
Рис.12.7.1.33. Корреляционная диаграмма (Самооценка – Угрызения совести) с прямыми
регрессиями для всех участников, для участников с низкой самооценкой, для участников с
высокой самооценкой.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
263
12.7.2. Анализ двух групп вербальной агрессии
Одним из результатов регрессионного анализа оказалась возможная квадратическая
связь, когда независимой переменной является вербальная агрессия, а зависимой –
самооценка.
Самостоятельно разобъем файл данных по медиане вербальной агрессии Mdn = 6
(Табл. 12.2.1.2) и по аналогии с предыдущим случаем – разбиением самооценки - получим
все результаты.
Разбиение:
Mdn ≤ 6 - низкий уровень вербальной агрессии (zems);
Mdn > 6 - высокий уровень вербальной агрессии (augsts).
Выходная информация
В Таблицах 12.7.2.1 и 12.7.2.2 отмечены случаи, когда показатели асимметрии и
эксцесса превышают свои стандартные ошибки. В этих случаях нормального
распределения точно нет.
Таблица 12.7.2.1
Описательные статистики для участников с низкой вербальной агрессией
P
N
Valid
VA
100
100
63.9291
1.08975
62.5000
10.89754
118.756
-.253
4.5500
.13881
5.0000
1.38808
1.927
-.811
.241
.429
.478
56.83
31.33
88.16
58.1600
.241
-.374
.478
5.00
1.00
6.00
4.0000
50
62.5000
5.0000
75
70.4975
6.0000
Missing
Mean
Std. Error of Mean
Median
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Percentiles
25
a. VA = Zems
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
264
Таблица 12.7.2.2
Описательные статистики для участников с высокой вербальной агрессией
P
N
Valid
VA
45
45
58.6776
2.90596
48.8300
19.49379
380.008
.324
.354
-1.647
7.6222
.11141
7.0000
.74739
.559
.757
.695
60.34
31.16
91.50
41.9950
.695
2.00
7.00
9.00
7.0000
50
48.8300
7.0000
75
79.3300
8.0000
Missing
Mean
Std. Error of Mean
Median
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Percentiles
25
.354
-.786
a.VA = Augsts
На Рис. 12.7.2.1-12.7.2.2 изображены гистограммы с нормальной кривой для
визуального сравнения с нормальным распределением.
Рис. 12.7.2.1. Гистограммы с нормальной кривой для самооценки в группах с низкой и
высокой вербальной агрессией
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
265
Рис. 12.7.2.2. Гистограммы с нормальной кривой для вербальной агрессии в группах с
низкой и высокой вербальной агрессией
Тесты на нормальность распределения:
Таблица 12.7.2.3
Тесты на нормальность распределения (Tests of Normality)
Kolmogorov-Smirnova
VA
P
VA
Statistic
df
Shapiro-Wilk
Sig.
Statistic
df
Sig.
Zems
.063
100
.200*
.985
100
.334
Augsts
.266
45
.000
.835
45
.000
Zems
.267
100
.000
.854
100
.000
Augsts
.331
45
.000
.743
45
.000
a. Lilliefors Significance Correction
*. This is a lower bound of the true significance.
Тесты Колмогорова-Смирнова и Шапиро-Уилкса не нашли отличия распределения
данных по самооценке для низкой вербальной агрессии от нормального распределения. Но
показатели асимметрии и эксцесса по абсолютным значениям превышают свои
стандартные ошибки. Поэтому можно считать, что распределение данных не соответствует
нормальному распределению.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
266
Для исследования связи следует применить непараметрические коэффициенты
корреляции Спирмена и Кендалла.
Коробчатые диаграммы (Рис. 12.7.2.3-12.7.2.4)
Рис. 12.7.2.3. Коробчатые диаграммы для самооценки. Низкая и высокая вербальная
агрессия
Рис. 12.7.2.4. Коробчатые диаграммы для вербальной агрессии. Низкая и высокая
вербальная агрессия
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
267
Вычисление коэффициентов корреляции
Распределения данных не соответствует нормальному распределению Поэтому
надо вычислять непараметрические коэффициенты корреляции Спирмена и Кендалла.
Таблица 12.7.2.4
Корреляционная матрица. Низкая вербальная агрессия
P
Kendall's tau_b
P
Correlation Coefficient
1.000
.222**
.
.003
100
100
.222**
1.000
.003
.
Sig. (2-tailed)
N
VA
Correlation Coefficient
Sig. (2-tailed)
N
Spearman's rho
P
Correlation Coefficient
100
100
1.000
.300**
.
.002
Sig. (2-tailed)
N
VA
Correlation Coefficient
VA
100
100
.300**
1.000
Sig. (2-tailed)
.002
.
N
100
100
**. Correlation is significant at the 0.01 level (2-tailed).
a. VA = Zems
Таблица 12.7.2.5
Корреляционная матрица. Высокая вербальная агрессия
P
Kendall's tau_b
P
Correlation Coefficient
Sig. (2-tailed)
N
VA
Correlation Coefficient
Sig. (2-tailed)
N
Spearman's rho
P
Correlation Coefficient
Sig. (2-tailed)
N
VA
Correlation Coefficient
Sig. (2-tailed)
N
VA
1.000
-.347**
.
.004
45
45
-.347**
1.000
.004
.
45
45
1.000
-.450**
.
.002
45
45
-.450**
1.000
.002
.
45
45
**. Correlation is significant at the 0.01 level (2-tailed).
a. VA = Augsts
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
268
Вербальная агрессия - Самооценка
В группе участников с высокой вербальной агрессией связь самооценки с
вербальной агрессией монотонная, отрицательная. Коэффициент корреляции Спирмена
rS =-0.450; p ≤ 0.01 (Таблица 12.7.2.5);
В группе участников с низкой вербальной агрессией связь самооценки с вербальной
агрессией монотонная, положительная. Коэффициент корреляции Спирмена rS =0.300;
p ≤ 0.01 (Таблица 12.7.2.4);
Для всей группы участников корреляционная связь самооценки с вербальной
агрессией не найдена. Коэффициент корреляции Спирмена rS =-0.055 (Таблица 12.3.1).
Корреляционная диаграмма с прямыми регрессии показана на Рис.15.112.
Корреляционная диаграмма с прямыми регрессии
Рис. 12.7.2.5. Корреляционная диаграмма (Вербальная агрессия – Самооценка) с прямыми
регрессиями для участников с низкой вербальной агрессией и для участников с высокой
вербальной агрессией и с линией квадратической регрессии для всех наблюдений.
Описание данного исследования можно найти в Приложении 2.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
269
13. Критерий согласия
χ 2 -Пирсона
13.1. Выявление
различий в
Критерий согласия
χ 2 -Пирсона
распределениях
признаков.
(Chi-square, Pearson)
Критерий согласия χ 2 -Пирсона используют:
- Для сравнения распределения признака с теоретическим распределением;
- Для сравнения распределений двух, трех и более признаков.
Гипотезы:
Вариант 1
H 0 : Отличие эмпирического распределения признака от теоретического распределения
случайное.
H 1 : Отличие эмпирического распределения признака от теоретического распределения
закономерное.
Вариант 2
H 0 : Эмпирические распределения 1 и 2 имеют случайные различия.
H 1 : Эмпирические распределения 1 и 2 имеют закономерные различия.
Вариант 3
H 0 : Эмпирические распределения 1, 2, 3, ..., m имеют случайные различия.
H 1 : Существуют хотя бы два эмпирические распределения из 1, 2, 3, ... m, различия
между которыми не случайны.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
270
Если число разрядов признака k>2, то наблюдаемое значение критерия можно
вычислить по формуле:
mk
( nei − nti )
i =1
nti
χ =∑
2
e
2
,
(13.1.1)
где k – число разрядов (групп); m – число распределений; nei -эмпирические частоты; nti теоретические частоты; n – число наблюдений.
Если число разрядов признака k=2, то следует учитывать „поправку на
непрерывность Йета (Yate)1:
2m
χ =∑
2
e
(n
− nti − 0,5)
2
ei
i =1
nti
.
(13.1.2)
Ограничения:
1. Точность критерия растет с увеличением числа наблюдений n.
2. Каждая теоретическая частота должна быть nti ≥ 5 .
3. Группировка по разрядам должна быть одинаковой для всех сравниваемых
распределений.
4.
Если
число
разрядов
k=2,
то
необходимо
учитывать
„поправку
на
непрерывность” Йета.
5. Если наблюдение относится к конкретному разряду, то оно не должно
принадлежать ни к одному другому разряду.
1
Хили, Д. (2005). Статистика. Социологические и маркетинговые исследования. Под ред. Руденко А.А.
Киев: ООО «ДиаСофтЮП». С.341.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
271
13.2. Сравнение эмпирического распределения признака с
равномерным распределением
В рассматриваемом случае всего одно эмпирическое распределение m=1.
Если число разрядов признака k>2, то наблюдаемое значение критерия можно
вычислить по формуле (13.1.1). Для равномерного распределения теоретические частоты
nti находятся по формуле:
nti =
n
,
k
(13.2.1)
где n – число наблюдений, при этом должны соблюдаться равенства:
n = ne1 + ne 2 + L nek и n = nt1 + nt 2 + L ntk ,
которые могут быть использованы для контроля.
Также справедливо равенство:
k
∑ (n
i =1
ei
− nti ) = 0 ,
которое также может быть использовано для контроля.
Если число разрядов признака k=2 то теоретические частоты равны nti =
n
, и
2
следует учитывать „поправку на непрерывность” Йета (Yate)2 (13.2.2):
χ
2
e
(n
=
e1
− n 2 − 0.5) ( nei − n 2 − 05)
+
.
n2
n2
2
2
(13.2.2)
22
Хили, Д. (2005). Статистика. Социологические и маркетинговые исследования. Под ред. Руденко А.А.
Киев: ООО «ДиаСофтЮП». С.341.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
272
Алгоритм применения критерия- χ 2
1. Формулируют гипотезы приблизительно так:
H 0 : Эмпирическое распределение признака имеет случайные отличия от равномерного
распределения.
H 1 : Эмпирическое распределение признака отличается от равномерного распределения
закономерно.
2. Если n – число наблюдений и количество разрядов k>2, то строят таблицу с 5-ю
столбцами и k+2 строками, в соответствии с Таблицей 13.2.1.
Таблица 13.2.1.
Вычисление наблюдаемого значения критерия- χ 2
Разряды
nei
nti
k
ne1
...
nek
n k
...
n k
Суммы
n
n
1
...
nei − nti
(nei − nti )2
(nei − nti )2
nei - эмпирические частоты; nti - теоретические частоты: nti =
nti
χ e2
n
.
k
В последней строке вычисляют указанные суммы для контроля. Контроль:
1) n = ne1 + ne 2 +L nek ;
2) n = nt1 + nt 2 + L ntk ;
k
3)
∑ (n
i =1
ei
− nti ) = 0 .
Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с
χ e2 .
3. Если число наблюдений n и количество разрядов признака k=2, то строят
таблицу с 6-ю столбцами и k+2 строками, по образцу Таблицы 13.2.2.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
273
Таблица 13.2.2.
Вычисление скорректированного наблюдаемого значения критерия- χ 2 3
Разряды
nei
nti
nei − nti
nei − nti − 0.5
1.
ne1
n 2
ne1 − n 2
ne1 − n 2 − 0,5
2.
ne 2
n 2
ne 2 − n 2
ne 2 − n 2 − 0,5
Суммы
n
n
(n
ei
− nti − 0.5)
2
(n
ei
− nti − 0.5)
nti
2
χ e2
nei - эмпирические частоты; nti - теоретические частоты: nti =
n
.
k
В последней строке вычисляют указанные суммы для контроля. Контроль:
1) n = ne1 + ne 2 ;
2) n = nt1 + nt 2 = n 2 + n 2 .
Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 :
с. χ e2
4. По числу степеней свободы df = k − 1 и по уровню значимости и статистики χ e2
с помощью программы GRETL находят p-value для правостороннего one-tailed теста.
5. По значению p-value, куда попадает χ e2 и формулируют ответ. При p>.05 нет
оснований отклонить нулевую гипотезу H 0 . Нулевая гипотеза отклоняется и принимается
альтернативная гипотеза H 1 , если p ≤ .05.
Пример 1
На вопрос: „Какие эмоции и чувства вызывает у Вас реклама пива «ПИТ» были получены
ответы:
Таблица 13.2.3
Результаты опроса
Ответ
a) Раздражение
b) Безразличие
c) Восторг
Число ответов
20
17
8
33
Хили, Д. (2005). Статистика. Социологические и маркетинговые исследования. Под ред. Руденко А.А.
Киев: ООО «ДиаСофтЮП». С.341.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
274
Являются ли ответы случайными? Может быть нет различия в восприятии рекламы
пива «ПИТ»?
Решение
Теоретические частоты в данном случае равны nti =
n
, где k = 3 – число вариантов
k
ответов, n = 45 – число наблюдений.
В нашем случае nti =
45
= 15 .
3
Гипотезы:
H 0 : Распределение восприятия рекламы пива «ПИТ» имеет случайные отличия от
равномерного распределения.
H 1 : Распределение восприятия рекламы пива «ПИТ» отличается от равномерного
распределения закономерно.
Таблица 13.2.4
Вычисление наблюдаемого значения критерия- χ 2
Разряды
a)
b)
c)
nei
20
17
8
nti
15
15
15
nei − nti
5
2
-7
Суммы
45
45
(nei − nti )2
25
4
49
(nei − nti )2
nti
1.6667
0.2667
3.2667
χ e2 =5.20
Контроль:
1) n = 20 + 17 + 8 = 45 ;
2) n = 15 + 15 + 15 = 45 ;
k
3)
∑ (n
i =1
ei
− nti ) = 5 + 2 − 7 = 0 .
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
275
Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с
χ e2 =5.20.
Число степеней свободы равно df = 3 − 1 = 2 .
C помощью программы GRETL находим для правостороннего one-tailed теста
p = .074 > .05.
Нет оснований отклонить нулевую гипотезу.
Ответ. Отличия распределения восприятия рекламы пива «ПИТ» от равномерного
распределения не выявлено. Неодинаковое число данных ответов можно объяснить
случайностями. Или χ2(2, N=45)=5.20, p=.074, ns.
Решение с помощью SPSS
Файл с данными Pivo_PIT_reklama.xlsx.
Для решения данной задачи на SPSS исходные данные должны быть представлены
в виде двух столбцов: «шифр респондента [kod]» и номинальной переменной «Восприятие
[v]», для которой должны быть описаны разряды «Раздражение [1]», «Безразличие [2]»,
«Восторг [3]» (Рис.13.2.6-13.2.7).
Рис.13.2.6. Описание переменных
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
276
Рис.13.2.7. Ввод данных
Данные должны быть в наличии с самого начала. По ним строится Таблица 13.2.3.
Но так как в данной задаче исходных данных нет, то их можно «восстановить»,
сконструировав Таблицу 13.2.5, используя данные Таблицы 13.2.3.
Таблица 13.2.5
Результаты опроса
kod
k1
k2
k3
k4
k5
k6
k7
k8
k9
k10
k11
k12
k13
k14
k15
k16
k17
k18
k19
k20
v
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
kod
k21
k22
k23
k24
k25
k26
k27
k28
k29
k30
k31
k32
k33
k34
k35
k36
k37
v
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
kod
k38
k39
k40
k41
k42
k43
k44
k45
v
3
3
3
3
3
3
3
3
После ввода данных:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
277
Analyze
Nonparametric Tests
Chi-Square …
В появившемся диалоговом окне перенести переменную Vosprijatie [v] в окно Test
Variable List (Рис.13.2.8).
Рис.13.2.8. Диалоговое окно теста Chi-Square – сравнение с равномерным распределением.
OK
Выходная информация:
Chi-Square Test
Frequencies
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
278
Таблица 13.2.6
Построенная в SPSS таблица результатов опроса с теоретическими частотами и
разностями частот
Observed N Expected N Residual
razdrazhenie
bezrazlichie
vostorg
Total
20
17
8
45
15.0
15.0
15.0
5.0
2.0
-7.0
Таблица 13.2.7
Статистики теста χ 2 (Test Statistics)
Vosprijatie
Chi-Square
df
Asymp. Sig.
5.200a
2
.074
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 15.0.
В верхней строчке - наблюдаемое значение критерия χ e2 =5.200;
Во второй строке – число степеней свободы df=2;
В третьей строке – р-вероятность, равная .074>.05, которая говорит о том, что
отличия от равномерного распределения не выявлено: χ2(2, N=45)=5.20, p=.074.
Под таблицей сообщение о том, что минимальная ожидаемая (теоретическая)
частота в ячейках равна 15, что нет ни одной ячейки с теоретической частотой, меньшей 5.
Результаты совпадают с результатами, полученными вручную.
Пример 2. (С „поправкой на непрерывность”)
Из опрошенных n=91 респондента 63 респондентов категорически против
введения смертной казни, а 28 – за. Сравнить распределение ответов с равномерным
распределением.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
279
Гипотезы:
H 0 : Распределение ответов имеет случайные отличия от равномерного распределения.
H 1 : Распределение ответов отличается от равномерного распределения закономерно.
В нашем случае количество разрядов признака k=2, имеются лишь две группы
ответов. Поэтому надо учесть „поправку на непрерывность”.
Таблица 13.2.8
Вычисление наблюдаемого значения критерия- χ 2
Разряды
nei
nti
nei − nti
nei − nti − 0.5
a) против
b) за
63
28
45.5
45.5
17.5
17.5
17
17
Суммы
91
91
(n
ei
− nti − 0.5)
2
(n
ei
289
289
− nti − 0.5)
nti
2
6.352
6.352
χ e2 =12.70
В последней строке указаны суммы для контроля.
Контроль:
1) n = 63 + 28 = 91 ;
2) n = 45,5 + 45,5 = 91 .
Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с
χ e2 =12.70.
Число степеней свободы равно df = 2 − 1 = 1 .
C помощью программы GRETL находим для правостороннего one-tailed теста
p = .000 < .001.
Нулевая гипотеза отклоняется и принимается альтернативная гипотеза.
Ответ. Число респондентов, которые «против» введения смертной казни превышает
число респондентов, которые «за». Распределение ответов закономерно отличается от
равномерного распределения. Полученный результат статистически значим. Уровень
значимости р < .001 . Или χ2(1, N=91) = 12.70, p < .001.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
280
Решение с помощью SPSS
Файл с данными Smertnaja_Kaznj.xlsx.
Для решения данной задачи на SPSS исходные данные должны быть представлены
в виде двух столбцов: «шифр респондента [kod]» и номинальной переменной «Отношение
[otn]», для которой должны быть описаны разряды «protiv [1]», «za [2]».
Ввод данных и заказ теста такие же, как и в Примере 1.
Выходная информация:
Chi-Square Test
Frequencies
Таблица 13.2.9
Построенная в SPSS таблица результатов опроса с теоретическими частотами и
разностями частот
против
за
Total
Observed N
Expected N
Residual
63
28
91
45.5
45.5
17.5
-17.5
Таблица 13.2.10
Статистики теста χ 2 (Test Statistics)
otn
Chi-Square
df
Asymp. Sig.
13.462a
1
.000
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 45.5.
В верхней строчке - наблюдаемое значение критерия χ e2 =13.462;
Во второй строке – число степеней свободы df=1;
В третьей строке – р-вероятность, равная .000<.001, которая говорит о том, что
выявлено максимально значимое отличие от равномерного распределения.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
281
Под таблицей сообщение о том, что минимальная ожидаемая (теоретическая)
частота в ячейках равна 45.5, что нет ни одной ячейки с теоретической частотой, меньшей
5.
Результаты немного отличаются от результатов, полученных вручную:
χ2(1, N=91)=13.46, p=.000<.001.
Программа SPSS не учитывает «поправки на непрерывность».
13.3. Сравнение двух эмпирических распределений
Число распределений m=2.
Если количество разрядов признака k>2, то наблюдаемое значение критерия можно
вычислить по формуле (13.1.1).
Если n – число наблюдений, то справедливы равенства:
n = ne1 + ne 2 + L ne 2 k и n = nt1 + nt 2 + L nt 2 k ,
2k
∑ (n
i =1
ei
− nti ) = 0 ,
которые используются для контроля. Также справедливо равенство:
Если число разрядов признака k=2, то следует учитывать „поправку на
непрерывность” и будет справедлива формула (13.3.2).
k
Также справедливо равенство: ∑ (nei − nti ) = 0 , которое используется для контроля.
i =1
Пример 3
Проверить, связан ли выборов фигур с тревожностью.
Исходные данные:
Низкая тревожность
Высокая тревожность
Треугольник
Круг
10
5
72
10
Выбираемые фигуры
Квадрат
Зигзаг
12
11
Прямоугольник
6
47
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
8
19
282
Для решения этой задачи можно выделить две группы участников: с высокой и
низкой тревожностью и проверить, отличаются ли распределения выборов фигур у
участников с высокой и низкой тревожностью случайно или закономерно.
Построим таблицу сопряженности (Таблица 13.3.1).
Таблица 13.3.1
Распределения выборов геометрических фигур старшеклассников в зависимости от их
уровня тревожности
Низкая
тревожность
Высокая
тревожность
Суммы
Треуголь
ник
Круг
Выбираемые фигуры
Квадрат
Зигзаг
Суммы
Прямоуголь
ник
1
2
3
4
5
1
10
72
12
6
8
108
2
5
10
11
47
19
92
15
82
23
53
27
n=200
Рас пределение выборов фигур
Количество выборов, %
70
60
50
40
30
20
10
1
2
3
4
5
Фигу ры: 1-Tреугольник; 2-Круг; 3-Kвадрат; 4-Зигзаг; 5-Прямоу гольник
Низкая тревожность
Высокая тревожность
Рис.13.3.1. Диаграмма, распределения выборов фигур, построенная в Excel
Число всех наблюдений n=200.
Количество разрядов признака k=5>2.
Число человек с низкой тревожностью Σ1 =108;
Число человек с высокой тревожностью Σ 2 =92. Контроль: Σ1 + Σ 2 =108+92=200.
Число выборов в группе с низкой тревожностью:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
283
Треугольник - 10; круг - 72; квадрат - 12; зигзаг - 6; прямоугольник – 8.
Сумма 10+72+12+6+8=108= Σ1 .
Число выборов в группе с высокой тревожностью:
Треугольник - 5; круг - 10; квадрат - 11; зигзаг - 47; прямоугольник– 19.
Сумма 5+10+11+47+19=92= Σ 2 .
Число выборов по фигурам:
Треугольник - n1 =10+5=15; круг - n 2 =72+10=82; квадрат - n3 =12+11=23;
зигзаг - n 4 =6+47=53; прямоугольник – n5 =8+19=27.
Контроль: n1 + n2 + n3 + n4 + n5 =15+82+23+53+27=200.
Гипотезы:
H 0 : Распределения выборов фигур у участников с высокой и низкой тревожностью
имеют случайные отличия друг от друга. Выбор фигур и тревожность не связаны.
H 1 : Распределения выборов фигур у участников с высокой и низкой тревожностью друг
от друга отличаются закономерно. Выбор фигур и тревожность связаны.
С помощью Таблицы 13.3.2 можно вычислить теоретические частоты:
nti =
( Сумма частот строки ) ⋅ ( Сумма частот столбца )
n
.
Таблица 13.3.2
Вычисление теоретических частот
Разряд
1-1
1-2
1-3
1-4
1-5
Теоретические частоты
15 ⋅ 108
nt 1 =
= 8.1
200
82 ⋅ 108
nt 2 =
= 44.28
200
23 ⋅ 108
nt 3 =
= 12.42
200
53 ⋅ 108
nt 4 =
= 28.62
200
27 ⋅ 108
nt 5 =
= 14.58
200
Разряд
2-1
2-2
2-3
2-4
2-5
nt 6
nt 7
nt 8
nt 9
nt 1
Теоретические частоты
15 ⋅ 92
=
= 6.9
200
82 ⋅ 92
=
= 37.72
200
23 ⋅ 92
=
= 10.58
200
53 ⋅ 92
=
= 24.38
200
27 ⋅ 92
=
= 12.42
200
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
284
Таблица 13.3.3
Вычисление наблюдаемого значения критерия- χ 2
Разряд
nei
1-1
1-2
1-3
1-4
1-5
2-1
2-2
2-3
2-4
2-5
Суммы
10
72
12
6
8
5
10
11
47
19
200
nei − nti
nti
(nei − nti )2
(nei − nti )2
nti
8.10
44.28
12.42
28.62
14.58
6.90
37.72
10.58
24.38
12.42
200
1.90
27.72
-0.42
-22.62
-6.58
-1.90
-27.72
0.42
22.62
6.58
3.6100
768.3984
0.1764
511.6644
43.2964
3.6100
768.3984
0.1764
511.6644
43.2964
0.446
17.353
0.014
17.878
2.970
0.523
20.371
0.017
20.987
3.486
χ e2 =84.04
Контроль:
1) Сумма 2-ого столбца: n = ne1 + ne 2 + L + ne10 = 200 ;
2) Сумма 3-ого столбца: n = nt1 + nt 2 + L + nt10 = 200 ;
3) Сумма 4-ого столбца:
10
∑ (n
i =1
ei
− nti ) = 0 .
Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с
χ e2 =84.04.
Число степеней свободы равно df = ( k − 1)( m − 1) = ( 5 − 1)( 2 − 1) = 4 .
C помощью программы GRETL находим для правостороннего one-tailed теста
p = .000 < .001.
Нулевая гипотеза отклоняется и принимается альтернативная гипотеза.
Ответ. Распределения выборов фигур у участников с высокой и низкой
тревожностью друг от друга отличаются закономерно. χ2(4, N=200)=84.04, p<.001.
Выбор фигур связан с тревожностью.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
285
Решение с помощью SPSS
Файл с данными Trevozhnostj_Figuri.xlsx.
Для решения данной задачи на SPSS исходные данные должны быть представлены
в виде трех столбцов: «шифр респондента [kod]», номинальной переменной «Тревожность
[t]», с двумя разрядами «nizkaja [1]», «visokaja [2]», и номинальной переменной «Figura
[f]» c пятью разрядами «треугольник [1]», «круг [2]», «квадрат [3]», «зигзаг [4]»,
«прямоугольник [5]» (Рис.13.3.2-13.3.2).
Рис.13.3.2. Описание переменных
Рис.13.3.3. Ввод данных
Данные должны быть в наличии с самого начала. По ним строится Таблица 13.3.1.
Но так как в данной задаче исходных данных нет, то их можно «восстановить»,
сконструировав Таблицу 13.3.4, используя данные Таблицы 13.3.1.
После ввода данных:
Analyze
Descriptive Statistics
Crosstabs …
В появившемся диалоговом окне Crosstabs перенести переменную Figura [f] в окно
Row(s), а переменную Trevozhnostj [t] - в окно Column(s). Поставить галочку в окошке
Display clustered bar charts (Рис.13.3.4).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
286
Таблица 13.3.4
Фигура
Тревожность
Шифр
Фигура
Тревожность
Шифр
Фигура
Тревожность
Шифр
Фигура
Тревожность
Шифр
Фигура
Тревожность
Шифр
Результаты опроса
k1
1
1
k41
1
2
k81
1
2
k121
2
2
k161
2
4
k2
1
1
k42
1
2
k82
1
2
k122
2
2
k162
2
4
k3
1
1
k43
1
2
k83
1
3
k123
2
2
k163
2
4
k4
1
1
k44
1
2
k84
1
3
k124
2
3
k164
2
4
k5
1
1
k45
1
2
k85
1
3
k125
2
3
k165
2
4
k6
1
1
k46
1
2
k86
1
3
k126
2
3
k166
2
4
k7
1
1
k47
1
2
k87
1
3
k127
2
3
k167
2
4
k8
1
1
k48
1
2
k88
1
3
k128
2
3
k168
2
4
k9
1
1
k49
1
2
k89
1
3
k129
2
3
k169
2
4
k10
1
1
k50
1
2
k90
1
3
k130
2
3
k170
2
4
k11
1
2
k51
1
2
k91
1
3
k131
2
3
k171
2
4
k12
1
2
k52
1
2
k92
1
3
k132
2
3
k172
2
4
k13
1
2
k53
1
2
k93
1
3
k133
2
3
k173
2
4
k14
1
2
k54
1
2
k94
1
3
k134
2
3
k174
2
4
k15
1
2
k55
1
2
k95
1
4
k135
2
4
k175
2
4
k16
1
2
k56
1
2
k96
1
4
k136
2
4
k176
2
4
k17
1
2
k57
1
2
k97
1
4
k137
2
4
k177
2
4
k18
1
2
k58
1
2
k98
1
4
k138
2
4
k178
2
4
k19
1
2
k59
1
2
k99
1
4
k139
2
4
k179
2
4
k20
1
2
k60
1
2
k100
1
4
k140
2
4
k180
2
4
k21
1
2
k61
1
2
k101
1
5
k141
2
4
k181
2
4
k22
1
2
k62
1
2
k102
1
5
k142
2
4
k182
2
5
k23
1
2
k63
1
2
k103
1
5
k143
2
4
k183
2
5
k24
1
2
k64
1
2
k104
1
5
k144
2
4
k184
2
5
k25
1
2
k65
1
2
k105
1
5
k145
2
4
k185
2
5
k26
1
2
k66
1
2
k106
1
5
k146
2
4
k186
2
5
k27
1
2
k67
1
2
k107
1
5
k147
2
4
k187
2
5
k28
1
2
k68
1
2
k108
1
5
k148
2
4
k188
2
5
k29
1
2
k69
1
2
k109
2
1
k149
2
4
k189
2
5
k30
1
2
k70
1
2
k110
2
1
k150
2
4
k190
2
5
k31
1
2
k71
1
2
k111
2
1
k151
2
4
k191
2
5
k32
1
2
k72
1
2
k112
2
1
k152
2
4
k192
2
5
k33
1
2
k73
1
2
k113
2
1
k153
2
4
k193
2
5
k34
1
2
k74
1
2
k114
2
2
k154
2
4
k194
2
5
k35
1
2
k75
1
2
k115
2
2
k155
2
4
k195
2
5
k36
1
2
k76
1
2
k116
2
2
k156
2
4
k196
2
5
k37
1
2
k77
1
2
k117
2
2
k157
2
4
k197
2
5
k38
1
2
k78
1
2
k118
2
2
k158
2
4
k198
2
5
k39
1
2
k79
1
2
k119
2
2
k159
2
4
k199
2
5
k40
1
2
k80
1
2
k120
2
2
k160
2
4
k200
2
5
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
287
Рис.13.3.4. Диалоговое окно теста Crosstabs – сравнение двух эмпирических распределений.
Statistics…
В появившемся диалоговом окне Crosstabs: Statistics поставить галочку в окошке
Chi-square (Рис.13.3.5).
Рис.13.3.5. Диалоговое окно теста Crosstabs: Statistics
Continue
OK
Выходная информация:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
288
Crosstabs
Таблица 13.3.5
Обработанные наблюдения (Case Processing Summary)
Cases
Valid
Figura * Trevozhnostj
Missing
Total
N
Percent
N
Percent
N
Percent
200
100.0%
.0%
200
100.0%
Таблица 13.3.6
Построенная в SPSS таблица результатов опроса (Figura * Trevozhnostj Crosstabulation)
Count
Trevozhnostj
Figura
nizkaja
visokaja
Total
treugoljnik
10
5
15
krug
72
10
82
kvadrat
12
11
23
zigzag
6
47
53
prjamougoljnik
Total
8
108
19
92
27
200
Таблица 13.3.7
Статистики тестов χ 2 (Chi-Square Tests)
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
a
84.045
93.979
59.902
df
Asymp. Sig. (2-sided)
4
4
1
.000
.000
.000
200
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 6.90.
В верхней строчке:
Value- наблюдаемое значение критерия χ e2 =84.045;
число степеней свободы df=4;
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
289
р-вероятность, равная .000<.001, которая говорит о том, что распределения
отличаются статистически значимо. Выявлена связь между тревожностью и
выбором фигур.
Под
таблицей
сообщение
о
том,
что
минимальная
ожидаемая
(теоретическая) часота в ячейках равна 6.90, что нет ни одной ячейки с
теоретической частотой, меньшей 5.
Таким образом, принимаем альтернативную гипотезу:
χ2(4, N=200)=84.04, p=.000<.001.
Графические иллюстрации, полученные в SPSS (Рис.13.3.7-13.3.8). Рисунки
отредактированы в SPSS.
Рис.13.3.6. Распределения участников с высокой и низкой тревожностями по выборам фигур
Рис.13.3.7. Распределения выборов фигур испытуемыми с высокой и низкой тревожностями
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
290
Диаграмма распределения участников с высокой и низкой тревожностями по
выборам фигур (Рис.13.3.6) получается автоматически по заказу - галочка в окне Display
clustered bar charts (Рис.13.3.4).
Для получения диаграммы распределения выборов фигур испытуемыми с высокой
и низкой тревожностями (Рис.13.3.7) в диалоговом окне Crosstabs переменную
Trevozhnostj [t] надо перенести в окно Row(s), а переменную Figura [f] - в окно Column(s)
(Рис.13.3.4).
Результаты совпадают с результатами, полученными вручную.
Пример 4 (С „поправкой на непрерывность”)
Было опрошено n=250 участников с низким и высоким уровнями интеллекта (IQ).
Им были предложены два вида рекламы: абстрактная и образная. Результаты опроса
представлены в Таблице 22. Сравнить распределения выборов рекламы у участников с
низким IQ и высоким IQ.
Таблица 13.3.8.
Распределения выборов рекламы
Низкий IQ
Высокий IQ
Суммы
1
2
ВИДЫ РЕКЛАМЫ
Абстрактная Образная
1
2
12
82
93
63
105
145
Суммы
94
156
n=250
Число всех наблюдений n=250.
Количество разрядов признака k=2.
Количество участников с низким IQ Σ1 =94; количество участников с высоким IQ
Σ 2 =156. Контроль: Σ1 + Σ 2 =94+156=250.
Количество выборов в группе с низким IQ:
Абстрактная реклама - 12; образная реклама - 82. Сумма 12+82=94= Σ1 .
Количество выборов в группе с высоким IQ:
Абстрактная реклама - 93; образная реклама - 63. Сумма 93+63=156= Σ 2 .
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
291
Число выборов по видам рекламы:
Абстрактная реклама - n1 =12+93=105; образная реклама - n 2 =82+63=145.
Kонтроль: n1 + n 2 =105+145=250.
Гипотезы:
H 0 : Распределения выборов рекламы у участников с высоким IQ и низким IQ имеют
случайные отличия друг от друга.
H 1 : Распределения выборов рекламы у участников с высоким IQ и низким IQ друг от
друга отличаются закономерно.
С помощью Таблицы 13.3.9 можно вычислить теоретические частоты:
nti =
( Сумма частот строки ) ⋅ ( Сумма частот столбца ) .
n
Таблица 13.3.9
Вычисление теоретических частот
Разряды
1-1
1-2
Теоретические частоты
105 ⋅ 94
nt1 =
= 39.48
250
145 ⋅ 94
nt 2 =
= 54.52
250
Разряды
2-1
Теоретические частоты
105 ⋅156
nt 3 =
= 65.52
250
145 ⋅156
nt 4 =
= 90.48
250
2-2
Количество разрядов признака k=2, имеются лишь две группы ответов. Поэтому
надо учесть „поправку на непрерывность”.
Таблица 13.3.10
Вычисление наблюдаемого значения критерия- χ 2
Разряды
nei
nti
nei − nti
nei − nti − 0.5
1-1
1-2
2-1
2-2
Суммы
12
82
93
63
39.48
54.52
65.52
90.48
27.48
27.48
27.48
27.48
26.98
26.98
26.98
26.98
250
250
(n
ei
− nti − 0.5)
2
727.9204
727.9204
727.9204
727.9204
(n
ei
− nti − 0.5)
nti
2
18.438
13.351
11.110
8.045
2
χ e =50.94
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
292
В последней строке Таблицы 13.3.10 указаны суммы для контроля.
Контроль:
1) Сумма 2-ого столбца: n = ne1 + ne 2 + ne 3 + ne 4 = 250 ;
2) Сумма 3-ого столбца: n = nt1 + nt 2 + nt 3 + nt 4 = 250 .
Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 :
χ e2 =50.94.
Число степеней свободы равно df = ( k − 1)( m − 1) = ( 2 − 1)( 2 − 1) = 1 .
C помощью программы GRETL находим для правостороннего one-tailed теста
p = .000 < .001.
Нулевая гипотеза отклоняется и принимается альтернативная гипотеза.
Ответ. Распределения выборов рекламы у участников с высоким IQ и низким IQ друг от
друга отличаются закономерно. χ2(1, N=250)=50.94, p<.001. Выбор рекламы связан с IQ.
Решение с помощью SPSS
Файл с данными Reklama_IQ.xlsx.
Для решения данной задачи на SPSS исходные данные должны быть представлены
в виде трех столбцов: «шифр респондента [kod]», номинальной переменной «IQ [iq]», с
двумя разрядами «nizkij [1]», «visokij [2]» и номинальной переменной «Reklama [r]» c
двумя разрядами «abstraktnaja [1]», «obraznaja [2]» (Рис.13.3.8-13.3.9).
Рис.13.3.8. Описание переменных
Рис.13.3.9. Ввод данных
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
293
Данные можно «восстановить», используя данные Таблицы 13.3.8, по аналогии с
Примером 3.
После ввода данных:
Analyze
Descriptive Statistics
Crosstabs …
В появившемся диалоговом окне Crosstabs перенести переменную IQ [iq] в окно
Row(s), а переменную Reklama [r] - в окно Column(s). Поставить галочку в окошке Display
clustered bar charts.
Statistics…
В появившемся диалоговом окне Crosstabs: Statistics поставить галочку в окошке
Chi-square.
Continue
OK
Выходная информация:
Crosstabs
Таблица 13.3.11
Обработанные наблюдения (Case Processing Summary)
Cases
Valid
N
Percent
IQ * Reklama
250
Missing
N
Percent
100.0%
.0%
Total
N
Percent
250
100.0%
Таблица 13.3.12
Построенная в SPSS таблица результатов опроса (IQ * Reklama Crosstabulation)
Count
Reklama
IQ
Total
abstraktnaja
obraznaja
Total
nizkij
12
82
94
visokij
93
105
63
145
156
250
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
294
Таблица 13.3.13
Статистики тестов χ 2 (Chi-Square Tests)
Value
a
Pearson Chi-Square
Continuity Correctionb
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases
52.850
50.944
57.890
52.638
df
Asymp. Sig.
(2-sided)
1
1
1
.000
.000
.000
1
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
.000
.000
.000
250
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 39.48.
b. Computed only for a 2x2 table
В верхней строчке:
Value- наблюдаемое значение критерия χ e2 =52.850;
число степеней свободы df=1;
р-вероятность, равная .000<.001, которая говорит о том, что распределения
отличаются статистически значимо. Выявлена связь между IQ и выбором рекламы.
Под
таблицей
сообщение
о
том,
что
минимальная
ожидаемая
(теоретическая) частота в ячейках равна 39.48, что нет ни одной ячейки с
теоретической частотой, меньшей 5.
Таким
образом,
нулевая
гипотеза
отклоняется
и
принимается
альтернативная гипотеза: χ2(1, N=250)=52.85, p=.000<.001.
Графические иллюстрации, полученные в SPSS (Рис.13.3.10-13.3.11). Рисунки
отредактированы в SPSS.
Диаграмма распределения участников с высоким и низким IQ по выборам рекламы
(Рис.13.3.10) получается строится автоматически по заказу - галочка в окошке Display
clustered bar charts.
Для получения диаграммы распределения выборов рекламы испытуемыми с высоким и
низким IQ (Рис.13.3.11) в диалоговом окне Crosstabs переменную IQ [iq] надо перенести в
окно Row(s), а переменную Reklama [r] - в окно Column(s).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
295
Результаты расчета статистики немного отличаются от результатов, полученных
вручную. SPSS не учитывает «поправку на непрерывность».
Рис.13.3.10. Распределения участников с
высоким и низким IQ по выборам рекламы
Рис.13.3.11. Распределения выборов рекламы
испытуемыми с высоким и низким IQ
14. Исследование выборов терминальных ценностей (ТЦ) по М.
Рокичу
Терминальными ценностями по М.Рокичу являются следующие 18 ценностей:
t1 активная, деятельная жизнь;
жизненная мудрость (зрелость суждений и здравый смысл, достигаемые
t2 жизненным опытом);
t3 здоровье (физическое и психическое здоровье);
t4 интересная работа;
t5 красота природы и искусства
t6 любовь (духовная и физическая близость)
t7 материально обеспеченная жизнь (отсутствие материальных затруднений)
t8 наличие хороших и верных друзей;
t9 общественное признание
познание (возможность расширения своего образования, кругозора, общей
t10 культуры, интеллектуальное развитие);
t11 продуктивная жизнь;
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
296
t12 развитие;
t13 развлечения;
t14 свобода;
t15 счастливая семейная жизнь;
t16 счастье других;
t17 творчество;
t18 уверенность в себе
Исследовалось, какие именно ценности предпочитают люди переживающие
одиночество (выборка G1, 30 участников) и не переживающие одиночество (выборка G2,
30 участников). Исходные данные представлены в файле Data_Chi_Rokich.xlsx.
Испытуемым было предложено проранжировать ценности по отношению их
важности для себя. Ранг 1 соответствовал наиболее важной ценности, а ранг 18 –
наименее важной.
Для решения данной задачи на SPSS исходные данные должны быть представлены
в виде 20 столбцов: «шифр участника [kod]», номинальной переменной «Group [gr]», с
двумя разрядами «G1 [1]», «G2 [2]» и порядковыми переменными t1, t2, …, t18 (Рис.14.1).
Рис.14.1. Описание переменных. Фрагмент
Рис.14.2. Ввод данных. Фрагмент
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
297
Если разбить группу из 18 рангов на квартили, то точные значения квартилей4 Q1=4.75 и Q3=14.25. Значения рангов, меньших, чем 5, будет составлять группу наиболее
важных ценностей. Значения рангов от 5 до 14 составляют группу ценностей средней
важности, а значения рангов, больших, чем 14, будет составлять группу наименее важных
ценностей.
Сравнивались распределения ценностей, имеющих ранги от одного до четырех
(первая квартильная группа – наиболее важные ценности) в выборках G1 и G2.
Статистическая значимость полученных результатов проверялась с помощью критерия
«Хи-квадрат» Пирсона.
Analyze
Descriptive Statistics
Frequencies…
Рис.14.3. Заказ частотных таблиц
OK
С помощью полученных частотных таблиц были составлены Таблицы 14.1-14.2.
Распределение ценностей по первым четырем рангам представлены Таблицами
14.3-14.4.
Таблицы 14.3-14.4 объединены в Таблицу 14.5.
Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация
данных. СПб: Речь. С. 43
4
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
298
Таблица 14.1
Распределения терминальных ценностей в выборке переживающих одиночество G1
t10 t11 t12 t13 t14 t15 t16 t17 t18
Суммы
G1
t1
t2
t3
t4
t5
t6
t7
t8
t9
1
1
2
1
8
5
4
1
1
1
6
1
31
2
3
3
3
5
2
5
2
2
3
1
4
33
3
2
1
2
1
5
2
3
2
2
1
1
3
1
1
27
4
1
5
2
2
2
1
5
1
1
2
2
5
3
32
5
1
3
1
1
2
3
2
3
1
1
3
1
2
3
2
29
6
1
2
2
1
1
2
2
2
8
2
2
2
1
3
31
7
4
3
1
1
1
2
2
2
3
4
2
2
1
28
8
3
1
2
3
1
2
2
1
4
2
4
2
2
1
1
5
36
9
5
3
2
1
1
2
2
1
3
3
2
1
3
29
10
4
2
1
2
3
2
2
2
4
1
2
1
26
11
1
3
2
1
1
2
1
2
6
4
1
1
3
1
3
32
12
3
2
1
1
1
3
1
3
3
1
3
1
1
1
1
26
13
2
2
5
1
1
1
5
2
3
1
2
3
3
31
14
7
6
1
2
1
2
4
1
8
2
1
2
37
15
1
3
1
3
1
2
2
2
1
2
1
2
2
1
24
16
2
1
1
6
1
2
2
5
6
4
30
17
1
8
2
1
8
3
2
5
6
36
18
2
1
2
2
5
10
22
Суммы
30
30
30
30
30
30
30
30
30
30
30 30 30
30
30
30 30
30
540
Таблица 14.2
Распределения терминальных ценностей в выборке непереживающих одиночество G2
G2
t1
t2
t3
t4
t5
t6
t7
t8
t9
1
8
2
5
1
1
6
1
2
1
2
1
30
2
2
6
8
2
2
2
1
1
1
1
1
1
2
30
3
8
3
6
3
3
1
1
1
2
3
31
4
5
4
2
2
8
2
2
1
2
1
1
30
5
1
1
3
3
3
1
1
1
3
1
1
3
3
1
5
31
6
3
1
1
4
2
2
4
3
1
4
3
1
3
32
7
4
3
1
5
3
3
4
1
2
1
3
30
8
1
1
2
1
4
1
2
1
5
3
1
1
5
2
30
t10 t11 t12 t13 t14 t15 t16 t17 t18
Суммы
9
1
4
3
3
3
3
2
1
1
5
1
1
2
30
10
1
1
3
1
2
1
1
2
2
7
1
3
2
2
29
11
1
1
1
1
1
1
8
1
5
3
2
3
1
29
12
1
1
1
1
1
1
3
4
2
4
2
3
2
1
4
31
13
3
3
4
2
4
3
1
3
6
1
2
32
14
1
4
1
3
6
4
1
2
3
1
1
1
28
15
1
5
1
8
1
1
1
1
2
2
4
3
5
1
1
37
16
1
2
1
7
1
1
3
2
3
5
1
27
17
1
1
3
2
3
6
9
25
18
3
1
1
1
3
5
14
28
Суммы
30
30
30
30
30
30
30
30
30
30
30 30 30
30
30
30 30
30
540
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
299
Таблица 14.3
Распределения терминальных ценностей, попавших на 1-4 место в выборке
переживающих одиночество G1
G1
t1
t2
t3
t4
t5
t6
t7
t8
t9
1
1
2
1
8
5
4
1
1
1
6
1
31
2
3
3
3
5
2
5
2
2
3
1
4
33
3
2
1
2
1
5
2
3
2
2
1
1
3
1
1
27
4
1
5
2
2
2
1
5
1
1
2
2
5
3
32
Суммы
6
5
12
3
3
20
10
17
3
3
2
4
1
6
17
1
1
9
123
t10 t11 t12 t13 t14 t15 t16 t17 t18
Суммы
Таблица 14.4
Распределения терминальных ценностей, попавших на 1-4 место, в выборке
непереживающих одиночество G2
G2
t1
t2
t3
t4
t5
t6
t7
t8
t9
1
8
2
5
1
1
6
1
2
1
2
1
30
2
2
6
8
2
2
2
1
1
1
1
1
1
2
30
3
8
3
6
3
3
1
1
1
2
3
31
4
5
4
2
2
8
2
2
1
2
1
1
30
Суммы
23
2
13
21
1
3
13
14
4
1
3
4
1
4
4
2
2
6
121
t10 t11 t12 t13 t14 t15 t16 t17 t18
Суммы
Таблица 14.5.
Распределения терминальных ценностей по М. Рокичу, попавших на 1-4 место, в
выборках людей, субъективно переживающих одиночество (G1) и
непереживающих одиночество (G2)
t1
t2
t3
t4
t5
t6
t7
t8
t9
t10 t11 t12 t13 t14 t15 t16 t17 t18
6
5
12
3
3
20
10
17
3
3
2
4
1
G1
G2
23
2
13
21
1
3
13
14
4
1
3
4
1
Суммы
29
7
25
24
4
23
23
31
7
4
5
8
2
6
Суммы
9
123
2
6
121
3
15
244
17
1
1
4
4
2
10
21
3
По Таблице 14.5 составим файл данных TermCen.sav.
Данные должны быть представлены в виде двух столбцов: номинальной
переменной «Group [gr]», с двумя разрядами «G1 [1]», «G2 [2]» и номинальной
переменной «TC [tcen]» c 18 разрядами «t1 [1]», «t1 [2]» (Рис.14.4).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
300
Рис.14.4. Описание переменных
Рис.14.5. Ввод данных. Фрагмент
Данные можно «восстановить», сконструировав Таблицу 14.5, используя данные
Таблицы 14.6.
Сравнение двух эмпирических распределений с равномерным
распределением
Гипотезы:
1-ая группа
H 0 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у
участников, переживающих одиночество, имеет случайные отличия от равномерного
распределения.
H 1 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у
участников, переживающих одиночество, отличается от равномерного распределения
закономерно.
2-ая группа
H 0 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у
участников, непереживающих одиночество, имеет случайные отличия от равномерного
распределения.
H 1 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у
участников, непереживающих одиночество, отличается от равномерного распределения
закономерно.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
301
Таблица 14.6
Выбираемые на 1-4 место терминальные ценности
Nr
Gr
TC
Nr
Gr
TC
Nr
Gr
TC
Nr
Gr
TC
Nr
Gr
TC
Nr
Gr
TC
1
1
1
42
1
6
83
1
11
124
2
1
165
2
4
206
2
8
2
1
1
43
1
6
84
1
11
125
2
1
166
2
4
207
2
8
3
1
1
44
1
6
85
1
12
126
2
1
167
2
4
208
2
8
4
1
1
45
1
6
86
1
12
127
2
1
168
2
4
209
2
8
5
1
1
46
1
6
87
1
12
128
2
1
169
2
4
210
2
8
6
1
1
47
1
6
88
1
12
129
2
1
170
2
4
211
2
8
7
1
2
48
1
6
89
1
13
130
2
1
171
2
4
212
2
8
8
1
2
49
1
6
90
1
14
131
2
1
172
2
4
213
2
8
9
1
2
50
1
7
91
1
14
132
2
1
173
2
4
214
2
9
10
1
2
51
1
7
92
1
14
133
2
1
174
2
4
215
2
9
11
1
2
52
1
7
93
1
14
134
2
1
175
2
4
216
2
9
12
1
3
53
1
7
94
1
14
135
2
1
176
2
4
217
2
9
13
1
3
54
1
7
95
1
14
136
2
1
177
2
4
218
2
10
14
1
3
55
1
7
96
1
15
137
2
1
178
2
4
219
2
11
15
1
3
56
1
7
97
1
15
138
2
1
179
2
4
220
2
11
16
1
3
57
1
7
98
1
15
139
2
1
180
2
4
221
2
11
17
1
3
58
1
7
99
1
15
140
2
1
181
2
4
222
2
12
18
1
3
59
1
7
100
1
15
141
2
1
182
2
4
223
2
12
19
1
3
60
1
8
101
1
15
142
2
1
183
2
5
224
2
12
20
1
3
61
1
8
102
1
15
143
2
1
184
2
6
225
2
12
21
1
3
62
1
8
103
1
15
144
2
1
185
2
6
226
2
13
22
1
3
63
1
8
104
1
15
145
2
1
186
2
6
227
2
14
23
1
3
64
1
8
105
1
15
146
2
1
187
2
7
228
2
14
24
1
4
65
1
8
106
1
15
147
2
2
188
2
7
229
2
14
25
1
4
66
1
8
107
1
15
148
2
2
189
2
7
230
2
14
26
1
4
67
1
8
108
1
15
149
2
3
190
2
7
231
2
15
27
1
5
68
1
8
109
1
15
150
2
3
191
2
7
232
2
15
28
1
5
69
1
8
110
1
15
151
2
3
192
2
7
233
2
15
29
1
5
70
1
8
111
1
15
152
2
3
193
2
7
234
2
15
30
1
6
71
1
8
112
1
15
153
2
3
194
2
7
235
2
16
31
1
6
72
1
8
113
1
16
154
2
3
195
2
7
236
2
16
32
1
6
73
1
8
114
1
17
155
2
3
196
2
7
237
2
17
33
1
6
74
1
8
115
1
18
156
2
3
197
2
7
238
2
17
34
1
6
75
1
8
116
1
18
157
2
3
198
2
7
239
2
18
35
1
6
76
1
8
117
1
18
158
2
3
199
2
7
240
2
18
36
1
6
77
1
9
118
1
18
159
2
3
200
2
8
241
2
18
37
1
6
78
1
9
119
1
18
160
2
3
201
2
8
242
2
18
38
1
6
79
1
9
120
1
18
161
2
3
202
2
8
243
2
18
39
1
6
80
1
10
121
1
18
162
2
4
203
2
8
244
2
18
40
1
6
81
1
10
122
2
18
163
2
4
204
2
8
41
1
6
82
1
10
123
2
18
164
2
4
205
2
8
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
302
Data
Split file…
Рис.14.6. Создание выхода по группам
ОК
Analyze
Nonparametric Tests
Chi-Square …
В появившемся диалоговом окне перенести переменную TC [tcen] в окно Test Variable
List.
ОК
Выходная информация:
Chi-Square Test
Frequencies
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
303
Таблица 14.7
Построенная в SPSS таблица результатов опроса с теоретическими частотами и
разностями частот. Группа G1
Observed N
t1
t2
t3
t4
t5
t6
t7
t8
t9
t10
t11
t12
t13
t14
t15
t16
t17
t18
Total
Expected N
6
5
12
3
3
20
10
17
3
3
2
4
1
6
17
1
1
7
121
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
6.7
Residual
-.7
-1.7
5.3
-3.7
-3.7
13.3
3.3
10.3
-3.7
-3.7
-4.7
-2.7
-5.7
-.7
10.3
-5.7
-5.7
.3
a. Group = G1
Таблица 14.8
Статистики теста χ 2 (Test Statistics). Группа G1
TC
Chi-Square
df
Asymp. Sig.
91.281a
17
.000
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 6.7.
b. Group = G1
р-вероятность, равная .000<.001, говорит о том, что распределение терминальных
ценностей, выдвигаемых на первые четыре места, у участников, переживающих
одиночество, максимально значимо отличается от равномерного распределения:
χ2(17, N=121)=91.28, p=.000<.001.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
304
Таблица 14.9
Построенная в SPSS таблица результатов опроса с теоретическими частотами и
разностями частот. Группа G2
Observed N
t1
t2
t3
t4
t5
t6
t7
t8
t9
t10
t11
t12
t13
t14
t15
t16
t17
t18
Total
Expected N
23
2
13
21
1
3
13
14
4
1
3
4
1
4
4
2
2
8
123
Residual
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
6.8
16.2
-4.8
6.2
14.2
-5.8
-3.8
6.2
7.2
-2.8
-5.8
-3.8
-2.8
-5.8
-2.8
-2.8
-4.8
-4.8
1.2
a. Group = G2
Таблица 14.10
Статистики теста χ 2 (Test Statistics). Группа G2
TC
Chi-Square
df
Asymp. Sig.
120.659a
17
.000
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 6.8.
b. Group = G1
р-вероятность, равная .000<.001, говорит о том, что распределение терминальных
ценностей, выдвигаемых на первые четыре места, у участников, непереживающих
одиночество, максимально значимо отличается от равномерного распределения:
χ2(17, N=123)=120.66, p=.000<.001.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
305
Сравнение двух эмпирических распределений
Гипотезы:
H 0 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у
участников, переживающих одиночество и у участников, непереживающих одиночество,
имеют случайные отличия друг от друга.
H 1 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у
участников, переживающих одиночество и у участников, непереживающих одиночество,
отличаются друг от друга закономерно.
Data
Split file…
Reset
OK
Analyze
Descriptive Statistics
Crosstabs …
В появившемся диалоговом окне Crosstabs перенести переменную TC [tcen] в окно
Row(s), а переменную Group[gr] - в окно Column(s). Поставить галочку в окошке Display
clustered bar charts.
Statistics…
В появившемся диалоговом окне Crosstabs: Statistics поставить галочку в окошке
Chi-square.
Continue
OK
Выходная информация:
Crosstabs
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
306
Таблица 14.11
Построенная в SPSS таблица результатов опроса (TC * Group Crosstabulation)
Count
Group
G1
TC
G2
Total
t1
6
23
29
t2
5
2
7
t3
12
13
25
t4
3
21
24
t5
3
1
4
t6
20
3
23
t7
10
13
23
t8
17
14
31
t9
3
4
7
t10
3
1
4
t11
2
3
5
t12
4
4
8
t13
1
1
2
t14
6
4
10
t15
17
4
21
t16
1
2
3
t17
1
2
3
t18
7
121
8
123
15
244
Total
Таблица 14.12
Статистики тестов χ 2 (Chi-Square Tests)
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
49.549a
54.176
7.309
244
df
Asymp. Sig. (2-sided)
17
17
1
.000
.000
.007
a. 19 cells (52.8%) have expected count less than 5. The minimum expected count is .99.
р-вероятность, равная .000<.001, говорит о том, что распределения
отличаются статистически значимо: χ2(17, N=244)=49.55, p=.000<.001.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
307
Выявлена связь между переживанием одиночества и выбором терминальных
ценностей.
Графические
иллюстрации,
полученные
в
SPSS
(Рис.14.7-14.8).
Рисунки
отредактированы в SPSS.
Для получения диаграммы (Рис. 14.8) в диалоговом окне Crosstabs переменную
Group [gr] надо перенести в окно Row(s), а переменную TC [tcen] - в окно Column(s).
Рис.14.7. Распределения участников переживающих одиночество и непереживающих одиночество
по выборам терминальных ценностей
Рис.14.8. Распределения выборов терминальных ценностей испытуемыми переживающих
одиночество и непереживающих одиночество
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
308
Так как распределения отличаются статистически значимо, то можно просто
описать рисунки.
Наиболее выраженными ценностями можно считать ценности, количество выборов
которых превышает 3-ий квартиль. Если рассмотреть все выборы, то это будет: Q3 = 11.5.
Значимые терминальные ценности у непереживающих одиночество (из Таблиц 14.5
или 14.11): t1, t3, t4, t7, t8. Это:
§
активная, деятельная жизнь;
§
здоровье (физическое и психическое здоровье);
§
интересная работа;
§
материально обеспеченная жизнь (отсутствие материальных затруднений);
§
наличие хороших и верных друзей.
Значимые ценности у переживающих одиночество: t3, t6, t8, t15. Это:
§
здоровье (физическое и психическое здоровье);
§
любовь (духовная и физическая близость);
§
наличие хороших и верных друзей;
§
счастливая семейная жизнь.
Таким образом, выбор терминальных ценностей связан с переживанием
одиночества.
15.
Многофункциональные
статистические
критерии.
Критерий
Фишера- ϕ ∗
Критерий ϕ ∗ - называют также угловым преобразованием Фишера (Fisher's angular
transformation). Его используют в случаях:
- данные могут быть представлены в любой шкале;
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
309
- выборки могут быть как зависимыми, так и независимыми;
- объемы выборок n ≥ 5 .
Критерий Фишера ϕ ∗ позволяет решать задачи:
-
Сравнение уровней исследуемых признаков;
-
Сравнение сдвигов в значениях исследуемых признаков;
-
Сравнение распределений.
Критерий Фишера ϕ ∗ - основан на сравнении долей. Доли могут также быть выражены
в процентах.
Критерий Фишера ϕ ∗ предназначен для сравнения двух выборок по частоте
встречаемости исследуемого эффекта.
Число выборок: 2.
Выборки: любые.
Распределения данных: любые.
Доли обозначим через p .
Ограничения: p ≠ 0 .
Алгоритм применения критерия- ϕ ∗
1. Даны две выборки участников: 1 и 2. Объемы выборок n1 и n 2 .
Количество участников в выборке 1, у которых присутствует изучаемый эффект равно ne1
и доля этих участников равна p1 =
ne1
n
, или в процентах: p1 = e1 ⋅ 100% .
n1
n1
Аналогично, количество участников в выборке 2, у которых присутствует
изучаемый эффект равно ne 2 и доля этих участников равна p 2 =
ne 2
, или в процентах:
n2
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
310
p2 =
ne 2
⋅ 100%
n2
При этом p1 < p 2 .
2. Сформулировать гипотезы приблизительно так:
H 0 : Доли участников, у которых проявляется исследуемый эффект в выборках 1 и 2
имеют случайные отличия.
H 1 : Доля участников, у которых проявляется исследуемый эффект в выборке 1
закономерно меньше, чем в выборке 2.
3. Вычислить ϕ1 и ϕ 2 по формуле:
ϕ = 2 ⋅ arcsin
( p ),
(15.1)
в которой p выражено в долях единицы: 0 < p ≤ 1 .
4. Вычислить наблюдаемое значение критерия ϕe∗ по формуле:
ϕe∗ = ϕ 2 − ϕ1 ⋅
n1n2
,
n1 + n2
(15.2)
n1 и n2 - объемы выборок.
5. Критические точки ϕ р (р - уровень значимости) - равны:
ϕ.05 = 1.64 ; ϕ.01 = 2.33 и ϕ.001 = 3.09 .
6. Начертить правостороннюю критическую область:
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
311
H0
H1
ϕα
ϕ∗
7. Установить, куда попадает ϕe∗ и сформулировать ответ.
Нулевая гипотеза H 0 принимается, если ϕe∗ < ϕ р .
Нулевая гипотеза отклоняется и принимается альтернативная гипотеза
H 1 , если ϕe∗ ≥ ϕ р .
Замечание. Процесс вычисления может быть организован в Excel (Смотрите файл
Fisher's_angular_transformation.xlsx).
Программирование формул:
1) ϕ = 2 ⋅ arcsin
( p)
=2*ASIN(SQRT(номер ячейки, где стоит р, вычисленное в долях единицы))
2) ϕe∗ = ϕ 2 − ϕ1 ⋅
n1n2
n1 + n2
=ABS( ϕ 2 − ϕ1 )*SQRT( n1n2 /( n1 + n2 ))
где вместо ϕ 2 , ϕ1 , n1 , n2 стоят номера их ячеек.
Пример 1
В ходе исследования установлено, что в конфликтной ситуации избегание, как
стратегию поведения, выбирают 83.7% взрослых (из 43 участников) с заниженной
самооценкой и 32.4% взрослых (из 37 участников) с адекватной самооценкой. Проверить,
является ли полученное различие статистически значимым?
1. Даны две выборки участников: 1 (с адекватной самооценкой) и 2 (с заниженной
самооценкой). Объемы выборок n1 =37 и n 2 =43.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
312
Доля участников в выборке 1, которые выбирают избегание, как стратегию
поведения в конфликтной ситуации, равна p1 =32.4%;
Доля участников в выборке 2, которые выбирают избегание, как стратегию
поведения в конфликтной ситуации, равна p 2 =83.7%.
При этом p1 < p 2 .
2. Гипотезы:
H 0 : Доля участников с адекватной самооценкой, выбирающих избегание, как
стратегию поведения в конфликтной ситуации имеет случайное отличие, от доли
участников с заниженной самооценкой, выбирающих избегание.
H 1 : Доля участников с адекватной самооценкой, выбирающих избегание, как
стратегию поведения в конфликтной ситуации закономерно ниже, чем доля участников с
заниженной самооценкой, выбирающих избегание.
3. Находим:
(
)
(
)
ϕ1 = 2 ⋅ arcsin .324 = 1.211; ϕ 2 = 2 ⋅ arcsin .837 = 2.310.
4. Вычисляем наблюдаемое значение критерия ϕe∗ :
ϕe∗ = (2.310 − 1.211) ⋅
37 ⋅ 43
= 4.90 .
37 + 43
5. Правосторонняя критическая область:
ϕe∗ =4.90
H1
ϕ∗
H0
ϕ.05 =1.64
ϕ.01 =2.33
ϕ.001 =3.09
Рис.15.1. Критическая область
Наблюдаемое значение критерия ϕe∗ =4.90 принадлежит критической области:
ϕe∗ ≥ ϕ.001 . Нулевая гипотеза отклоняется и принимается альтернативная гипотеза H 1 .
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
313
Ответ. Доля взрослых участников с адекватной самооценкой, выбирающих
избегание, как стратегию поведения в конфликтной ситуации ниже, чем доля
участников с заниженной самооценкой, выбирающих избегание ( ϕe∗ =4.90; p < .001 ).
Взрослые люди с заниженной самооценкой в конфликтной ситуации, как правило, в
качестве стратегии поведения выбирают избегание, для людей с адекватной
самооценкой не характерно выбирать именно эту стратегию поведения. Результат
является закономерным и не может быть объяснен случайными причинами. Выбор
стратегии поведения в конфликтной ситуации связан с самооценкой.
Пример 2.
В ходе исследования установлено, что из 35 молодых участников с высоким
социометрическим статусом высокий уровень субъективного контроля (УСК) имеют 22
участника, а из 45 участников с низким социометрическим статусом высокий уровень
субъективного контроля лишь у 4. Проверить гипотезу: «Девушки и юноши с высоким
социометрическим статусом имеют интернальный (т.е. высокий) локус контроля»
1. Даны две выборки участников: 1 (с высоким СС) и 2 (с низким СС). Объемы
выборок n1 =35 и n 2 =45.
Количество участников с высоким СС, у которых высокий УСК, равно ne1 =22 и
доля таких участников равняется p1 =
22
= .6286 или p1 = 62.86% .
35
Количество участников с низким СС, у которых высокий УСК, равно ne 2 =4 и доля
таких участников равняется p2 =
4
= .0889 или p2 = 8.89% .
45
При этом p1 > p2 .
2. Гипотезы:
H 0 : Доля участников с высоким СС, у которых высокий УСК, и доля участников с
низким СС, у которых высокий УСК имеют случайное отличие.
H 1 : Доля участников с высоким СС, у которых высокий УСК, закономерно выше,
чем доля участников с низким СС, у которых высокий УСК.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
314
3. Находим:
(
)
(
)
ϕ1 = 2 ⋅ arcsin .6286 = 1.83; ϕ 2 = 2 ⋅ arcsin .0889 = 0.61.
4. Вычисляем наблюдаемое значение критерия ϕe∗ :
ϕe∗ = (1.83 − 0.61) ⋅
35 ⋅ 45
= 5.44 .
35 + 45
5. Правосторонняя критическая область:
ϕe∗ =5.44
H1
ϕ∗
H0
ϕ.05 =1.64
ϕ.01 =2.33
ϕ.001 =3.09
Рис.15.2. Критическая область
Наблюдаемое значение критерия ϕe∗ =5.44 принадлежит критической области:
ϕe∗ ≥ ϕ.001 . Нулевая гипотеза отклоняется и принимается альтернативная гипотеза H 1 .
Ответ. Доля участников с высоким СС, у которых высокий УСК, выше, чем доля
участников с низким СС, у которых высокий УСК ( ϕe∗ =5.44; p < .001 ). Результат
является закономерным и не может быть объяснен случайными причинами.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
315
16. Частотный анализ для примера исследования связи между
самооценкой и агрессией
Продолжим исследование связи между самооценкой и агрессией у подростков,
которое было начато в параграфе 12.
Переход к низким, к высоким и к средним показателям
Переход к низким, высоким и средним показателям правильнее всего осуществлять
с помощью методик измерения. Если, по каким-либо причинам в методике нормы не
указаны, или неясно, насколько методика адаптирована, то можно осуществлять разбивку
по выборочным данным.
Если
распределение
выборочных
данных
не
соответствует
нормальному
распределению, то разбивка данных на три группы может осуществляться с помощью
квартилей Q1 и Q3 . Если оценки по самооценке выше Q3 , то их называют «высокими».
Если они находятся в интервале от Q1 до Q3 , то они считаются для самооценки
«адекватными» и для других переменных «средними». Если ниже Q1 , то оценки «низкие»
(Таблица 16.1).
Из таблицы 16.1 находим, квартили Q1 и Q3 по всем переменным (берем их из
Таблицы 12.2.1.1).
Таблица 16.1
Квартили Q1 и Q3
P
FA
NA
K
N
Av
Az
VA
SP
Q1
52.91
3.00
2.00
4.00
2.00
2.00
2.00
4.50
2.00
Q3
71.58
8.00
7.00
7.00
4.00
5.00
5.00
7.00
5.00
Разбиение данных осуществляется автоматически, с помощью программы Syntax.
Откроем файл Samoocenka_Agresija.sav
Откроем новое окно синтакса:
File
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
316
New
Syntax
и напишем в нем следующий текст программы:
if (p<=52.91) p_ind=1 .
if (p>52.91 & p<71.58 ) p_ind=2 .
if (p>=71.58) p_ind=3 .
variable labels p_ind 'P'.
value labels p_ind 1 'Zems'
2 'Adekvaats'
3 'Augsts'.
if (fa<=3) fa_ind=1 .
if (fa>3 & fa<8 ) fa_ind=2 .
if (fa>=8) fa_ind=3 .
variable labels fa_ind 'FA'.
value labels fa_ind 1 'Zema'
2 'Videja'
3 'Augsta'.
if (na<=2) na_ind=1 .
if (na>2 & na<7 ) na_ind=2 .
if (na>=7) na_ind=3 .
variable labels na_ind 'NA'.
value labels na_ind 1 'Zema'
2 'Videja'
3 'Augsta'.
if (k<=4) k_ind=1 .
if (k>4 & k<7 ) k_ind=2 .
if (k>=7) k_ind=3 .
variable labels k_ind 'K '.
value labels k_ind 1 'Zema'
2 'Videja'
3 'Augsta'.
if (n<=2) n_ind=1 .
if (n>2 & n<4 ) n_ind=2 .
if (n>=4) n_ind=3 .
variable labels n_ind 'N'.
value labels n_ind 1 'Zems'
2 'Videjs'
3 'Augsts'.
if (av<=2) av_ind=1 .
if (av>2 & av<5 ) av_ind=2 .
if (av>=5) av_ind=3 .
variable labels av_ind 'Av'.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
317
value labels av_ind 1 'Zems '
2 'Videjs'
3 'Augsts'.
if (az<=2) az_ind=1 .
if (az>2 & az<5 ) az_ind=2 .
if (az>=5) az_ind=3 .
variable labels az_ind 'Az'.
value labels az_ind 1 'Zems '
2 'Videjs'
3 'Augsts'.
if (va<=4.5) va_ind=1.
if (va>4.5 & va<7 ) va_ind=2 .
if (va>=7) va_ind=3 .
variable labels va_ind 'VA'.
value labels va_ind 1 'Zema'
2 'Videja'
3 'Augsta'.
if (sp<=2) sp_ind=1 .
if (sp>2 & sp<5 ) sp_ind=2 .
if (sp>=5) sp_ind=3 .
variable labels sp_ind 'SP'.
value labels sp_ind 1 'Zems'
2 'Videjs'
3 'Augsts'.
execute.
Сохраним файл под именем Q_of SyntaxSA.SPS (Рис.16.1).
Для того, чтобы программа выполнила необходимые действия необходимо
ВЫДЕЛИТЬ ВЕСЬ ТЕКСТ (Edit – Select All) и нажать Run (пуск), All (Рис.16.2).
После выполнения всех выше перечисленных действий в наш исходный файл
Samoocenka_Agresija.sav автоматически будут добавлены столбцы данных. Появятся
новые переменные. Останется только поставить число знаков после запятой (Decimals)
равным нулю и выбрать Nominal Measure (Рис.16.3).
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
318
Рис.16.1. Переход к низким, средним и высоким показателям.
Рис.16.2. Запуск программы
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
319
Рис.16.3. Новые переменные
Рис.16.4. Новые данные
Analyze
Descriptive Statistics
Crosstabs …
В появившемся диалоговом окне Crosstabs перенести переменную P[p_ind] в окно
Row(s), а переменную FA[fa_ind] - в окно Column(s). Поставить галочку в окне Display
clustered bar charts (Рис.16.5).
Рис.16.5. Диалоговое окно теста Crosstabs – сравнение двух эмпирических распределений
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
320
Statistics…
В появившемся диалоговом окне Crosstabs: Statistics поставить галочку в окне Chisquare (Рис.16.6).
Рис.16.6. Диалоговое окно теста Crosstabs: Statistics
Continue
OK
Выходные данные:
«Самооценка – Физическая агрессия»
Таблица 16.2
Обработанные наблюдения
Cases
Valid
N
P * FA
Missing
Percent
145
100.0%
N
Total
Percent
.0%
N
Percent
145
100.0%
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
321
Таблица 16.3
P * FA Crosstabulation
Count
FA
Zema
P
Zems
Videja
Augsta
4
9
Adekvaats
36
Augsts
3
43
Total
Total
23
36
36
1
73
11
56
22
46
36
145
Таблица 16.4
Chi-Square Tests
Value
df
Asymp. Sig. (2-sided)
66.447a
4
.000
80.532
4
.000
Linear-by-Linear Association
.000
1
1.000
N of Valid Cases
145
Pearson Chi-Square
Likelihood Ratio
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.68.
При помощи критерия «Хи-квадрат» проверена взаимная независимость переменных
таблиц сопряженности. Поэтому косвенно выявляется связь между переменными
«Самооценка» и «Физическая агрессия»5: χ2(4, N=145)=66.45, p=.000<.001.
Показаны результаты тестов «Хи-квадрат»:
- Хи-квадрат по Пирсону;
- Отношение правдоподобия (поправка на правдоподобие «на непрерывность»);
- тест Мантеля-Хэнзеля («линейный по линейному», для данных, относящихся к
номинальной шкале, этот критерий не применим).
Результат получился максимально значимым: р <.001.
5
Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и
восстановление скрытых закономерностей. СПб.: ООО «ДиаСофтЮП».
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
322
Рис.16.7. Распределение участников с высокой, средней и низкой физической агрессией по
самооценке.
Из полученных Таблицы 16.3 и диаграммы (Рис.16.7) видно, что
1) Среди подростков с низкой самооценкой больше всего подростков с высокой
физической агрессией;
2) Среди подростков с адекватной самооценкой больше всего подростков с низкой
и средней физической агрессией;
3) Среди подростков с высокой самооценкой больше всего подростков с высокой
физической агрессией.
Поменяв местами (Рис.16.5) переменные «Самооценка [p_ind]» и «Физическая
агрессия («FА [fa_ind]»), можно получить другую диаграмму, относящуюся к той же
таблице сопряженности (Рис.16.8):
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
323
Рис.16.8. Распределение участников с высокой, адекватной и низкой самооценкой по физической
агрессии
Из диаграммы (Рис.16.8) видно, что
1) Среди подростков с низкой физической агрессией преобладают подростки с
адекватной самооценкой;
2) Среди подростков со средней физической агрессией преобладают подростки с
адекватной самооценкой;
3) Среди подростков с высокой физической агрессией преобладают подростки с
высокими и низкими самооценками.
Аналогичным способом можно получить таблицы и диаграммы для
остальных переменных.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
324
«Самооценка – Косвенная агрессия»
Таблица 16.5
P * NA Crosstabulation
Count
NA
Zema
P
Zems
Videja
Augsta
Total
3
11
22
36
Adekvaats
34
38
1
73
Augsts
2
39
13
62
21
44
36
145
Total
Таблица 16.6
Chi-Square Tests
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
df
65.040a
79.219
.000
145
Asymp. Sig. (2-sided)
4
4
1
.000
.000
1.000
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 9.68.
Максимально значимая связь: χ2(4, N=145)=65.04, p=.000<.001.
Рис.16.9. Распределение участников с высокой,
средней и низкой косвенной агрессией по
самооценке
Рис.16.10. Распределение участников с
высокой, адекватной и низкой самооценкой по
косвенной агрессии
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
325
«Самооценка – Раздражение»
Таблица 16.7
P * К Crosstabulation
Count
K
Zema
P
Videja
Zems
Augsta
Total
3
4
29
36
Adekvaats
34
37
2
73
Augsts
5
42
12
53
19
50
36
145
Total
Таблица 16.8
Chi-Square Tests
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
73.384a
85.181
3.146
145
df
Asymp. Sig. (2-sided)
4
4
1
.000
.000
.076
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.43.
Максимально значимая связь: χ2(4, N=145)=73.38, p=.000<.001.
Рис.16.10. Распределение участников с
высоким, средним и низким раздражением по
самооценке
Рис.16.11. Распределение участников с высокой,
адекватной и низкой самооценкой по
раздражению
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
326
«Самооценка – Негативизм»
Таблица 16.9
P * N Crosstabulation
Count
N
Zems
P
Videjs
Augsts
Total
Zems
17
12
7
36
Adekvaats
28
16
29
73
Augsts
17
62
9
37
10
46
36
145
Total
Таблица 16.10
Chi-Square Tests
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
df
5.264a
5.382
.169
145
Asymp. Sig. (2-sided)
4
4
1
.261
.250
.681
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 9.19.
Связь не выявлена: χ2(4, N=145)=5.26, p=.261, ns.
Рис.16.12. Распределение участников с высоким,
средним и низким негативизмом по самооценке
Рис.16.13. Распределение участников с
высокой, адекватной и низкой самооценкой по
негативизму
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
327
«Самооценка – Обида»
Таблица 16.11
P * Av Crosstabulation
Count
av
Zems
P
Videjs
Augsts
Total
Zems
18
13
5
36
Adekvaats
18
30
25
73
Augsts
12
48
14
57
10
40
36
145
Total
Таблица 16.12
Chi-Square Tests
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
df
8.456a
8.654
2.764
145
Asymp. Sig. (2-sided)
4
4
1
.076
.070
.096
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is
9.93.
Связь не выявлена: χ2(4, N=145)=8.46, p=.076, ns.
Рис.16.14. Распределение участников с высокой,
средней и низкой обидой по самооценке
Рис.16.15. Распределение участников с
высокой, адекватной и низкой самооценкой по
обиде
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
328
«Самооценка – Подозрительность»
Таблица 16.13
P * Az Crosstabulation
Count
Az
Zems
P
Videjs
Augsts
Total
Zems
17
11
8
36
Adekvaats
23
24
26
73
Augsts
7
47
13
48
16
50
36
145
Total
Таблица 16.14
Chi-Square Tests
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
df
7.125a
7.276
6.685
145
Asymp. Sig. (2-sided)
4
4
1
.129
.122
.010
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is
11.67.
Связь не выявлена: χ2(4, N=145)=7.125, p=.129, ns.
Рис.16.16. Распределение участников с
высокой, средней и низкой подозрительностью
по самооценке
Рис.16.17. Распределение участников с
высокой, адекватной и низкой самооценкой по
подозрительности
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
329
«Самооценка – Вербальная агрессия»
Таблица 16.15
P * VA Crosstabulation
Count
VA
Zema
P
Zems
Videja
Augsta
Total
4
8
24
36
Adekvaats
31
38
4
73
Augsts
1
36
18
64
17
45
36
145
Total
Таблица 16.16
Chi-Square Tests
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
df
57.289a
65.614
.398
145
Asymp. Sig. (2-sided)
4
4
1
.000
.000
.528
a. 0 cells (.0%) have expected count less than 5. The minimum expected count
is 8.94.
Максимально значимая связь: χ2(4, N=145)=57.29, p=.000<.001.
Рис.16.18. Распределение участников с
высокой, средней и низкой вербальной
агрессией по самооценке
Рис.16.19. Распределение участников с высокой,
адекватной и низкой самооценкой по
вербальной агрессии
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
330
«Самооценка – Угрызения совести и чувство вины»
Таблица 16.17
P * SP Crosstabulation
Count
SP
Zems
P
Videjs
Augsts
Total
Zems
13
8
15
36
Adekvaats
18
17
38
73
Augsts
13
44
9
34
14
67
36
145
Total
Таблица 16.18
Chi-Square Tests
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
df
2.746a
2.762
.019
145
Asymp. Sig. (2-sided)
4
4
1
.601
.598
.891
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is
8.44.
Связь не выявлена: χ2(4, N=145)=2.75, p=.601, ns.
Рис.16.20. Распределение участников с высокой,
средней и низкой «угрызениями совести и
чувством вины» по самооценке
Рис.16.21. Распределение участников с
высокой, адекватной и низкой самооценкой по
«угрызениям совести и чувством вины»
Очевидно, что различий в распределениях, а, следовательно, и связи между
переменными нет.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
331
Хотя статистически значимых результатов не выявлено, ситуацию, на уровне
выборки, можно описать так:
1) Среди подростков с низкой самооценкой больше всего подростков с высоким и
низким уровнями угрызения совести, чувства вины;
2) Среди подростков с адекватной самооценкой больше всего подростков с
высоким уровнем угрызения совести, чувства вины;
3) Среди подростков с высокой самооценкой больше всего подростков с высоким и
низким уровнями угрызения совести, чувства вины;
4) Среди подростков с низким уровнем угрызения совести, чувства вины больше
всего подростков с адекватной самооценкой;
5) Среди подростков с адекватным уровнем угрызения совести, чувства вины
больше всего подростков с адекватной самооценкой;
6) Среди подростков с высоким уровнем угрызения совести, чувства вины больше
всего подростков с адекватной самооценкой.
Для уточнения можно сравнить процентные доли участников в разных категориях с
помощью критерия Фишера ϕ ∗ .
Исследование связи путем сравнения процентных долей с помощью
критерия Фишера ϕ ∗
Перенесем в Excel таблицы сопряженности (например, 16.3 (СамооценкаФизическая агрессия) и 16.17 (Угрызения совести и чувство вины)).
Сравним столбики по высоте внутри каждой группы. Для этого организуем в Excel
таблицу 16.19 (См. файл FI.xls, которую можно продолжать, можно в нее записывать
другие исходные данные).
Все формулы во второй строке таблицы программируются следующим образом.
ki - число из соответствующей ячейки таблицы сопряженности;
ni - объем соответствующей группы;
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
332
pi =
ki
⋅ 100% = ki / ni *100
ni
pi
= 2*asin(sqrt( pi /100))
ϕi = 2 ⋅ arcsin
100
ϕ ∗ = ϕ2 − ϕ1
n1 n2
=abs( ϕ2 - ϕ1 )*sqrt( n1 * n2 /( n1 + n2 ))
n1 + n2
Некоторые выводы:
«Самооценка - Физическая агрессия»
1) Среди подростков с высокой физической агрессией в одинаковой степени
большие доли составляют подростки с высокой и низкой самооценками (р<.001);
2) Среди подростков со средней и низкой физическими агрессиями преобладает
доля подростков с адекватной самооценкой (р<.001);
3) Среди подростков с высокой самооценкой большую долю составляют подростки
с высокой физической агрессией (р<.001), затем со средней физической агрессией и, в
меньшей степени, с низкой физической агрессией (р<.01);
4) Среди подростков с адекватной самооценкой большую долю составляют
подростки со средней физической агрессией (р<.001) и с низкой физической агрессией –
меньшую долю (р<.001);
5) Среди подростков с низкой самооценкой доля подростков с высокой физической
агрессией больше доли подростков со средней <0.001).
«Самооценка- Угрызения совести, чувство вины»
1) Среди подростков с высокими угрызениями совести и чувством вины большую
долю составляют подростки с адекватной самооценкой (р<.001);
2) Среди подростков со средними угрызениями совести и чувством вины большую
долю составляют подростки с адекватной самооценкой (р<.05);
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
333
Таблица 20.18
Исследование различий процентных долей (Самооценка – P; Физическая агрессия – FA;
Угрызения совести, чувство вины – SP)
1
Высокая FА
Средняя FА
Низкая FА
Высокая P
Адекватная P
Низкая P
Высокая SP
Средняя SP
Низкая SP
Высокая P
Адекватная P
Низкая P
2
k1
k2
n1
n2
p1
p2
ϕ1
ϕ2
ϕ∗
Высокая P
Адекватная P
22
1
46
46
47.83
2.17
1.53
0.30
5.91
Высокая P
Низкая P
22
23
46
46
47.83
50.00
1.53
1.57
0.21
Адекватная P
Низкая P
1
23
46
46
2.17
50.00
0.30
1.57
6.11
Высокая P
Адекватная P
11
36
56
56
19.64
64.29
0.92
1.86
4.99
Высокая P
Низкая P
11
9
56
56
19.64
16.07
0.92
0.82
0.49
Адекватная P
Низкая P
36
9
56
56
64.29
16.07
1.86
0.82
5.48
Высокая P
Адекватная P
3
36
43
43
6.98
83.72
0.53
2.31
8.24
Высокая P
Низкая P
3
4
43
43
6.98
9.30
0.53
0.62
0.40
Адекватная P
Низкая P
36
4
43
43
83.72
9.30
2.31
0.62
7.84
Высокая FA
Средняя FА
22
11
36
36
61.11
30.56
1.79
1.17
2.65
Высокая FA
Низкая FА
22
3
36
36
61.11
8.33
1.79
0.59
5.13
Средняя FА
Низкая FА
11
3
36
36
30.56
8.33
1.17
0.59
2.48
Высокая FA
Средняя FА
1
36
73
73
1.37
49.32
0.23
1.56
7.99
Высокая FA
Низкая FА
1
36
73
73
1.37
49.32
0.23
1.56
7.99
Средняя FА
Низкая FА
36
36
73
73
49.32
49.32
1.56
1.56
0.00
Высокая FA
Средняя FА
23
9
36
36
63.89
25.00
1.85
1.05
3.42
Высокая FA
Низкая FА
23
4
36
36
63.89
11.11
1.85
0.68
4.97
Средняя FА
Низкая FА
9
4
36
36
25.00
11.11
1.05
0.68
1.56
Высокая P
Адекватная P
14
38
67
67
20.90
56.72
0.95
1.71
4.38
Высокая P
Низкая P
14
15
67
67
20.90
22.39
0.95
0.99
0.21
Адекватная P
Низкая P
38
15
67
67
56.72
22.39
1.71
0.99
4.17
Высокая P
Адекватная P
9
17
34
34
26.47
50.00
1.08
1.57
2.02
Высокая P
Низкая P
9
8
34
34
26.47
23.53
1.08
1.01
0.28
Адекватная P
Низкая P
17
8
34
34
50.00
23.53
1.57
1.01
2.30
Высокая P
Адекватная P
13
18
44
44
29.55
40.91
1.15
1.39
1.12
Высокая P
Низкая P
13
13
44
44
29.55
29.55
1.15
1.15
0.00
Адекватная P
Низкая P
18
13
44
44
40.91
29.55
1.39
1.15
1.12
Высокая SP
Средняя SP
14
9
36
36
38.89
25.00
1.35
1.05
1.27
Высокая SP
Низкая SP
14
13
36
36
38.89
36.11
1.35
1.29
0.24
Средняя SP
Низкая SP
9
13
36
36
25.00
36.11
1.05
1.29
1.03
Высокая SP
Средняя SP
38
17
73
73
52.05
23.29
1.61
1.01
3.65
Высокая SP
Низкая SP
38
18
73
73
52.05
24.66
1.61
1.04
3.46
Средняя SP
Низкая SP
17
18
73
73
23.29
24.66
1.01
1.04
0.19
Высокая SP
Средняя SP
15
8
36
36
41.67
22.22
1.40
0.98
1.79
Высокая SP
Низкая SP
15
13
36
36
41.67
36.11
1.40
1.29
0.48
Средняя SP
Низкая SP
8
13
36
36
22.22
36.11
0.98
1.29
1.30
Все значимые различия процентных долей выделены. Критические точки:
Значимо на уровне .001
Значимо на уровне .01
Значимо на уровне .05
3.09
2.33
1.64
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
334
3) Среди подростков с низкими угрызениями совести и чувством вины, доли
подростков с высокой, средней и адекватной самооценками различаются статистически
незначимо;
4) Среди подростков с высокой самооценкой доли подростков с высокими,
средними и низкими угрызениями совести и чувством вины различаются статистически
незначимо;
5) Среди подростков адекватной самооценкой доля подростков с высокими
угрызениями совести и чувством вины больше доли подростков со средними и низкими
угрызениями совести и чувством вины (р<.001);
4) Среди подростков с низкой самооценкой доля подростков с высокими
угрызениями совести больше, чем со средними (р<.05).
Полученные результаты согласуются с результатами, полученными в результате
корреляционного анализа и уточняют их.
Домашнее задание 4
Провести исследование связи между самооценкой, измеренной по методике ДембоРубинштейна и агрессией, измеренной по методике Басса-Дарки у подростков. Варианты
данных находятся в файле Samoocenka-Agressija_Varianti_(1-16).xlsx.
Результаты оформить по образцу Приложения 4.
Домашнее задание 5
Выполнить задания, которые находятся в файле Chi_Square_Varianti_(1-16).pdf.
Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017
335