Анализ данных в социальных науках

⌛ 2017 год
👀 626 просмотров
📌 604 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Анализ данных в социальных науках», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Анализ данных в социальных науках», Word формат

Блюменау Нина Федоровна Анализ данных в психологии и социальных науках Конспект лекций Рига, 2017 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 1 CОДЕРЖАНИЕ Введение.......................................................................................................................................10 1. Измерение.................................................................................................................................16 1.1. Измерительные шкалы.............................................................................................17 1.1.1. Шкала наименований................................................................................17 1.1.2. Порядковая шкала......................................................................................18 1.1.3. Шкала интервалов......................................................................................21 1.14. Шкала отношений.......................................................................................21 1.2. Мощность шкалы……………………………………………………………...…...24 1.3. Особенности обработки данных в зависимости от шкал......................................25 1.3.1 Номинальная шкала....................................................................................25 1.3.2. Порядковая шкала......................................................................................26 1.3.3. Метрические шкалы..................................................................................26 1.4. Переменные величины.............................................................................................27 1.5. Популяция и выборка...............................................................................................28 1.5.1. Популяция (Population).............................................................................28 1.5.2. Выборка (Sample).......................................................................................29 2. Основные показатели описательной статистики..................................................................29 2.1. Объем выборки.........................................................................................................29 2.2. Среднее арифметическое.........................................................................................30 2.3. Стандартная ошибка среднего.................................................................................30 2.4. Медиана.....................................................................................................................30 2.5. Мода...........................................................................................................................31 2.6. Дисперсия..................................................................................................................31 2.7. Стандартное отклонение..........................................................................................31 2.8. Размах.........................................................................................................................34 2.9. Асимметрия...............................................................................................................34 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 2 2.10. Стандартная ошибка асимметрии.........................................................................36 2.11. Эксцесс.....................................................................................................................37 2.12. Стандартная ошибка эксцесса...............................................................................38 2.13. Квартили..................................................................................................................39 2.14. Шкала стенов….…………………………………………............………………..40 3. Общие рекомендации к объему выборки..............................................................................44 4. Расчет описательных статистик с помощью компьютерной программы SPSS.................45 5. Гендерные различия агрессии у подростков.........................................................................47 5.1. Ввод данных..............................................................................................................47 5.1.1. Описание переменных...............................................................................50 5.1.2. Ввод данных...............................................................................................59 5.1.3. Проверка правильности ввода данных....................................................60 5.2. Описательная статистика.........................................................................................64 5.3. Графические иллюстрации уровней агрессии мальчиков и девочек...................74 5.3.1. Коробчатые диаграммы.............................................................................74 5.3.2. Диаграммы для средних значений...........................................................86 5.3.2.1. Построение с помощью Excel....................................................86 5.3.2.2. Построение с помощью SPSS. Способ 1..................................87 5.3.2.3. Построение с помощью SPSS. Способ 2..................................91 6. Распределения..........................................................................................................................94 6.1. Случайные величины...............................................................................................94 6.2. Нормальное распределение.....................................................................................97 6.3. Распределение «Хи-квадрат» ( χ 2 ).......................................................................100 6.4. Распределение Стьюдента или t-распределение..................................................103 6.5. Распределение Фишера-Снедекора или f-распределение...................................105 7. Проверка статистических гипотез с помощью SPSS.........................................................108 7.1. Виды статистических гипотез...............................................................................108 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 3 7.2. Ошибки 1-ого и 2-ого рода....................................................................................110 7.3. Статистический критерий......................................................................................111 7.4. Критическая область. Критические точки...........................................................112 7.5. Нахождение критических точек с помощью компьютерной программы GRETL......................................................................115 7.6. Нахождение критических точек распределения χ 2 с помощью компьютерной программы Excel……………………………………..………….119 7.7. р-value......................................................................................................................120 7.8. Вычисление р-value с помощью компьютерной программы GRETL................123 Домашнее задание 1..........................................................................................126 7.9. Мощность критерия................................................................................................126 7.10. Параметрические и непараметрические критерии............................................127 8. Проверка нормальности распределения данных с помощью SPSS..................................128 9. Гендерные различия агрессии у подростков. Продолжение…….....................................129 9.1.Проверка нормальности распределения данных..................................................129 9.1.1. Стандартные ошибки асимметрии и эксцесса......................................129 9.1.2. Критерий Колмогорова-Смирнова.........................................................130 9.1.3. Критерий Колмогорова-Смирнова в модификации Лиллифора и критерий Шапиро-Уилкса.................................................................................134 9.1.4. Получение гистограмм с нормальной кривой......................................138 9.1.5. Выбор критерия для исследования гендерных различий....................147 9.2. Исследование различия уровня агрессии с помощью U-критерия МаннаУитни..............................................................................................................................147 9.3. Исследование различия средних уровней агрессии с помощью параметрического t-теста..............................................................................................152 Домашнее задание 2..........................................................................................157 10. Классификация методов статистического вывода о различии........................................158 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 4 11. Исследование связи.............................................................................................................158 11.1. Корреляционная диаграмма.................................................................................159 11.2. Коэффициенты корреляции.................................................................................162 11.3. Проверка статистической значимости коэффициента корреляции Пирсона............................................................................................168 11.4. Проверка статистической значимости коэффициентов корреляции Спирмена и Кендалла……………………………………………176 Домашнее задание 3..........................................................................................177 11.5. Частная корреляция………………………………………………………….….178 11.6. Нелинейный характер связи................................................................................180 11.7. Частотный анализ.................................................................................................181 11.8. Исследование связи, когда коэффициентами одна переменная количественная, а другая номинальная..............................................................181 11.9. Исследование связи между номинальными переменными..............................182 11.10. Сравнение корреляций для двух независимых выборок................................183 11.11. Сравнение коэффициентов корреляции двух зависимых выборок...............185 11.12. Схема исследования связи.................................................................................188 12. Связь между самооценкой и агрессией подростков.........................................................189 12.1. Ввод данных..........................................................................................................190 12.2. Описательная статистика и проверка нормальности распределения..............194 12.2.1. Показатели описательной статистики.................................................194 12.2.2. Гистограммы с нормальной кривой.....................................................196 12.2.3. Критерий Колмогорова-Смирнова в модификации Лиллифора и критерий Шапиро-Уилкса.................................................................................198 12.2.4. Графическая иллюстрация: Boxplots...................................................202 12.3. Вычисление коэффициентов корреляции..........................................................205 12.4. Корреляционные диаграммы...............................................................................208 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 5 12.5. Нелинейный регрессионный анализ. Выбор вида связи...................................212 12.6. Графическая иллюстрация результатов регрессионного анализа....................227 12.7. Переход к низким и к высоким показателям.....................................................233 12.7.1. Анализ двух групп самооценки............................................................235 12.7.2. Анализ двух групп вербальной агрессии............................................264 13. Критерий согласия χ 2 –Пирсона.......................................................................................270 13.1. Выявление различий в распределениях признаков. Критерий согласия χ 2 Пирсона (Chi-square, Pearson).......................................................................................270 13.2. Сравнение эмпирического распределения признака с равномерным распределением..............................................................................................................272 13.3. Сравнение двух эмпирических распределений.................................................282 14. Исследование выборов терминальных ценностей (ТЦ) по М. Рокичу...........................296 15. Многофункциональные статистические критерии. Критерий Фишера- ϕ ∗ ...................309 16. Частотный анализ для примера исследования связи между самооценкой и агрессией.....................................................................................................................................316 Домашнее задание 4..........................................................................................335 Домашнее задание 5..........................................................................................335 21. ANOVA.................................................................................................................................336 21.1. Основные понятия................................................................................................289 21.2. Однофакторный дисперсионный анализ «One-way ANOVA».........................293 21.3. Пример применения One Way ANOVA с помощью SPSS................................303 21.4. Множественные сравнения средних...................................................................310 Домашнее задание 6..........................................................................................317 21.5. Многофакторный дисперсионный анализ ANOVA..........................................318 21.6. Общая линейная модель.......................................................................................329 21.6.1. Однофакторный ANOVA......................................................................329 21.6.2. Двухфакторный ANOVA......................................................................334 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 6 21.7. Пример применения двухфакторного ANOVA с помощью SPSS...................338 Домашнее задание 5..........................................................................................363 22. Регрессионный анализ……………………...……………………………………………..364 22.1. Простая линейная регрессия……………………………………………………364 22.1.1. Cуммы квадратов отклонений (Sums of Squares)...............................370 22.1.2. Коэффициент детерминации (R square)…...…………………………372 22.1.3. Cредние квадраты отклонений.............................................................374 22.1.4. Cтандартная ошибка прогноза (St.andard Error of Estimate)……...…...........................................................................................................376 22.1.5. Adjusted R Square (Скорректированный R-квадрат)………………..377 22.1.6. Дисперсионный анализ ANOVA……………………………………..378 22.1.7. Статистическая значимость параметров регрессии...........................380 22.1.8. Уравнение линейной регрессии для стандартизованных данных…382 22.1.9. Решение с помощью SPSS....................................................................384 22.1.10. Сохранение прогнозируемых значений и остатков…………..…...388 22.2. Пример с применением SPSS: «Тревожность-Тест»1…..………...………..…388 22.1.1. Линейная модель…………...………………………………………….389 22.2.2. Оценка нелинейности…………………………………………………393 I. Построение квадратической регрессионной модели с помощью нелинейного регрессионного анализа………………………………………..395 II. Построение квадратической регрессионной модели с помощью добавления новой переменной……………………………………………….399 Домашнее задание 6..........................................................................................408 23. Множественный регрессионный анализ……………………………...…………………409 23.1. Постановка задачи………………………………………………………………409 23.2. Проверка значимости уравнения регрессии (ANOVA)…………………...….411 Наследов А.Д. (2005) SPSS: Компьютерный анализ данных в психологии и социальных науках. СПб.: Питер. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 1 7 23.3. Коэффициент детерминации……………………………………………..…….415 23.4. Скорректированный R-квадрат (Adjusted R Square)………………………….416 23.5. Стандартная ошибка прогноза……………………………………………...…..417 23.6. Условия получения приемлемых результатов множественного регрессионного анализа…………………………….………418 23.7. Пример: «Помощь»……………………………………………………………..419 23.7.1. Анализ исходных данных…………………………………………….419 23.7.2. Основные методы множественного регрессионного анализа с помощью SPSS………………………………………………………………...425 23.7.3. Метод «Enter» (Включение)………………………………………………….432 23.7.4. Метод «Forward» (Прямой)….………………………………………………..434 23.7.5. Метод «Backward» (Обратный)……………………………………..………..438 23.7.6. Пошаговые методы……………………………………………………...…….441 23.8. Пример: «Эксплицитные и имплицитные аттитюды к мобильным операторам: эмоциональные и когнитивные аспекты».............................................443 Домашнее задание 7..........................................................................................446 24. Анализ надежности………………………………………………………………………..447 24.1. Коэффициент альфа Кронбаха…………………………………………………448 24.2. Рекомендации по оценке внутренней согласованности шкалы……….……..463 Домашнее задание 8..........................................................................................464 25. Факторный анализ…………………………………………………………………….…..464 25.1. Основные понятия................................................................................................464 25.2. Постановка задачи...................……………………………………….…………467 25.3. Анализ главных компонент.................................………………..……………..471 25.4. Определение числа факторов……………………..…………………………....476 25.5. Восстановление коэффициентов корреляции....................................................477 25.6. Факторная структура……………………………………………………………480 25.7. Проблема общности…………………………………………………………….481 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 8 25.8. Методы факторного анализа………………………………..………………….484 25.9. Вращение факторов.......…………………………...............................................486 25.10. Оценка значений фактора………..…………..................……………………..490 25.11. КМО и критерия сферичности Бартлетта……...……………………………..497 25.12. Пример обработки на компьютере…………..………………………………..498 Домашние задания.....................................................................................................................511 Приложение 1. Методика Басса-Дарки....................................................................................516 Приложение 2. Математическая часть работы «Исследование гендерных различий агрессивности у подростков 14-15 лет»..................................................................................530 Приложение 3. Методика Дембо-Рубинштейна.....................................................................557 Приложение 4. Математическая часть работы «Исследование связи между самооценкой и агрессией в подростковом возрасте».......................................................................................562 Приложение 5. Исследование связи эмоционального истощения со стажем......................648 Литература..................................................................................................................................655 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 9 Введение В ХХ веке в социальных науках стали активно использоваться математические методы. С развитием вычислительной техники происходило совершенствование этих методов. Наряду с математиками статистические методы, теорию вероятностей и вычислительные методы развивали физики, биологи, генетики, психологи, медики и ученые из других областей науки. Их именами названы многие статистические термины. Например, теоретическое распределение Фишера-Снедекора. Рональд Фишер – статистик, биолог, генетик, основатель дисперсионного анализа (ANOVA). Благодаря работе Фишера, регрессионный анализ используется для того, чтобы сделать вывод о связи между переменными. Известен статистический критерий Фишера. Термин «регрессия» был впервые применен к статистике географом, психологом и антропологом Фрэнсисом Гальтоном, который внес существенный вклад в развитие статистики и генетики. В 1870 году он собрал данные о высоте потомков экстремально высоких и экстремально низких деревьев2. Он хотел выяснить, как связаны деревья со своими предками. Ученый опубликовал результаты исследования в 1886 году под названием «Регрессия к среднему в наследственности». Из наблюдений Гальтона следует, что потомство не стремится походить на родителей по размеру, но всегда получается более средним — ниже, чем предки, если предки были высокими, и выше, чем предки, если предки были низкими. Френсис Гальтон является, также, одним из основателей факторного анализа. Карл Пи́рсон (1857 — 1936) — английский математик, статистик, биолог и философ; основатель математической статистики, один из основоположников биометрики. Широко известен коэффициент корреляции Спирмена. Психолог Чарльз Эдвард Спирмен был, также, одним из основателей факторного анализа, наряду с психологами Луисом Леоном Терстоуном, Реймондом Бернард Кеттелом и Гансом Юргеном Айзенком и другими учеными. В настоящее математическое время обоснование. любые По исследования требованиям в психологии Американской должны иметь Психологической Например, «Кто изобрел понятие о статистической регрессии?». Доступно в http://lpgenerator.ru/blog/2015/12/16/kto-izobrel-ponyatie-o-statisticheskoj-regressii/ Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 10 2 Ассоциации (АРА3) в научных статьях обязательно должны быть представлены статистические методы обработки данных. Существует специальная система статистических сокращений, которые не нуждаются в пояснениях. Разработан комплекс статистических компьютерных программ, который назвали «Statistical Package for Social Sciences», сокращенно – SPSS. Сейчас SPSS используют не только в социальных науках. Существует уже вполне традиционное убеждение, что психология без количественных исследований, связывающих теорию с практикой, развиваться не может. Любую экспериментальную гипотезу принято доказывать с применением математических методов. Современному психологу необходимо уметь организовывать исследование так, чтобы его результаты можно было бы обработать с применением математических методов, уметь выбирать адекватные методы обработки данных, анализировать и интерпретировать полученные результаты. Без статистической обработки данных невозможно защитить бакалаврскую работу, магистерскую работу и докторскую диссертацию по психологии. Психологу необходимо уметь совершать переход от психологического языка к языку математики. Определять математическую идентификацию исследовательской ситуации, выбирать валидные методики для измерения переменных и адекватные методы анализа данных. Обрабатывать данные, анализировать их математически, получать результаты. А затем, поработав с математикой, необходимо переходить обратно, на психологический язык, давать результатам психологическую интерпретацию. Основной целью преподавания статистических методов студентам-психологам является подготовка студентов к будущей научной работе, начальными этапами которой служат курсовая, дипломная и магистерская работы. При решении реальных задач даже в рамках учебного процесса (выполнения курсовых, дипломных, магистерских работ) приходится сталкиваться с обработкой большого количества данных. Существует множество статистических компьютерных программ, позволяющих быстро и качественно это делать. Психолог должен знать APA – American Psychological Association. http://www.apa.org/. APA является ведущей научной и профессиональной организацией, представляющей психологию в Соединенных Штатах. Миссия АРА состоит в том, чтобы продвигать создание, коммуникации и применение психологических знаний на благо общества и улучшения жизни людей. APA была основана в июле 1892 года небольшой группой ученых. Первым президентом АРА был Грэнвилл Стэнли Холл (1844-1924) (Granville Stanley Hall, см. http://www.newworldencyclopedia.org/entry/G._Stanley_Hall). В 2016 году президентом АРА избрана Susan H. McDaniel http://www.apa.org/about/governance/council/members/susan-h-mcdaniel.aspx. 3 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 11 возможности статистических программ и уметь их применять. В данном учебном пособии рассматривается применение компьютерных программ SPSS, GRETL и MS Excel. Для усвоения данного предмета требуется предварительное изучение курса «Статистические методы в психологии», основ психометрики и умение пользоваться компьютером (MS Word, Excel, Internet). Статистическая терминология на русском и латышском языках существенно отличается от соответствующей английской терминологии, используемой в учебниках на английском языке, в научной литературе и в компьютерных программах. Поэтому каждое новое понятие необходимо знать на латышском, русском и английском языках. Все примеры, которые рассматриваются в данном конспекте лекций основаны на реальных данных, взятых из курсовых, дипломных и магистерских работ, а также из учебников, научных статей и других публикаций. Часто используются сокращения на латышском языке. Конспект лекций «Анализ данных в психологии и социальных науках» предназначен для студентов как бакалаврской, так и магистерской программ. Основной целью предлагаемого курса является возможность приобрести знания и развить компетентности в выборе адекватных статистических методов обработки данных, в обработке данных, в анализе полученных результатов, а также в использовании компьютерных программ MS Excel, GRETL и SPSS для решения теоретических и практических задач современной психологии и других социальных наук. Основными задачами данного курса лекций являются: • Формирование теоретических и практических компетентностей по применению современных статистических методов и компьютерных программ для исследования; • Содействие в развитии научно-исследовательских навыков, критического отношения, способностей давать объективные оценки и самооценку, а также личностного развития будущих исследователей. Формируемые компетентности: Ø Общенаучные: способность и готовность к синтезу знаний в области статистических и вычислительных методов при осуществлении исследований, к анализу конкретной исследовательской ситуации. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 12 Ø Инструментальные: использование специфической терминологии статистики, работа с информацией из разных источников, освоение навыков оформления научных отчетов, использования различных компьютерных программ. Ø Социально личностные и культурные: способности к самосовершенствованию, к переоценке накопленного опыта, знаний и информационных технологий; к критическому восприятию информации, к её проверке аналитическими методами; способности выявлять и анализировать психологические проблемы, используя статистические методы и вырабатывать рекомендации в области возможного практического использования результатов исследования, способности анализа полученных результатов с точки зрения психологической этики. Ø Профессиональные: знания фундаментальных основ статистики как базы для использования статистических методов в психологическом исследовании, умения оценивать достоверность и надёжность результатов, интерпретировать результаты и разрабатывать рекомендации для их применения. Полученные компетентности могут дать возможность студентам применить их к написанию выпускных работ, явятся основой для продолжения образования и к осуществлению научных исследований. Конспект лекций содержит: • теоретическое описание основных понятий статистики, • руководство по использованию компьютерных программ Excel и SPSS (версия 17.0) для решения конкретных психологических задач, • список основной и дополнительной литературы, • файлы данных в Excel, для примеров, разбираемых в конспекте, • файлы с вариантами домашних заданий, • некоторые методики психологических измерений, • приложения с примерами оформления домашних заданий. Без самостоятельного выполнения домашних заданий освоение курса невозможно. К конспекту лекций прилагаются файлы данных, предназначенные для самостоятельного освоения курса и для выполнения домашних заданий (Таблица 1). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 13 Конспектом лекций могут пользоваться как бакалавры, так и магистранты. Конспект може быть использован для дистанционного обучения. Конспект может быть также использован как самоучитель по основам компьютерной обработки данных исследования в социальных науках. Выставляемая студенту оценка складывается из оценки выполнения домашних заданий (50%) и из оценки, полученной при выполнении экзаменационной работы (50%). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 14 Таблица 1 Файлы данных, предназначенные для самостоятельного освоения курса и для выполнения домашних заданий Фолдер Файлы в фолдере Agr_Data.xlsx Agr_Data_Factor.xlsx Agr_Varianti_(1-16).xlsx 12_16_Agressija&Samoocenka Samoocenka_Agressija_Data.xlsx Samoocenka_Agresija_Data_Varianti_(1-16) 13_15_Chi_Square Data_Chi_Rokich.xlsx Pivo_PIT_reklama.xlsx Smertnaja_Kaznj.xlsx Trevozhnostj_Figuri.xlsx Chi_Square_Varianti_(1-16).pdf 21_One_way_ANOVA Data_EI_Oneway_ANOVA.xlsx Varianti_Stazh-EI_(1-16).xlsx 21_Two_way_ANOVA_Rats Rats.xlsx Rats_Varianti_(1-16).xlsx 22_Regression_Simple Exam.xlsx IQ(8)_Mathematics(9).xlsx Prostaja_regressija_zadanie_Varianti_(1-20).docx 23_Regression Multiple MR_help.xlsx MR_Magazines_Varianti_(1-16).xlsx 24_Cronbach_Alfa Test_Altruizm_Alfa.xlsx ALFA_Varianti_(1_16).xlsx Test_IQ.xlsx 25_Factor_Analysis Домашнее задание 5_8_9_Agressija 1 2 3 4 5 6 7 8 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 15 1. Измерение Американский психолог-психофизик, автор теории психофизических измерений Стивенс Стэнли Смит в середине ХХ века дал следующее определение измерению. Под измерением понимают процедуру приписывания числовых форм объектам или событиям в соответствии с определенными правилами. Эти правила устанавливают соответствие между измеряемым свойством объекта и результатом измерения (в частности - числом). Американский психолог. Стивенс (Stevens) Стэнли Смит родился 4 ноября 1906 года, в Огдене, штат Юта1. В конце 30-х годов выступил с программой перестройки психологии на основе идей операционализма. Профессор Гарвардского университета, с 1944 года руководил организованной им лабораторией психофизики. Инициатор направления, альтернативного классической психофизике Густава Теодора Фехнера - немецкого психолога, одного из первых экспериментальных психологов, основоположника психофизиологии и психофизики. Фехнер пользовался так называемым косвенным методом шкалирования ощущений. Стенли и его ученики обратились к «прямым» методам, при которых от испытуемого требуется непосредственная оценка ощущений относительно некоторого эталона. Стенли сформулировал «закон степенной функции Стивенса» в противоположность «логарифмическому» закону Вебера ‒ Фехнера. С именем Стивенса связан новый этап развития психофизики - разработка принципа прямого измерения психических величин. На основе этого принципа им были предложены «прямые» методы экспериментального изучения ощущений. Результатом работы Стивенса в области теоретической психофизики явилась нейроквантовая теория сенсорного порога и теория сенсорных шкал. Стенли Стивенс скончался 18 января 1973 года в Вайле, штат Колорадо. 1 http://dic.academic.ru/dic.nsf/bse/136109/%D0%A1%D1%82%D0%B8%D0%B2%D0%B5%D0%BD%D1%81 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 16 1.1. Измерительные шкалы Шкала (лат. scala – лестница) – это некоторая числовая структура, подобранная для конкретной эмпирической структуры данных, т.е. результат числового представления эмпирической структуры данных. Современная классификация шкал была предложена в 1946 году Стэнли Смитом Стивенсом2. Идея шкалирования состоит в замещении интересующих нас эмпирических объектов числами, которые удобны в обращении. Шкалы разделяют на метрические и неметрические. Если есть или может быть установлена единица измерения, то шкалу называют метрической. В противном случае – неметрической. Рассмотрим измерительные шкалы, которые называют шкалами Стенли Стивенса (1946). 1.1.1. Шкала наименований (Nominal Scale, Nominālā skala) Измерение в номинальной шкале предполагает группировку объектов по классам (категориям). Внутри класса объекты должны быть идентичны по измеряемому свойству. Классы нумеруют произвольным способом. Как правило, шкалу наименований используют, когда приходится иметь дело с такими признаками, которые невозможно выразить количественно. 1. Пример: признак - национальность: латыш - 11 русский - 23 поляк – 34 еврей - 41 немец – 58 2. Пример: признак - пол: мужской – 1 женский – 0. 2 Stevens, S.S. (1946). On the theory of Scales of Measurement. Science, 103(2684), 677-680. Retrieved in http://science.sciencemag.org/content/103/2684/677 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 17 То, что присвоенное число больше или меньше другого присвоенного числа никак не связано со свойством объекта. Например, то, что 1 > 0 для Примера 2 (признак - пол) не говорит о том, что какого-то «полового качества» в мужчине больше, а в женщине меньше. Или, например, в Примере 1, не говорит о том, что немец, которому присвоили число 58, имеет количество «признака национальности больше», чем поляк, которому присвоили число 34. Числа, присвоенные категориям в номинальной шкале, говорят только о том, что качества этих категорий отличаются. Разновидностью номинальных шкал является дихотомическая шкала наименований, в которой признак имеет всего две категории (Пример 2). Результат измерения в номинальной шкале дает ответ на вопрос: «К какой группе принадлежит результат измерения?» 1.1.2. Порядковая шкала (Ordinal Scale, Kārtas skala) Порядковая шкала – неметрическая шкала. Измерение в этой шкале предполагает приписывание свойствам объектов чисел, в зависимости от степени выраженности измеряемого свойства. Фиксируется различие степеней измеряемого свойства. Баллы в порядковой шкале говорят только о месте одного объекта, по отношению к другим объектам, но не отвечают на вопрос: на сколько значение признака одного объекта отличается от другого. 1.Пример. Признак – внешняя красота. Местам, полученным в конкурсе красоты можно поставить в соответствие значения признака - баллы: Света – 1, Маша – 2, Таня -3, Оля -4. Присвоение баллов является измерением в порядковой шкале. Присвоенные баллы в говорят о том, что Света самая красивая, а Оля самая некрасивая. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 18 Но вовсе не следует, что Света красивее Маши ровно на столько же, насколько Таня красивее Оли, хотя разности между соответствующими баллами равны: 2-1=4-3. Числа, приписанные объектам в порядковой шкале, говорят только о месте одного объекта, по отношению к другим объектам, но не отвечают на вопрос: на сколько больше или меньше выражено измеряемое свойство у одного объекта, чем у другого объекта. Пример 2. В Таблице 1.1 приведены результаты измерения памяти школьников по специальному тесту в баллах (признак Х, столбец 3). В этом тесте большему баллу соответствует лучшая память. Если нет дополнительных исследований эмпирических данных, то можно считать, что данные измерения представлены в порядковой шкале. Таня запоминает лучше всех, хуже всех запоминает Юра. У Марины память лучше чем Коли, но хуже чем у Тани, и т.д. При обработке данных, измеренных в порядковых шкалах, часто приходится ранжировать данные. Присвоим результатам теста ранги так, чтобы большему баллу соответствовал больший ранг. Упорядочим баллы в порядке убывания (Таблица 1.1, столбец 3). В первом столбце запишем номера участников, начиная с 10 в убывающем порядке. Если оценка встречается один раз, то ей присваивается обычный (несвязанный) ранг, совпадающий с порядковым номером оценки. Если имеется группа одинаковых оценок, то каждой из них присваивается один и тот же (связанный) ранг, который равен сумме порядковых номеров этих одинаковых оценок, деленной на количество этих оценок. Танин балл (15) встречается один раз. Танин ранг будет совпадать с ее порядковым номером – 10. Запишем его в столбце 4. Это несвязанный ранг. У Оли и Светы одинаковые баллы (по 14). Их ранги равны 8+9 = 8, 5 Это связанные 2 ранги. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 19 Правильность присвоения рангов можно проконтролировать - сумма всех рангов равна сумме порядковых номеров и равна: n (n + 1) . 2 Объем выборки n = 10. n - совпадает с количеством участников тестирования. Контроль правильности присвоения рангов: Сумма всех рангов = 10 + 8, 5 + 8, 5 + 6 + 6 + 6 + 4 + 3 + 2 + 1 = 55 . Сумма всех порядковых номеров в Таблице 1.1. равна 1 + 2 + L + n = 1 + 2 + 3 + L + 10 = 55 . С другой стороны, n (n + 1) 10 ⋅ (10 + 1) = 55 . = 2 2 55=55, следовательно, ранжирование выполнено верно. Таблица 1.1. Присвоение рангов для Примера 3. Результаты измерения памяти школьников по специальному тесту Nr. Имя Оценка за тест в баллах (признак Х) Ранг, присвоенный оценке 1 2 3 4 10 Таня 15 10 9 8 7 6 5 4 3 2 1 Оля Света Ася Катя Андрей Марина Миша Коля Юра 14 14 10 10 10 9 8 5 3 8,5 8,5 6 6 6 4 3 2 1 Подсчет связанных рангов 5 8+9 = 8, 5 2 5+6+7 =6 3 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 20 3.Пример. Признак – способности по математике. Для выявления способностей по математике использовался специальный тест, содержащий 60 вопросов. Каждый ответ оценивался «правильно» - 1, «неправильно» - 0. В результате были получены баллы: Валерий – 45, Дмитрий -34, Антон – 15, Виталий – 22. Результаты можно упорядочить по способностям к математике. Самым способным оказался Валерий (45), затем Дмитрий (34), затем Виталий (22), затем Антон (15). Пусть имеются нормы, например, 0-10 очень плохие способности; 11-20 плохие способности; 21-40 средние способности; 41-50 хорошие способности; 51-60 очень хорошие способности. Тогда, Валерий относится к группе учеников с хорошими способностями по математике, Дмитрий и Виталий относятся к группе учеников со средними способностями, а Антон – к группе с плохими способностями. Результат измерения в порядковой шкале дает ответы на вопросы: 1) «К какой группе принадлежит результат измерения?» 2) «Как можно упорядочить результаты измерения?» 1.1.3. Шкала интервалов (Interval Scale, Intervālu skala) 1.1.4. Шкала отношений (Ratio Scale, Proporcionālā skala) Это – метрические шкалы. А. Общее для шкал интервалов и отношений Обе шкалы предназначены для признаков, которые могут быть выражены количественно. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 21 При этом равные разности чисел, присвоенных объектам, соответствуют равным различиям выраженности измеряемого свойства объектов. Поэтому измерение в шкалах интервалов и отношений дает возможность применения единицы измерения (метрики). Измерение в этих шкалах предполагает приписывание объектам чисел, которые отражают не только различия в степени выраженности измеряемого свойства, но и то, насколько больше или меньше выражено свойство. Б. Различие между шкалами интервалов и отношений Шкала интервалов: Нулевая точка выбрана условно. Свойство, которое измеряется, не исчезает, если результат измерения равен нулю. Условность выбора нулевой точки позволяет судить только о том, насколько больше или меньше выражено свойство, но не дает ответа на вопрос, во сколько раз больше или меньше выражено свойство. Примеры: Ø Исчисление времени в соответствии с Григорианским календарем. Нулевая точка выбрана условна и связывается с рождеством Иисуса Христа. Она не говорит об исчезновении времени. Ø Температура, определяемая в физике через кинетическую энергию движения молекул3, измеренная по шкале Цельсия. Температура 00С не говорит об остановке молекул. Она принята условно, как температура, при которой замерзает вода. Результат измерения в шкале интервалов дает ответы на вопросы: 1) К какой группе принадлежит результат измерения? 2) Как можно упорядочить результаты измерения? 3) Насколько один результат измерения больше другого результата измерения? В молекулярно-кинетической теории температура определяется как величина, характеризующая приходящуюся на одну степень свободы среднюю кинетическую энергию частиц макроскопической системы, находящейся в состоянии термодинамического равновесия. 3 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 22 Шкала отношений: Нулевая точка указывает на полное отсутствие выраженности измеряемого свойства. Название шкалы связано с тем, что отношение присваиваемых при измерении чисел можно интерпретировать как отношение выраженности измеряемых свойств объектов. Дает ответ на вопрос насколько больше или меньше выражено свойство, а также на вопрос, во сколько раз больше или меньше выражено свойство. Примеры: Ø Исчисление времени в соответствии с иудейским календарем. Нулевая точка указывает на сотворение мира. Она говорит об отсутствии времени; Ø Рост, равный нулю, говорит об исчезновении роста, как свойства; Ø Вес, равный нулю, говорит об исчезновении веса, как свойства. Ø Температура, измеренная по шкале Кельвина. Абсолютный ноль 00К соответствует -2730С – есть наиболее низкая возможная температура, при которой в принципе невозможно извлечь из вещества тепловую энергию, то есть соответствует прекращению движения молекул. Результат измерения в шкале интервалов дает ответы на вопросы: 1) К какой группе принадлежит результат измерения? 2) Как можно упорядочить результаты измерения? 3) Насколько один результат измерения больше другого результата измерения? 4) Во сколько раз один результат измерения больше другого результата измерения? Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 23 1.2. Мощность шкалы Мощность шкалы - это способность шкалы различать свойства или дифференцирующая способность шкалы.4 То есть способность шкалы отвечать на вопросы (Таблица 1.2): А. К какой группе принадлежит результат измерения? B. Как можно упорядочить результаты измерения? C. Насколько один результат измерения больше другого результата измерения? D. Во сколько раз один результат измерения больше другого результата измерения? По мере возрастания мощности шкалы можно расположить следующим образом: 1) наименований, 2) порядковая, 3) интервалов, 4) отношений. Метрические шкалы оказываются более мощными, чем неметрические. Они лучше дифференцируют испытуемых. Метрические шкалы не ограничивают исследователя в выборе последующего анализа. Неметрические шкалы менее мощные, чем метрические. Они содержат меньше информации о различии объектов (участников исследования) по измеренному свойству. Таблица 1.2 Мощность шкал Шкала На какие вопросы отвечает результат измерения Номинальная неметрическая A Порядковая неметрическая A B Интервалов метрическая A B C Отношений метрическая A B C D Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. C. 27. 4 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 24 Переход к менее мощным шкалам от более мощных часто приводит к утрате эмпирической информации об индивидуальных свойствах участников исследования. Поэтому надо стараться по возможности при исследовании применять более мощные измерительные шкалы. И только если нет выбора, тогда используется любая доступная исследователю шкала. 1.3. Особенности обработки данных в зависимости от шкал 1.3.1 Номинальная шкала Методы анализа: Частотный анализ. Таблицы сопряженности (Crosstabs). Критерий «Хи-квадрат» - Chi-square test. Сравнение процентных долей по критерию ϕ ∗ -угловое преобразование Фишера. Мера центральной тенденции: МОДА. То есть наиболее часто встречающийся категория признака. Исключение: Дихотомические переменные. Для дихотомических переменных можно определять коэффициенты корреляции, значения которых можно интерпретировать (например, коэффициент корреляции «фи» для двух дихотомических переменных, точечно-бисериальный коэффициент корреляции для дихотомической и метрической переменных5. Эти коэффициенты вычисляются по формуле для коэффициента корреляции Пирсона). 5 Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 25 1.3.2. Порядковая шкала Методы анализа: Частотный анализ. Процентили. В задачах связи: коэффициенты ранговой корреляции Спирмена и «Тау»Кендалла ( τ -Кендалла). В задачах различия: непараметрические критерии, у которых вычисление наблюдаемых значений основано на рангах. Мера центральной тенденции: МЕДИАНА. Если объем выборки равен нечетному числу, то посередине упорядоченного в возрастающем порядке ряда оценок находится одна оценка, которую называют МЕДИАНОЙ. Если объем выборки равен четному числу, то посередине упорядоченного в возрастающем порядке ряда оценок находятся две оценки. Их полусумму называют МЕДИАНОЙ. 50-% оценок не превышают оценку, равную медиане! Иногда возможно вычисление среднего значения. 1.3.3. Метрические шкалы В SPSS обработка данных, измеренных в метрических шкалах (интервальной и отношений) не отличается. Поэтому, метрические переменные описываются как интервальные (Scale). Методы анализа: Переменные, измеренные в метрических шкалах, распределение которых соответствует нормальному распределению, могут обрабатываться любыми статистическими методами. Меры центральной тенденции: СРЕДНЕЕ (когда данные имеют нормальное распределение), МЕДИАНА (когда распределение данных отличается от нормального распределения, когда имеются экстремальные значения «выбросы»). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 26 ЗАМЕЧАНИЕ. На величину среднего влияет каждое значение признака. То есть среднее весьма чувствительно к экстремальным значениям или к «выбросам». Поэтому, если есть «выбросы», то лучше использовать непараметрическую статистику, а в качестве меры центральной тенденции - медиану. ПРИМЕР. В некоторой фирме работают 10 человек. Их заработная плата (€ в неделю) равна: 65; 75; 80; 80; 80; 80; 80; 80; Средняя зарплата на фирме составляет M = 80; 10000 65 + 75 + 7 ⋅ 80 + 10000 = 1070 €. 10 Медиана равна Mdn = 80, что говорит о том, что 50% сотрудников фирмы получают зарплату не выше 80 € в неделю. Таким образом, в данной ситуации медиана является более объективной характеристикой уровня жизни работающих на фирме, чем среднее арифметическое. 1.4. Переменные величины Каждый признак можно рассматривать как переменную величину, значения которой принимают в данном исследовании различные численные значения. Различаются непрерывные и дискретные переменные. Непрерывные переменные могут принимать любые значения из некоторого определенного числового интервала. Например, вес, рост, время реакции, продолжительность жизни и т.д. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 27 Дискретные переменные могут принимать лишь отдельные значения. Например, число детей в семье, число пользователей интернета и т.д. 1.5. Популяция и выборка Математическая статистика – это наука о математических методах систематизации и использования статистических данных для научных и практических выводов. В математической статистике можно выделить две основные части: 1) Описательная статистика (Descriptive Statistics); 2) Теория статистического вывода (Inferential Statistics). Освоение описательной статистики предусматривает знание математики в рамках средней школы. Теория статистического вывода подразумевает знание высшей математики, в том числе таких математических дисциплин, как теория вероятностей, математический анализ. Теория статистического вывода всегда пользуется терминами теории вероятностей. 1.5.1. Популяция (Population) Популяция (Генеральная совокупность) – это все множество объектов, в отношении которых формулируется исследовательская гипотеза6. Если, все же, исследованию подвергаются все объекты популяции, то такое исследование называют полным или сплошным. Количество всех объектов популяции называют ее объемом (size). Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. C. 19. 6 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 28 1.5.2. Выборка (Sample) Часть объектов популяции, отобранных для того, чтобы после их изучения, сделать заключение о всей популяции, называют выборкой. Количество всех объектов выборки называют объемом выборки (Sample size). Метод исследования, позволяющий делать заключение о характере изучаемых свойств популяции на основе рассмотрения некоторой ее части (выборки), называется выборочным методом. Практически все исследования являются выборочными, а их выводы распространяются на популяцию. Когда исследовательская гипотеза сформулирована, возникает проблема организации выборки. Заключение, полученное путем изучения выборки, можно распространить на всю популяцию. Но возникает вопрос – насколько точно это полученное исследователем заключение будет отражать истину. Выборка называется репрезентативной, если точность полученного заключения удовлетворяет исследователя. В противном случае – выборка называется недостаточной. Другими словами, репрезентативность (представительность) – это свойство выборки достаточно полно отражать изучаемое свойство популяции. Чтобы выборка отражала свойства популяции, она должна быть сформирована случайно. Неслучайный отбор может исказить истину и привести к ошибочным выводам. Случайный отбор предполагает создание таких условий, чтобы каждый объект популяции имел равные с другими объектами шансы попасть в выборку (Random Sample). 2. Основные показатели описательной статистики 2.1. Объем выборки. Izlases apjoms. Count Это число наблюдений. Как правило – это число участников, анкеты которых включены в обработку данных. Обозначение по требованиям АРА7 - N. Valid – имеющиеся в наличии данные; Missing – пропущенные данные. 7 APA – American Psychological Association. http://www.apa.org/. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 29 2.2. Среднее арифметическое. Vidējais. Mean Это сумма всех оценок, деленная на их количество. Обозначение - x , обозначение по требованиям АРА8 - М. 2.3. Стандартная ошибка среднего. Vidēja standatrkļūda. Standard Error of Mean Стандартная ошибка среднего sx (по АРА Mean Square Error: MSE) показывает, что если из популяции извлекать случайные выборки одинакового объема, то примерно 68% выборочных средних будет находиться в диапазоне x ± s X , то есть в интервале ( x − sx ; x + sx ) . 2.4. Медиана. Mediāna. Median Если объем выборки равен нечетному числу, то посередине упорядоченного в возрастающем порядке ряда оценок находится одна оценка, которую называют МЕДИАНОЙ. Если объем выборки равен четному числу, то посередине упорядоченного в возрастающем порядке ряда оценок находятся две оценки. Их полусумму называют МЕДИАНОЙ. 50-% данных не превышают значения, равного медиане! Обозначения медианы: Md, Me. Обозначение медианы по АРА: Mdn. 8 APA – American Psychological Association. http://www.apa.org/. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 30 2.5. Мода. Moda. Mode Мода – это наиболее часто встречающаяся оценка. Если существует несколько мод, то в SPSS принято показывать наименьшую моду. СРЕДНЕЕ, МЕДИАНА и МОДА – это показатели центральной тенденции. Если распределение данных не отличается от нормального распределения, то эти показатели равны. Моду обычно используют для номинальных измерений. Обозначение: Мо. 2.6. Дисперсия. Dispersija. Variance Слово дисперсия означает «рассеяние». Характеризует разброс данных относительно среднего. Чем выше дисперсия, тем больше разброс данных. Пусть дан эмпирический9 ряд данных: x1 , x2 , K , xn . Выборочная дисперсия MS (Mean Square) определяется как отношение суммы квадратов n отклонений баллов от среднего значения SS = ∑ ( xi − x ) (Sum of Squares), деленная на число 2 i =1 степеней свободы df = n − 1 : MS = SS . df Обозначение по АРА: s2, MS. 9 наблюдаемый Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 31 2.7. Стандартное отклонение. Standartnovirze. Standard Deviation Стандартное отклонение ( sx ) - это квадратный корень из дисперсии: Характеризует разброс данных относительно среднего. Чем выше стандартное отклонение, тем больше разброс данных. Обозначение по sx . Обозначение по АРА: SD. Стандартное отклонение иногда может быть использовано для разбивки данных по уровню оценок. Самостоятельный процесс разбивки данных, как правило, возможен только тогда, когда в соответствующих адаптированных психологических методиках она не приводится. Разбивать данные с помощью среднего арифметического и стандартного отклонения можно, если эмпирическое распределение данных не отличается от нормального распределения. Из теории вероятностей известно, что если распределение данных подчиняется нормальному закону распределения, то: 1) Вероятность того, что оценки попадут в интервал ( x − s x ; x + s x ) равна 68. 3%10; 2) Вероятность того, что оценки попадут в интервал ( x − 2 sx ; x + 2 sx ) равна 95. 5%; 3) Вероятность того, что оценки попадут в интервал ( x − 3sx ; x + 3sx ) равна 99. 73%. Вероятность того, что оценки окажутся вне интервала ( x − 3sx ; x + 3sx ) ничтожно мала: .27%. То есть для нормально распределенных данных должен выполняться так называемый закон «трех сигма» (для нашего случая σ = SD= sx ): Отклонения нормально распределенных данных от среднего значения не превышают трех стандартных отклонений. 10 Максимальное возможное значение вероятности равно 1 или 100%. Минимальное значение – 0 или 0%. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 32 Если эмпирическое распределение данных не отличается от нормального распределения и в соответствующих методиках нет указаний, какие оценки считать высокими, низкими и адекватными (средними), то можно поступать следующим образом (Рис.2.1). При нормальном распределении данных вероятность оценки среднего уровня равна 68.3%; Вероятность оценки высокого или низкого уровня равна (95.5-68.3):2=13.6%; Вероятность оценки очень высокого или очень низкого уровня равна (99.73-95.5):2=2.115%; Вероятность оценки очень высокого или очень низкого уровня равна (100-99.73):2=.135%. Если распределение данных подчиняется нормальному закону распределения, то за пределами трех стандартных отклонений могут находиться оценки, не принадлежащие данной популяции. Чрезмерно низкий уровень Очень Низкий низкий уровень уровень Средний уровень Высокий Очень уровень высокий уровень .135% 2.115% 13.6% 68.3% 13.6% 2.115% Чрезмерно высокий уровень .135% Х Рис.2.1. Разбивка данных на уровни в случае нормального распределения Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 33 2.8. Размах. Variācijas amplitūda. Range Размах – это разность между максимальной и минимальной оценками: l = x max − x min . ДИСПЕРСИЯ, СТАНДАРТНОЕ ОТКЛОНЕНИЕ и РАЗМАХ – это основные меры изменчивости. 2.9. Асимметрия. Asimetrija. Skewness Является мерой несимметричности распределения относительно среднего значения. Обозначение: А. Если А=0, то распределение имеет симметричную форму. При отрицательной асимметрии левый «хвост» длиннее. При положительной асимметрии правый «хвост» длиннее. Примеры приведены на Рис.2.211. При нормальном распределении данных асимметрия равна нулю. Поэтому, если асимметрия сильно отличается от нуля, распределение данных не является нормальным. Критерием отличия от нуля является стандартная ошибка асимметрии. Для вычисления асимметрии в SPSS и в Excel используется формула: A= n n ( n −1)( n − 2) ∑ i =1 ( xi − x ) s3 3 , (2.9.1) где s – стандартное отклонение. 11 Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 34 Для оценки величины асимметрии можно использовать следующее правило:12 • При -0.5 ≤ A ≤ .0.5 распределение можно считать симметричным; • При -1 ≤ А < -0.5 или при 0.5 < A ≤ 1 распределение умеренно асимметричное; • При A < -1 или при А > 1 распределение асимметрично. Рис.2.2. Примеры распределений с нулевой ( A = 0 ), левосторонней ( A > 0 ) и правосторонней ( A < 0 ) асимметриями 12 Are the Skewness and Kurtosis Useful Statistics? (2016). Retrieved in https://www.spcforexcel.com/knowledge/basicstatistics/are-skewness-and-kurtosis-useful-statistics Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 35 2.10. Стандартная ошибка асимметрии. Asimetrijas standartkļūda. Standard Error of Skewness Стандартная ошибка асимметрии SES характеризует отклонение, которое может существовать между значениями асимметрий некоторого признака для множества выборок одного и того же объема, случайным образом извлекаемых из популяции. Близкме к нулю значения SES указывают на симметричность распределения изучаемого признака популяции. В этом случае можно считать, что изучаемый признак в выборке тоже имеет симметричное распределение. Высокие значения SES указывают на более высокое отклонение распределения признака в выборке от симметричного распределения. Стандартная ошибка асимметрии SES показывает, что если из популяции извлекать случайные выборки одинакового объема, то примерно 68% выборочных асимметрий будет находиться в диапазоне A ± SES , то есть в интервале ( A − SES ; A + SES ) . Стандартная ошибка асимметрии вычисляется по объему выборки13: SES = 6n ( n −1) ( n − 2)( n +1)( n + 3) . (2.10.1) Если наблюдения подчиняются нормальному закону распределения, то асимметрия равна нулю. Поэтому большое отличие асимметрии от нуля свидетельствует о том, что распределение данных не соответствует нормальному распределению. Стандартная ошибка асимметрии – это одна из мер степени отличия асимметрии от нуля. Если показатель асимметрии по абсолютной величине превышает свою стандартную ошибку: A ≥ SES , (2.10.2) то распределение данных не соответствует нормальному распределению14. 13 Cramer, D. (1997). Basic Statistics for Social Research. Routledge. P.85. Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.60. 14 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 36 2.11. Эксцесс. Ekscess. Kurtosis Эксцесс – это показатель островершинности или плосковершинности кривой распределения. За эталон принимают вершину кривой для нормального распределения (Е=0). Примеры приведены на Рис.2.315. Обозначение: Е. Рис.2.3. Примеры распределений с нулевым ( E = 0 ), положительным ( E > 0 ) и отрицательным ( E < 0 ) эксцессами Для вычисления эксцесса в SPSS и в Excel используется формула: E= n ( n + 1) n ( n −1)( n − 2)( n − 3) ∑ i =1 ( xi − x ) s4 4 − 3 ( n − 1) 2 ( n − 2)( n − 3) , (2.11.1) где s – стандартное отклонение. 15 Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 37 2.12. Стандартная ошибка эксцесса. Ekscesa standartkļūda. Standard Error of Kurtosis Стандартная ошибка эксцесса SEK указывает на отклонение, которое может существовать между значениями показателей эксцесса некоторого признака для множества выборок одного и того же объема, случайным образом извлекаемых из популяции. Близкие к нулю значения SEK говорят о том, что выборочные эксцессы мало отличаются между собой и от нуля и поэтому распределение признака в данной выборке не отклоняется от распределения с нулевым эксцессом. Стандартная ошибка эксцесса SEK показывает, что если из популяции извлекать случайные выборки одинакового объема, то примерно 68% выборочных значений эксцесса будет находиться в диапазоне E ± SEK , то есть в интервале ( E − SEK; E + SEK ) . Стандартная ошибка эксцесс вычисляется по объему выборки16: n2 −1 = SEK = 2SES ∗ ( n − 3)( n + 5) 24n ( n −1) . ( n − 2)( n − 3)( n + 3)( n + 5) 2 (2.12.1) Если наблюдения подчиняются нормальному закону распределения, то эксцесс равен нулю. Поэтому сильное отличие эксцесса от нуля свидетельствует о том, что распределение данных не соответствует нормальному распределению. Стандартная ошибка эксцесса – это одна из мер степени отличия эксцесса от нуля. Если показатель эксцесса по абсолютной величине превышает свою стандартную ошибку: E ≥ SEK , (2.12.2) то распределение данных не соответствует нормальному распределению17. 16 Cramer, D. (1997). Basic Statistics for Social Research. Routledge. P.89. Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.60. 17 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 38 Неравенства (2.10.2) и (2.12.2) выдвигают завышенные требования к асимметрии и к эксцессу (в смысле их отличия от нуля). Другие критерии на неравенство показателя асимметрии и эксцесса нулю и на соответствие эмпирического распределения нормальному распределению с помощью асимметрии и эксцесса (D'Agostino-Pearson omnibus test) приведены в Приложении 6, чтение которого станет доступным после освоения п.п. 6-7). 2.13. Квартили. Kvartiles. Quartiles Квартиль – это один из видов процентилей (Procentile, Percentile) Квартили – это показатели, которые делят упорядоченный по возрастанию ряд данных на четыре одинаковые части. Существуют три квартили: Q1 , Q2 , Q3 . Процентили – это показатели, которые делят упорядоченный по возрастанию ряд данных на сто одинаковых частей Существует 99 процентилей: P1 , P2 ,K, P99 . P50=Q2=Md P25=Q1 P1 P10 P20 P25 P30 P75=Q3 P40 P50 P60 P70 P75 P80 P90 P99 Рис.2.4. Процентили, квартили и медиана Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 39 Справедливы соотношения (Рис.2.4): P25 = Q1 ; P50 = Q2 = Mdn ; P75 = Q3 . Процентиль Pk дает информацию о том, что k-% данных, не превышает значения, совпадающего с Pk . Таким образом, 25-% данных не превышают значения, равного квартили Q1 . 50-% данных не превышают значения, равного медиане и квартили Q2 . 75-% данных не превышают значения, равного квартили Q3 . Довольно часто используют меру изменчивости – междуквартильный размах (Interquartie Range): Q = Q3 - Q1 . (2.13.1) 2.14. Шкала стенов Одной из тестовых шкал, основным назначением которой является представление индивидуальных результатов тестирования в удобном для интерпретации виде, является шкала стенов. По результатам применения теста строится распределение «сырых» оценок и проверяется соответствие этого распределения нормальному распределению. Если распределение «сырых» оценок соответствует нормальному распределению, то переходят к шкале стенов. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 40 Если распределение «сырых» оценок не соответствует нормальному распределению, то производят либо эмпирическую нормализацию (изменение содержания тестовых заданий), либо нелинейную нормализацию18. Шкала стенов от 1 до 10. Шкала стенов была предложена Кеттелом (1970). Ее также называют шкалой «стандартной десятки» (standard ten). Реймонд Бернард Кеттел (Cattell Raymond Bernard)19 (20 марта 1905 – 2 февраля 1998) - британский и американский психолог, внесший существенный вклад в развитие дифференциальной психологии в областях черт личности, способностей и мотивации. Автор одной из наиболее влиятельных теорий личности, разработанных в психологии XX века, автор теории гибкого и кристаллизированного интеллекта. Являлся последовательным сторонником мультивариативных исследований в психологии. Опубликовал 55 книг и более 500 статей. Автор 16-факторной модели личности и создатель соответствующей психодиагностической методики. Раймонд Бернард Кэттелл родился в Стаффордшире в 1905 году. В 16 лет поступил в Королевский колледж Лондонского университета, где обучался химии и физике. В 1924г. Кэттелл получил степень бакалавра по специальности «химия» в Лондонском университете. За несколько месяцев до окончания и получения диплома с отличием решил посвятить свою карьеру психологии. В 1929 году получил степень доктора психологии в Лондонском университете. Будучи студентом-дипломником, работал в качестве ассистента у выдающегося психолога Чарльза Спирмена, разработавшего метод факторного анализа. С 1932 по 1937 гг. Кэттелл руководил психиатрической клиникой города Лейсестера в должности директора. В 1937 году ему присвоили степень доктора наук Лондонского университета. После этого Кэттелл сотрудничал с профессором Э. Л. Торндайком в педагогическом колледже Колумбийского университета в Нью-Йорке. С 1938 года Кэттелл работал профессором психологии в Университете Кларка, а с 1941 - лектором в Гарвардском университете. В 1944 году Кэттелл перешёл в Иллинойсский университет на пост профессора-исследователя в области психологии. Там он руководил лабораторией по исследованию личности и анализа группового поведения (занимал эту должность 30 лет). В 1973 году Кэттелл переехал в Боулдер, где основал Институт по исследованию основ морали и самореализации. С 1977 года стал консультирующим профессором при Гавайском университете, а также почетным профессором в Иллинойсе. Умер Кэттелл 2 февраля 1998 года в возрасте 92 лет в своём доме на Гавайях. Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.57-59. 18 19 https://ru.wikipedia.org/wiki/%D0%9A%D1%8D%D1%82%D1%82%D0%B5%D0%BB%D0%BB,_%D0%A0%D1% 8D%D0%B9%D0%BC%D0%BE%D0%BD%D0%B4_%D0%91%D0%B5%D1%80%D0%BD%D0%B0%D1%80%D 0%B4 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 41 Точка отсчета: среднее арифметическое x «сырых» баллов (Рис.2.14.1). От точки s  отсчета откладываются интервалы, равные половине стандартного отклонения  x  . 2 При этом все значения меньше 1, получаемые при переводе в шкалу стенов, относятся к стену 1, а все значения больше 10 - к стену 10. Y Кривая нормального распределения 1 2πs x 0.135% 2.2% 13.6% 34.2% 34.2% 13.6% 2.2% 0.135% X x − 3s x x − sx x − 2s x x + sx x x + 2s x x + 3s x Х Стены 1 2 3 4 5 6 7 8 9 10 Рис.2.14.1. Определение шкалы стенов. Справа от среднего значения интервалы соответстуют 6, 7, 8, 9 и 10 стенов. Последний из этих интервалов открыт. Слева от среднего значения интервалы соответстуют 5, 4, 3, 2 и 1 стенов. Последний из этих интервалов открыт. Данные, выраженные в стенах позволяют сравнивать между собой результаты измерений признака с помощью различных тестов. При переводе «сырых» баллов в шкалу стенов используется формула Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 42 xi , СТЕНЫ = 5.5 + 2( xi − x ) , sx (2.14.1) где xi - «сырой» балл, x – среднее значение, sx - стандартное отклонение. Результат вычисления по формуле (2.14.1) должен быть округлен до целого числа. Если сравнить с классификацией п.2.7, то • • • • • Очень низкий уровень: 1 стен; Низкий уровень: 2, 3 стена; Средний уровень: 4, 5, 6, 7 стенов; Высокий уровень: 8, 9 стенов; Очень высокий уровень: 10 стенов. Как можно перевести переменную в стены с помощью SPSS 1. Загрузить файл Test.sav 2. Analyze Descriptive Statistics 3. Поставить галочку в окне Descriptives… Save standardized values as variable; 4. Перенести переменную в окно «Variables» OК 5. В файле данных Test.sav появится новая стандартизованная переменная, которую надо назвать zballi 6. Загрузить файл Syntax_steni.sp 7. В этом файле должна находиться следующая программа: if (zballi<-2) steni=1 . if (zballi>=-2 AND zballi<-1.5) steni=2 . if (zballi>=-1.5 AND zballi<-1) steni=3 . if (zballi>=-1 AND zballi<-0.5) steni=4 . if (zballi>=-0.5 AND zballi<0) steni=5 . Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 43 if (zballi>=0 AND zballi<0.5) steni=6 . if (zballi>=0.5 AND zballi<1) steni=7 . if (zballi>=1 AND zballi<1.5) steni=8 . if (zballi>=1.5 AND zballi<2) steni=9 . if (zballi>=2) steni=10 . execute. 8. Edit Select All Run All 9. В файле данных Test.sav появится новая переменная steni. 3. Общие рекомендации к объему выборки20 Объем выборки зависит от задач исследования. Очевидно, что больший объем выборки позволяет получить более надежные результаты. Объем выборки зависит от ее однородности. Чем более однородна выборка, тем меньше может быть ее объем. Объем выборки зависит от изменчивости изучаемого свойства. Чем больше изменчивость свойства, тем больше должен быть объем выборки. Изменчивость можно уменьшить, увеличивая объем выборки. Объем выборки также зависит от применяемых статистических методов. Например, общие рекомендации по выбору объема выборки следующие: - Для сравнения 2-х выборок, их общая численность должна быть не менее 50 человек. Число людей в сравниваемых группах должно быть примерно одинаковым. Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С. 21. 20 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 44 - Для изучения взаимосвязи между какими-либо свойствами объем выборки должен быть не меньше 30-35 человек (если предполагается линейный характер взаимосвязи). Если характер взаимосвязи ожидается нелинейным, то объем выборки должен быть увеличен. Например, если один из признаков – это тревожность, то может потребоваться создать такую выборку, в которой число людей с низкой тревожностью 30-35, с адекватной тревожностью 30-35 и с высокой тревожностью 30-35. Для изучения связи между номинальными переменными используется частотный анализ. Минимальный объем выборки определяется так называемыми «теоретическими частотами» (критерий «Хи-квадрат») и зависит от количества категорий номинальных переменных. Он должен быть достаточно большим. Каким именно – определяется при рассмотрении конкретных случаев. Можно утверждать, что объем выборки может быть определен только после изучения теории, формулировки цели исследования, исследовательской гипотезы или исследовательских вопросов, методик исследования и определения статистических методов, которые будут использоваться для анализа эмпирических данных. 4. Расчет описательных статистик с помощью компьютерной программы SPSS SPSS английское название компьютерной программы: Statistical Package for Social Sciences Статистический пакет для социальных наук Разработан специально для социальных исследований. Ввод данных и статистический анализ соответствуют типам данных, встречающихся в анкетах и методам аналаза, применяющимся в социальных науках. В настоящее время его применяют и для других исследований. С помощью программы SPSS показатели описательной статистики можно вычислить разными способами. Основные из них показаны в Таблице 4.1. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 45 Таблица 4.1. ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ Case Summaries ▲ Explore Frequencies Mean (Среднее) Median (Медиана) Mode (Мода) Quartiles (Квартили) Percentiles (Процентили) Variance (Дисперсия) Standard Deviation (Стандартное отклонение) Standard Error of Mean (Стандартная ошибка среднего) Sum (Сумма) Minimum (Минимум) Maximum (Максимум) Range (Размах) Q=Q3-Q1 Skewness (Асимметрия) Standard Error of Skewness (Стандартная ошибка асимметрии) Kurtosis (Эксцесс) Standard Error of Kurtosis (Стандартная ошибка эксцесса) Confidence Interval for Mean (Доверительный интервал для среднего) Outliers (Выбросы) Стандартизация переменных: Z-преобразование Descriptives Расчет показателей описательной статистики в SPSS21 (Бююль) ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ Работу с программой SPSS рассмотрим на примерах. Получение описательных статистик рассмотрим на примере исследования гендерных различий агрессивности у мальчиков и девочек по опроснику «Басса-Дарки». Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». C. 164-165. 21 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 46 5. Гендерные различия агрессии у подростков 5.1. Ввод данных Проверяется гипотеза о наличии гендерных различий агрессии у подростков. Используется опросник Басса-Дарки22 (Приложение 1). Данные23 находятся в файле Agr_Data.xlsx. Ввод данных в SPSS Запустить SPSS для Windows, дважды щелкнув левой кнопкой мыши на значке SPSS. На появившемся окне (Рис.5.1.1) поставить точку около “Type in data”. OK. Рис.5.1.1. Запуск программы SPSS. Психологические тесты. Т.2 (2005) Под ред. Карелина А.А. М.: ВЛАДОС. С.77-85 Данные взяты из курсовой работы студентки Высшей школы психологии (Сейчас Балтийская Международная Академия - БМА) Наталии Баранчук, выполненной в 2003-2004 учебном году. 22 23 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 47 Откроется одно из нескольких окон SPSS - редактор данных (Рис.5.1.2) – электронная таблица. В заголовке стоит “Untitled”, что означает «Без имени». Над таблицей имеется меню и панель символов. Строки таблицы соответствуют наблюдениям. Например, при анкетировании одна строка соответствует одному испытуемому. Столбцы соответствуют переменным. В каждой ячейке хранится одно значение переменной. Номер строки активного элемента Toolbars – строка инструментов Columns - столбцы Активный элемент –- ячейка Rows - строки Просмотр данных Полосы прокрутки Просмотр переменных Рис.5.1.2. Электронная таблица. Просмотр данных Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 48 Рис.5.1.3. Электронная таблица. Просмотр переменных Фрагмент таблицы данных, которые надо ввести, находится в Таблице 5.1.1. Полная таблица данных - в файле Agr_Data.xlsx. Таблица 5.1.1 Показатели уровней агрессии подростков по методике Басса – Дарки Пол: Шифр испытуемого 0-девочка; 1-мальчик m1 m2 m3 m4 FA NA K N Ap Az VA SP 5 5 5 6 8 8 7 6 6 8 7 7 3 3 1 4 6 5 3 3 6 7 4 5 7 4 5 7 4 3 5 5 Обозначения: FA NA K N Ap Az VA SP Физическая агрессия Косвенная агрессия Раздражение Негативизм Обида Подозрительность Вербальная агрессия Угрызения совести и чувство вины Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 49 5.1.1. Описание переменных Ввод данных следует начать с описания переменных (Variable View). Левой клавишей мыши щелкнуть на Variable View (Просмотр переменных). В результате появится окно (Рис.5.1.3), в котором надо описать каждую из переменных. 1. Прежде всего необходимо дать имя переменной (Name). При выборе имени следует соблюдать основные правила. 1) Имя каждой переменной должно быть единственным. Дублирование имени не допускается. 2) Имена могут содержать: - буквы латинского или русского алфавита; - цифры; - символ подчеркивания; - точку; - символы: @, $ и #. 3) Не разрешаются пробелы, знаки других алфавитов и специальные символы, такие как ! ? « * 4) Имя должно начинаться с буквы. 5) Последний символ имени не может быть точкой или знаком подчеркивания. 6) Длина переменной не должна быть больше 8 символов 7) Недопустимо в названиях использовать слова: all and or not with by eq ne lt le gt ge to В настоящем примере мы дадим переменным следующие имена (Таблица 5.1.2): Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 50 Таблица 5.1.2 Описание переменных. Имена переменных, метки и значения. Переменная Обозначение Имя в SPSS (Label) Шифр испытуемого Пол (0-девочка; 1-мальчик) Физическая агрессия Косвенная агрессия Раздражение Негативизм Обида Подозрительность Вербальная агрессия Угрызения совести и чувство вины Dzimums FA NA K N Ap Az VA SP Метки значений (Values) kod sex fa na k n ap az va sp (0-M; 1-Z) 2. Тип переменной (Type). По умолчанию все переменные численные с максимальной длиной 8 знаков, дробная часть состоит из 2 знаков. Если требуется что-то изменить, необходимо встать мышью на соответствующую ячейку и щелкнуть по кнопке с тремя точками: После чего откроется диалоговое окно (Рис.5.1.4) Define Variable Type – Определение типа переменной. Рис.5.1.4. Диалоговое окно Define Variable Type. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 51 В нашем примере необходимо изменить тип переменной kod, так как это не численная переменная, а строка символов. Поэтому для нее надо выбрать String. С такими переменными нельзя выполнять никаких вычислений, но можно проводить подсчеты ее повторяемости. 3. Формат столбца (Width) и количество десятичных разрядов (Decimals) меняется по необходимости. 4. Метка переменной (Label) – это более подробное название переменной. Оно может содержать 256 символов. Это то, что будет выдаваться в таблицах, на рисунках в выходной информации. Например, если мы хотим, чтобы в выходной информации вместо символов fa на диаграмме было бы напечатано: «Физическая агрессия», то в колонке Label надо написать: Физическая агрессия. 5. Метки значений (Values). Это более подробное описание переменной. Например, переменную sex (Пол) для значения 1 можно задать название «Z» (мальчик), а для значения 0 – название «М» (девочка). При этом эти же названия будут в выходной информации. 6. Пропущенные значения (Missing values). Допускаются два вида пропущенных значений: - Пропущенные значения, определяемые системой (System-defined missing values) – если в матрице данных есть незаполненные ячейки, то SPSS идентифицирует их как пропущенные значения. Тогда в ячейке, где пропущено значение, появляется запятая; - Пропущенные значения, задаваемые пользователем (User-defined missing values). С помощью кнопки Missing пользователь при желании может объявить эти значения пропущенными. Пропущенные значения можно исключить из последующих вычислений. 7. Столбцы (Columns) – ширина столбца, которую будет иметь в таблице данный столбец при отображении значений. 8. Выравнивание (Alignment). Можно задавать вид отображения значений в таблице: выровненными по правому краю, по центру, или по левому краю. 9. Шкала измерения (Measure). Можно задать номинальную (Nominal), порядковую (Ordinal) или метрическую шкалу (интервалов или отношений: Scale). Это будет иметь Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 52 значение только при создании интерактивных графиков – когда номинальная и порядковая шкала измерений объединяются в «категориальный» тип. НАЧАЛО РАБОТЫ «Шифр испытуемого» 1. В ячейку Name 1 напишем слово kod После этого в остальных ячейках строки 1 появится некоторая информация. 2. Type. Встанем мышью на соответствующую ячейку Type-1 и щелкнем по кнопке с тремя точками: Откроется диалоговое окно (Рис.5.1.4) Define Variable Type – Определение типа переменной. Выберем String (Рис.5.1.5): Рис.5.5. Диалоговое окно Variable Type. OK 3. Width – 8 4. Decimals: 0 5. Label: 6. Values: 7. Missing: 8. Columns: 8 Shifrs None None Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 53 9. Align: Center 10. Measure: Nominal «Пол»: sex 11. В ячейку Name 2 напишем sex 12. Decimals: 0 13. Width – 1 14. Label: Dzimums 15. Values: Нажмем кнопку: Появится диалоговое окно (Рис.5.1.6): Рис.5.1.6. Диалоговое окно Value Labels. Value 0 Value Label M Add Value 1 Value Label Z Add В результате получаем (Рис.5.1.7): Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 54 Рис.5.1.7. Диалоговое окно Value Labels с введенными данными. OK 16. Missing: None 17. Columns: 4 18. Align: Left 19. Measure: Nominal Сохранить данные! (File, Save и т.д.) Дать имя файлу! Например, «Data.sav». В результате должен появиться новый файл (Output 1) с сообщением о том, что файл сохранен по такому-то адресу. Например (Рис.5.1.8): Рис.5.1.8. Новый файл Output 1 сообщением о файле с исходными данными. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 55 «Физическая агрессия» 20. В ячейку Name 3 напишем fa 21. Type Numeric 22. Width – 8 23. Decimals: 2 24. Label: FA 25. Values: None 26. Missing: None 27. Columns: 8 28. Align: Right 29. Measure: Scale «Косвенная агрессия» 30. В ячейку Name 4 напишем na 31. Type Numeric 32. Width – 8 33. Decimals: 2 34. Label: NA 35. Values: None 36. Missing: None 37. Columns: 8 38. Align: Right 39. Measure: Scale «Раздражение» 40. В ячейку Name 5 напишем k 41. Type Numeric 42. Width – 8 43. Decimals: 2 44. Label: K 45. Values: None 46. Missing: None 47. Columns: 8 48. Align: Right 49. Measure: Scale Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 56 «Негативизм» 50. В ячейку Name 6 напишем n 51. Type Numeric 52. Width – 8 53. Decimals: 2 54. Label: N 55. Values: None 56. Missing: None 57. Columns: 8 58. Align: Right 59. Measure: Scale «Обида» 60. В ячейку Name 7 напишем ap 61. Type Numeric 62. Width – 8 63. Decimals: 2 64. Label: Ap 65. Values: None 66. Missing: None 67. Columns: 8 68. Align: Right 69. Measure: Scale «Подозрительность» 70. В ячейку Name 8 напишем az 71. Type Numeric 72. Width – 8 73. Decimals: 2 74. Label: Az 75. Values: None 76. Missing: None 77. Columns: 8 78. Align: Right 79. Measure: Scale Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 57 «Вербальная агрессия» 80. В ячейку Name 9 напишем va 81. Type Numeric 82. Width – 8 83. Decimals: 2 84. Label: VA 85. Values: None 86. Missing: None 87. Columns: 8 88. Align: Right 89. Measure: Scale «Угрызения совести и чувство вины» 90. В ячейку Name 10 напишем sp 91. Type Numeric 92. Width – 8 93. Decimals: 2 94. Label: SP 95. Values: None 96. Missing: None 97. Columns: 8 98. Align: Right 99. Measure: Scale В результате получится (Рис.5.1.9). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 58 Рис.5.1.9. Описание переменных 5.1.2. Ввод данных Перейти в окно Data View и ввести данные (их можно скопировать из Excel или из Word). Фрагмент результата (Рис.5.1.10): Рис.5.1.10. Введенные данные. Фрагмент. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 59 5.1.3. Проверка правильности ввода данных После ввода данных, не следует сразу приступать к их анализу. Прежде всего следует проверить правильность ввода. Способ 1. Analyze (Анализ) Reports (Отчеты) Case Summaries... (Итоги по наблюдениям, Рис.5.1.11) Рис.5.1.11. Диалоговое окно Summarize Cases Пометить все переменные и верхней горизонтальной стрелочкой перенести их в окно Variables (Рис.5.1.12). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 60 Рис.5.1.12. Диалоговое окно Summarize Cases с заданными функциями OK Результаты появятся в файле Output1, который надо сохранить (в том же фолдере) под каким-либо именем, например, TEST. Точнее TEST.spv. Рассмотрим, что мы получили. Таблица 5.1.3 (Case Processing Summary) показывает, что введены все значения и ничего не пропущено. Таблица 5.1.3 Фрагмент таблицы Case Processing Summarya Cases Included N Kods Dzimums FA NA K Excluded Percent 60 60 60 60 60 100.0% 100.0% 100.0% 100.0% 100.0% N Total Percent .0% .0% .0% .0% .0% N Percent 60 60 60 60 60 100.0% 100.0% 100.0% 100.0% 100.0% a. Limited to first 100 cases. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 61 Таблица 5.1.4 (Case Summaries) выводит все данные и их можно проверить, сравнив с оригиналом. Данный способ проверки требует много времени и не очень большого объема данных. Таблица 5.1.4 Фрагмент таблицы Case Summariesa Kods Dzimums 1 m1 M 2 m2 M 3 m3 M 4 m4 M 5 m5 M 6 m6 M a. Limited to first 100 cases. FA NA K 5.00 5.00 5.00 6.00 4.00 5.00 8.00 8.00 7.00 6.00 8.00 6.00 6.00 8.00 7.00 7.00 6.00 6.00 N Ap Az VA SP 3.00 3.00 1.00 4.00 3.00 3.00 6.00 5.00 3.00 3.00 4.00 3.00 6.00 7.00 4.00 5.00 5.00 6.00 7.00 4.00 5.00 7.00 7.00 6.00 4.00 3.00 5.00 5.00 6.00 7.00 Способ 2. В общем случае рекомендуется проводить частотный анализ значений переменных: Analyze (Анализ) Descriptive Statistics (Описательная статистика) Frequencies (Частоты) Перенести в Variables переменные: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 62 Рис.5.1.13. Диалоговое окно Frequencies Выходная информация – частотные таблицы: общая и по всем переменным. Например, Таблица 5.1.5. Таблица 5.1.5 Statistics Dzimums N Valid Missing FA NA 60 60 K N 60 60 60 Ap Az VA SP 60 60 60 60 Valid - имеющиеся в наличии, допустимые, Missing – пропущенные. Таблица 5.1.6 Dzimums Frequency Valid M 30 Z 30 Total 60 Percent 50.0 Valid Percent Cumulative Percent 50.0 50.0 50.0 50.0 100.0 100.0 100.0 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 63 Таблица 5.1.7 FA Frequency Valid Percent Valid Percent Cumulative Percent 4.00 6 10.0 10.0 10.0 5.00 18 30.0 30.0 40.0 6.00 9 15.0 15.0 55.0 7.00 5 8.3 8.3 63.3 8.00 6 10.0 10.0 73.3 9.00 11 18.3 18.3 91.7 10.00 4 6.7 6.7 98.3 11.00 1 1.7 1.7 100.0 Total 60 100.0 100.0 И так далее. Frequency – частота; Percent – проценты; Valid Percent – допустимые проценты; Cumulative Percent – накопленные проценты. Результаты анализа позволяют выявить недопустимые значения. Особое внимание надо обращать на максимальные и минимальные значения. Например, если максимальный показатель физической агрессии окажется равным 104, то в данных имеется ошибка. Файл TEST.spv рекомендуется закрыть. 5.2. Описательная статистика Вариант I После ввода данных начинается их обработка, в зависимости от сформулированной исследователем гипотезы. Но, как правило, показатели описательной статистики вычисляются всегда. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 64 Для вычисления показателей описательной статистики имеется следующие возможности (Таблица 4.1)24. 1) Analyze (Анализ) Descriptive Statistics (Описательная статистика) Descriptives... (Описательная статистика) 2) Analyze (Анализ) Descriptive Statistics (Описательная статистика) Frequencies (Частоты) 3) Analyze (Анализ) Descriptive Statistics (Описательная статистика) Explore... (Исследовать) 4) Analyze (Анализ) Reports (Отчеты) Case Summaries... (Итоги по наблюдениям) Для рассматриваемой задачи о гендерных различиях необходимо получить показатели описательной статистики для мальчиков и для девочек по-отдельности, чтобы потом их сравнить. Поэтому, в начале работы надо расщепить данные отдельно на мальчиков и девочек, используя группирующую переменную «Dzimums» (sex). Data Split file...(Рис.5.2.1) Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». C. 164-165. 24 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 65 Рис. 5.2.1. Анализ всех случаев, без создания групп Organize output by groups Перенести переменную «Dzimums [sex]» в окно “Groups Based on” ...(Рис.5.2.2). OK Рис.5.2.2. Организация выхода по группам Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 66 В результате данные окажутся разбитыми на 2 группы: мальчиков и девочек. Результаты будут выдаваться по группам мальчиков и девочек отдельно. Откроется новый файл Qutput 2 с сообщением: SORT CASES BY sex. SPLIT FILE SEPARATE BY sex. Новый файл с выходной информацией Output2 надо сохранить (в том же фолдере) под каким-либо именем, например, Results. Точнее Results.spv. Получение показателей описательной статистики Analyze Descriptive Statistics Frequencies... Перенести в окно “Variables”переменные: “FA [fa]”, “NA [na]”, “K [k]”, “N [n]”, “Ap [ap]”, “Az [az]”, “VA [va]”, “SP [sp]”. Рис.5.2.3. Перенос переменных для получения описательной статистики Statistics Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 67 Рис.5.2.4. Заказ показателей описательной статистики Отметить статистики, значения которых надо получить (Рис.5.17). Continue OK Выходная информация: Выходная информация выдается в виде таблиц, в которых данные необходимо округлить (до 2 знаков после запятой). Обработку таблиц удобно проводить с помощью Компьютерной программы Excel (Файл Agr_Results.xls). В результате получаются таблицы 5.2.1 и 5.2.2. В Таблицах 5.8-5.9 отмечены случаи, когда показатели асимметрии и эксцесса по абсолютной величине превосходят свои стандартные ошибки. В этих случаях распределение данных отличается от нормального распределения. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 68 Таблица 5.2.1. Показатели описательной статистики для девочек Meitenes FA 30 NA 30 K 30 N 30 Ap 30 Az 30 VA 30 SP 30 Mean 5.33 7.17 6.43 2.27 4.67 5.53 6.07 5.03 Std. Error of Mean 0.22 0.20 0.17 0.19 0.19 0.25 0.22 0.25 Median 5.00 7.00 6.00 2.00 5.00 6.00 6.00 5.00 Mode 5.00 8.00 6.00 3.00 5.00 6.00 7.00 5.00 Std. Deviation 1.21 1.12 0.94 1.01 1.06 1.38 1.23 1.38 Variance 1.47 1.25 0.87 1.03 1.13 1.91 1.51 1.90 Skewness 2.03 -0.03 0.61 0.05 -0.38 0.18 -0.61 0.19 Std. Error of Skewness 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 Kurtosis 6.66 -1.16 0.76 -1.20 -1.01 -0.83 -0.61 -0.59 Std. Error of Kurtosis 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 Range 6.00 4.00 4.00 3.00 3.00 5.00 4.00 5.00 Minimum 4.00 5.00 5.00 1.00 3.00 3.00 4.00 3.00 N Valid Missing Maximum Percentiles 10.00 9.00 9.00 4.00 6.00 8.00 8.00 8.00 25 5.00 6.00 6.00 1.00 4.00 4.00 5.75 4.00 50 5.00 7.00 6.00 2.00 5.00 6.00 6.00 5.00 75 6.00 8.00 7.00 3.00 5.25 6.25 7.00 6.00 a Dzimums = Z Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 69 Таблица 5.2.2. Показатели описательной статистики для мальчиков Zēni FA 30 NA 30 K 30 N 30 Ap 30 Az 30 VA 30 SP 30 Mean 8.03 5.00 6.27 4.33 4.07 5.10 9.60 5.20 Std. Error of Mean 0.30 0.38 0.24 0.19 0.22 0.19 0.37 0.21 Median 8.50 5.00 6.00 5.00 4.00 5.00 10.00 5.00 Mode 9.00 5.00 5.00a 5.00 3.00 4.00 10.00 5.00 Std. Deviation 1.65 2.10 1.34 1.03 1.23 1.06 2.04 1.16 Variance 2.72 4.41 1.79 1.06 1.51 1.13 4.18 1.34 Skewness -0.60 -0.41 0.31 -1.35 0.58 0.53 -0.61 0.58 Std. Error of Skewness 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 Kurtosis -0.43 0.00 -0.49 0.54 -0.46 -0.93 0.33 0.05 Std. Error of Kurtosis 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 Range 6.00 8.00 5.00 3.00 5.00 3.00 8.00 5.00 Minimum 5.00 1.00 4.00 2.00 2.00 4.00 5.00 3.00 N Valid Missing Maximum Percentiles 11.00 9.00 9.00 5.00 7.00 7.00 13.00 8.00 25 7.00 4.00 5.00 4.00 3.00 4.00 8.75 4.00 50 8.50 5.00 6.00 5.00 4.00 5.00 10.00 5.00 75 9.00 7.00 7.00 5.00 5.00 6.00 11.00 6.00 a Multiple modes exist. The smallest value is shown. b Dzimums = Z Вариант 2 Если данной процедуре предшествовало разбиение данных на группы, то необходимо вернуться к исходной неразбитой группе. Data Split file... Reset OK В файле с выходной информацией Results.spo появится сообщение: SPLIT FILE OFF. Начало новой процедуры: Analyze Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 70 Descriptive Statistics Explore Рис.5.2.5. Получение показателей описательной статистики в Explore Перенести переменную «Пол [sex]» в окно “Factor List”. Перенести в окно “Dependent List”переменные: “FA [fa]”, “NA [na]”, “K [k]”, “N [n]”, “Ap [ap]”, “Az [az]”, “VA [va]”, “SP [sp]”. Поставить точку у Statistics (Рис.5.2.5). OK Выходная информация: Таблица с информацией об обработанных наблюдениях (Таблица 5.10). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 71 Таблица 5.2.3 Фрагмент таблицы «Case Processing Summary» (Обработанные наблюдения) Cases Valid Dzimum s FA NA K N Missing Percent N Total Percent N Percent M 30 100.0% .0% 30 100.0% Z 30 100.0% .0% 30 100.0% M 30 100.0% .0% 30 100.0% Z 30 100.0% .0% 30 100.0% M 30 100.0% .0% 30 100.0% Z 30 100.0% .0% 30 100.0% В приведенном фрагменте Таблицы 5.2.3 «Описательные статистики» (таблица 5.2.3 продолжается дальше вниз для других переменных) отмечено, что показатели асимметрии и эксцесса по абсолютной величине превосходят свои стандартные ошибки. Распределение данных в этих случаях отличается от нормального распределения. Дополнительные показатели описательной статистики в Таблице 5.2.4: • 95%Confidence Interval for Mean (Lower Buond; Upper Bound) (95% доверительный интервал для среднего (нижняя граница; верхняя граница)); • 5% Trimmed Mean (5% усеченное среднее). Это среднее значение, вычисленное без учета 5% наименьших и 5% наибольших значений); • Interquartile Range (Междуквартильный размах). Это разность между третьим и первым квартилями: Q = Q3 − Q1 . Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 72 Таблица 5.2.4 Описательные статистики. Фрагмент таблицы. Dzimums FA M Statistic Mean 95% Confidence Interval for Mean 5.3333 Lower Bound 4.8804 Upper Bound 5.7863 5% Trimmed Mean 5.2037 Median 5.0000 Variance 1.21296 Minimum 4.00 Maximum 10.00 Range 6.00 Interquartile Range 1.00 2.033 Skewness Kurtosis Mean 95% Confidence Interval for Mean 6.661 .833 .30127 Lower Bound 7.4172 Upper Bound 8.6495 8.0556 Median 8.5000 Std. Deviation .427 8.0333 5% Trimmed Mean Variance .22145 1.471 Std. Deviation Z Std. Error 2.723 1.65015 Minimum 5.00 Maximum 11.00 Range 6.00 Interquartile Range 2.00 Skewness -.599 .427 Kurtosis -.430 .833 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 73 5.3. Графические иллюстрации уровней агрессии мальчиков и девочек 5.3.1. Коробчатые диаграммы Коробчатые диаграммы (Рис.5.3.1) состоят из прямоугольника, занимающего пространство от первого до третьего квартиля. Линия внутри прямоугольника соответствует медиане. X Extremes zone Outliers zone Nr Nr Q 3Q 1,5 Q Q3 Q= Q3 -Q1 Mdn Q1 1,5 Outliers zone Extremes zone 3Q Nr Nr Рис.5.3.1. Коробчатая диаграмма Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 74 Значения, удаленные от границ более чем на три длины построенного прямоугольника (экстремальные значения или «выбросы»), помечаются на диаграмме звездочками с номером соответствующего наблюдения (Extremes). Значения, (экстремальные удаленные значения более, или чем на полторы длины помечаются «выбросы»), прямоугольника кружкам с номером соответствующего наблюдения (Outliers). На коробчатой диаграмме отмечаются минимальное и максимальное значения, если они не являются выбросами (Extremes и Outliers).1 ЗАДАНИЕ. Даны фрагменты частотных таблиц и квартили. По этим данным рекомендуется вручную построить коробчатые диаграммы и сверить с диаграммами, FA 5.00 NA 6.00 VA 5.75 50 5.00 7.00 6.00 75 6.00 8.00 7.00 Percentiles 25 4.00 25 FA 7.00 NA 4.00 VA 8.75 50 8.50 5.00 10.00 75 9.00 7.00 11.00 Frequency VA Frequency VA Frequency Frequency NA Frequency a Пол = Z(мальчик) FA Frequency FA a Пол = M (девочка) NA Percentiles полученными в SPSS 6 5.00 4 5.00 1 1.00 4 4.00 6 5.00 2 5.00 14 6.00 2 6.00 10 4.00 7 5.00 1 6.00 1 6.00 7 7.00 3 7.00 5 5.00 8 6.00 10 7.00 1 7.00 2 8.00 6 8.00 11 6.00 3 7.00 11 8.00 3 10.00 1 9.00 11 9.00 3 7.00 5 8.00 2 9.00 5 Total 30 10.00 3 Total 30 8.00 2 Total 30 10.00 11.00 12.00 13.00 9 4 3 2 Total 30 a Пол = M 11.00 1 Total 30 a Пол = Z a Пол = M 9.00 1 Total 30 a Пол = Z a Пол = M a Пол = Z Для «Физической агрессии» построение изображено на Рис.5.3.1. 1 Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». C. 173. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 75 12 1,5Q 10 24 3Q Ф изичес кая агрес с ия 8 Q=2 1,5Q 6 Q=1 1,5Q 4 1,5Q 2 N= 30 30 дев очка мальчик Пол Рис.5.3.2. Коробчатая диаграмма для «Физической агрессии» девочек и мальчиков: построение Из Рис.5.3.2 видно, что уровень физической агрессии выше у мальчиков. Среди девочек имеется девочка-драчунья (*24), у которой экстремально высокий уровень физической агрессии. Информация о ней поволяет разыскать ее родителей, с тем, чтобы принять меры относительно ее здоровья. Если распределение данных не отличается от нормального распределения, то разбивку данных на высокие, средние и низкие осуществляют по стандартным отклонениям (п. 2.7). В любых случаях2 разбивку данных на уровни можно осуществлять используя квартили: 2 Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. СПб: Речь, 2004. C.43. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 76 Низкие показатели – ниже Q1 ; Средние показатели - ( Q1 ; Q3 ) ; Высокие показатели - выше Q3 . X Extremes’ zone Outliers’ zone Nr Q3+3Q Nr Q3+1,5Q Чрезвычайно высокий уровень Очень высокий уровень Высокий уровень Q3 Q3 Mdn Q=Q3-Q1 Q1 Q1 Средний уровень Низкий уровень Q1-1,5Q Outliers’ zone Extremes’ zone Очень низкий уровень Nr Q1-3Q Nr Чрезвычайно низкий уровень Рис.5.3.3. Разбивка данных на уровни по коробчатой диаграмме. Очевидно, что более детальную разбивку можно осуществлять используя коробчатые диаграммы (Рис.5.3.3). В пределах «коробки» ( Q1 ; Q3 ) будут лежать средние показатели. Ниже «коробки» (ниже Q1 ) – низкие показатели. Причем для (Q1 − 1,5Q; Q1 ) низкие; для (Q1 − 3Q; Q1 − 1,5Q ) - очень низкие показатели (зона Outliers); для показателей, Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 77 которые меньше, чем Q1 − 3Q - чрезвычайно низкие показатели (зона Extremes), для которых соответствующие испытуемые могут быть уже представителями другой популяции («патологически недоразвитых», для признака «способности»). Выше «коробки» (выше Q3 ) – высокие показатели. Причем для (Q3 ; Q3 + 1,5Q ) высокие; для (Q3 + 1,5Q; Q3 + 3Q ) - очень высокие показатели (зона Outliers); для показателей, которые больше, чем Q3 + 3Q - чрезвычайно высокие показатели (зона Extremes), для которых соответствующие испытуемые могут быть уже представителями другой популяции («гениев», для признака «способности»). Получение коробчатых диаграмм с помощью SPSS Analyze Descriptive Statistics Explore Plots Plots Рис.5.3.4. Получение коробчатой диаграммы, где все переменные вместе Continue OK Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 78 В результате получим коробчатые диаграммы для всех переменных на одном рисунке (Рис.5.3.5). Рис.5.3.5. Коробчатая диаграмма, где все переменные вместе Коробчатые диаграммы для переменных по-отдельности (Рис.5.3.6-5.3.13) можно получить так: Analyze Descriptive Statistics Explore Plots Plots Factor Levels Together Continue OK Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 79 Рис.5.3.6. Коробчатые диаграммы для переменной «ФА» (физическая агрессия) Рис.5.3.7. Коробчатые диаграммы для переменной «NА» (косвенная агрессия) Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 80 Рис.5.3.8. Коробчатые диаграммы для переменной «К» (раздражение) Рис.5.3.9. Коробчатые диаграммы для переменной «N» (негативизм) Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 81 Рис.5.3.10. Коробчатые диаграммы для переменной «Ар» (обида) Рис.5.3.11. Коробчатые диаграммы для переменной «Аz» (Подозрительность) Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 82 Рис.5.3.12. Коробчатые диаграммы для переменной «VА» (вербальная агрессия) Рис.5.3.13. Коробчатые диаграммы для переменной «SP» (Угрызения совести) Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 83 Для получения информации о выбросах на коробчатых диаграммах надо выполнить следующие действия. Analyze Descriptive Statistics Explore Statistics Statistics Статистические показатели Descriptives уже вычислены, поэтому флажок для них можно снять. Установим флажок для выбросов: Outliers. Рис.5.3.14. Диалоговое окно Explore: Statistics Outliers Continue OK Выходная информация: Таблица 5.3.1 – это фрагмент выходной таблицы «Extreme Values»с информацией о выбросах и других максимальных (highest) и минимальных (lowest) значениях обрабатываемых данных. Выводятся по 5 наименьших и наибольших значений. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 84 Таблица 5.3.1 Фрагмент выходной таблицы «Extreme Values» Dzimums FA M Highest Lowest Z Highest Lowest Case Number Value 1 24 10.00 2 19 7.00 3 22 7.00 4 4 6.00 5 7 6.00a 1 28 4.00 2 25 4.00 3 17 4.00 4 13 4.00 5 8 4.00b 1 38 11.00 2 31 10.00 3 36 10.00 4 50 10.00 5 32 9.00c 1 58 5.00 2 54 5.00 3 43 5.00 4 41 5.00 5 55 6.00d Примечания к Таблице 5.3.1 a Only a partial list of cases with the value 6.00 are shown in the table of upper extremes. (В таблице наименьших экстремальных значений показан только частичный список наблюдений со значением 6.00.) b Only a partial list of cases with the value 4.00 are shown in the table of lower extremes. (В таблице наименьших экстремальных значений показан только частичный список наблюдений со значением 4.00.) c Only a partial list of cases with the value 9.00 are shown in the table of upper extremes. (В таблице наибольших экстремальных значений показан только частичный список наблюдений со значением 9.00.) d Only a partial list of cases with the value 6.00 are shown in the table of lower extremes. (В таблице наименьших экстремальных значений показан только частичный список наблюдений со значением 6.00.) Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 85 5.3.2. Диаграммы для средних значений 5.3.2.1. Построение с помощью Excel По данным описательной статистики в Excel строится Таблица 5.3.2.1.1 для средних значений: Таблица 5.3.2.1.1 Средние значения для мальчиков и для девочек M Z FA 5.33 8.03 NA 7.17 5.00 K 6.43 6.27 N 2.27 4.33 Ap 4.67 4.07 Az 5.53 5.10 VA 6.07 9.60 SP 5.03 5.20 Затем строится график (Рис.5.3.2.1.1). Рис.5.3.2.1.1. Диаграмма для средних значений Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 86 5.3.2.2. Построение с помощью SPSS. Способ 1 Образуем новый файл с данными Data_Factor.sav, предварительно подготовив их в Excel (Agr_Data_Factor.xlsx). Данные надо ввести по-другому: образовать новую переменную (factor) и группирующую переменную для ее уровней fac_ind (1-FA, 2-NA, 3-K, 4-N, 5-Ap, 6-Aiz, 7VA, 8-SP) (Рис.5.3.2.2.1-5.3.2.2.3). Рис.5.3.2.2.1. Ввод данных с переменной «factor» и с группирующей переменной «fac_ind» Рис.5.3.2.2.2. Описание группирующей переменной «fac_ind» Рис.5.3.2.2.3. Окно значений переменной «factor» и группирующей переменной «fac_ind» Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 87 Graphs Chart Builder Choose form: Bar (Рис.5.3.2.2.4) Перенести нужный тип графика в окно верхнее правое окно (Рис.5.3.2.2.4). Для определения осей координат надо • на ось Х (X-Axis) из колонки Variables поставить номинальную группирующую переменную Faktors[fac_ind]; • в прямоугольник (Cluster on X: set color) из колонки Variables поставить номинальную группирующую переменную Dzimums [sex]; • на ось Y (Y-Axis) из колонки Variables поставить переменную Faktors [factor]. Получившийся вид окна изображен на Рис.5.3.2.2.6. OK В файле Results.spv появится нужный график (Рис.5.3.2.2.7). Рис.5.3.2.2.4. Окно «Chart Builder» Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 88 Рис.5.3.2.2.5. Окно «Chart Builder» с определенным типом графика Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 89 Рис.5.3.2.2.6. Окно «Chart Builder» с определенным типом графика и с определенными переменными Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 90 Рис.5.3.2.2.7. Диаграмма для средних значений, построенная с помощью SPSS 5.3.2.3. Построение с помощью SPSS. Способ 2 Откроем файл с данными Data_Factor.sav. Graphs Legacy Dialogs3 Bar (Рис.5.3.2.3.1) Clustered Define В появившемся окне «Define Clustered Bar: Summaries for Groups of Cases» распределить переменные Faktors[fac_ind] в окно «Category Axis», группирующую 3 То, что взято из более старых версий SPSS. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 91 переменную Dzimums [sex] в окно «Define Clusters by», переменную Faktors [factor] в окно «Variable». Получившийся вид окна изображен на Рис.5.3.23. Рис.5.3.2.3.1. Окно «Bar Charts» для выбора построения кластерной диаграммы средних значений. Рис.5.3.2.3.2. Окно «Define Clustered Bar: Summaries for Groups of Cases». Все переменные распределены по окнам. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 92 Нажать на кнопку Options Появится окно – Рис.5.3.2.3.3. Display error bars Standard deviation Multiplier 1.0 Рис.5.3.2.3.3. Окно «Options». OK В файле Results.spv появится нужный график (Рис.5.3.2.3.4.). На Рис.5.3.2.3.4 изображен отредактированный график для средних: изменен цвет фона и столбиков, числа на вертикальной оси округлены до целых, все буквы увеличены для того, чтобы график после сжатия был бы читаемым. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 93 Рис.5.3.24. Диаграмма для средних значений, построенная и отредактированная с помощью SPSS. 6. Распределения 6.1. Случайные величины Случайной величиной, называется переменная, которая в результате испытания принимает одно из возможного множества своих значений, какое именно – заранее неизвестно. Случайные величины принято обозначать большими (прописными) буквами латинского алфавита: X, Y, Z,..., а их значения - маленькими (строчными) буквами: x, y, z... Случайные величины бывают двух видов: 1) дискретными (прерывными); 2) непрерывными. Рассмотрим дискретные случайные величины. Случайная величина называется дискретной, если значения которые она может принимать образуют дискретный ряд чисел, конечный или бесконечный. Например, дискретной случайной величиной можно считать: - количество студентов на лекции; - количество цыплят, вылупившихся за ночь; - оценку, полученную на экзамене. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 94 Соответствие между всеми возможными значениями дискретной случайной величины и их вероятностями называется законом распределения вероятностей данной случайной величины. Непрерывной случайной величиной называют переменную, которая может принимать все значения из некоторого конечного или бесконечного промежутка. Например, непрерывной случайной величиной можно считать: - продолжительность жизни; - расход воды за месяц; - дальность полета пули. Значения дискретной случайной величины можно прогнозировать до испытания. Например, количество студентов на лекции. А продолжительность жизни нельзя. Непрерывная случайная величина может принимать все значения из некоторого промежутка. Число ее возможных значений бесконечно. Однако, вероятность того, что значение непрерывной случайной величины будет равняться в точности любому заданному числу x равна нулю. Поэтому находят вероятность того, что значение, принятое непрерывной случайной величиной X в данном испытании окажется в некотором интервале [ a; b ] . Эту вероятность обозначают P ( a ≤ X ≤ b ) или Р( a < X < b). Распределением вероятностей непрерывной случайной величины называют закон, с помощью которого можно найти вероятность того, что ее значение окажется после испытания в интервале [ a; b] . Этот закон задают с помощью функции плотности распределения вероятностей y = f ( x ) (probability density function, PDF). Вероятность того, что значение непрерывной случайной величины X окажется в интервале [ a; b] вычисляют по формуле: b P ( a ≤ X ≤ b ) = ∫ f ( x )dx . (6.1.1) a Символ в правой части равенства (6.1.1) называют определенным интегралом от функции y = f ( x ) по промежутку [ a; b ] . Определенные интегралы изучают в разделе высшей математики «Математический анализ». Интегралы, которые используются в теории вероятностей и в математической статистике, как правило, вычисляют с помощью компьютерных программ. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 95 Функция f ( x ) должна удовлетворять трем основным требованиям: 1) f ( x ) ≥ 0 - быть неотрицательной; 2) Быть такой, чтобы интеграл в правой части формулы (6.1.1) существовал; 3) P ( −∞ < X < +∞ ) = +∞ ∫ f ( x )dx = 1 как вероятность достоверного события, что −∞ после испытания, случайная величина X примет одно значение x ∈ ( −∞; + ∞ ) . График функции y = f ( x ) называют кривой распределения. Определенный интеграл (6.1.1), равный вероятности P ( a ≤ X ≤ b ) равен площади фигуры S, ограниченной сверху кривой распределения и опирающейся на отрезок [ a; b ] (Рис.6.1.1). Поэтому P (a ≤ X ≤ b) = S . (6.1.2) Площадь между всей кривой распределения и осью Ох равна единице, так как она совпадает с вероятностью достоверного события. y y = f ( x) S = P(a≤X≤b) a x b Рис.6.1.1 Площадь заштрихованного участка под кривой распределения совпадает с вероятностью: S = P ( a ≤ X ≤ b ) . Наиболее часто в математической статистике используют нормальное распределение, распределение «Хи-квадрат, t-распределение Стьюдента и f-распределение Фишера-Снедекора. Рассмотрим их подробнее. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 96 6.2. Нормальное распределение Normal Distribution Функция плотности распределения вероятностей для нормального распределения: f ( x) = 1 σ 2π e − ( x−µ ) 2 2σ 2 (6.2.1) В формуле (6.2.1) присутствуют: 1) два знаменитых иррациональных числа (бесконечные непериодические десятичные дроби) число «пи»: π = 3.141592653589790... и число Эйлера «е»: e = 2.718281828459050... ; 2) параметр µ , в точности равный математическому ожиданию (выборочный аналог которого – среднее арифметическое) непрерывной случайной величины Х, вычисленному с помощью соответствующего интеграла; 3) параметр σ , в точности равный стандартному отклонению (выборочный аналог которого – выборочное стандартное отклонение) непрерывной случайной величины Х, вычисленному с помощью соответствующего интеграла. Нормальное распределение описывается двумя параметрами: µ и σ . Кривую нормального распределение (график функции y = f ( x ) ) называют кривой Гаусса. Она имеет форму колокола (Рис.6.2.1). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 97 y y= 1 1 σ 2π e − ( x − µ )2 2σ 2 σ 2π x µ − 3σ µ − 2σ µ −σ µ µ +σ µ + 2σ µ + 3σ Рис.6.2.1. Кривая Гаусса для нормального распределения с параметрами µ и σ . Для нормального распределения справедлив закон «трех стандартных отклонений» или закон «трех сигма» («3 σ »): Отклонения нормально распределенной случайной величины от ее математического ожидания µ не превышают 3σ . Вероятность того, что значения нормально распределенной случайной величины Х, попадут в интервал ( µ − σ ; µ + σ ) , равна .6827 или 68.27%. Вероятность того, что значения нормально распределенной случайной величины Х, попадут в интервал ( µ − 2σ ; µ + 2σ ) , равна .9545 или 95.45%. Вероятность того, что значения нормально распределенной случайной величины Х, попадут в интервал ( µ − 3σ ; µ + 3σ ) , равна .9973 или 99.73%. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 98 y σ 1 2π 0.341 0.341 0.136 0.136 0.022 x 0.022 µ µ −σ 0.6827 µ +σ 0.9545 µ − 2σ µ + 2σ 0.9973 µ − 3σ µ + 3σ Рис.6.2.2. Иллюстрация к закону «трех сигма» Вероятность того, что значения нормально распределенной случайной величины отклонятся от µ в обе стороны на величину меньше 3σ равна .9973. Вероятность того, что отклонения от µ на величину больше 3σ ничтожно мала: 1-.9973 = .0027 или 0.27%. Иоганн Карл Фри́дрих Га́усс (Johann Carl Friedrich Gauß)4 – немецкий математик, астроном и физик. Родился 30 апреля 1777 года в Брауншвейге. Дед Гаусса был бедным крестьянином, отец — садовником, каменщиком, смотрителем каналов в герцогстве Брауншвейг. Уже в три года мальчик умел читать и писать, даже исправлял счётные ошибки отца. Школьный учитель математики, чтобы занять детей на долгое время, предложил им сосчитать сумму чисел от 1 до 100. Юный Гаусс заметил, что попарные суммы с противоположных концов одинаковы: 1+100=101, 2+99=101 и т. д., и мгновенно получил результат 50 х 101=5050. До самой старости он привык большую часть вычислений производить в уме. Его учитель М.Бартельс (впоследствии учитель Лобачевского) оценил исключительный талант юного Гаусса и сумел выхлопотать ему стипендию от герцога 4 http://ru.wikipedia.org/wiki/%D0%93%D0%B0%D1%83%D1%81%D1%81,_%D0%9A%D0%B0%D1%80%D0%BB_%D0% A4%D1%80%D0%B8%D0%B4%D1%80%D0%B8%D1%85 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 99 Брауншвейгского. Это помогло Гауссу закончить колледж Collegium Carolinum в Брауншвейге (1792— 1795). Свободно владея множеством языков, Гаусс некоторое время колебался в выборе между филологией и математикой, но предпочёл последнюю. Он очень любил латинский язык и значительную часть своих трудов написал на латыни; любил английскую, французскую и русскую литературу. (Продолжение в Приложении 6). Сэр Фрэнсис Га́льтон5 (Francis Galton; 16 февраля 1822 — 17 января 1911) — английский исследователь, географ, антрополог и психолог; основатель дифференциальной психологии и психометрики. Родился в Бирмингеме, в Англии. Гальтон был двоюродным братом Чарльза Дарвина по их деду — Эразму Дарвину. Его отцом был Самюэль Тертиус Гальтон, сын Самюэля «Джона» Гальтона. Семья Гальтон была известной и весьма успешной в сфере изготовления оружия и банкирском деле, в то время как Дарвины были известны в областях медицины и науки. Оба эти семейства могли похвастать тем, что их представители являлись членами Лондонского королевского общества, которое в будущем стало британским эквивалентом Академии наук, и любили изобретать в свободное время. И Эразм Дарвин, и Самюэль Гальтон были одними из основателей знаменитого Лунного общества Бирмингема, среди членов которого были: выдающиеся учёные и предприниматели. Также оба семейства могли похвастать литературными талантами: Эразмусом Дарвином, известным благодаря созданию длинных технических трактатов (учебников) в стихотворной форме, и тётей Мари Анной Гальтон, известной благодаря работам по эстетике и религии и её знаменитой автобиографии, подробно описывающей уникальное окружение её детства, состоящее из членов Лунного Общества. Фрэнсис Га́льтон рано проявил одарённость: с полутора лет знал все буквы алфавита, самостоятельно читал с двух с половиной лет, писал с трёх лет. (Продолжение в Приложении 6). 6.3. Распределение «Хи-квадрат» ( χ 2 ) Chi-Square Distribution or χ 2 - Distribution Распределение «Хи-квадрат» впервые было описано немецким геодезистом, математиком и астрономом Фридрихом Робертом Хельмертом (Friedrich Robert Helmert) в 1875-1876 годах6,7. В Германии это распределение традиционно известно как распределение Хельмерта. В связи с гауссовской теорией ошибок Хелмерт исследовал суммы квадратов k независимых стандартно нормально распределенных случайных величин. Распределение «Хи-квадрат» было независимо вновь открыто английским математиком Карлом Пирсоном в контексте критерия согласия «хи-квадрат», опубликованного им в 1900 году. Название "хи-квадрат" происходит от стенографии Пирсона, который использовал букву греческого алфавита χ (русская транскрипция – 5 http://ru.wikipedia.org/wiki/%D0%93%D0%B0%D0%BB%D1%8C%D1%82%D0%BE%D0%BD,_%D0%A4%D1%80%D1%8D%D0%BD% D1%81%D0%B8%D1%81 6 Айвазян, С. А. (1983). Прикладная статистика. Основы моделирования и первичная обработка данных. Москва: «Финансы и статистика». С.190. 7 https://en.wikipedia.org/wiki/Chi-squared_distribution Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 100 «Хи», английская - Chi): χ 2 . Идея семейства "хи-квадрат распределений" была развита Рональдом Фишером (см.п. 6.5) в 1920-е годы. Сейчас распределение "хи-квадрат" носит имя Пирсона. Функция плотности распределения вероятностей для распределения χ 2 8: (6.3.1) где Г(x) специальная (не элементарная) функция, которая определяется через несобственный интеграл и называется гамма-функцией9; k = df (degrees of freedom) – параметр распределения χ 2 , который называется числом степеней свободы. Распределение χ 2 описывается одним параметром - числом степеней свободы k =df. Кривые распределения χ 2 для некоторых k=df показаны на Рис.6.3.110. Рис.6.3.1. Кривые распределения χ 2 для числа степеней свободы 1, 2, 3, 4, 6, 9. 8 В названии распределения использована греческая буква 9 Г https://en.wikipedia.org/wiki/Chi-squared_distribution χ - «хи». 10 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 101 Фридрих Роберт Хельмерт11 (Friedrich Роберт Helmert) известный германский геодезист и математик. Родился 31 июля 1843 года в Фрайберге, Kingdom of Saxony. Учился в школе в Фрайберге и в Дрездене. В 1859 году поступил в Политехническую Школу в Дрездене (ныне – Технический Университет) для изучения инженерных наук. Особенный интерес проявил к геодезии. Еще когда Фридрих был студентом, один из его учителей (August Nagel) предложил ему научную работу в области геодезии. В 1863 году Хельмерт стал ассистентом Нагеля. В 1867 году после изученияя математики и астрономии он получил степень доктора в Лейпцигском университете за диссертацию, написанную на основе своей работы с Нагелем. После чего был назначен сперва наблюдателем в гамбургскую обсерваторию, а затем в 1872 году - профессором в Аахенский политехнический институт (RWTH Aachen). В Аахене (1880-1884) Хельмерт написал работы, которые заложили основы современной геодезии. Метод наименьших квадратов был введен в геодезию Гауссом. Хельмерт написал прекрасную книгу по методу наименьших квадратов, которая стала стандартным текстом. В 1876 году он открыл распределение, которое впоследствии Карл Пирсон назвал «хи-квадрат». Хельмерт рассматривал его как распределение выборочной дисперсии для нормального распределения. Это открытие и другие работы Хельмерта вошли в немецкие учебники, в которых открытое Хельмертом распределение называлось распределением Хельмерта. К сожалению, еще долгое время работы Хельмерта не были известны на английском и других языках. Позже распределение Хельмерта вновь было открыто Карлом Пирсоном (1900) и названо распределением Пирсона «хи-квадрат». С 1886 года был директором прусского геодезического института в Потсдаме и одновременно (с 1887 года) профессором геодезии Берлинского Университета. Кроме многочисленных статей математического и геодезического содержания в повременных ученых изданиях, Гельмерту принадлежат: "Ausgleichungsrechnung nach der Methode der kl. Quadrate" (1872) и "Die Mathematischen und Physikalischen Theorieen der Hoheren Geodasie" (1880 и 1884). Последнее сочинение, особенно второй его том, занимает в геодезической литературе весьма почетное место. Математические труды по теории ошибок; рассмотрел (1876) распределение хи-квадрат. В 1916 году он перенес инсульт и умер от его последствий в следующем 1917 году, 15 июня в Потсдаме. Карл Пирсон, 12, 13, 14 (англ. Karl (Carl) Pearson, 27 марта 1857, Лондон - 27 апреля 1936, Лондон) - английский математик, статистик, биолог и философ-позитивист; основатель математической статистики. Создатель методов оценки и измерения в биологии и психологии. Автор свыше 650 опубликованных научных работ. Родился в семье преуспевающего лондонского адвоката. Изучал математику в Кембриджском университете. Закончил Кембриджский университет в 1879 году. Затем изучал физику в Гейдельбергском и Берлинском университетах. Значительную часть своих усилий он употребил на разработку и применение статистических методов в биологии. Он считается одним из отцов современной статистики. В молодости у Карла Пирсона появился интерес к проблемам наследственности, евгеники, общим вопросам биологии и возможности применения методов статистики для их изучения. Его интерес сформировался под влиянием эволюционной теории Дарвина, которую он хотел проверить с помощью различных методов. Вместе с такими философами, как Юм и Мах, Пирсон разделял взгляды на причинность как сопряженную вариацию ("корреляция"). Он предложил математическую формулировку идеи корреляции. Результатом явился широко известный коэффициент корреляции Пирсона. Пирсон также разработал непараметрический коэффициент d-квадрат. Оба коэффициента интенсивно использовались в психологических исследованиях и внесли существенный вклад в развитие мультивариантных статистических методов и в установление традиции использования количественных методов в этих дисциплинах. Идеи Пирсона о корреляции и d-квадрате опубликованы в серии из 18 книг под заголовком «Математический вклад в теорию эволюции». Пирсон включился в важную дискуссию с Уильямом 11 12 http://ru.wikipedia.org/wiki/%D0%9F%D0%B8%D1%80%D1%81%D0%BE%D0%BD,_%D0%9A%D0%B0%D1%80%D0%BB http://www.psychology.ru/whoswho/Karl_Pearson.stm 14 http://www-history.mcs.st-andrews.ac.uk/Biographies/Pearson.html 13 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 102 Бэйтсоном о природе эволюции и ее измерении. Пирсон защищал биометрический подход, подчеркивая важность непрерывных изменений как основного материала естественного отбора. Бэйтсон работал в традиции чешского генетика растений Менделя (чьи работы были заново открыты в 1900) и придавал гораздо большее значение дискретным изменениям и изучению размножения, как лучшего пути к пониманию механизмов эволюции. Начиная с 1906 года Пирсон посвятил всю свою энергию развитию статистики как отдельной науки. В 1910 году вместе с Гальтоном и Велдоном он основал влиятельный журнал «Biometrika», посвящённый применению статистических методов в биологии, который редактировал до самой смерти. В бытность его редактором журнал приобрел одиозную репутацию за явную приверженность одной линии: Пирсон отвергал сразу, без исправлений и консультаций, все рукописи, которые находил противоречащими направлению журнала. С 1884 по 1911 год он был профессором прикладной математики и механики Лондонского университета, с 1911 года - директором Лаборатории евгеники Лондонского университета, заслуженным профессором. В 1896 году был избран членом Королевского общества, в 1898 году был награждён Медалью Дарвина. Опубликовал основополагающие труды по математической статистике (более 400 работ). Разработал теорию корреляции, критерии согласия, алгоритмы принятия решений и оценки параметров. С его именем связаны такие широко используемые термины и методы, как: критерий согласия Пирсона (критерий хи-квадрат), коэффициент корреляции Пирсона и корреляционный анализ, регрессия и многие другие. Пирсон много усилий приложил для применения своих открытий в прикладных областях, прежде всего в биологии, евгенике, медицине. Ряд работ относится к философии и к истории науки. Видным продолжателем его работ по прикладной математической статистике стал Рональд Эйлмер Фишер. 6.4. Распределение Стьюдента или t-распределение Student’s Distribution or t- distribution Распределение Стьюдента было разработано английским химиком и статистиком Уильямом С. Госсетом (William S. Gosset), когда он работал сотрудником ирландского отделения пивоваренной компании Guinness. Компания Guinness запрещала своим сотрудникам публиковать работы под собственными именами. Поэтому свои публикации Уильям С. Госсет начиная с 1908 года в журнале "Биометрика" писал под псевдонимом "Student", что в переводе означает "Студент". Функция плотности распределения вероятностей для t-распределения Стьюдента: , (6.4.1) где Г(x) специальная функция, которая определяется через несобственный интеграл и называется гамма-функцией; k = df (degrees of freedom) – параметр распределения t, который называется числом степеней свободы. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 103 t-распределение Стьюдента описывается одним параметром - числом степеней свободы k =df. Кривые распределения t для некоторых k=df показаны на Рис.6.4.1. Внешне t-распределение Стьюдента напоминает стандартизованное нормальное распределение (частный случай нормального распределения, когда μ=0, σ=1). Оба распределения имеют колоколообразную форму и являются симметричными. Однако хвосты в t-распределении «тяжелее» (т.е. ограничивают большую площадь), а площадь фигуры в центре распределения меньше, чем у стандартизованного нормального распределения (Рис.6.4.1). Yjhvfkmyjt 0.4 Y Нормальное распределение k = 16 k=4 0.3 k =2 k =1 0.2 0.1 X -3 -2 -1 1 2 3 Рис.6.4.1. Кривая Гаусса (стандартизованное нормальное распределение) и кривые tраспределения Стьюдента с числом степеней свободы k = 1 , k = 2 , k = 4 , k = 16 . Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 104 Уи́льям Си́ли Го́ссет15 (William Sealy Gosset, 13 июня 1876, Кентербери — 16 октября 1937, Беконсфильд) — известный учёный-статистик, более известный под своим псевдонимом Стьюдент и за свои работы по исследованию так называемого Распределения Стьюдента. Родился в Кентербери, у Агнес Сили Видал и полковника Фредерика Госсета. Госсет посещал колледж Винчестер, а затем прослушал курсы химии и математики в Новом колледже Оксфорда. По окончании университета в 1899 году он поступил на работу на пивоваренный завод Arthur Guinness Son & Co в Дублине. Гиннесс был передовым предприятием пищевой промышленности, и Госсет мог применить свои знания в области статистики как при варке пива, так и на полях — для выведения самого урожайного сорта ячменя. Госсет приобретал эти знания путём изучения, методом проб и ошибок, проведя два года (1906—1907 гг.) в биометрической лаборатории Карла Пирсона. Госсет и Пирсон были в хороших отношениях, и Пирсон помогал Госсету в математической части его исследований. Так, Пирсон был причастен к публикациям 1908 года (принёсших славу Стьюденту), но придавал мало значения этому открытию. Исследования были обращены к нуждам пивоваренной компании и проводились на малом количестве наблюдений. Биометристы же обычно имели дело с сотнями наблюдений и не испытывали необходимости в развитии методов, основанных на малом их количестве. (Продолжение в Приложении 6). 6.5. Распределение Фишера-Снедекора или f-распределение Fisher-Snedecor’s Distribution or f-distribution Два самых выдающихся статистика XX столетия непосредственно причастны к получению f-распределения. Один - крупнейший английский статистик Рональд Фишер (1890-1962), предложивший первые теоретические формулировки, которые были опубликованы в середине 20-х годов (Fisher, 1925). Другой - Джордж Снедекор (18811974), один из плеяды первых американских статистиков, разработавший способ сравнения двух независимых выборок любого объема посредством вычисления отношения двух оценок дисперсии. Он назвал это отношение f-отношением, в честь Фишера. Функция плотности распределения вероятностей для f-распределения ФишераСнедекора: , (6.5.1) 15 http://ru.wikipedia.org/wiki/%D0%93%D0%BE%D1%81%D1%81%D0%B5%D1%82,_%D0%A3%D0%B8%D0%BB%D1%8C%D1%8F%D0 %BC_%D0%A1%D0%B8%D0%BB%D0%B8 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 105 где B(x) - специальная функция, которая определяется через несобственный интеграл и называется бета-функцией16; k1 = df1, k2 = df2 (degrees of freedom) – параметры распределения f, которые называются степенями свободы. f-распределение Фишера-Снедекора описывается двумя параметрами - степенями свободы k1 = df1, k2 = df2. Кривые распределения f для некоторых k1 = df1, k2 = df2 ( показаны на Рис.6.5.117. y x Рис.3.5.1. Кривые f-распределения Фишера-Снедекора: F1,1, F2,1, F5,2, F10,1, F100,100,. На рисунке обозначено: d1=k1, d2=k2. Сэр Рональд Эймлер Фишер (Sir Ronald Aylmer Fisher, родился 17 февраля 1890 в Лондоне, скончался 29 июля 1962 в Австралии)18. Его отец был успешным торговцем предметами изящного искусства. Детство Рональда было счастливым, он был обожаем тремя старшими сёстрами, старшим братом и матерью, которая умерла, когда Рональду было 14. Его отец 18 месяцев спустя обанкротился, проведя несколько неудачных сделок. Хотя у Фишера было плохое зрение, он был не по годам развитым учеником и в возрасте 16 лет выиграл «Neeld Medal» (конкурс по математике) в школе Харроу (лат. Harrow School). По причине всё того же плохого зрения, его обучали математике без использования «бумаги и пера», что развило 16 17 https://upload.wikimedia.org/wikipedia/commons/9/92/F_pdf.svg 18 http://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D1%88%D0%B5%D1%80,_%D0%A0%D0%BE%D0%BD%D0 %B0%D0%BB%D1%8C%D0%B4_%D0%AD%D0%B9%D0%BB%D0%BC%D0%B5%D1%80 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 106 способность представлять задачу в терминах геометрии. Фишер был знаменит умением получать ответ, опуская промежуточные этапы. Он также проявлял сильный интерес к биологии, в особенности, к эволюционному учению. Колоссальный вклад был внесён им в развитие современной прикладной математической статистики. Его характеризуют как «гения, едва не в одиночку заложившего основы современной статистики». Фишер - один из основателей математической статистики и математической популяционной генетики. Член Лондонского королевского общества (1929). Окончил колледж в Кембридже (1912). Работал статистиком в «Меркантайл энд дженерал инвестмент компани» (1913–1915). В 1919–1933 работал в отделе статистики Ротемстедской экспериментальной станции. В 1933–1943 профессор евгеники Лондонского университета. В 1943–1957 профессор генетики Кембриджского университета, в 1956–1959 руководил одним из его колледжей. Основные труды по теории статистики и генетической теории эволюции. Ввёл понятие достаточной статистики, построил теорию точечных и интервальных статистических оценок, разработал методику планирования экспериментов и внёс существенный вклад в создание современной теории статистической проверки гипотез. Ввёл основные понятия генетики количественных признаков, исследовал стохастические процессы в популяциях, предложил ряд моделей действия естественного отбора, первый рассмотрел случай сверхдоминирования по приспособленности, предложил теорию эволюции доминантности. Сформулировал т. н. фундаментальную теорему естественного отбора, носящую его имя. Член Королевского статистического общества. Почётный член многих академий, английских и иностранных научных обществ; почётный доктор наук и доктор права многих университетов (Лондон, Гарвард, Чикаго, Калькутта, Глазго и др.). Награжден Дарвиновской медалью Лондонского королевского общества19. Джордж Уоддел Снедекор 20(George Waddel Snedecor; родился 20 октября 1881, скончался 15 февраля 1974) — американский математик и статистик. Был учеником знаменитого статистика Рональда Фишера. Существует мнение, что F-распределение рассчитал именно он и назвал его в честь своего учителя. Работал вместе с Генри Уоллесом. Снедекор основал первый в США факультет статистики в Государственном Университете Айовы. 19 http://bse.sci-lib.com/article116512.html 20 http://ru.wikipedia.org/wiki/%D0%A1%D0%BD%D0%B5%D0%B4%D0%B5%D0%BA%D0%BE%D1%80,_%D0%94%D0%B6%D0%BE% D1%80%D0%B4%D0%B6 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 107 7. Проверка статистических гипотез с помощью SPSS 7.1. Виды статистических гипотез Гипотеза происходит от греческого слова hypothesis - основание, основа. Статистической гипотезой называют предположение о свойствах популяции совокупности. Статистическую гипотезу подтверждают или отвергают методами математической статистики на основе выборочных данных. Одновременно выдвигаются нулевая (основная) гипотеза H 0 и противоречащая ей альтернативная гипотеза H1 : Нулевая гипотеза H 0 всегда о том, что различия в популяции нулевые. В выборке статистически значимых или существенных отличий нет. Все имеющиеся различия несущественны, их можно объяснить случайными обстоятельствами. Альтернативная (конкурирующая) гипотеза H1 о том, что в популяции имеются различия. В этом случае в выборке различия статистически значимые. Это закономерно и не может быть объяснено случайными причинами. Альтернативная гипотеза – это то, что очень часто исследователь хочет доказать, поэтому ее иногда называют экспериментальной гипотезой. Альтернативная гипотеза может быть направленной или ненаправленной. В Примерах 1-3 выборочная дисперсия отличается от гипотетической21 дисперсии. Возникает вопрос: являются ли эти различия случайными или закономерными? Случайные различия в выборке означают отсутствие различий в популяции. Закономерные различия в выборке говорят о различиях в популяции. Пример 1. H 0 : Выборочная дисперсия =25.34 имеет случайное отличие от гипотетической дисперсии σ 02 =15.00; 21 предполагаемой Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 108 H1 : Выборочная дисперсия =25.34 отличается от гипотетической дисперсии σ 02 =15.00 закономерно. При справедливости H 0 различие может быть объяснено случайными причинами. При справедливости быть H1 различие закономерно и не может быть объяснено случайными причинами. В Примере 1 альтернативная гипотеза является ненаправленной (nondirectional). Пример 2. H 0 : Выборочная дисперсия =25.34 имеет случайное отличие от гипотетической дисперсии σ 02 =15.00; H1 : Выборочная дисперсия =25.34 превышает от гипотетическую дисперсию σ 02 =15.00 закономерно. Пример 3. H 0 : Выборочная дисперсия =12.51 имеет случайное отличие от гипотетической дисперсии σ 02 =15.00; H1 : Выборочная дисперсия =12.51 меньше гипотетической дисперсии σ 02 =15.00 закономерно. В Примерах 2 и 3 альтернативная гипотеза является направленной (directional). Замечание. Те же самые гипотезы могут быть сформулированы для популяции. Параметры популяции обычно обозначают буквами греческого алфавита. Дисперсию популяции обозначим Тогда для Примеров 1-3 гипотезы могут быть записаны следующим образом. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 109 Пример 1. Пример 2. Пример 3. H 0 : σ 2 = σ 02 H 0 : σ 2 = σ 02 H 0 : σ 2 = σ 02 H 1 : σ 2 ≠ σ 02 , H 1 : σ 2 > σ 02 , H1 : σ 2 < σ 02 , где σ 02 =15.00, где σ 02 =15.00, =25.34. =25.34. где σ 02 =15.00, в которой =12.51. 7.2. Ошибки 1-ого и 2-ого рода Статистическая проверка гипотез, основе лежат выборочные результаты, неизбежно связана с риском принять ошибочное решение. Возможны два вида ошибок. Ошибка 1-ого рода. Отклонить правильную нулевую гипотезу H 0 (α-error, type I error ). Ошибка 2-ого рода. Принять неправильную нулевую гипотезу H 0 (β-error, Type II error). Возможны 4 случая (Таблица 7.2.1). Таблица 7.2.122 Возможные результаты процесса принятия решений Истинное состояние H 0 Верна H 0 Неверна Решение Нет оснований отвергнуть Отвергается Правильное решение Ошибка 1-ого рода р=1-α p=α Ошибка 2-ого рода Правильное решение p=β p=1-β=мощность (power) Замечание. p – вероятность. 22 Howell, D.С. (1999). Fundamental Statistics for Behavioural Sciences. USA: Duxbury Press. http://www.psych.utoronto.ca/courses/c1/statstoc.htm. P.133. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 110 Вероятность ошибки 1-ого рода называют уровнем значимости (significance level) и обозначают буквой греческого алфавита α . Обычно рассматривают уровни значимости α = .05 , α = .01 и α = .001 . Если α = .05 - то это значит, что в 5 случаях из 100 имеется риск отвергнуть правильную нулевую гипотезу. Когда указывают, что различия достоверны на уровне значимости α = .01 , то имеют в виду, что вероятность того, что они все-таки недостоверны, не превышает .01 (или 1%). Вероятность ошибки 2-ого рода обозначают через β . 7.3. Статистический критерий Критерий - от греческого слова criterion - средство для суждения - признак, на основании которого производится оценка, средство проверки, - мерило оценки. Для проверки нулевой гипотезы ( H 0 - гипотезы об отсутствии различий) используют специально подобранную случайную величину, которую называют статистическим критерием или просто критерием. При справедливости нулевой гипотезы эта случайная величина имеет определенное распределение плотности вероятностей (стандартизованное нормальное: z- распределение, распределение хи-квадрат (chi-square distribution), t-распределение Стьюдента, f-распределение Фишера-Снедекора или другие распределения). Кривая плотности распределения, как правило, имеет вид колокола – симметричного или скошенного (Рисунки п.6). Наблюдаемое или эмпирическое значение критерия – это значение критерия, вычисленное по выборочным данным. Также принято критерий называть тестом, а его эмпирическое значение - статистикой. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 111 7.4. Критическая область. Критические точки Множество всех возможных значений статистики делится на две области. Критической областью (critical region) называют совокупность значений статистики, при которой нулевую гипотезу отвергают. Областью областью принятия гипотезы (acceptance region) называют совокупность значений статистики, при которых нулевую гипотезу нет оснований отвергнуть. Критическими точками называют точки, отделяющие критическую область от области принятия гипотезы (Рис.7.4.1). Критической области соответствуют значения статистики, которые наименее вероятны - так называемые, «хвосты» распределения. Критические точки находятся по уровню значимости α и по параметрам соответствующих распределений из специальных таблиц или с помощью компьютерных программ. Обычно их обозначают kα , или более конкретно, например: при α = 0.05. Вместо буквы k обычно пишут букву, соответствующую распределению случайной величины ( z ; χ 2 ; t ; f и др.) В зависимости ненаправленной), от различают вида альтернативной «односторонние гипотезы гипотезы» (направленной (one-tailed test) – или для направленных гипотез и «двусторонние гипотезы» (two-tailed test) – для ненаправленных гипотез. Односторонние гипотезы, бывают левосторонними (left-tailed) и правосторонними (right-tailed). В соответствии с этим определяются правосторонняя (onetailed), левосторонняя (one-tailed) и двухсторонняя (two-tailed) критические области (Рис.7.4.1). После вычисления значения статистики для имеющейся выборки, смотрят, в какую из этих двух областей попало это вычисленное значение. Если оно попало в критическую область, то нулевая гипотеза отвергается. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 112 Рис.7.4.1. Кривая распределения. На горизонтальной оси отложены наблюдаемые значения критерия К – статистики, kα – критические точки. (a) – правоторонняя критическая область (one-tailed), площадь правого «хвоста» равна α; (b) – левоторонняя критическая область (one-tailed), площадь левого «хвоста» равна α; (с) – двухсторонняя критическая область (two-tailed), площадь каждого «хвоста» равна α/2. Пример 4. Выборка, объема n = 17 взята из популяции, в которой признак имеет нормальное распределение. Выборочная дисперсия равна =25.34. Гипотетическая дисперсия равна σ 02 =15.00. Сравнить выборочную дисперсию с гипотетической дисперсией. Решение Из математической статистики следует, что для сравнения выборочной дисперсии с гипотетической дисперсией следует использовать критерий χ 2 , наблюдаемое значение (статистика) которого вычисляется по формуле23 Гласс Дж., Стенли Дж. Статистические методы в педагогике и в психологии. – Москва: Прогресс, 1976. С. 279-280. 23 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 113 χ 2 = (n − 1) s x2 . σ 02 (7.4.1) Вычислим значение χ 2 - статистики: = . Нулевая гипотеза: H 0 : σ 2 = σ 02 , где дисперсия популяции24. Случайная величина χ 2 при справедливости нулевой гипотезы распределение χ 2 с df=n-1 степенями свободы. Дальнейший ход решения задачи предполагает рассмотрение двух вариантов: направленной и ненаправленной альтернативных гипотез. Случай 1 (направленная альтернативная гипотеза) H 1 : σ 2 > σ 02 25 В этом случае рассматриваем правостороннюю критическую область, уровни значимости α = .05, α = .01. α = .001 и число степеней свободы df = 17-1 = 16. Дальнейшее решение задачи проведем с помощью компьютерной программы GRETL, которую можно бесплатно скачать в Интернете. 24 Эквивалентная формулировка нулевой гипотезы: H 0 : Выборочная дисперсия =25.34 имеет случайное отличие от гипотетической дисперсии σ =17.00; 2 25 H1 : Выборочная дисперсия =25.34 превышает от гипотетическую дисперсию σ =15.00 закономерно. 2 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 114 7.5. Нахождение критических точек с помощью компьютерной программы GRETL Открываем программу GRETL. На верхней панели выбираем Tools (Рис.7.5.1) Рис.7.5.1. Основное окно программы GRETL с выбранным на верхней панели Tools. Statistical tables На появившемся окне gretl: critical values (Рис.7.5.2) выбираем chi-square и заполняем таблицу: Рис.7.5.2. Окно gretl: critical values. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 115 ОК Выходная информация (Рис.7.5.3): Рис.7.5.3. Критическое значение для уровня значимости .05 и числа степеней свободы 16 равно 26.2962. Округляя получаем: Аналогично находим: Вычисленная статистика : = . Справедливо неравенство (Рис.7.4.5): Вычисленная статистика оказалась в критической области для уровня значимости α=.05. Поэтому нулевая гипотеза отклоняется и принимается альтернативная гипотеза. = α=.05 H0 α=.01 α=.001 H1 χ2 Рис.7.5.4. Правосторонняя критическая область для Примера 4. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 116 Ответ: Была использована правосторонняя альтернативная гипотеза. Выборочная дисперсия =25.34 статистически значимо превышает гипотетическую дисперсию σ 02 =17.00. Уровень значимости α=.05. Случай 2 (ненаправленная альтернативная гипотеза) H 1 : σ 2 ≠ σ 02 В этом случае рассматриваем двухстороннюю критическую область, уровни значимости α = .05, α = .01, α = .001 и число степеней свободы df = 17-1 = 16. Для того, чтобы найти левую критическую точку, перед которой площадь, ограниченная кривой распределения и осью Ох (Рис.7.4.1 (с), критическая точка kα1), равна α/2. Чтобы ее найти надо подставить в «right-tailed probability» (Рис.7.5.2) 1- α/2=10.05/2=0.975. Рис.7.5.5. Вычисление левой критической точки для двухсторонней критической области Результат вычисления . Для α = .01, «right-tailed probability» 1- α/2=1-.01/2=.995, для α = .001, «right-tailed probability» 1- α/2=1-.001/2=.9995. Критические точки: , . Для того, чтобы найти правую критическую точку, за которой площадь, ограниченная кривой распределения и осью Ох (Рис.7.4.1 (с), критическая точка kα2), Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 117 равна α/2. Чтобы ее найти надо подставить в «right-tailed probability» (Рис.7.5.2) α/2=.05/2=.025. Результат вычисления . Для α = .01, «right-tailed probability» α/2=.01/2=.005, для α = .001, «right-tailed probability» α/2=.001/2=.0005. Критические точки: , Вычисленная статистика = . принадлежит области принятия нулевой гипотезы, так как справедливо неравенство (Рис.7.5.6): Поэтому нет основания отвергнуть нулевую гипотезу. Различия между выборочной дисперсией и гипотетической дисперсией не найдены. = α=.001 H1 α=.01 α=.05 α=.05 α=.01 α=.001 H1 H0 χ2 Рис.7.5.6. Двухсторонняя критическая область для Примера 4. Ответ: Была использована двухсторонняя альтернативная гипотеза. Статистически значимых различий между выборочной дисперсией =25.34 и гипотетической дисперсией σ 02 =17.00 не найдено. Из Примера 4 видно, что «двухвостовый» тест является более строгим, чем «однохвостовый». Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 118 7.6. Нахождение критических точек распределения χ2 с помощью компьютерной программы Excel Получим критическую точку распределения χ 2 для уровня значимости р=.05 и числа степеней свободы df = 16 c помощью Excel. Встанем на ячейку, в которой хотим получить ответ. Например, в С3 (Рис.7.6.1). Рис.7.6.1. Получение критических точек распределения χ 2 . Выбор ячейки Formulas fx Insert Function … В появившемся окне найдем функцию CHISQ.INV.RT (Рис.7.6.2). Рис.7.6.2. Выбор функции CHISQ.INV.RT OK Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 119 В появившемся окне зададим уровень значимости р=0.05 (Probability) и число степеней свободы df = 2 (Deg_freedom) (Рис.7.6.3). Рис.7.6.3. Задание уровня значимости (Probability) и числа степеней свободы (Deg_freedom). OK В ячейке С3 появится ответ (Рис.7.6.4). Рис.7.6.4. Вычисленная в ячейке С3 критическая точка распределения χ 2 для уровня значимости р=.05 и числа степеней свободы df = 16 . 7.7. р-value Для проверки стптистических гипотез можно использовать не только критические области и критические точки, но также p-value (p-вероятность, р-значение), которая вычисляется для конкретных значений статистики – наблюдаемого значения критерия. Формально р-value определяется (и вычисляется) следующим образом. Пусть случайная величина К является критерием, который используется для проверки нулевой гипотезы. Предполагается, что при справедливости нулевой гипотезы Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 120 распределение этой случайной величины известно. Наблюдаемое значение критерия или К-статистику обозначим через Кe. Для правосторонней альтернативной гипотезы р-value определяется как вероятность того, что значения случайной величины К будут либо равны вычисленной статистике Кe, либо больше ее (Рис.7.7.1): р-value = Р(K≥Ke). (7.7.1) Для левосторонней альтернативной гипотезы р-value определяется как вероятность того, что значения случайной величины К будут либо равны вычисленной статистики Кe, либо меньше ее: (Рис.7.7.2) р-value = Р(K≤Ke). (7.7.2) Для двухсторонней альтернативной гипотезы р-value определяется как как удвоенная наименьшая вероятность из двух вероятностей Р(K≤Ke) и Р(K≥Ke): р-value = 2 min{Р(K≤Ke), Р(K≥Ke)}. Рис.7.7.1. Определение p-value (площадь заштрихованной области под кривой распределения) для правосторонней альтернативной гипотезы: р-value = Р(K≥Ke). (7.7.3) Рис.7.7.2. Определение p-value (площадь заштрихованной области под кривой распределения) для левосторонней альтернативной гипотезы: р-value = Р(K≤Ke). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 121 Таким образом, р-value – это вероятность того, что не следует отклонять нулевую гипотезу, или вероятность ошибки при отклонении нулевой гипотезы. р-value - это вероятность того, что обнаруженное различие носит случайный характер. Если эта вероятность большая, то различие случайное. Нет оснований отклонить нулевую гипотезу. Например р = .678. Если эта вероятность маленькая, то различия неслучайные, а закономерные. Нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Например, р = .002. Чем меньше р-value, тем надежнее найденное различие. p-value сравнивают с общепринятыми уровнями значимости α=.05, α=.01 или α=.001. Если в результате применения статистического теста p-value окажется меньше, чем выбранный уровень значимости, то нулевая гипотеза отвергается и принимается альтернативная гипотеза. А если p-значение окажется больше заданного уровня значимости, то нет оснований отвергнуть нулевую гипотезу. Это не означает, что нулевая гипотеза истинна, просто не хватает аргументов, чтобы ее отвергнуть. Исторически сложилось так, что принято считать26: 1) p > .05 - различия случайны; 2) α = .05 (или p ≤ .05 ) – различия значимы; 3) α = .01 (или p ≤ .01 ) – различия очень значимы; 4) α = .001 (или p ≤ .001 ) – различия максимально значимы. Чем меньше значение р, тем сильнее аргументы против нулевой гипотезы. В некоторых статистических компьютерных программах (в том числе и в SPSS) pvalue обозначают через Sig. (significance). Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб.: ООО «ДиаСофтЮП». CC. 87-88. 26 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 122 7.8. Вычисление р-value с помощью компьютерной программы GRETL Пример 4. (См. пп.7.4-7.5) Выборка, объема n = 17 взята из популяции, в которой признак имеет нормальное распределение. Выборочная дисперсия равна =25.34. Гипотетическая дисперсия равна σ 02 =15.00. Сравнить выборочную дисперсию с гипотетической дисперсией. Решение Из математической статистики следует, что для сравнения выборочной дисперсии с гипотетической дисперсией следует использовать критерий χ 2 , наблюдаемое значение (статистика) которого вычисляется по формуле27 s x2 χ = (n − 1) 2 . σ0 2 (7.4.1) Вычислим значение χ 2 - статистики: = . Нулевая гипотеза: H 0 : σ 2 = σ 02 , где дисперсия популяции28. Случайная величина χ 2 при справедливости нулевой гипотезы распределение χ 2 с df=17-1=16 степенями свободы. Дальнейший ход решения задачи предполагает рассмотрение двух вариантов: направленной и ненаправленной альтернативных гипотез. Случай 1 (направленная альтернативная гипотеза) Гласс Дж., Стенли Дж. Статистические методы в педагогике и в психологии. – Москва: Прогресс, 1976. С. 279-280. 27 28 Эквивалентная формулировка нулевой гипотезы: H 0 : Выборочная дисперсия =25.34 имеет случайное отличие от гипотетической дисперсии σ =17.00; 2 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 123 H 1 : σ 2 > σ 02 29 Для вычисленной статистики , число степеней свободы df = 16. Находим p-value. Открываем программу GRETL. На верхней панели выбираем Tools (Рис.7.5.1), P-value finder (Рис.7.8.1) Рис.7.8.1. Выбор P-value finder. Появляется окно gretl: p-value finder, на котором выбираем распределение chisquare, df=16, value=27.03 (Рис.7.8.2). ОК Рис.7.8.2. Окно P-value finder. Внесение информации. 29 H1 : Выборочная дисперсия =25.34 превышает от гипотетическую дисперсию σ =15.00 закономерно. 2 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 124 Выходная информация (Рис.7.8.3): для статистики 27.03, распределения chi-square, df=16, p-value = .041, площадь справа от значения статистики (как на Рис.7.7.1). Площадь слева равна .959. Рис.7.8.3. Выходная информация. Имеет место неравенство р = .041 < .05. Поэтому нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Ответ: Была использована правосторонняя альтернативная гипотеза. Выборочная дисперсия =25.34 статистически значимо превышает гипотетическую дисперсию σ 02 =17.00: χ2 (16) = 27.03, p = .041 < .05. Случай 2 (ненаправленная альтернативная гипотеза) H 1 : σ 2 ≠ σ 02 Это ненаправленная альтернативная гипотеза. Воспользуемся уже найденной информацией (Рис.7.8.3) . Для статистики 27.03, распределения chi-square, df=16, p-value = .041, площадь справа от значения статистики (как на Рис.7.7.1). Площадь слева равна .959. р-value для двухвостовой альтернативной гипотезы будет равно удвоенной наименьшей из этих двух площадей: p-value = .041 2 = .082 > .05. Поэтому нет оснований отклонить нулевую гипотезу. Ответ: Была использована двухсторонняя альтернативная гипотеза. Статистически значимых различий между выборочной дисперсией =25.34 и гипотетической дисперсией σ 02 =17.00 не найдено: χ2(16) = 27.03, p = .082. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 125 Домашнее задание 1 Выборка, объема n = 20 взята из популяции, в которой признак имеет нормальное распределение. Выборочная дисперсия равна =32.56. Гипотетическая дисперсия равна σ 02 =14.25. Сравнить выборочную дисперсию с гипотетической дисперсией. Рассмотреть «однохвостовый» и «двухвостовый» тесты. Применить два метода решения: • С помощью критических областей и критических точек; • С использованием р-value. Для нахождения критических точек и р-value использовать компьютерную программу GRETL. Примеры решения разобраны пп. 7.4-7.7. 7.9. Мощность критерия30 Одни и те же задачи могут быть решены с помощью различных критериев. При этом некоторые критерии позволяют выявлять отличия там, где другие критерии не способны их выявить. Один из критериев может быть более мощным, чем другой. Мощностью критерия (рower of the test) называют вероятность того, что нулевая гипотеза H 0 будет отвергнута, если верна альтернативная гипотеза H1 . Мощность критерия – это способность критерия не допустить ошибку 2-ого рода. Мощность критерия – это способность критерия выявлять различия, если они имеются. Мощность критерия – это способность критерия отклонить неверную H 0 . 30 Данный параграф написан в соответствии с книгой: Сидоренко, Е. (2000). Методы математической обработки в психологии. СПб.: ООО «Речь». Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 126 7.10. Параметрические и непараметрические критерии Существуют параметрические и непараметрические критерии. Критерий называется параметрическим, если он основан на конкретном типе распределения ГС. Критерий называется непараметрическим, если он не базируется на типе распределения ГС. (Критерий, свободный от распределения). Параметрические критерии включают в расчетную формулу параметры распределения (средние, стандартные отклонения, число степеней свободы и другие параметры в зависимости от распределения). Например, t-критерий Стьюдента, Fкритерий Фишера и другие критерии. Непараметрические не включают в формулу параметров распределения. Они основаны на оперировании частотами или рангами31. Критерии часто называют тестами. Как у параметрических критериев, так и у непараметрических критериев есть свои преимущества и недостатки. Если параметры распределения известны, то применяются параметрические критерии как более мощные, чем непараметрические. Если параметры распределения неизвестны, то ничего не остается, как использовать непараметрические критерии. Поэтому параметрические критерии следует применять всегда, когда это возможно. Теорией вероятности установлен общий характер нормального закона распределения. Поэтому разумно предполагать, что в обычных случаях многие случайные величины имеют распределение вероятностей близкое к нормальному распределению. Поскольку свойства нормального распределения всесторонне изучены – очень важно понять, можем ли мы считать признак нормально распределенным. Непараметрические критерии можно применять для порядковых и метрических переменных независимо от распределения. 31 Сидоренко, Е. (2000). Методы математической обработки в психологии. СПб: ООО «Речь». C.27. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 127 Параметричекие критерии в большинстве случаев корректно применять когда распределение данных не отличается от нормального распределения. Бывают случаи, когда распределение данных отличается от нормального распределения, но можно применять параметрические критерии. Основное требование – это отсутствие «выбросов», которые влияют на средние значения, дисперсии и на стандартные отклонения. Существуют и другие требования. Каждый случай, когда нет нормального распределения, а мы хотим воспользоваться параметрическим критерием следует рассматривать отдельно. 8. Проверка нормальности распределения данных с помощью SPSS Параметрические критерии применяют только тогда, когда известно, что распределение признака является нормальным. Если выборочное распределение не отличается от нормального распределения, то это значит, что измеряемое свойство удалось отразить в метрической шкале32. Если при изучении некоторого свойства мы произвели его измерение на выборке участников и получили распределение эмпирических данных, отличающееся от нормального распределения, то это значит, что либо выборка не репрезентативна популяции, либо измерения произведены не в шкале равных интервалов.33 Общей причиной отклонения выборочного распределения признака от нормального распределения чаще всего является особенность процедуры измерения: используемая шкала может обладать неравномерной чувствительностью к измеряемому свойству в разных частях диапазона его изменчивости.34 Методы проверки соответствия распределения данных нормальному закону распределения в SPSS которыми мы будем пользоваться в рамках данного конспекта - это: Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.59. 33 Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.51. 34 Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.61. 32 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 128 1) Сравнение абсолютных величин показателей асимметрии и эксцесса с их критическими значениями. Если хотя бы один из показателей асимметрии или эксцесса превышает по абсолютной величине свою стандартную ошибку, то распределение данных отличается от нормального распределения; 2) Критерий Колмогорова-Смирнова; 3) Критерий Колмогорова-Смирнова (модификация Лиллифора); 4) Критерий - Шапиро-Уилкса (если объем выборки меньше 50); 5) Визуальные сравнения: - гистограммы с нормальной кривой, - квантильные диаграммы Q-Q (Normal Q-Q Plots), - Q-Q диаграммы с исключенным трендом (Detrended Normal Q-Q Plots). В SPSS есть и другие методы сравнения распределения данных с нормальным распределением. 9. Гендерные различия агрессии у подростков. Продолжение 9.1.Проверка нормальности распределения данных 9.1.1. Стандартные ошибки асимметрии и эксцесса Сравнение абсолютных величин показателей асимметрии и эксцесса с их критическими значениями было проведено при исследовании показателей описательной статистики (Таблицы 5.2.1-5.2.2). В Таблицах 5.2.1-5.2.2 отмечены случаи, когда показатели асимметрии и эксцесса по абсолютной величине превосходят свои стандартные ошибки. В этих случаях распределение данных отличается от нормального распределения. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 129 9.1.2. Критерий Колмогорова-Смирнова Андрей Николаевич Колмогоров35 - советский математик, один из крупнейших математиков ХХ века, родился 12 апреля (25 апреля по новому стилю) 1903 года в Тамбове, где его мать задержалась по пути из Крыма домой в Ярославль. Мать Колмогорова — Мария Яковлевна Колмогорова - дочь предводителя угличского дворянства, попечителя народных училищ Ярославской губернии Якова Степановича Колмогорова умерла при родах. Отец — Николай Матвеевич Катаев, по образованию агроном принадлежал к партии правых эсеров, был сослан из Петербурга за участие в народническом движении в Ярославскую губернию, погиб в 1919 году во время деникинского наступления. Дед по отцовской линии был сельским священником в Вятской губернии. Андрей Николаевич Колмогоров воспитывался в Ярославле сёстрами матери, одна из них, Вера Яковлевна Колмогорова, официально усыновила Андрея и в 1910 году переехала с ним в Москву для определения в гимназию. Тётушки Андрея в своём доме организовали школу для детей разного возраста, которые жили поблизости, занимались с ними, для ребят издавался рукописный журнал «Весенние ласточки». В нём публиковались творческие работы учеников — рисунки, стихи, рассказы. В нём же появлялись и «научные работы» Андрея — придуманные им арифметические задачи. Здесь же мальчик опубликовал в пять лет свою первую работу по математике. Вместе с Андреем в доме его деда провёл свои детские годы Пётр Саввич Кузнецов, впоследствии известный советский лингвист. В семь лет Колмогорова определили в частную гимназию Репман, одну из немногих, где мальчики и девочки учились вместе. Андрей уже в те годы обнаруживает замечательные математические способности. По словам писателя Владимира Гуйбаловского, учителя не успевали его учить, Андрей выучился математике сам по «Энциклопедическому словарю Брокгауза и Ефрона». Было ещё увлечение историей, социологией. В 1918— 1920 годах жизнь в Москве была нелёгкой. В школах серьёзно занимались только самые настойчивые. В это время Андрею пришлось уехать на строительство железной дороги Казань—Екатеринбург. Одновременно с работой он продолжал заниматься самостоятельно, готовясь сдать экстерном за среднюю школу. По возвращении в Москву испытал некоторое разочарование: удостоверение об окончании школы выдали, даже не потрудившись проэкзаменовать. В первые студенческие годы, кроме математики, Колмогоров занимался серьёзным образом в семинаре по древнерусской истории. Впоследствии Андрей стал академиком, почетным членом многих иностранных академий и научных обществ. Скончался 20 октября 1987 года в Москве. Похоронен на Новодевичьем кладбище. Николай Васильевич Смирнов36 родился 17 октября 1900 года в Москве в семье мелкого церковного служащего, одновременно работавшего письмоводителем в канцелярии Большого театра. С Москвой связана вся жизнь и научная деятельность Николая Васильевича. Завершение его гимназического образования совпало по времени с Первой мировой войной, во время которой он служил в санитарных частях. После Октябрьской революции Николай Васильевич — в рядах Красной армии. В эти годы значительное место в кругу его интересов занимали философия и филология. Пожалуй, именно это увлечение и помогло Николаю Васильевичу найти свое истинное призвание и стать одним из крупнейших советских математиков. Заметную роль здесь, по-видимому, сыграло его знакомство с известным поэтом В. Хлебниковым, который постоянно подчёркивал, что наиболее плодотворных результатов в гуманитарных науках и искусстве можно добиться лишь после обстоятельного знакомства с естественными науками. По свидетельству своего друга художника С. П. Исакова Николай Васильевич, следуя этому совету, после демобилизации в 1921 году поступил в Московский университет и сосредоточил свое главное внимание на изучении математики, которая со временем вытеснила все другие его научные интересы и стала делом 35 https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BB%D0%BC%D0%BE%D0%B3%D0%BE%D1%80%D 0%BE%D0%B2,_%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B9_%D0%9D%D0%B8%D0%BA%D0 %BE%D0%BB%D0%B0%D0%B5%D0%B2%D0%B8%D1%87 36 https://ru.wikipedia.org/wiki/%D0%A1%D0%BC%D0%B8%D1%80%D0%BD%D0%BE%D0%B2,_%D0%9D% D0%B8%D0%BA%D0%BE%D0%BB%D0%B0%D0%B9_%D0%92%D0%B0%D1%81%D0%B8%D0%BB%D1 %8C%D0%B5%D0%B2%D0%B8%D1%87_(%D0%BC%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1% 82%D0%B8%D0%BA) Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 130 целой жизни. Окончил физико-математический факультет МГУ. С 1926 года долгие годы преподавал математику в Тимирязевской сельскохозяйственной академии, в Московском городском педагогическом институте и в Московском университете. К тому же времени относится окончательный выбор направления научной деятельности, сосредоточенной главным образом в области теории вероятностей и математической статистики. Начальный период математических исследований, выполненных Николаем Васильевичем, завершился в 1938 году защитой докторской диссертации, в которой были заложены основы теории решения непараметрических задач математической статистики, впоследствии принесших ее автору мировую известность. При анализе работ Николая Васильевича отмечалась его непревзойденное мастерство точного вычисления и исследования свойств многократных интегралов, распространенных на сложные области (необходимость таких вычислений постоянно возникает в математической статистике, например, при расчете коэффициентов доверия, уровней значимости, мощности критериев и т. п.). Аналитические методы, разработанные Николаем Васильевичем, своеобразны и тонки. По их силе ему бесспорно принадлежит ведущее место в современной математике. Совместно с Колмогоровым разработал критерий Колмогорова Смирнова. Скончался внезапно, 2 июня 1966 года. Критерий Колмогорова-Смирнова (K-S) позволяет оценить вероятность того, что выборка принадлежит популяции с нормальным распределением. Нулевая гипотеза. Распределение данных имеет случайное отличие от нормального распределения. Альтернативная гипотеза. Распределение данных имеет закономерное отличие от нормального распределения. Как получить: Разбить данные на мальчиков и девочек. Analyze Nonparametric Tests 1-Sample K-S... Появится диалоговое окно для критерия Колмогорова-Смирнова проверки нормальности распределения данных. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 131 Рис.9.1.2.1. Диалоговое окно для критерия Колмогорова-Смирнова Перенести переменные следующим образом: Рис.9.1.2.2. Переменные для критерия Колмогорова-Смирнова OK Выходная информация Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 132 NPar Tests Dzimums = M Таблица 9.1.2.1 One-Sample Kolmogorov-Smirnov Testc FA N Normal Parametersa,,b Mean Std. Deviation Most Extreme Absolute Differences Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) NA 30 30 5.3333 7.1667 1.21296 1.11675 .275 .239 .275 .219 -.192 -.239 1.506 1.308 .021 .065 K 30 6.4333 .93526 .245 .245 -.188 1.342 .054 N 30 2.2667 1.01483 .232 .194 -.232 1.269 .080 Ap Az 30 30 4.6667 5.5333 1.06134 1.38298 .257 .166 .143 .166 -.257 -.165 1.405 .910 .038 .378 VA SP 30 30 6.0667 5.0333 1.22990 1.37674 .245 .176 .157 .176 -.245 -.157 1.342 .966 .054 .309 a. Test distribution is Normal. b. Calculated from data. c. Dzimums = M Dzimums = Z Таблица 9.1.2.2 One-Sample Kolmogorov-Smirnov Testc FA N Normal Parametersa,,b Mean Std. Deviation Most Extreme Absolute Differences Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) NA 30 30 8.0333 5.0000 1.65015 2.10090 .221 .184 .146 .133 -.221 -.184 1.210 1.006 .107 .263 K 30 6.2667 1.33735 .162 .162 -.142 .885 .414 N 30 4.3333 1.02833 .375 .258 -.375 2.054 .000 Ap Az 30 30 4.0667 5.1000 1.22990 1.06188 .240 .217 .240 .217 -.160 -.150 1.317 1.186 .062 .120 VA SP 30 30 9.6000 5.2000 2.04434 1.15669 .178 .269 .122 .269 -.178 -.165 .973 1.471 .026 .301 a. Test distribution is Normal. b. Calculated from data. c. Dzimums = Z Если Asymp. Sig. (2-tailed) или р ≤ .05, то распределение существенно отличается от нормального. Если р > .05, то отличие эмпирического распределения данных от нормального распределения не выявлено. Критерий Колмогорова-Смирнова оказался недостаточно мощным. Он выявил отличие распределения данных от нормального распределения лишь в 4 случаях из 16. Он не выявил отличия от нормального распределения по переменным, у которых асимметрия или эксцесс превышают свои критические значения. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 133 9.1.3. Критерий Колмогорова-Смирнова в модификации Лиллифора и критерий Шапиро-Уилкса Нулевая гипотеза. Распределение данных имеет случайное отличие от нормального распределения. Альтернативная гипотеза. Распределение данных имеет закономерное отличие от нормального распределения. Как получить: (Можно не разбивать данные на мальчиков и девочек). Analyze Descriptive Statistics Explore.... Появится диалоговое окно: Рис.9.1.3.1. Диалоговое окно Explore. Перенести в Dependent List переменные – уровни агрессии, а переменную Dzimums[sex] перенести в окно Factor List: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 134 Рис.9.1.3.2. Перенос переменных Plots Normally plots with tests Рис.9.1.3.3. Заказ критериев Колмогорова-Смирнова (K-S) и Шапиро-Уилкса (S-W). Continue OK ВЫХОДНАЯ ИНФОРМАЦИЯ: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 135 Таблица 9.1.3.1 Tests of Normality Kolmogorov-Smirnova Shapiro-Wilk Dzimums Statistic FA NA K N Ap Az VA SP df Sig. Statistic df Sig. M .275 30 .000 .775 30 .000 Z .221 30 .001 .897 30 .007 M .239 30 .000 .876 30 .002 Z .184 30 .011 .923 30 .032 M .245 30 .000 .880 30 .003 Z .162 30 .044 .933 30 .061 M .232 30 .000 .856 30 .001 Z .375 30 .000 .681 30 .000 M .257 30 .000 .854 30 .001 Z .240 30 .000 .887 30 .004 .922 30 .030 M .166 30 .034 Z .217 30 .001 .841 30 .000 M .245 30 .000 .846 30 .001 Z .178 30 .017 .938 30 .082 M .176 30 .018 .930 30 .050 Z .269 30 .000 .902 30 .009 a. Lilliefors Significance Correction В Таблице 9.1.3.1 представлены результаты двух тестов на нормальное распределение: - Лиллифора (модификация критерия Колмогорова-Смирнова); - Шапиро-Уилкса (если объем выборки меньше 50). Statistics – наблюдаемое значение критерия; df – число степеней свободы; Sig. – это вероятность ошибки (р). При Sig. ≤ .05 распределение значимо отличается от нормального. Критерий Колмогорова-Смирнова с поправкой Лиллифора оказался самым мощным: он выявил 16 отличий эмпирического распределения данных от нормального Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 136 распределения данных в 16 случаях из 16 возможных. Критерий Шапиро-Уилкса нашел только 14 различий. Найденные различия выделены в таблице «Tests of Normality» в редакторе программы SPSS, который появляется после двух щелчков мышью по таблице. Вместе с таблицей «Tests of Normality» появляются Normal Q-Q Plots – (диаграммы Q-Q), по которым визуально можно определить, достаточно ли близко заданное распределение приближается к нормальному. Каждое наблюдаемое значение сравнивается со значением, ожидаемым при нормальном распределении. При условии точного выполнения нормального распределения все точки лежат на прямой. На Рис.8.68.7 эти диаграммы приведены для переменной FA (физическая агрессия). По осям отложены процентили эмпирические (Х) и теоретические (Y). Также появляются Detrended Normal Q-Q Plots (Диаграммы с исключенным трендом). На них изображены отклонения наблюдаемых значений от ожидаемых при нормальном распределении значений в зависимости от наблюдаемых значений. В случае нормального распределения все точки лежат на горизонтальной прямой, проходящей через нуль. Все значения переведены в стандартизованные z-оценки. На Рис.9.1.3.4-9.1.3.7 эти диаграммы приведены для переменной FA (физическая агрессия). Normal Q-Q Plot of FA Normal Q-Q Plot of FA For SEX= Z 2.0 1.5 1.5 1.0 1.0 .5 .5 Expected Normal Expected Normal For SEX= M 2.0 0.0 -.5 -1.0 -1.5 3 4 5 6 7 Observed Value 8 9 10 11 0.0 -.5 -1.0 -1.5 4 5 6 7 8 9 10 11 12 Observed Value Рис.9.1.3.4 Рис.9.1.3.5 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 137 Detrended Normal Q-Q Plot of FA Detrended Normal Q-Q Plot of FA For SEX= M For SEX= Z 2.5 .3 .2 2.0 .1 1.5 .0 -.1 Dev from Normal Dev from Normal 1.0 .5 0.0 -.5 3 4 5 6 7 8 9 10 11 -.2 -.3 -.4 -.5 4 Observed Value 5 6 7 8 9 10 11 12 Observed Value Рис.9.1.3.6 Рис.9.1.3.7 9.1.4. Получение гистограмм с нормальной кривой Гистограммы с нормальной кривой позволяют визуально сравнить эмпирическое распределение данных с нормальным распределением. Нормальная кривая строится по выборочному среднему и выборочному нормальному отклонению. Если эмпирическое распределение данных не отличается от нормального распределения, то столбики гистограммы хорошо вписываются в нормальную кривую. Как получить гистограммы с нормальной кривой? Способ 1 Data Split file... Перенести переменную «Dzimums [sex]» в окно “Groups Based on”. OK В результате данные окажутся разбитыми на 2 группы: мальчиков и девочек. Результаты будут выдаваться по группам девочек и мальчиков отдельно. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 138 Analyze Descriptive Statistics Frequencies... Перенести в окно “Variables”переменные (Рис.9.1.4.1): “FA [fa]” “N [n]” “VA [va]” “NA [na]” “Ap [ap]” “SP [sp]” “K [k]” “AZ [az]” Снять галочку с Display frequency tables. Рис.9.1.4.1. Диалоговое окно Frequencies. Charts Рис.9.1.4.2. Заказ гистограмм с нормальной кривой Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 139 Continue OK ВЫХОДНАЯ ИНФОРМАЦИЯ – гистограммы с нормальной кривой. На Рис.9.1.4.3-9.1.4.4 приведены гистограммы с нормальными кривыми для переменной FA (физическая агрессия) для мальчиков и девочек. Интересно отметить, что на Рис.9.1.4.3 для переменной «Физическая агрессия» у девочек среднее значение М = 5.33, а стандартное отклонение равно SD = 1.21. Тогда М + 3 SD = 5.33 + 3.63 = 8.96. Последний правый столбик гистограммы соответствует FA = 10. Это та же самая девочка «драчунья», у которой на коробчатой диаграмме (Рис.5.20) была звездочка – «выброс» типа «Extrem». Значение ее балла по «Физической агрессии» превысило три стандартных отклонения. Очевидно, что эта девочка не совсем здорова. Девочку надо найти и проверить, действительно ли этот факт имеет место. Если имеет, то девочка нуждается в соответствующем лечении. Рис.9.1.4.3. Гистограмма с нормальной кривой для девочек. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 140 Рис.9.1.4.4. Гистограмма с нормальной кривой для мальчиков. Способ 2 Для экономии места можно получить диаграммы с нормальной кривой для мальчиков и для девочек на одном рисунке. Для этого нужно, чтобы файл данных не был бы разбит на две группы: Data Split file... Reset OK. После чего можно заказывать гистограммы: Graphs Legacy Dialogs Histogram… Появится диалоговое окно (Рис.9.1.4.5). Для построения гистограмм с нормальной кривой по «Физической агрессии» переменную FA [fa] надо перенести в окно «Variable», переменную Dzimums [sex] – в окно «Rows:», а в окошке «Display normal curve» надо поставить галочку и нажать кнопку ОК. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 141 Рис.9.1.4.5. Построение гистограмм с нормальной кривой для мальчиков и девочек на одном рисунке После чего появится рисунок с двумя гистограммами (Рис.9.1.4.6). Рис.9.1.4.6. Гистограммы с нормальной кривой по переменной «Физическая агрессия» для мальчиков и девочек Если переменную Dzimums [sex] перенести не в окно «Rows:» (Рис.9.1.4.5), а в окно «Columns:», то получатся гистограммы с нормальной кривой в одной строке (Рис.9.1.4.7). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 142 Рис.9.1.4.7. Гистограммы с нормальной кривой по переменной «Физическая агрессия» для мальчиков и девочек Ту же самую процедуру надо проделать для всех остальных переменных (Рис.9.1.4.8-9.1.4.14.) Рис.9.1.4.8. Гистограммы с нормальной кривой по переменной «Косвенная агрессия» для мальчиков и девочек Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 143 Рис.9.1.4.9. Гистограммы с нормальной кривой по переменной «Раздражение» для мальчиков и девочек Рис.9.1.4.10. Гистограммы с нормальной кривой по переменной «Негативизм» для мальчиков и девочек Рис.9.1.4.11. Гистограммы с нормальной кривой по переменной «Обида» для мальчиков и девочек Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 144 Рис.9.1.4.12. Гистограммы с нормальной кривой по переменной «Подозрительность» для мальчиков и девочек Рис.9.1.4.13. Гистограммы с нормальной кривой по переменной «Вербальная агрессия» для мальчиков и девочек Рис.9.1.4.14. Гистограммы с нормальной кривой по переменной «Угрызения совести и чувство вины» для мальчиков и девочек Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 145 Из анализа полученных гистограмм видно, что распределения данных отличаются от нормального распределения. Таблица.9.1.4.1 Sig. 0.000 0.002 0.003 0.001 0.001 0.030 0.001 0.050 0.007 0.032 0.061 0.000 0.004 0.000 0.082 0.009 2.03 -0.03 0.61 0.05 -0.38 0.18 -0.61 0.19 -0.60 -0.41 0.31 -1.35 0.58 0.53 -0.61 0.58 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 0.43 6.66 -1.16 0.76 -1.20 -1.01 -0.83 -0.61 -0.59 -0.43 0.00 -0.49 0.54 -0.46 -0.93 0.33 0.05 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 0.83 Нормальное распределение Sig. Statistic df 0.77 30 0.000 0.88 30 0.000 0.88 30 0.000 0.86 30 0.000 0.85 30 0.000 0.92 30 0.034 0.85 30 0.000 0.93 30 0.018 0.90 30 0.001 0.92 30 0.011 0.93 30 0.044 0.68 30 0.000 0.89 30 0.000 0.84 30 0.001 0.94 30 0.017 0.90 30 0.000 Std. Error of Kurtosis df 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 Kurtosis Statistic FA 0.27 NA 0.24 K 0.25 N 0.23 Ap 0.26 Az 0.17 VA 0.25 SP 0.18 FA 0.22 NA 0.18 K 0.16 N 0.37 Ap 0.24 Az 0.22 VA 0.18 SP 0.27 Shapiro-Wilk Std. Error of Skewness Переменная Kolmogorov-Smirnov Skewness Мальчики Девочки Группа Результаты проверки соответствия распределения данных нормальному распределению нет нет нет нет нет нет нет нет нет нет нет нет нет нет нет нет Результаты проверки на нормальность распределения с помощью анализа показателей асимметрии и эксцесса (Таблицы 5.8-5.9) и с помощью критериев Колмогорова-Смирнова с поправкой Лиллифора и Шапиро-Уилкса (Таблица 9.1.3.1) можно свести в Таблицу 9.1.4.1 (сформированную в Excel, файл Agr_Rez.xls), с помощью которой легко обобщить полученные результаты. Эмпирическое распределение данных следует считать отличным от нормального распределения, если хотя бы один из тестов выявил это отличие. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 146 9.1.5. Выбор критерия для исследования гендерных различий Если обе сравниваемые переменные имеют нормальное распределения, то с помощью t-тестов сравнивают средние. Если распределение хотя бы одной из переменных отличается от нормального распределения, то с помощью U-критерия Манна-Уитни сравнивают уровни признака. Для выбора критерия сравнения агрессии мальчиков и девочек строят Таблицу 8.5: Таблица 9.1.5.1 Выбор критерия сравнения Нормальное распределение FA NA K N Ap Az VA SP M Z нет нет нет нет нет нет нет нет нет нет нет нет нет нет нет нет Tests U-Манна-Уитни U-Манна-Уитни U-Манна-Уитни U-Манна-Уитни U-Манна-Уитни U-Манна-Уитни U-Манна-Уитни U-Манна-Уитни 9.2. Исследование различия уровня агрессии с помощью Uкритерия Манна-Уитни Генри Бертольд Манн1 (Henry Berthold Mann) родился 27 октября 1905 года в Вене в еврейской семье. В 1935 году получил степень доктора математики в университете Вены. В 1938 году иммигрировал в США и долгое время жил в Нью-Йорке, поддерживая себя репетиторством студентов. В 1942 году Фонд Карнеги наградил Мистера Манна стипендией для изучения статистики по исследованию операций в Колумбийском Университете. Свою первую книгу по проектированию экспериментов Мистер Манн написал в 1949 году, которая позволила статистикам конструировать и анализировать индивидуальные эксперименты. Занимался теорией чисел, проектированием экспериментов, статистикой, эконометрикой. В статистике Доктор Манн известен как создатель U - статистики («Манна-Уитни"), которую развил Манн и его ученик и друг Дональд Ренсом Уитни для непараметрической статистики, опубликованной в 1947 году. Доктор Манн был профессором в Университете штата Огайо (1946 – 1964). Затем он стал профессором в математическом научно-исследовательском центре Армии США в Университете Висконсин-Мэдисон (1964-1971). Потом 1 https://en.wikipedia.org/wiki/Henry_Mann Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 147 Доктор Манн был профессором в университете Аризоны (1971-1975). Генри Бертольд Манн скончался 1 февраля 2000 года в Туксоне (Tucson). Американский статистик Уитни Дональд Ренсом2,3 (Whitney, Donald Ransom) родился 27 ноября 1915 года в Кливленде, штат Огайо. В 1936 году Мистер Уитни окончил колледж Оберлин. В 1939 году получил степень магистра в Принстонском Университете, после чего, в 1939 году, начал свою преподавательскую карьеру в Mary Washington College, а затем служил Военно-Морским Флоте США (19421946). Большую часть Второй Мировой Войны Уитни провел преподавая навигацию офицерам. В 1948 году получил докторскую степень по математике в Университете штата Огайо. Руководителем его докторской диссертации и другом был Генри Манн. Вместе они разработали непараметрический U-тест МаннаУитни, опубликованный в 1947 году. Доктор Уитни играл важную роль в развитии Лаборатории СтатистикиУниверситета штата Огайо. Позже он стал первым председателем Департамента Статистики. Профессор Уитни работал в качестве консультанта в ряде корпораций. Он был автором трех учебники по математике и статистике, был членм Америкой Статистической Ассоциации и Американской Ассоциации Содействия Развитию Науки. Еще в молодости Мистер Уитни сказал своей матери, что станет профессором математики в отставке. Своей цели он достиг, наконец, в 1982 году – ушел в отставку. У него была жена, четверо детей, девять внуков и три правнука. Доктор Уитни всю свою жизнь любил логическое мышление, игры, спорт, путешествия и садоводство. Доктор Уитни пережил своих родителей, жену, братьев и сестер, внучку и приемного сына. Скончался 16 августа 2007 года. Так как распределение данных отличается от нормального распределения, то для исследования различия в агрессии у мальчиков и девочек следует применить непараметрический U-критерий Манна-Уитни. Замечание. Непараметрические тесты могут, конечно, применяться и в случае нормального распределения. Но тогда они будут иметь лишь 95% эффективность по сравнению с параметрическими тестами4. Если выборки частично подчиняются нормальному закону распределения, а частично нет, то рекомендуется всегда применять U-критерий (тест) Манна-Уитни. Data Split File Reset OK 2 3 http://sections.maa.org/ohio/ohio_masters/whitney.pdf http://www.worthingtonmemory.org/cemeteries/walnut-grove-cemetery/whitney-donald 4 Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». С. 234. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 148 Analyze Nonparametric Tests 2 Independent Samples.... Рис.9.2.1. Диалоговое окно Two Independent-Samples Tests В диалоговом окне (Рис.9.2.1) Two Independent-Samples Tests поставить флажок у Mann-Whitney U перенести в окно Test Variable List переменные: FA [fa], NA[na], VA[va] и др. Переменную Dzimums [sex] перенести в окно GroupingVariable Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 149 Рис.9.2.2. Диалоговое окно Two Independent-Samples Tests с введенными переменными Define Groups Group 1: Group 2: 1 Рис.9.2.3. Диалоговое окно Two Independent-Samples. Определение сравниваемых групп Continue OK Выходные данные В файле RESULTS.spo появятся следующие Таблицы 9.2.1-9.2.2. Прежде всего нам необходима последняя строка таблицы 9.2.1. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 150 Таблица 9.2.1 Test Statisticsa FA NA K N Ap Az VA SP Mann-Whitney U 105.500 161.000 408.500 85.500 315.500 369.500 75.500 422.500 Wilcoxon W 570.500 626.000 873.500 550.500 780.500 834.500 540.500 887.500 Z -5.196 -4.339 -.637 -5.542 -2.061 -1.229 -5.593 -.422 .000 .000 .524 .000 .039 .219 .000 .673 Asymp. Sig. (2-tailed) a. Grouping Variable: Dzimums Таблица 9.2.2 Ранги (Ranks) Dzimums FA NA K N Ap Az VA SP N Mean Rank Sum of Ranks M 30 19.02 570.50 Z 30 41.98 1259.50 Total 60 M 30 40.13 1204.00 Z 30 20.87 626.00 Total 60 M 30 31.88 956.50 Z 30 29.12 873.50 Total 60 M 30 18.35 550.50 Z 30 42.65 1279.50 Total 60 M 30 34.98 1049.50 Z 30 26.02 780.50 Total 60 M 30 33.18 995.50 Z 30 27.82 834.50 Total 60 M 30 18.02 540.50 Z 30 42.98 1289.50 Total 60 M 30 29.58 887.50 Z 30 31.42 942.50 Total 60 Если Sig.<=.05, то различие значимое, Sig.<=.01, то различие очень значимое, Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 151 Sig.<=.001, то различие максимально значимое. Максимально значимые различия имеются по переменным FA, NA, N, VA. Значимые различия имеются по переменной Ap. Для выяснения, чей же уровень агрессии выше: мальчиков или девочек, обратимся к таблице рангов 9.2.2. Группа, у которой при значимых различиях средний ранг выше, агрессивнее. Физическая агрессия (FA) Выше у мальчиков: U = 105.5, р < .001; Косвенная агрессия (NA) Выше у девочек U = 161.0, р < .001; Негативизм (N) Выше у мальчиков U = 85.5, р < .001; Обидчивость (Ap) выше у девочек U = 315.5, р < .05; Вербальная агрессия (VA) Выше у мальчиков U = 75.5, р < .001. Различия по переменным К, Az, SP выявлены не были. Те же выводы можно сделать анализируя коробчатые диаграммы. 9.3. Исследование различия средних уровней агрессии с помощью параметрического t-теста Для конкретной задачи некорректно прибегать к параметрическим критериям, так как нет нормального распределения. Применение параметрического t-теста в данном случае необосновано и за результаты ручаться нельзя. Но ради того, чтобы понять, как работать на SPSS с параметрическими тестами, формально проведем всю процедуру исследования. Автором параметрического t-теста был Уи́льям Си́ли Го́ссет (псевдоним Стьюдент) (См. п.6). Analyze Compare Means Independent-Samples T Test.... Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 152 Рис. 9.3.1. Independent-Samples T Test В диалоговом окне (Рис.9.3.1) Independent-Samples T Test надо перенести в окно Test Variable(s) переменные: Физическая агрессия [fa], Косвенная агрессия[na], Вербальная агрессия[va] и др. (Рис.9.3.2). Рис.9.3.2. Independent-Samples T Test с введенными переменными Переменную Пол [sex] перенести в окно GroupingVariable Define Groups (Рис.9.3.3) Group 1: Group 2: 1 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 153 Continue OK Рис.9.3.3. Independent-Samples T Test с введенными переменными Выходные данные В файле RESULTS.spo появятся Таблицы 9.3.1-9.3.2. Таблица 9.3.1. Статистики групп (Group Statistics) Dzimums FA NA K N Ap Az VA SP N Mean Std. Deviation Std. Error Mean M 30 5.3333 1.21296 .22145 Z 30 8.0333 1.65015 .30127 M 30 7.1667 1.11675 .20389 Z 30 5.0000 2.10090 .38357 M 30 6.4333 .93526 .17075 Z 30 6.2667 1.33735 .24417 M 30 2.2667 1.01483 .18528 Z 30 4.3333 1.02833 .18775 M 30 4.6667 1.06134 .19377 Z 30 4.0667 1.22990 .22455 M 30 5.5333 1.38298 .25250 Z 30 5.1000 1.06188 .19387 M 30 6.0667 1.22990 .22455 Z 30 9.6000 2.04434 .37324 M 30 5.0333 1.37674 .25136 Z 30 5.2000 1.15669 .21118 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 154 В таблице (Independent Samples Test), фрагмент которой представлен в Таблице 9.3.2, имеются результаты двух тестов: • F-критерий Левена для сравнения дисперсий, • t-критерий Стьюдента для сравнения средних. Если выборочные дисперсии различаются статистически незначимо (Sig.>0.05; верхняя строка «Equal variances assumed»), то для сравнения средних используется tкритерий Стьюдента. Если выборочные дисперсии различаются статистически значимо (Sig. ≤ 0.05; нижняя строка «Equal variances not assumed»), то такая ситуация называется проблемой Фишера-Беренса и для сравнения средних используется модификация t-критерия Стьюдента. Таблица 9.3.2 t-тест для независимых выборок (Independent Samples Test). Фрагмент выходной таблицы Levene's Test for Equality of Variances F FA Equal variances assumed t-test for Equality of Means Sig. 3.645 t .061 Equal variances not assumed NA Equal variances assumed 4.134 .047 Equal variances not assumed K Equal variances assumed 4.381 .041 Equal variances not assumed N Equal variances assumed .089 .767 Equal variances not assumed Ap Equal variances assumed .664 .418 Equal variances not assumed Az Equal variances assumed 3.091 .084 Equal variances not assumed VA Equal variances assumed 4.768 .033 Equal variances not assumed SP Equal variances assumed Equal variances not assumed .622 .433 df Sig. (2-tailed) -7.221 58 .000 -7.221 53.257 .000 4.988 58 .000 4.988 44.176 .000 .559 58 .578 .559 51.891 .578 -7.835 58 .000 -7.835 57.990 .000 2.023 58 .048 2.023 56.784 .048 1.361 58 .179 1.361 54.374 .179 -8.112 58 .000 -8.112 47.561 .000 -.508 58 .614 -.508 56.326 .614 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 155 Схема исследования: 1) Если дисперсии, проверенные с помощью теста Левена равны, то смотрят результаты t-теста по строке Equal variances assumed. 2) Если дисперсии, проверенные с помощью теста Левена не равны, то смотрят результаты t-теста по строке Equal variances not assumed. Дисперсии не равны, если Sig. < .05. Случаи неравных дисперсий в Таблице 9.3.2 выделены. Если в соответствующей строке для t-теста: Sig. ≤ .05, то различие средних значимое, Sig. ≤ .01, то различие средних очень значимое, Sig. ≤ .001, то различие средних максимально значимое. Значимые результаты различия средних в Таблице 8.9 выделены. Для выяснения, у кого выше среднии значения: у мальчиков или у девочек, обращаются к Таблице 9.3.1 (Group Statistics). У кого при значимых различиях среднее значение выше, тот и агрессия выше. Результаты исследования те же, что и с непараметрическими критериями. Физическая агрессия (FA) Выше у мальчиков t(58) = -7.22, р < .001; Косвенная агрессия (NA) Выше у девочек t(44) = 4.99, р < .001; Негативизм (N) Выше у юношей t(58) = -7.84, р < .001; Обидчивость (Ap) выше у девочек t(58) = 2.02, р < .05; Вербальная агрессия (VA) Выше у мальчиков t(48) = -8.11, р < .001. Различия по переменным К, Az, SP выявлены не были. Следует помнить, что на величину среднего влияет каждое значение признака. То есть среднее весьма чувствительно к «выбросам». Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 156 Средние также можно сравнивать если: 1) Группы достаточно большие, чтобы можно было бы судить о форме распределения; 2) Распределения симметричны; 3) Отсутствуют «выбросы». Если хотя бы одно из этих условий не выполняется, то следует ограничиться медианой11 или сравнением уровней признака (например, критерий Манна-Уитни). Домашнее задание 2 1. Варианты данных для Домашнего задания 2 находятся в файле Agressija_Varianti_(1-16).xlsx Номер варианта назначается преподавателем. 2. Требуется провести все необходимые вычисления и написать математическую часть для работы с исследовательской гипотезой о наличии гендерных различий агрессии у подростков. Пример написания находится в Приложении 2. 11 Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.43. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 157 10. Классификация методов статистического вывода о различии Таблица 10.1 Методы сравнения, когда X – номинативный признак, Y – порядковый признак или метрический признак12 Количество выборок (категорий Х) Отличия от нормального распределения не выявлено Нет нормального распределения Признак Y Зависимость выборок Две выборки Независимые Больше двух выборок Зависимые Независимые Зависимые Параметрические методы сравнения t-Стьюдента для независимых выборок t-Стьюдента для зависимых выборок ANOVA ANOVA с повторными измерениями ANOVA ANOVA с повторными измерениями Непараметрические методы сравнения U-Манна-Уитни, критерий серий Т-Вилкоксона, критерий знаков Н-КрусколаУоллиса χ 2 − Фридмана 11. Исследование связи Два признака могут быть связаны: 1. Функциональной связью, когда каждому значению признака X отвечает одно определенное значение признака Y. В психологических задачах признаков, связанных функциональной зависимостью нет; 12 Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. C. 113 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 158 2. Стохастической или вероятностной связью, если одному значению признака X соответствует распределение различных значений признака Y и наоборот. Например, связь между ростом и весом людей13. В частном случае, если вероятностная связь проявляется в том, что при изменении одного из признаков изменяется среднее значение другого, то вероятностную связь называют корреляционной14. 11.1. Корреляционная диаграмма Наглядной иллюстрацией характера связи является корреляционная диаграмма, или диаграмма рассеивания (Scatter). Пусть значения признака X равны x1 ; x 2 ; K ; x n , а значения признака Y соответственно равны y1 ; y2 ; K ; yn . Графическое изображение на плоскости всех точек с координатами (xi ; y i ) , называется корреляционной диаграммой или диаграммой рассеивания. Например, для данных Таблицы 11.1.1 корреляционная диаграмма изображена на Рис.11.1.1. Для четырех наблюдений с кодами s6, s7, s8, s9 компьютерные программы рисуют всего лишь одну точку. Поэтому для изучения связи требуются не только корреляционные диаграммы, которые не совсем точно отражают реальную ситуацию, но и другие статистические показатели связи. Корреляционные диаграммы иногда позволяют выявить случаи, когда корреляция обусловлена неоднородностью выборки по той или другой переменной, а также определить характер связи: линейность и монотонность. 13 Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С. 66. Гмурман, В.Е. (1999). Теория вероятностей и математическая статистика. – Москва: Высшая школа. С. 253 14 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 159 Таблица 11.1.1 Значения признаков X и Y Рис.11.1.1. Корреляционная диаграмма для данных Таблицы 11.1.1. Code X Y s1 1 2 s2 1 4 s3 1 6 s4 2 1 s5 2 5 s6 3 4 s7 3 4 s8 3 4 s9 3 4 s10 4 6 Корреляционная диаграмма представляет собой некоторое скопление, "облако" точек на плоскости. По форме и наклону этого "облака" по отношению к оси абсцисс можно оценить наличие корреляционной связи и ее тип. 1. Если "облако" точек имеет приблизительно форму овала, вытянутого вдоль некоторой воображаемой горизонтальной прямой (графика функции y = const ), то корреляционной связи между переменными нет (Рис.11.1.2). 2. Если "облако" точек вытянуто вдоль некоторой воображаемой наклонной прямой (графика линейной функции y = ax + b, (a ≠ 0) ), то между переменными имеется линейная корреляционная связь (Рис.11.1.4-11.1.5). 3. Если "облако" точек распространяется вдоль некоторой воображаемой линии, которая не является прямой (т.е. вдоль графика некоторой нелинейной функции y = f ( x ) ), то корреляционная связь между переменными нелинейная (Рис. 11.1.3, 11.1.6, 11.1.7). 4. Если функция y = f ( x ) монотонная (возрастающая или убывающая), то говорят о монотонной связи (Рис. 11.1.4-11.1.7). При этом если y = f ( x ) - возрастающая функция, то есть большим значениям одной переменной соответствуют большие значения другой Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 160 переменной, то связь называют положительной (Рис. 11.1.4, 11.1.6). Если y = f ( x ) убывающая функция, то есть большим значениям одной переменной соответствуют меньшие значения другой переменной, то связь называют отрицательной (Рис. 11.1.5, 11.1.7). Монотонная связь может быть, в частности, линейной (Рис. 11.1.4-11.1.5). Y Y 55 8 7 45 6 5 35 4 3 2 25 1 15 50 100 150 50 100 150 X Рис.11.1.2. Связи нет X Рис.11.1.3. Нелинейная немонотонная связь Y Y 60 60 50 50 40 40 30 30 20 20 10 10 30 60 90 120 150 30 60 90 120 X X Рис.11.1.1. Линейная положительная связь 150 Рис.11.1.5. Линейная отрицательная связь Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 161 Y 70 Y 60 60 50 50 40 40 30 30 20 20 10 10 30 60 90 120 150 30 60 90 120 150 X X Рис.11.1.6. (Монотонная) нелинейная Рис.11.1.7. (Монотонная) нелинейная положительная связь отрицательная связь 11.2. Коэффициенты корреляции Количественной мерой силы и направления корреляционной связи двух переменных является коэффициент корреляции. Если данные представлены в порядковых шкалах или в метрических шкалах, то для исследования связи используют коэффициенты корреляции Пирсона (Pearson), Спирмена (Spearman) и «тау»-Кендалла (τ − Kendall). Для оценки тесноты линейной связи используют коэффициент корреляции Пирсона rxy = r . Коэффициент корреляции Пирсона вычисляется с помощью формулы (11.2.1), которая содержит средние арифметические значения и стандартные отклонения. Поэтому на его значение оказывают влияние «выбросы» и отклонения распределения данных от нормального распределения. n rXY = ∑ (x i =1 n ∑ (x i =1 i − x )( y i − y ) i n − x ) ⋅ ∑ ( yi − y ) 2 , (11.2.1) 2 i =1 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 162 Коэффициент корреляции Пирсона принимает значения из интервала [-1;1]. Показателем силы связи является абсолютная величина коэффициента корреляции. Направление связи определяется знаком коэффициента корреляции. Если распределение данных по двум переменным не отличается от нормального распределения, то вычисляют коэффициент корреляции Пирсона. Иногда его можно использовать и в случае отсутствия нормального распределения, но при этом должны выполняться условия 15: - обе переменные не должны иметь выраженной асимметрии, - должны отсутствовать «выбросы», - связь между переменными предполагается линейной. Если распределение данных хотя бы для одной из переменных отличается от нормального, то вычисляют коэффициенты ранговой корреляции Спирмена rS или «τ (тау)»-Кендалла. Их используют для оценки тесноты монотонной связи. При вычислении все значения признаков X и Y сначала переводятся в ранги. Поэтому «выбросы» не оказывают столь заметного влияния на значения ранговых коэффициентов корреляции. Для вычисления коэффициента ранговой корреляции Спирмена rS используется та же самая формула (11.2.1), что и для коэффициента Пирсона, только уже для переменных, выраженных в рангах. В нее входят средние ранги и стандартные отклонения рангов. Пример. Для вычисления коэффициента корреляции Пирсона по формуле (11.2.1) используется Таблица 11.2.1 и в результате получается получается rXY = .71. Для вычисления коэффициента корреляции Спирмена данные переводятся в ранги (Таблицы 11.2.2 и 11.2.3). 15 Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С. 89. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 163 Данные ранжируются таким образом, чтобы наименьшей оценке соответствовал бы наименьший ранг, а наибольшей оценке – наибольший ранг. По Таблицам 11.2.2 и 11.2.3 составляется Таблица 11.2.4 – исходные данные для вычисления коэффициентов корреляции Спирмена по формуле (11.2.1). По этим данным Таблицы 11.4 вычисляется коэффициент корреляции Спирмена. В результате получается rS = .65. Таблица 11.2.1 Исходные данные в баллах Шифр s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s12 s13 s14 s15 Таблица 11.2.2 Ранги по Х xi yi Шифр Nr xi rang xi 145 137 125 124 122 116 113 111 109 102 87 82 79 55 45 49 30 45 33 40 44 28 33 35 24 39 35 10 23 11 s15 s14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 45 55 79 82 87 102 109 111 113 116 122 124 125 137 145 1 2 3 4 5 5 7 8 9 10 11 12 13 14 15 s13 s12 s11 s10 s9 s8 s7 s6 s5 s4 s3 s2 s1 Таблица 11.2.3 Ранги по Y Шифр Nr yi rang yi s13 s15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 10 11 23 24 28 30 33 33 35 35 39 40 44 45 49 1 2 3 4 5 6 7.5 7.5 9.5 9.5 11 12 13 14 15 s14 s10 s7 s2 s4 s8 s9 s12 s11 s5 s6 s3 s1 Таблица 11.2.4 Данные в рангах rang xi Шифр s15 s14 s13 s12 s11 s10 s9 s8 s7 s6 s5 s4 s3 s2 s1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 rang yi 2 3 1 9.5 11 4 9.5 7.5 5 13 12 7.5 14 6 15 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 164 Таблица 11.2.5 Классификация коэффициента корреляции Пирсона16 rXY rXY Характер связи 1 Функциональная, линейная, положительная [ .7; 1) Сильная линейная, положительная [ .4; .7) Умеренная линейная, положительная [ .2; .4) Слабая линейная, положительная ( -.2; .2 ) Линейной связи нет. Может быть нелинейная связь ( -.4; .2 ] Слабая линейная, отрицательная ( -.7; -4 ] Умеренная линейная, отрицательная ( -1; .7 ] Сильная линейная, отрицательная -1 Функциональная, линейная, отрицательная Для вычисления коэффициента ранговой корреляции τ -Кендалла используется подсчет совпадений и инверсий: если у пары испытуемых изменение по Х совпадает по направлению с изменением по Y, то это говорит о положительной связи («совпадение»). Если нет – то об отрицательной связи («инверсии»). Коэффициент ранговой корреляции τ -Кендалла есть разность относительных частот совпадений и инверсий при переборе всех пар испытуемых в выборке. Для определения силы связи иногда (в случае небольших выборок) можно использовать классификацию коэффициентов корреляции, приведенную в Таблице 11.2.5. Если связь является немонотонной, то коэффициенты корреляции не подходят. Коэффициенты корреляции также не подходят для номинальных переменных. 16 Raščevska, M., Kristapsone, S. (2000). Statistika psiholoģijas pētījumos. Rīga: SIA „IzglЖ tЖ bas soļi”. Lpp. 166-167. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 165 Чарльз Э́двард Спи́рмен17,18 (англ. Charles Edward Spearman) родился в Лондоне 10 сентября 1863 года в респектабельной семье. Будучи студентом колледжа, он продемонстрировал превосходное мастерство в математике и в философии – в науке, которой он был тайно предан всю свою жизнь. После окончания колледжа Чарльз Спирмен прослужил четырнадцать лет в Британской Армии, в основном в Индии. Он служил с честью и дослужился до звания майора. Несмотря на свои несомненные военные успехи, впоследствии Спирмен считал 14 лет военной службы величайшей ошибкой своей жизни, основанной на заблуждении юности, что жизнь длинная19. На протяжении службы Спирмен продолжал интересоваться философией и пришел к убеждению, что много дискутируемых в философии вопросов могут быть успешно решены путем применения эмпиризма в психологии. В возрасте 34 лет он демобилизовался и поступил на учебу в Лейпцигский университет (1897), в котором изучал психологию под руководством Вильгельма Вундта. К систематическому изучению психологии приступил в 1897 году в лейпцигской лаборатории Вундта. Хотя Вундт считается основателем-отцом психологии, наибольшее влияние на Спирмена оказал сэр Фрэнсис Гальтон (1822-1911). Под влиянием идей Гальтона Спирмен остановился на двух принципах, которыми руководствовался во всех работах своей жизни. Во-первых, индивидуальные различия сенсорных, моторных и когнитивных способностей могут быть точно измерены с помощью стандартных методов. Во-вторых, существует биологически обусловленная общая ментальная способность, которая входит в каждый вид ментальной активности. В Лейпциге Спирмен получил степень доктора наук (1906) и через год стал преподавать экспериментальную психологию в Лондонском университете, в котором проработал вплоть до 1931 года (преподаватель, 1907-1911; профессор мышления и логики, 1911-1928; профессор психологии, 1928-1931; заслуженный профессор в отставке). После отставки Спирмен продолжал играть активную роль в области педагогической психологии. Он преподавал в Северной Америке в Колумбийском университете. Там среди его учеников были Дэвид Wechsler и Раймонд Б. Кеттелл. Благодаря усилиям Спирмена возникла «Лондонская школа» психологии, которая с позиций строгого реализма, статистики и психометрики занималась изучением человеческих способностей. Изучая корреляции между результатами выполнения различных заданий, Спирмен внес значительный вклад в развитие факторного анализа в психологии. Также он предложил первый метод оценки надежности психологических тестов. Разработал цикл статистических методов с целью измерения структуры интеллекта. Изучая корреляции между результатами выполнения различных заданий и используя факторный анализ, предложил двухфакторную теорию интеллекта. Согласно этой теории результаты даже несравнимых когнитивных тестов отражают единый генеральный G-фактор (General ability), образующий основание любых успешных умственных действий и ряд специальных факторов, нужных для решения задач в отдельных областях («Способности человека», 1927). Эффективность любой интеллектуальной деятельности обусловлена некоторой врождённой "общей способностью", G-фактором, и рядом "специфических способностей" - S-факторами (Special ability), свойственных конкретным видам деятельности. Впоследствии, уточняя свою теорию, Спирмен ввёл также так называемые групповые факторы, промежуточные между G и S. Например, арифметические, технические, лингвистические способности. Тем не менее, основной целью тестирования, по Спирмену, должно быть измерение у индивида G-фактора. Теория Спирмена вызвала широкую дискуссию, породившую, в частности, альтернативную многофакторную теорию интеллекта (Дж. Гилфорд). Развитие идей Спирмена в зарубежной психологии идёт по пути усовершенствования математической процедуры и попыток психологического анализа выделяемых факторов, в первую очередь G-фактора. Однако признание G-фактора врождённым и неизменным приводит к предвзятой оценке результатов тестирования. В дальнейшем Спирмен сделал попытку распространить эту теорию на психическое в целом. В течение трех десятилетий двухфакторная теория подвергалась острой критике. Одни отрицали само существование общего фактора «G» как врожденного, других не убеждали его математические доказательства. В ответ на это Спирмен и его сотрудники совершенствовали теоретическую и статистическую базу. Но уже в 1930-х годах представление о двухфакторной структуре интеллекта стало уступать многофакторным теориям Л. Терстона, Дж. Гилфорда. Одним из направлений научных поисков 17 http://www.dates.gnpbu.ru/3-8/Spearman/spearman.html 18 http://dictionary.pirao.ru/PSYfeisy/percy/s/spirmen.htm 19 http://www.education.com/reference/article/spearman-charles-edward-1863-1945/ Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 166 Спирмена были фундаментальные законы психологии. В книге «The nature of intelligence and the principles of cognition» (1923) они приняли форму эмпирической эпистемологии, принципы которой согласуются с подходами в когнитивной психологии. Широко известен коэффициент ранговой корреляции Спирмена. Спирмен разрабатывал также вопросы восприятия пространства и истории психологии. Чарльз Эдвард Спирмен - английский психолог, профессор Лондонского и Честерфилдского университетов, член Лондонского Королевского общества (1924), президент Британского психологического общества (19231926), почетный доктор и почетный член нескольких университетов, зарубежных академий и обществ. Один из самых влиятельных английских психологов ХХ столетия. Специалист в области экспериментальной психологии, истории и философии психологии, психологии личности, социальной психологии. Разработчик многочисленных методик математической статистики. 17 сентября 1945 года, в возрасте 82 лет, Спирмен покончил жизнь самоубийством, прыгнув из окна университетской больницы в Лондоне, пациентом которой он был. Мо́рис Джордж Ке́ндалл20 (Maurice George Kendall) - английский статистик, широко известный из-за его вклада в статисику21. Морис Кендалл — автор многочисленных трудов по статистике и теории вероятностей. Его именем назван коэффициент ранговой корреляции «тау». Родился 6 сентября 1907 года в Кеттеринге в Великобритании. Был единственным ребенком в семье. Будучи маленьким ребенком выжил после менингита головного мозга, который в то время часто кончался смертельным исходом. В 1914 году началась Первая Мировая война. Отец Мориса переехала в Дерби, чтобы работать на RollsRoyce. Там Морис получил начальное образование. Уже в то время он показал, маленькие знаки своих великих научных достижений, которые должны были осуществиться в будущем. Ему не удалось поступить в гимназию. Он учился в Центральной школе в Дерби. Его ранние интересы были связаны с изучением языков, но в конце обучения в школе начали проявляться способности к математике. Директор Центральной школы, добился, чтобы последний год Морис учился в гимназии. Морис был удостоен стипендии на обучение в Сент-Джонс-колледже в Кембридже. В 1929 году он окончил колледж с отличием по математике. Играл в крикет и в шахматы. Жизнь в Санкт-Джон весьма контрастировала с жизнью в Дерби. Общительный характер Мориса принес ему много друзей, даже вне группы, в которой он изучал математику. Поступил на службу в Министерство сельского хозяйства. Там он заинтересовался работой со статистикой. Одной из первых его работ было исследование урожайности с использованием факторного анализа. Качество его работы было такое, что в 1934 году он был избран членом Королевского статистического общества Занимался теорией генерации случайных чисел. С началом войны Кендалл оставался в Лондоне и в 1940 году покинул государственную службу, чтобы занять пост статистика в Британской Палате Судоходства (the British Chamber of Shipping). С 1949 года преподавал в Лондонской школе экономики и политических наук. С 1961 года в течение двух лет возглавлял Королевское статистическое общество. Был управляющим директором консалтинговой компании, CEIR, известной позже как Scientific Control Systems. В 1972 году возглавил проект Всемирного обследования рождаемости (англ. World Fertility Survey) под патронажем Международного статистического института и Организации Объединённых Наций (ООН). В знак признания за свою работу получил медаль от ООН. В 1974 году за заслуги в теории статистики был посвящен Британским правительством в рыцари. Также был избран членом Британской академии и получил высшую награду Королевского Статистического Общества the Guy Medal in Gold. Кроме того, он служил президентом Operational Research Society, the Institute of Statisticians, и был избран членом Американской Статистической Ассоциации Института математической статистики, Эконометрического Общества, и Британского Компьютерного Общества. В 1980 году ушёл на пенсию из-за болезни. Морис Кендалл написал много учебников и других публикаций, включая словарь статистических терминов (1957). Он посвятил много сил для того, чтобы новые идеи в статистике стали как можно больше широко доступными. Кендалл был, прежде всего, большим систематизатором и организатором. Он был 20 http://apprendre-math.info/anglais/historyDetail.htm?id=Kendall_Maurice 21 https://en.wikipedia.org/wiki/Maurice_Kendall Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 167 образцом и в других сферах, избегая личных споров, прикладывая усилия, чтобы быть справедливым к молодым и к старым, зная, когда и как делегировать ответственность, и умея писать всегда в прозрачной, сбалансированной прозе, редко достигаемой учеными. Скончался 29 марта 1983 года в Редхилле22, Великобритания. На момент смерти он был почетным президентом Международного Статистического Института. 11.3. Проверка статистической значимости коэффициента корреляции Пирсона Если признаки популяции Х и Y, нормально распределенные; выборка случайная, объема n и выборочный коэффициент корреляции Пирсона: rxy = r , то встает вопрос: «Является ли коэффициент корреляции Пирсона статистически значимым или его отличие от нуля можно объяснить случайными причинами?», «Связаны ли признаки линейной корреляционной связью?». Ответ на эти вопросы дает проверка статистических гипотез. H 0 : Выборочный коэффициент корреляции Пирсона r имеет случайное отличие от нуля. H 1 : Выборочный коэффициент корреляции Пирсона r отличается от нуля закономерно. Можно эти же гипоезы сформулировать и для популяции. Пусть ρ – коэффициент корреляции популяции. Тогда: Н0: ρ = 0, Н1: ρ ≠ 0. Если подтверждается нулевая гипотеза, то говорят, что связь между переменными не выявлена. Может быть, найдется другой способ ее выявить. 22 http://www-groups.dcs.st-and.ac.uk/~history/Biographies/Kendall_Maurice.html Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 168 Если принимается альтернативная гипотеза, то говорят, что выборочный коэффициент корреляции Пирсона статистически значим, и что переменные в популяции связаны линейной (положительной или отрицательной связью, в зависимости от знака коэффициента корреляции). Критерий: . (11.3.1) При справедливости нулевой гипотезы случайная величина Т имеет t-распределение Стьюдента с df = n – 2 степенями свободы. Альтернативная гипотеза ненаправленная (случай two-tailed, двухвостовый). Пример. Проверить, имеется ли линейная корреляционная связь между двумя переменными, если известны коэффициенты корреляции Пирсона r и объемы выборок n. Сформулировать гипотезы и выводы о связи. Исходные данные: r .321 -.302 .278 .278 .461 n 22 44 115 30 40 Гипотезы: H 0 : Переменные в популяции не связаны между собой линейной корреляционной связью, выборочный коэффициент корреляции Пирсона r отличается от нуля статистически незначимо. Отличие r от нуля может быть объяснено случайными причинами. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 169 H 1 : Переменные в популяции связаны между собой линейной корреляционной связью, выборочный коэффициент корреляции Пирсона r отличается от нуля статистически значимо. Отличие r от нуля закономерно и не может быть объяснено случайными причинами. или Н0: ρ = 0, Н1: ρ ≠ 0. Случай 1. r = .351; n =22. Т-статистика: t= =1.5158. p-value находим с помощью GRETL: Открываем программу GRETL. На верхней панели выбираем Tools (Рис.7.7.1), P-value finder (Рис.7.7.2) Появляется окно gretl: p-value finder, на котором выбираем распределение t, df=16, value=1.5158 (Рис.11.3.1). ОК Рис.11.3.1. Ввод информации для нахождения p-value. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 170 Выходная информация (Рис.11.3.2) для статистики 1.5158, распределения t, df = 20. площадь справа от значения статистики (как на Рис.7.6.1) равна 0.0726082. Two-tailed p-value = 0.145216 (= 0.0726082). Дополнение =1-0.145216= 0.854784. Рис.11.3.2. Выходная информация для статистики 1.5158, распределения t, df =20. Таким образом, p-value = .145 > .05. Ответ: Нет оснований отклонить H 0 . Линейная связь между переменными в популяции не найдена, выборочный коэффициент корреляции Пирсона r =.351 отличается от нуля статистически незначимо: t(20)=1.52, p = .145 (two-tailed). Отличие r от нуля может быть объяснено случайными причинами. Замечание. Для правосторонней альтернативной гипотезы: Н1: ρ > 0 мы получили p = .073 > .05. Также нет оснований отклонить нулевую гипотезу. Случай 2. r =-.302; n =44. -2.0530. p-value находим с помощью GRETL: В окне gretl: p-value finder, выбираем распределение t, df = 42, value = -2.0530. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 171 Выходная информация: t(42): area to the right of -2.053 = 0.976832 (to the left: 0.0231679) (two-tailed value = 0.0463359; complement = 0.953664) Two-tailed p-value = .046 < .05. Ответ: На уровне значимости α = .05 справедлива H 1 : переменные в популяции связаны между собой линейной отрицательной корреляционной связью, выборочный коэффициент корреляции Пирсона r = -.302 отличается от нуля статистически значимо. Отличие r от нуля закономерно и не может быть объяснено случайными причинами. Выявлена линейная отрицательная корреляционная связь: t(42)=-2.05, p = .046 < .05 (two-tailed). Случай 3. r = .278; n =115. 3.0765. p-value находим с помощью GRETL: В окне gretl: p-value finder, выбираем распределение t, df = 113, value = 3.0765. Выходная информация: t(113): area to the right of 3.0765 = 0.00131388 (two-tailed value = 0.00262776; complement = 0.997372) Two-tailed p-value = .003 < .01. Ответ: На уровне значимости α = .01 справедлива H 1 : переменные в популяции связаны между собой линейной положительной корреляционной связью, выборочный коэффициент корреляции Пирсона r =.278 отличается от нуля статистически значимо. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 172 Отличие r от нуля закономерно и не может быть объяснено случайными причинами. Выявлена линейная положительная корреляционная связь: t(113) = 3.08, p = .003 < .01 (two-tailed). Случай 4. r = .278; n =30. 1.5314. p-value находим с помощью GRETL: В окне gretl: p-value finder, выбираем распределение t, df = 28, value = 1.5314. Выходная информация: t(28): area to the right of 1.5314 = 0.068446 (two-tailed value = 0.136892; complement = 0.863108) Two-tailed p-value = .137 > .05. Ответ: Нет оснований отклонить H 0 . Линейная связь между переменными в популяции не найдена, выборочный коэффициент корреляции Пирсона r =.278 отличается от нуля статистически незначимо: t(28)=1.53, p = .137 (two-tailed). Отличие r от нуля может быть объяснено случайными причинами. Случай 5. r = .461; n =90. 4.8733. p-value находим с помощью GRETL: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 173 В окне gretl: p-value finder, выбираем распределение t, df = 88, value = 4.8733. Выходная информация: t(88): area to the right of 4.8733 = 2.40923e-006 (two-tailed value = 4.81846e-006; complement = 0.999995) или: two-tailed value = 4.81846e-006 = 0.00000481846 Two-tailed p-value = .000 < .001. Ответ: На уровне значимости α = .001 справедлива H 1 : переменные в популяции связаны между собой линейной положительной корреляционной связью, выборочный коэффициент корреляции Пирсона r = .461 отличается от нуля статистически значимо. Отличие r от нуля закономерно и не может быть объяснено случайными причинами. Выявлена линейная положительная корреляционная связь: t(88) = 4.87, p = .000 < .001 (two-tailed). Если коэффициент корреляции Пирсона статистически значим, то выявлена линейная корреляционная связь – положительная или отрицательная23. Если коэффициент корреляции Пирсона статистически незначим, то возможны два варианта (Рис.11.3.3): 23 • связь не выявлена; • связь нелинейная. Если, конечно, корреляция не является ложной. См. п.11.5. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 174 Коэффициент корреляции Пирсона Статистически значим Статистически незначим Выявлена линейная корреляционная связь Линейная корреляционная связь не выявлена Связь не выявлена Есть нелинейная связь Рис.11.3.3. Исследование связи с помощью коэффициента корреляции Пирсона Используемые обозначении при обработке данных с помощью SPSS и принятая терминология:24 Вероятность ошибки (р =Sig.). Значимость коэффициента корреляции Обозначение p > .05 Незначимо ns p <= .05 Значим * p <= .01 Очень значим ** p <= .001 Максимально значим *** 24 Бююль Ахим, Цефель Петер (2002) SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб: ООО «ДиаСофтЮП». С.88. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 175 11.4. Проверка статистической значимости коэффициентов корреляции Спирмена и Кендалла Проверка значимости коэффициента корреляции Спирмена осуществляется с помощью того же Т- критерия, который используется для коэффициента корреляции Пирсона. Гипотезы для коэффициента корреляции Спирмена rS : H0 : Выборочный коэффициент корреляции Спирмена rS отличается от нуля статистически незначимо. Отличие rS от нуля может быть объяснено случайными причинами. Монотонная корреляционная связь не выявлена. H1 : Выборочный коэффициент корреляции Спирмена rS отличается от нуля статистически значимо. Отличие rS от нуля закономерно и не может быть объяснено случайными причинами. Между признаками имеется монотонная корреляционная связь. Если коэффициент ранговой корреляции (Спирмена или τ -Кендалла) статистически значим, то выявлена монотонная корреляционная связь – положительная или отрицательная. Если коэффициент ранговой корреляции (Спирмена или τ -Кендалла) статистически незначим, то возможны два варианта (Рис.11.4.1): • связь не выявлена; • связь немонотонная. Проверка значимости коэффициента корреляции Кендалла осуществляется с помощью другого критерия (нпример, Z-критерия25). Гипотезы такие же, как и для коэффициента корреляции Спирмена. 25 Гмурман, В.Е. (1999). Теория вероятностей и математическая статистика. – Москва: Высшая школа. С. 341-343. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 176 Коэффициент ранговой корреляции Спирмена или τ -Кендалла Статистически значим Статистически незначим Выявлена монотонная корреляционная связь Монотонная корреляционная связь не выявлена Связь не выявлена Есть немонотонная связь Рис.11.4.1. Исследование связи с помощью коэффициентов ранговой корреляции Спирмена или τ -Кендалла Домашнее задание 3 Проверить, имеется ли корреляционная связь между двумя переменными, если известны коэффициенты корреляции Пирсона r и объемы выборок n . Сформулировать гипотезы и выводы о связи. Исходные данные: r -.367 -.367 .298 .298 .523 n 18 59 119 31 45 Примеры решения разобраны в п.11.3. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 177 11.5. Частная корреляция Иногда переменные X и Y могут коррелировать между собой только за счет того, что обе они согласованно меняются под влиянием некоторой третьей переменной Z. Связь между X и Y может отсутствовать, но коэффициенты корреляции могут быть статистически значимыми. Это - ложная корреляция между X и Y. Для исключения такой «искажающей» третьей переменной, как Z, необходимо вычисление коэффициента частной корреляции X и Y с учетом Z (Partial Correlation) rXY −Z : rXY −Z = ( rXY − rXZ rYZ )( 2 1 − rXZ 1 − rYZ2 ) . (11.5.1) Если частная корреляция X и Y с учетом Z ( rXY −Z ) по абсолютной величине существенно меньше абсолютной величины rXY , то весьма вероятно, что именно Z является истинной причиной корреляции X и Y. Пример 1. rXY =.56; rYZ = .80 ; rXZ = .70 ; rXY −Z =.00. Корреляция между X и Y оказалась ложной. X и Y коррелируют исключительно за счет согласованности изменчивости Z. Частная корреляция между ними с учетом Z равна нулю. Пример 2. Исследовалась связь между ростом и длиной волос11. Корреляция оказалась отрицательной: r (15 ) = −.700**, p = .004 < .01 . Чем больше рост, тем короче волосы (Таблица 11.5.1) и наоборот. При рассмотрении третьей переменной «Пол», оказалось что в группах мужчин и женщин по-отдельности корреляции нет ни в одной из групп (Таблица 11.5.2). Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб: Речь. С. 86-87. 11 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 178 Таблица 11.5.1 Корреляционная матрица для признаков «Рост» – «Длина волос». Вся выборка Correlations Рост Рост Длина волос Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 . 15 -,700** ,004 15 Длина волос -,700** ,004 15 1 . 15 **. Correlation is significant at the 0.01 level (2-tailed). Таблица 11.5.2 Корреляционные матрицы для признаков «Рост» – «Длина волос». Выборки мужчин и женщин Correlationsa Correlationsa Рост Рост Длина волос Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 . 8 -,113 ,790 8 Длина волос -,113 ,790 8 1 . 8 a. Пол = женский Рост Рост Длина волос Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 . 7 -,238 ,607 7 Длина волос -,238 ,607 7 1 . 7 a. Пол = мужской Коэффициент частной корреляции равен rXY −Z = -.15, ns. Обнаруженная связь между ростом и длиной волос оказалась ложной. Рост и длина волос коррелируют исключительно за счет пола. Частная корреляция между ними с учетом переменной «пол» оказалось малой и статистически незначимой (Рис.11.5.1). Действительно, средний рост мужчин больше среднего роста женщин. Рост связан с полом. Средняя длина волос мужчин меньше средней длины волос женщин. Длина волос связана с полом. Как в выборке мужчин, так и в выборке женщины корреляции между ростом и длиной волос не наблюдается. Поэтому статистически значимая отрицательная корреляция между ростом и длиной волос во всей выборке оказалась ложной. «За редким исключением факт наличия или отсутствия корреляции может быть объяснен влиянием некоторой «третьей» переменной, упущенной из поля зрения Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 179 исследователя. Таким образом, всегда остается возможность альтернативной интерпретации обнаруженной корреляции».12 18 16 14 12 10 Пол Длина волос 8 му ж с кой 6 ж енский 4 Total Population 150 160 170 180 190 Рис.11.5.1. Связь между ростом и длиной волос. Корреляционная диаграмма с прямыми регрессии группы мужчин, группы женщин и объединенной группы. Рост 11.6. Нелинейный характер связи Если коэффициент корреляции Пирсона или Спирмена, или Кендалла близок к нулю, это означает либо отсутствие связи, либо наличие нелинейной немонотонной связи. Нелинейную немонотонную связь иногда можно обнаружить при визуальном изучении корреляционной диаграммы. Если из теоретического анализа или из изучения корреляционных диаграмм вид связи остается неясным, то можно применить нелинейный регрессионный анализ. По величине и уровню значимости коэффициента детерминации можно выбрать наиболее вероятный вид связи. Затем разбить соответствующую переменную на интервалы монотонности (например, по методике, или по квартилям или по корреляционным диаграммам с линией регрессии). На каждом из участков монотонности вычислить Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С. 87. 12 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 180 коэффициенты корреляции Пирсона или Спирмена, или Кендалла, которые могут оказаться статистически значимыми. «Второй способ предполагает отказ от коэффициентов корреляции. Необходимо ввести дополнительную номинальную переменную, которая делит исследуемую выборку на контрастные группы по одной из переменных. Далее можно изучать различия между этими группами по уровню выраженности»13. 11.7. Частотный анализ От метрических или порядковых переменных можно перейти к номинальным переменным. Или с самого начала исходные данные измерены в номинальных шкалах. Тогда можно проводить частотный анализ. Наиболее часто используют критерий χ 2 («Хиквадрат», Chi-Square) Пирсона для сравнения распределений14 и критерий «Угловое преобразование Фишера» для сравнения долей15. Это позволяет сформулировать вывод о связи. 11.8. Исследование связи, когда коэффициентами одна переменная количественная, а другая номинальная Если одна переменная количественная, а другая номинальная то для исследования связи между ними коэффициент корреляции не подходит. Изучение такой связи возможно при помощи сравнения групп, выделяемых по категориям номинальной переменной. Группы сравниваются по уровню выраженности количественной переменной. В сравнении может помочь классификация методов статистического вывода о различии (п.10). Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С. 88. 14 Сидоренко, Е. (2000). Методы математической обработки в психологии. СПб: ООО «Речь». C.113-141. 15 Сидоренко, Е. (2000). Методы математической обработки в психологии. СПб: ООО «Речь». C.158-176. 13 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 181 11.9. Исследование связи между номинальными переменными Связь между переменными, измеренными в номинальной шкале или в порядковой шкале не с очень большим количеством категорий, лучше всего представить в форме таблиц сопряженности (Crosstabs). Таблица сопряженности – это таблицы совместного распределения частот двух или более номинальных признаков, измеренных на одной группе объектов. Например, таблица для двух признаков: стратегии поведения старшеклассников в конфликтной ситуации и самооценка (Таблица 11.9.1). Статистическая значимость связи определяется с помощью критерия для сравнения распределений – «Хи»-квадрат Пирсона (Pearson’s Chi-square Test). Этот тест проверяет, есть ли значимое различие между наблюдаемыми и ожидаемыми частотами16. Теоретические частоты nti вычисляются по формуле: nti = ( Сумма частот строки ) ⋅ ( Сумма частот столбца ) , n (11.9.1) где суммы частот берутся из Таблицы 11.9.1: Например, теоретическая частота для эмпирической частоты 22 (Заниженная самооценка – Компромисс) будет равна nei = 63*52 = 25.7953 . 127 Исследование связи с применением критерия – «Хи»-квадрат Пирсона будет рассмотрена подробно в п.13. 16 Гласс, Дж., Стенли Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс. С.180. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 182 Таблица 11.9.1 Таблица сопряженности. Связь между стратегиями поведения старшеклассников в конфликтной ситуации и самооценкой Соперничество Заниженная самооценка Адекватная самооценка Суммы Стратегия поведения Сотрудничество Компромисс Избегание Суммы Приспособление 20 5 22 6 10 63 10 6 30 3 15 64 30 11 52 9 25 n=127 11.10. Сравнение корреляций для двух независимых выборок17 Признаки популяций: нормально распределенные; Коэффициенты корреляции популяций: ρ1 , ρ 2 ; Выборки: случайные, независимые, объемов n1 , n 2 ; Выборочные коэффициенты корреляции Пирсона: r1 , r2 ; Гипотезы: H 0 : ρ1 = ρ 2 , H 1 : ρ1 ≠ ρ 2 , H 0 : Выборочные коэффициенты корреляции r1 и r2 отличаются друг от друга случайно. H 1 : Выборочные коэффициенты корреляции r1 и r2 отличаются друг от друга закономерно. Критерий: Z= Z (r1 ) − Z (r2 ) 1 1 + n1 − 3 n 2 − 3 , (11.10.1) где 17 Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс. С.283-285. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 183 Z (r ) = 1 1+ r ln 2 1− r (11.10.2) - это Z-преобразование Фишера. Z (r1 ) и Z (r2 ) можно найти либо путем вычисления по данной формуле с помощью калькулятора или найти по Таблице 11.10.1. Случайная величина Z при справедливости нулевой гипотезы имеет нормальное распределение с параметрами µ Z = 0 и σ Z = 1 . Критическая область: двусторонняя. Таблица 11.10.118. Значения преобразования Фишера Z (r ) = r 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.99 0,00 0.0000 0.1003 0.2027 0.3095 0.4236 0.5493 0.6931 0.8679 1.0986 1.4722 2.6466 0,01 0100 1104 2132 3205 4356 5627 7089 8872 1270 5275 6996 0,02 0200 1206 2237 3316 4477 5763 7250 9076 1568 5890 7587 0,03 0300 1307 2342 3428 4599 5901 7414 9287 1881 6584 8257 1 1+ r ln 2 1− r 0,04 0400 1409 2448 3541 4722 6042 7582 9505 2212 7380 9031 0,05 0500 1511 2554 3654 4847 6184 7753 9730 2562 8318 9945 0,06 0601 1614 2661 3769 4973 6328 7928 9962 2933 9459 3.1063 0,07 0701 1717 2769 3884 5101 6475 8107 1.0203 3331 2.0923 2504 0,08 0802 1820 2877 4001 5230 6625 8291 0454 3758 2976 4534 0,09 0902 1923 2986 4118 5361 6777 8480 0714 4219 6466 8002 Пример Выяснить: статистически значимо или незначимо отличается выборочный коэффициент корреляции r1 = -.88 (объем выборки n1 =45) от выборочного коэффициента корреляции r2 = - .91 другой случайной выборки объема n2 =64. Гипотезы: H 0 : Выборочные коэффициенты корреляции r1 = - .88 и r2 = - .91 имеют случайное отличие. 18 Krastiņš, O. (1998). Statistika un ekonometrija. Rīga: LR CSP. 436 lpp. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 184 H 1 : Выборочные коэффициенты корреляции r1 = - .88 и r2 = - .91 отличаются друг от друга закономерно. Преобразованные по Фишеру (11.10.2) коэффициенты корреляции равны: Z(r1) = Z(- .88) = -1.3758; Z(r2) = Z(- .91) = -1.5275. Z-статистика: z= −1.3758 − ( −1.5275 ) 1 1 + 45 − 3 64 − 3 = 0.76 Используя компьютерную программу GRETL (см. п.7.7) находим p-value Z – стандартизованного нормального распределения, когда μ=0, σ=1: Standard normal: area to the right of 0.76 = 0.223627 (two-tailed value = 0.447255; complement = 0.552745) Откуда р-value: p = .224 > .05. Ответ: Нет оснований отклонить H 0 : Отличие между выборочными коэффициентами корреляции r1 = 88 и r2 = .91 друг от друга статистически незначимо и может быть объяснено случайными причинами. 11.11. Сравнение коэффициентов корреляции двух зависимых выборок19 Популяции (X, Y), (X, Z), (Y, Z): двумерные, нормально распределенные; Коэффициенты корреляции популяций: ρ xy , ρ xz , ρ yz ; Выборка: случайная объема n ; 19 Гласс, Дж., Стенли, Дж. (1976). Статистические методы в педагогике и в психологии. Москва: Прогресс. С.285-286. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 185 Выборочные коэффициенты корреляции: rxy , rxz , ryz ; H 0 : ρ xy = ρ xz , Гипотезы: H 1 : ρ xy ≠ ρ xz , H 0 : Переменная X имеет одинаковую корреляцию с переменными Y и Z. Выборочные коэффициенты корреляции rxy и rxz отличаются друг от друга статистически незначимо. Отличие может быть объяснено случайными причинами. H 1 : Переменная X имеет неодинаковые корреляции с переменными Y и Z. Выборочные коэффициенты корреляции rxy и rxz отличаются друг от друга статистически значимо. Отличие закономерно и не может быть объяснено случайными причинами. Критерий: Z= (1 − r ) + (1 − r ) 2 2 xy 2 2 xz (r xy − rxz ) n ( − 2r − (2ryz − rxy rxz ) 1 − r − r − r 3 yz 2 xy 2 xz 2 yz ) , (11.11.1) Случайная величина Z при справедливости нулевой гипотезы имеет нормальное распределение с параметрами µ Z = 0 и σ Z = 1 . Критическая область: двусторонняя. Пример Выяснить: имеет ли переменная Х одинаковую корреляцию с переменными Y и Z. Исходные данные: rxy =-.67; rxz =-.81; ryz =-.56; объем выборки n =45. H 0 : Переменная X имеет в популяции одинаковую корреляцию с переменными Y и Z. Выборочные коэффициенты корреляции rxy и rxz отличаются друг от друга статистически незначимо. Отличие может быть объяснено случайными причинами. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 186 H 1 : Переменная X имеет в популяции неодинаковые корреляции с переменными Y и Z. Выборочные коэффициенты корреляции rxy и rxz отличаются друг от друга статистически значимо. Отличие закономерно и не может быть объяснено случайными причинами. Z-статистика: z= ( −0.67 − ( −0.81) ) 45 (1 − ( −0.67 ) ) + (1 − ( −0.81) ) − 2 ( −0.56) − ( 2 ( −0.56) − ( −0.67 )( −0.81)) (1 − ( −0.67 ) − ( −0.81) − ( −0.56) 2 2 2 2 3 2 2 2 ) = 3.38 Используя компьютерную программу GRETL (см. п.7.7) находим p-value Z – стандартизованного нормального распределения, когда μ=0, σ=1: Standard normal: area to the right of 3.38 = 0.000362429 (two-tailed value = 0.000724858; complement = 0.999275) Откуда р-value: p = .000 < .001. Ответ: Принимается H 1 : Переменная X имеет неодинаковые корреляции с переменными Y и Z. Выборочные коэффициенты корреляции rxy и rxz отличаются друг от друга статистически значимо. Отличие закономерно и не может быть объяснено случайными причинами: Z=3.38, p = .000 < .001. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 187 11.12. Схема исследования связи Приведем Таблицу 11.12.1, в которой классифицированы методы исследования связи в соответствии с измерительными шкалами. Таблица 11.12.1 Исследование связи20 Типы шкал Задачи: I. X, Y количественные Корреляционный анализ а) Коэффициент rПирсона для Методы: нормально распределенных X,Y; б) частная корреляция и сравнение корреляций; в) rS − Спирмена, τ − Кендалла для неноминальных X и Y. II. X, Y – номинальные Анализ классификаций, таблиц сопряженности, последовательностей (серий) Критерий χ 2 − Пирсона (для классификаций и таблиц сопряженности), критерий Мак-Нимара (для таблиц 2Х2 с повторными измерениями), критерий серий для последовательностей, критерий «Угловое преобразование Фишера» для сравнения долей. III. X - номинальный, Y - количественный Сравнения выборок по уровню выраженности признака Методы сравнения Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. C. 113. 20 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 188 12. Связь между самооценкой и агрессией подростков Рассмотрим пример, как решить задачу об исследовании связи между самооценкой и агрессией подростков с применением компьютерных программ SPSS и Excel. Агрессия подростков измерялась с помощью методики Басса-Дарки34. Самооценка подростков измерялась с помощью методики Дембо-Рубинштейна35. Гипотеза работы: «Существует связь между самооценкой и агрессией в подростковом возрасте.» Термины и сокращения: P FA NA K N Самооценка Физическая агрессия Косвенная агрессия Раздражение Негативизм Ap Az VA SP SP Обида Подозрительность Вербальная агрессия Угрызения совести и чувство вины Угрызения совести и чувство вины Таблица 12.1 Исходные данные. Фрагмент таблицы Kod 1 2 3 4 5 P 80,5 84,83 76,66 91 79,33 FA 9 8 9 7 9 NA 7 7 8 7 8 K 5 6 4 5 8 N 3 3 4 5 1 Ap 5 4 3 3 3 Az 5 2 4 5 3 VA 7 5 6 7 6 SP 5 6 2 2 2 и так далее... Полностью36 Таблица 12.1 приведена в файле: Samoocenka_Agresija_Data.xlsx. 34 Батаршев, А.В. (2005). Тестирование: Основной инструментарий практического психолога. М.: Дело. С.195-200. 35 Ярославский государственный педагогический университет им. К.Д. Ушинского. Отдел образовательных информационных технологий. Измерение самооценки по методике Дембо-Рубинштейн. http://citoweb.yspu.org/link1/metod/met35/node33.html 36 Данные взяты из дипломной работы студентки Высшей школы психологии (Сейчас Балтийский институт психологии и менеджмента- БИМП) Татьяны Инкиной, выполненной в 2003-2004 учебном году. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 189 12.1. Ввод данных 1. Загрузить SPSS 2. Type in data (Рис.12.1.1) ОК 3. Variable View Введем описание всех переменных из Таблицы 12.1. 3.1. В ячейку Name 1 введем слово kod После этого в остальных ячейках строки 1 появится некоторая информация. 3.2. Type – тип переменной Numeric String (Рис.12.1.2) Рис.12.1.1. Начало работы Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 190 Рис.12.1.2. Тип переменной - строка OK 3.3. Width – формат столбца: 8 3.4. Decimals: - количество знаков после запятой - 0 3.5. Label: Kods 3.6. Values: None 3.7. Missing: None 3.8. Columns: 8 3.9. Align: Center 3.10. Measure: Nominal Сохранить файл под названием: Samoocenka_Agresija.sav. «Cамооценка» „P” 3.11. В ячейку Name 2 напишем слово p 3.12. Type Numeric 3.13. Width – 8 3.14. Decimals: 2 3.15. Label: P 3.16. Values: None 3.17. Missing: None 3.18. Columns: 8 3.19. Align: Center 3.20. Measure: Scale Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 191 «Физическая агрессия» 3.21. В ячейку Name 3 напишем слово fa 3.22. Type Numeric 3.23. Width – 8 3.24. Decimals: 2 3.25. Label: FA 3.26. Values: None 3.27. Missing: None 3.28. Columns: 8 3.29. Align: Center 3.30. Measure: Scale «Косвенная агрессия» 3.31. В ячейку Name 4 напишем слово na 3.32. Type Numeric 3.33. Width – 8 3.34. Decimals: 2 3.35. Label: NA 3.36. Values: None 3.37. Missing: None 3.38. Columns: 8 3.39. Align: Center 3.40. Measure: Scale «Раздражение» 3.41. В ячейку Name 5 напишем слово k 3.42. Type Numeric 3.43. Width – 8 3.44. Decimals: 2 3.45. Label: K 3.46. Values: None 3.47. Missing: None 3.48. Columns: 8 3.49. Align: Center Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 192 3.50. Measure: Scale И так далее. Укажем Name и Label: Переменная Name Label Самооценка p P Физическая агрессия Косвенная агрессия Раздражение Негативизм fa na k n FA NA K N Переменная Name Label Обида av Av Подозрительность Вербальная агрессия Угрызения совести и чувство вины ad va sp Ad VA Sp В результате должно получиться: Рис.12.1.3. Вид переменных В окно Data View скопировать данные из Excel. Рис.12.1.4. Вид данных (таблица далее продолжается). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 193 12.2. Описательная статистика и проверка нормальности распределения Analyze Descriptive Statistics Frecuencies Убрать галочку с “Display frequencies tables” Перенести переменные (кроме Kods [kod]) в окно “Variables”: Statistics... Расставить соответствующие галочки: Quartiles, Mean, Median, Std.deviation, Variance, Range, Minimum, Maximum, S.E. mean, Skewness, Kurtosis. Continue Charts... Расставить соответствующие галочки: Histograms, With normal curve Continue OK Выходные данные 12.2.1. Показатели описательной статистики Полученную Таблицу 12.2.1.1 желательно перевести в Excel, округлить показатели описательной статистики до двух знаков после запятой и выделить все случаи, когда показатели асимметрии и эксцесса по абсолютной величине превосходят свои стандартные Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 194 ошибки. В этих случаях распределение данных не соответствует нормальному распределению. В результате получится Таблица 12.2.1.2. Таблица 12.2.1.1 Описательная статистика (без округления) P N FA Valid NA K N Av Az VA SP 145 145 145 145 145 145 145 145 145 Mean 62.2993 5.3586 4.6966 5.5586 2.8897 3.4069 3.6552 5.5034 3.9862 Std. Error of Mean 1.18526 .22095 .20065 .17089 .10592 .13149 .12471 .15602 .16081 Median 62.3300 5.0000 5.0000 5.0000 3.0000 3.0000 4.0000 6.0000 4.0000 14.27243 2.66061 2.41616 2.05776 1.27539 1.58332 1.50176 1.87870 1.93644 Missing Std. Deviation Variance 203.702 7.079 5.838 4.234 1.627 2.507 2.255 3.530 3.750 -.138 .042 .143 -.121 .169 .306 .644 -.260 -.044 .201 .201 .201 .201 .201 .201 .201 .201 .201 -.765 -1.380 -1.258 -.640 -.894 -.016 .517 -.404 -.322 .400 .400 .400 .400 .400 .400 .400 .400 .400 Range 60.34 10.00 8.00 8.00 5.00 8.00 8.00 8.00 9.00 Minimum 31.16 .00 1.00 1.00 .00 .00 1.00 1.00 .00 Maximum 91.50 10.00 9.00 9.00 5.00 8.00 9.00 9.00 9.00 25 52.9100 3.0000 2.0000 4.0000 2.0000 2.0000 2.0000 4.5000 2.0000 50 62.3300 5.0000 5.0000 5.0000 3.0000 3.0000 4.0000 6.0000 4.0000 75 71.5800 8.0000 7.0000 7.0000 4.0000 5.0000 5.0000 7.0000 5.0000 Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Percentiles В Таблице 12.2.1.2 отмечены случаи, когда показатели асимметрии и эксцесса по абсолютной величине превосходят свои стандартные ошибки. В этих распределение данных отличается от нормального распределения. случаях Нормальное распределение данных возможно только для переменной «SP». Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 195 Таблица 12.2.1.2 Описательные статистики P 145 FA 145 NA 145 K 145 N 145 Av 145 Az 145 VA 145 SP 145 Mean 62.30 5.36 4.70 5.56 2.89 3.41 3.66 5.50 3.99 Std. Error of Mean Median 1.19 62.33 0.22 5.00 0.20 5.00 0.17 5.00 0.11 3.00 0.13 3.00 0.12 4.00 0.16 6.00 0.16 4.00 14.27 203.70 2.66 7.08 2.42 5.84 2.06 4.23 1.28 1.63 0.04 0.20 -1.38 0.14 0.20 -1.26 -0.12 0.20 -0.64 0.17 0.20 -0.89 1.50 2.26 0.64 1.88 3.53 -0.26 1.94 3.75 -0.14 0.20 -0.77 1.58 2.51 0.31 0.20 0.20 0.52 0.20 -0.40 N Valid Missing Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis -0.04 0.20 0.40 0.40 0.40 0.40 0.40 -0.02 0.40 0.40 0.40 -0.32 0.40 Range Minimum 60.34 31.16 10.00 0.00 8.00 1.00 8.00 1.00 5.00 0.00 8.00 0.00 8.00 1.00 8.00 1.00 9.00 0.00 Maximum Percentiles 25 91.50 52.91 10.00 3.00 9.00 2.00 9.00 4.00 5.00 2.00 8.00 2.00 9.00 2.00 9.00 4.50 9.00 2.00 50 62.33 5.00 5.00 5.00 3.00 3.00 4.00 6.00 4.00 75 71.58 8.00 7.00 7.00 4.00 5.00 5.00 7.00 5.00 12.2.2. Гистограммы с нормальной кривой Также появятся гистограммы с нормальной кривой (Рис.12.2.2.1-12.2.2.9), позволяющие визуально сравнить эмпирическое распределение данных с нормальным распределением. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 196 Рис.12.2.2.1 Рис.12.2.2.2 Рис.12.2.2.3 Рис.12.2.2.4 Рис.12.2.2.5 Рис.12.2.2.6 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 197 Рис.12.2.2.7 Рис.12.2.2.8 Рис.12.2.2.9 12.2.3. Критерий Колмогорова-Смирнова в модификации Лиллифора и критерий Шапиро-Уилкса Analyze Descriptive Statistics Explore.... Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 198 Рис.12.2.3.1. Диалоговое окно Explore Перенести в Dependent List переменные (Рис.12.2.3.1) Display Plots Plots Normally plots with tests (Рис. 12.2.3.2) Continue OK Рис. 12.2.3.2. Заказ тестов на нормальность распределения Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 199 Сохранить выходной файл под именем S_A_Results.spv. Выходные данные Таблица 12.2.3.1 «Case Processing Summary» - Обработанные наблюдения Cases Valid N P FA NA K N Av Az VA SP Missing Percent 145 145 145 145 145 145 145 145 145 N Total Percent 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% N .0% .0% .0% .0% .0% .0% .0% .0% .0% Percent 145 145 145 145 145 145 145 145 145 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% Таблица 12.2.3.2 Tests of Normality (Тесты на нормальность) Kolmogorov-Smirnova Statistic P FA NA K N Av Az VA SP .085 .157 .137 .152 .185 .144 .189 .146 .172 df Shapiro-Wilk Sig. 145 145 145 145 145 145 145 145 145 .012 .000 .000 .000 .000 .000 .000 .000 .000 Statistic .975 .913 .925 .950 .916 .944 .866 .959 .945 df Sig. 145 145 145 145 145 145 145 145 145 .009 .000 .000 .000 .000 .000 .000 .000 .000 a. Lilliefors Significance Correction Для ответа на вопрос, отличается ли распределение данных от нормального распределения, необходимо проанализировать столбцы Таблицы 12.2.3.2 «Sig» – это вероятность ошибки (р); Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 200 При Asymp.Sig.(2-tailed)<0,05 распределение значимо отличается от нормального распределения. Из Таблицы 12.2.3.2 видно, что распределение всех данных отличается от нормального распределения. Вместе с таблицей «Tests of Normality» появляются Normal Q-Q Plots – (квантильные диаграммы Q-Q), по которым визуально можно определить, достаточно ли близко заданное распределение приближается к нормальному распределению. Каждое наблюдаемое значение сравнивается со значением, ожидаемым при нормальном распределении. При условии точного выполнения нормального распределения все точки лежат на прямой. На Рис. 12.2.3.3 эти диаграммы приведены для переменной FA (физическая агрессия). По осям отложены процентили эмпирические (Х) и теоретические (Y).37 Также появляются Detrended Normal Q-Q Plots (диаграммы с исключенным трендом). На этих диаграммах изображены отклонения наблюдаемых значений от ожидаемых значений при нормальном распределении в зависимости от наблюдаемых значений. В случае нормального распределения все точки лежат на горизонтальной прямой, проходящей через нуль. Все значения переведены в стандартизованные zоценки38. На Рис. 12.2.3.4 эти диаграммы приведены для переменной FA (физическая агрессия). Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.59-60. 38 Там же. 37 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 201 Рис. 12.2.3.3. Диаграмма диаграммы Q-Q. Физическая агрессия. Рис. 12.2.3.4. Диаграмма с трендом. Физическая агрессия. исключенным 12.2.4. Графическая иллюстрация: Boxplots По переменной «Самооценка» и по шкалам агрессивности коробчатые диаграммы заказываются отдельно. Процедура получения коробчатых диаграмм уже известная. Получение коробчатых диаграмм Analyze Descriptive Statistics Explore Из списка зависимых переменных убрать P[p]. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 202 Plots Plots Рис.12.2.4.1. Заказ коробчатых диаграмм Continue (Рис. 12.2.4.2) OK Повторить заказ, вернув переменную P[p] в список зависимых переменных и убрав из него все остальные переменные. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 203 Рис. 12.2.4.2. Коробчатые диаграммы для шкал агрессивности Рис. 12.2.4.3. Коробчатая диаграмма для самооценки Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 204 12.3. Вычисление коэффициентов корреляции Если распределение данных между двумя переменными не отличается от нормального, то вычисляют коэффициент корреляции Пирсона. Если распределение данных хотя бы для одной из переменных отличается от нормального распределения, то вычисляют коэффициенты ранговой корреляции Спирмена и τ (Тау)-Кендалла. В нашем случае распределения всех переменных отличаются от нормального распределения. Поэтому выбираем коэффициенты Спирмена и «Тау»-Кендалла. Analyze Correlate Bivariate... Переносим в окно Variables переменные и ставим галочки у Kendall’s tau-b и Spearman (Рис.12.3.1) OK Рис.12.3.1. Заказ коэффициентов корреляции Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 205 Выходные данные В результате получаем корреляционную матрицу, состоящую из двух частей: коэффициенты корреляции Спирмена и коэффициенты корреляции Кендалла (Таблица 12.3.1). Корреляционные таблицы симметричны относительно главной диагонали корреляционной матрицы (из верхнего левого угла – в правый нижний). Для определения связи с самооценкой достаточно рассмотреть или первую строчку, или первый столбец корреляционных матриц (Таблица 12.3.1). Все коэффициенты корреляции в первой строке (соответственно в первом столбце) являются статистически незначимыми, поскольку все Sig. (2-tailed) >0.05. Поэтому монотонной связи не обнаружено. Возможно, что есть немонотонная связь. Если, все же, попробовать вычислить коэффициенты корреляции Пирсона (поставив «галочку» у Pearson на Рис.12.3.1), то в результате получится корреляционная матрица (Таблица 12.3.2). Коэффициент корреляции Пирсона для переменных «Самооценка-Подозрительность», равный .166 оказался статистически значимым р = .046 < .05. Но вряд ли эту связь можно считать выявленной: ведь асимметрия по переменной «Подозрительность» равна 0.644, что более, чем в три раза превышает ее стандартную ошибку, равную 0.201. Кроме того, по корреляционной диаграмме «Самооценка Подозрительность» также трудно предположить существование связи. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 206 Таблица 12.3.1 Коэффициенты ранговой корреляции Спирмена и Кендалла для всей выборки Correlations P Kendall's tau_b P Correlation Coefficient FA 1.000 .045 .979 .632 .213 .836 .490 .071 .851 .463 145 145 145 145 145 145 145 145 145 Correlation Coefficient .002 1.000 .461** .487** -.181** -.035 .013 .388** -.142* Sig. (2-tailed) .979 .026 .000 .000 .005 .589 .848 .000 145 145 145 145 145 145 145 145 145 -.028 .461** 1.000 .486** -.188** -.044 .011 .319** -.088 .632 .000 .167 145 145 145 -.075 .487** .486** .213 .000 .000 145 145 145 Correlation Coefficient .013 -.181** Sig. (2-tailed) .836 .005 .004 .000 .121 .834 .000 145 145 145 145 145 145 145 145 145 Correlation Coefficient .042 -.035 -.044 -.104 .103 1.000 -.019 -.045 .008 Sig. (2-tailed) .490 .589 .498 .106 .121 .773 .487 .902 145 145 145 145 145 145 145 145 145 Correlation Coefficient .112 .013 .011 -.030 -.014 -.019 1.000 .066 -.038 Sig. (2-tailed) .071 .848 .865 .648 .834 .773 .320 .572 145 145 145 145 145 145 145 145 145 -.011 .388** .319** .338** -.230** -.045 .066 1.000 -.006 .851 .000 .000 .000 .000 .487 .320 145 145 145 145 145 145 145 145 145 Correlation Coefficient .045 -.142* -.088 -.145* -.054 .008 -.038 -.006 1.000 Sig. (2-tailed) .463 .026 .167 .025 .419 .902 .572 .926 145 145 145 145 145 145 145 145 145 1.000 .018 -.027 -.111 .016 .060 .150 -.055 .060 .474 Correlation Coefficient Correlation Coefficient N N N N VA Correlation Coefficient Sig. (2-tailed) N SP N Spearman's P rho Correlation Coefficient Sig. (2-tailed) -.104 -.030 .338** -.145* .025 .000 .106 .648 .000 145 145 145 145 145 145 -.188** -.258** 1.000 .103 -.014 -.230** -.054 .419 .926 .845 .474 .071 .508 145 145 145 145 145 Correlation Coefficient .018 1.000 .628** .644** -.233** -.048 .017 .524** -.183* Sig. (2-tailed) .826 .027 .000 .000 .005 .570 .840 .000 145 145 145 145 145 145 145 145 145 -.027 .628** 1.000 .627** -.239** -.060 .014 .427** -.115 .746 .000 .170 145 145 145 -.111 .644** .627** .183 .000 .000 145 145 145 Correlation Coefficient .016 -.233** Sig. (2-tailed) .845 .005 .004 .000 .126 .839 .000 145 145 145 145 145 145 145 145 145 Correlation Coefficient .060 -.048 -.060 -.132 .128 1.000 -.023 -.063 .007 Sig. (2-tailed) .474 .570 .476 .112 .126 .781 .453 .929 145 145 145 145 145 145 145 145 145 Correlation Coefficient .150 .017 .014 -.035 -.017 -.023 1.000 .083 -.047 Sig. (2-tailed) .071 .840 .869 .679 .839 .781 .323 .573 145 145 145 145 145 145 145 145 145 -.055 .524** .427** .451** -.289** -.063 .083 1.000 -.009 .508 .000 .000 .000 .000 .453 .323 145 145 145 145 145 145 145 145 145 Correlation Coefficient .060 -.183* -.115 -.184* -.069 .007 -.047 -.009 1.000 Sig. (2-tailed) .474 .027 .170 .026 .408 .929 .573 .910 145 145 145 145 145 145 145 145 Correlation Coefficient Correlation Coefficient N N Correlation Coefficient Sig. (2-tailed) N SP 145 1.000 -.258** 145 N VA 145 .183 N Az .000 145 145 Sig. (2-tailed) Av .865 145 .746 N N .498 145 145 Sig. (2-tailed) K .004 145 .826 N NA .000 145 N FA SP -.011 Sig. (2-tailed) Az VA .112 N Av Az .042 Sig. (2-tailed) N Av .013 N K N -.075 N NA K -.028 Sig. (2-tailed) FA NA .002 N .000 .004 .476 .869 .000 145 145 145 145 145 145 1.000 -.324** -.132 -.035 .451** -.184* .026 .000 .112 .679 .000 145 145 145 145 145 145 -.239** -.324** 1.000 .128 -.017 -.289** -.069 .408 .910 145 **. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 207 Таблица 12.3.2 Коэффициенты корреляции Пирсона для всей выборки P P Pearson Correlation 1 Sig. (2-tailed) N 145 FA Pearson Correlation N Av Az -.029 N Av Az VA * SP -.029 -.063 -.150 .052 .069 .073 .451 .072 .534 .411 .166 .046 -.093 .728 .264 .386 145 145 145 145 145 145 145 145 1 ** .672 .000 ** .668 .000 ** -.265 .001 -.065 .040 ** .440 -.203* .015 Sig. (2-tailed) .728 .634 .535 .000 N 145 145 145 145 145 145 145 145 145 -.063 ** ** ** .005 ** NA Pearson Correlation K Correlations NA K FA Sig. (2-tailed) .451 .672 .000 1 N 145 145 -.150 ** Pearson Correlation .632 .000 -.261 .002 -.069 .409 .948 .403 .000 -.149 145 145 145 145 145 145 145 ** .632 .000 1 ** -.355 .000 -.149 -.025 ** .073 -.186* .025 .073 Sig. (2-tailed) .072 .668 .000 .766 .426 .000 N 145 145 145 145 145 145 145 145 145 Pearson Correlation .052 ** -.355 .000 1 .119 .056 ** .155 .502 -.272 .001 -.062 .534 -.261 .002 ** Sig. (2-tailed) -.265 .001 ** N 145 145 145 145 145 145 145 145 145 Pearson Correlation .069 -.065 -.069 -.149 .119 1 -.095 -.039 -.012 Sig. (2-tailed) .411 .440 .409 .073 .155 .254 .641 .888 N 145 145 145 145 145 145 145 145 145 .166* .046 .040 .005 -.025 .056 -.095 1 .042 -.057 .634 .948 .766 .502 .254 .614 .499 Pearson Correlation Sig. (2-tailed) N VA Pearson Correlation Sig. (2-tailed) N 145 145 145 145 145 145 145 145 145 -.093 .535** .000 .403** .000 .426** .000 -.272** .001 -.039 .042 1 -.025 .641 .614 .264 .767 145 145 145 145 145 145 145 145 145 .073 -.149 -.062 -.012 -.057 -.025 1 .073 -.186* .025 .455 .888 .499 .767 145 145 145 145 145 145 Sig. (2-tailed) .386 -.203* .015 N 145 145 SP Pearson Correlation .455 145 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). 12.4. Корреляционные диаграммы Любая задача, связанная с исследованием связи, нуждается в изучении корреляционных диаграмм (Рис.12.4.3-12.4.10). Graphs Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 208 Legacy Dialogs Scatter/Dot... Рис.12.4.1. Заказ корреляционных диаграмм Define Появится диалоговое окно (Рис.12.4.2), в которое надо внести пару переменных, связь между которыми изучается. Рис.12.4.2. Заказ корреляционных диаграмм Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 209 OK Рис. 12.4.3 Рис. 12.4.5 Рис. 12.4.4 Рис. 12.4.6 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 210 Рис. 12.4.7 Рис. 12.4.8 Рис. 12.4.9 Рис. 12.4.10 Статистически незначимые коэффициенты корреляции и корреляционные диаграммы свидетельствуют в пользу того, что связь между самооценкой и агрессией может оказаться нелинейной. Поэтому есть смысл исследовать нелинейные корреляционные связи. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 211 12.5. Нелинейный регрессионный анализ. Выбор вида связи регрессии Регрессионный анализ будет подробно рассмотрен в п.22. Настоящий параграф посвящен лишь одному из его аспектов - выбору вида связи. При корреляционной связи точки на корреляционной диаграмме группируются вдоль некоторой линии, которая "наилучшим" образом приближена ко всем точкам в совокупности. Эта линия является графиком некоторой функции ŷ = f ( x ) . (12.5.1) Уравнение (12.5.1) называют выборочным уравнением регрессии Y на Х, а график функции ŷ = f ( x ) - выборочной линией регрессии Y на Х. Если ŷ = f ( x ) линейная функция: yˆ = f ( x ) = b0 + b1 x, ( b1 ≠ 0 ) , (12.5.2) то уравнение (12.5.2) называют уравнением линейной регрессии, а график функции ŷ = b0 + b1 x - прямой регрессии Y на Х. Параметры линии регрессии определяют так, чтобы линия регрессии наилучшим образом ложилась на полученную систему точек. Линию регрессии (Regression Line) обычно строят «методом наименьших квадратов»: сумма квадратов отклонений (вычисленных по оси Y) от каждой точки диаграммы рассеивания до линии является минимальной. Например, отклонением от точки (xi ; y i ) до прямой регрессии с уравнением ŷ = b0 + b1 x называют разность: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 212 ei = yi − yˆi = yi − ( b1 xi + b0 ) (Рис.12.5.1). Фрагмент корреляционной диаграммы Y yi ei yˆi      (xi ; y i ) X xi Рис. 12.5.1. Фрагмент корреляционной диаграммы с прямой регрессии С помощью компьютерной программы SPSS можно построить следующие линии регрессии, которые наиболее часто встречаются на практике: линейная модель (LIN): ŷ = b0 + b1 x , (12.5.3) квадратическая модель (QUA): ŷ = b0 + b1 x + b2 x 2 , (12.5.4) кубическая модель (CUB): ŷ = b0 + b1 x + b2 x 2 + b3 x 3 . (12.5.5) Y – зависимая переменная (Dependent Variable); Х – независимая переменная (Independent Variable). Доля вариации зависимой переменной, обусловленная влиянием независимой переменной, называется коэффициентом детерминации (R-square, Rsq). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 213 Коэффициент детерминации показывает, в какой степени изменчивость одной переменной обусловлена влиянием другой переменной, а не случайными факторами. Чем ближе R-square к единице, тем меньше разброс значений Y относительно линии регрессии, тем сильнее зависимость Y от Х. В случае линейной модели коэффициент детерминации совпадает с квадратом 2 коэффициента корреляции Пирсона: Rsq= rXY . Обработка на компьютере: Analyze Regression Curve Estimation (Оценка с помощью кривой, подгон кривых) В появившемся окне надо выбрать переменные по соответствующим осям и поставить галочки у предлагаемых моделей функций: линейной, квадратической и кубической. Рис. 12.5.2. Заказ регрессионного анализа: линейная, квадратическая и кубическая модели Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 214 OK Выходные данные для выбора линии регрессии Самооценка – Физическая агрессия Таблица 12.5.1 Описание модели (Model Description) Model Name Dependent Variable Equation 1 1 2 3 Independent Variable Constant Variable Whose Values Label Observations in Plots Tolerance for Entering Terms in Equations MOD_1 FA Linear Quadratic Cubic P Included Unspecified .0001 Таблица 12.5.2 Обработанные наблюдения (Case Processing Summary) N Total Cases Excluded Casesa Forecasted Cases Newly Created Cases 145 a. Cases with a missing value in any variable are excluded from the analysis. Таблица 12.5.3 Описание переменных (Variable Processing Summary) Variables Number of Positive Values Number of Zeros Number of Negative Values Number of Missing Values User-Missing System-Missing Dependent Independent FA P 144 1 145 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 215 Таблица 12.5.4 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:FA Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .001 .121 1 143 .728 5.697 -.005 Quadratic .502 71.538 2 142 .000 35.817 -1.044 .008 Cubic .502 47.363 3 141 .000 36.821 -1.097 .009 -4.797E-6 The independent variable is P. Рис.12.5.3. Корреляционная диаграмма с линиями линейной, квадратической и кубической регрессии. Самооценка - физическая агрессия Замечания: 1. Rsq - коэффициент детерминации. Коэффициенты детерминации равны: для линейной модели: Rsq=0.000; для квадратической модели: Rsq=0.502; для кубической модели: Rsq=0.502. 2. В столбце «F» указаны наблюдаемые значения F-критерия для проверки статистической значимости коэффициента детерминации Rsq. 3. По столбцу «Sigf» проверяется статистическая значимость коэффициента детерминации. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 216 Если Sigf <=0,05, то Rsq. значим, Sigf <=0,01, то Rsq. очень значим, Sigf =0,001, то Rsq. максимально значим. Максимально значимые коэффициенты детерминации Rsq. имеются для квадратической и кубической моделей. 4. Столбцы b0, b1, b2, b3 – это значения параметров в соответствующих уравнениях регрессии. Таблица 12.5.5 Регрессионные модели в задаче связи независимой переменной – самооценки и зависимой переменной – физической агрессии Модели Линейная Уравнение в общем виде ŷ = b0 + b1 x Полученное уравнение yˆ = −0.005 + 5.697 ⋅ x Квадратическая ŷ = b0 + b1 x + b2 x 2 yˆ = 35.817 − 1.044 x + 0.008 x 2 Кубическая ŷ = b0 + b1 x + b2 x 2 + b3 x 3 yˆ = 36.821 − 1.097 x + 0.009 x 2 − 0.000005 x3 Переменная x- это самооценка, а переменная y- физическая агрессия. В данном случае квадратическая модель мало отличается от кубической, но является более простой, поэтому выбираем квадратическую модель. 5. Уравнение yˆ = 35.817 − 1.044 x + 0.008 x 2 может служить для прогноза агрессии по самооценке. Например, если показатель самооценки некоторого подростка равен x=40, то прогнозируемый показатель этой агрессии будет равен: yˆ = 35.817 − 1.044 ⋅ 40 + 0.008 ⋅1600 = 6.857 ≈ 6.9 , (Рис.12.5.3). 6. Как видно из графика, квадратическая линия и кубическая практически неразличимы. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 217 Физическая агрессия - Самооценка Меняем переменные «Самооценка» и «Физическая агрессия» местами. Analyze Regression Curve Estimation Рис. 12.5.4. Заказ регрессионного анализа: переменные меняются местами OK Таблица 12.5.6 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:P Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .001 .121 1 143 .728 63.137 -.156 Quadratic .002 .128 2 142 .880 64.894 -1.010 .079 Cubic .019 .921 3 141 .432 53.761 8.314 -2.007 The independent variable is FA. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 218 .133 Статистически значимых отличий коэффициента детерминации от нуля не выявлено. При изменении физической агрессии самооценка у подростков меняется случайным образом. Рис. 12.5.5. Корреляционная диаграмма с линиями линейной, квадратической и кубической регрессии. Физическая агрессия - самооценка Аналогичное исследование проводим для оставшихся случаев. Самооценка – Косвенная агрессия Таблица 12.5.7 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:NA Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .004 .572 1 143 .451 5.362 -.011 Quadratic .443 56.366 2 142 .000 30.953 -.893 .007 Cubic .443 37.437 3 141 .000 26.663 -.666 .003 The independent variable is P. Выбираем квадратическую модель (Рис.12.5.6). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 219 2.051E-5 Косвенная агрессия - Самооценка Таблица 12.5.8 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:P Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .004 .572 1 143 .451 64.050 -.373 Quadratic .006 .412 2 142 .663 61.878 .811 -.122 Cubic .007 .325 3 141 .807 58.794 3.587 -.781 .045 The independent variable is NA. При изменении косвенной агрессии самооценка меняется случайным образом. (Рис.12.5.7). Рис.12.5.7. Косвенная агрессия - Самооценка Рис.12.5.6. Самооценка - Косвенная агрессия Самооценка – Раздражение Таблица 12.5.9 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:K Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .022 3.288 1 143 .072 6.905 -.022 Quadratic .416 50.539 2 142 .000 27.546 -.733 .006 Cubic .417 33.652 3 141 .000 22.746 -.480 .002 The independent variable is P. Выбираем квадратическую модель (Рис.12.5.8). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 220 2.295E-5 Раздражение - Самооценка Таблица 12.5.10 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:P Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .022 3.288 1 143 .072 68.080 -1.040 Quadratic .034 2.470 2 142 .088 60.232 2.329 -.310 Cubic .039 1.900 3 141 .132 50.899 9.811 -1.950 .105 The independent variable is K. При изменении «раздражения» самооценка меняется случайным образом. (Рис.12.5.9). Рис.12.5.9. Раздражение - Самооценка Рис.12.5.8. Самооценка - Раздражение Самооценка – Негативизм Таблица 12.5.11 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:N Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .003 .390 1 143 .534 2.599 .005 Quadratic .042 3.101 2 142 .048 -1.436 .144 -.001 Cubic .043 2.117 3 141 .101 -4.229 .291 -.004 Возможна квадратическая модель (Рис.12.5.10). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 221 1.335E-5 Негативизм - Самооценка Таблица 12.5.12 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:P Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .003 .390 1 143 .534 60.614 .583 Quadratic .004 .304 2 142 .739 63.073 -1.422 .335 Cubic .021 1.017 3 141 .387 50.581 17.105 -7.109 .861 The independent variable is N. При изменении негативизма самооценка меняется случайным образом. (Рис.12.5.11). Рис.12.5.10. Самооценка - Негативизм Рис.12.5.11. Негативизм - Самооценка Самооценка – Обида Таблица 12.5.13 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:Av Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .005 .681 1 143 .411 2.931 .008 Quadratic .029 2.143 2 142 .121 -1.037 .144 -.001 Cubic .031 1.518 3 141 .212 3.338 -.087 .003 The independent variable is P. При изменении самооценки «обида» меняется случайным образом. (Рис.12.5.12). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 222 -2.092E-5 Обида - Самооценка Таблица 12.5.14 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:P Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .005 .681 1 143 .411 60.185 .621 Quadratic .007 .516 2 142 .598 62.430 -.902 .209 Cubic .010 .474 3 141 .701 65.741 -4.647 1.297 -.089 The independent variable is Av. При изменении «обиды» самооценка меняется случайным образом (Рис.12.5.13). Рис.12.5.13. Обида - Самооценка Рис.12.5.12. Самооценка - Обида Самооценка – Подозрительность Таблица 12.5.15 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:Az Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .028 4.061 1 143 .046 2.566 .017 Quadratic .029 2.110 2 142 .125 1.717 .047 .000 Cubic .033 1.628 3 141 .186 8.035 -.287 .005 The independent variable is P. Возможна линейная модель (Рис.12.5.14). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 223 -3.020E-5 Подозрительность - Самооценка Таблица 12.5.16 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:P Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .028 4.061 1 143 .046 56.527 1.579 Quadratic .029 2.149 2 142 .120 59.250 .038 .186 Cubic .031 1.486 3 141 .221 52.075 5.904 -1.176 .093 The independent variable is Az. Возможна линейная модель (Рис.12.5.15). Рис.12.5.14. Самооценка - Подозрительность Рис. 12.5.15. Подозрительность - Самооценка Самооценка – Вербальная агрессия Таблица Таблица 12.5.17 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:VA Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .009 1.258 1 143 .264 6.269 -.012 Quadratic .239 22.352 2 142 .000 20.702 -.510 .004 Cubic .242 15.042 3 141 .000 14.327 -.173 -.002 The independent variable is P. Выбираем квадратическую модель (Рис.12.5.16). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 224 3.048E-5 Вербальная агрессия - Самооценка Таблица 12.5.18 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:P Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .009 1.258 1 143 .264 66.204 -.710 Quadratic .151 12.676 2 142 .000 36.024 12.455 -1.251 Cubic .192 11.201 3 141 .000 67.375 -11.352 3.820 -.322 The independent variable is VA. Выбираем квадратическую модель (Рис.12.5.17). Рис.12.5.16. Самооценка - Вербальная агрессия Рис.12.5.17. Вербальная агрессия - Самооценка Самооценка – Угрызения совести, чувство вины Таблица 12.5.19 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:SP Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .005 .757 1 143 .386 3.373 .010 Quadratic .037 2.742 2 142 .068 -2.160 .201 -.002 Cubic .043 2.087 3 141 .105 6.581 -.261 .006 The independent variable is P. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 225 -4.179E-5 При изменении самооценки «угрызения совести» меняются случайным образом (Рис.12.5.18). Угрызения совести, чувство вины - Самооценка Таблица 12.5.20 Описание модели и параметры оценок (Model Summary and Parameter Estimates) Dependent Variable:P Model Summary Equation R Square F df1 Parameter Estimates df2 Sig. Constant b1 b2 b3 Linear .005 .757 1 143 .386 60.167 .535 Quadratic .006 .441 2 142 .644 61.230 -.174 .090 Cubic .009 .428 3 141 .733 58.934 2.715 -.719 The independent variable is SP. При изменении (Рис.12.5.19). «угрызений совести» Рис.12.5.18. Самооценка - Угрызения совести самооценка меняется случайным образом Рис.12.5.19. Угрызения совести - Самооценка Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 226 .062 12.6. Графическая иллюстрация результатов регрессионного анализа Отобразим линии регрессии на корреляционных диаграммах для связей, предполагаемых на основании результатов регрессионного анализа. Graphs Legacy Dialogs Scatter/Dot... Simple Scatter (Рис.12.6.1). Define Появится диалоговое окно (Рис.12.6.1), в которое надо внести пару переменных, связь между которыми изучается. Continue OK Двойным щелчком левой клавиши мыши на изображении графика, надо вызвать окно редактора диаграмм (Chart editor) (Рис.12.6.1). Рис.12.6.1. Редактор графиков Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 227 На верхней панели инструментов нажать на . Появится диалоговое окно, на котором надо выбрать линию квадратической регрессии (Quadratic) (Рис. 12.6.2). Рис.12.6.2. Выбор линии регрессии Apply В редакторе диаграмм появится корреляционная диаграмма с квадратической линией регрессии, наилучшим способом приближенная ко всем точкам в совокупности, с указанием коэффициента детерминации Rsq=0.502. Закрыв редактор диаграмм, мы должны получить корреляционную диаграмму с параболой (Рис.12.6.3). Если данную связь подтвердить с помощью коэффициентов корреляции, то можно будет сделать вывод: • для группы участников с низкой самооценкой при увеличении самооценки физическая агрессия уменьшается; Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 228 • для группы участников с адекватной самооценкой при увеличении самооценки физическая агрессия меняется случайным образом; • для группы участников с высокой самооценкой при увеличении самооценки физическая агрессия увеличивается. Аналогичным образом получим остальные диаграммы (Рис.12.6.4-12.6.9). Рис. 12.6.3. Корреляционная диаграмма с линией регрессии: самооценка – физическая агрессия. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 229 Рис.12.6.4. Корреляционная диаграмма с линией регрессии: самооценка – косвенная агрессия. Рис.12.6.5. Корреляционная диаграмма с линией регрессии: самооценка – раздражение. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 230 Рис.12.6.6. Корреляционная диаграмма с линией регрессии: самооценка – негативизм. Рис.12.6.7. Корреляционная подозрительность. диаграмма с линией регрессии: самооценка Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 – 231 Рис.12.6.8. Корреляционная диаграмма с линией регрессии: самооценка – вербальная агрессия. Рис.12.6.9. Корреляционная диаграмма с линией регрессии: вербальная агрессия самооценка. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 232 Таким образом, с помощью регрессионного анализа показано, что в некоторых случаях возможна нелинейная немонотонная связь квадратического типа. Для ее обоснования можно поступать двояким образом: 1. По диаграмме рассеивания находятся точки интервалы монотонности. Выборка делится на группы, различающиеся направлением связи между переменными. После этого вычисляются коэффициенты корреляции для каждой группы. 2. От коэффициентов корреляции отказываются. Вводят номинативную переменную, которая делит выборку на контрастные группы по одной из переменных. Далее изучаются различия между группами по уровню выраженности другой переменной39. 3. По одной из переменных переходят: § к низким и высоким показателям или § к низким, средним и высоким показателям. Переход лучше всего осуществлять в соответствии с методикой, при условии, что эта методика адаптирована к соответствующим участникиым. В каждой из трех групп вычисляют коэффициенты корреляции. 12.7. Переход к низким и к высоким показателям Переход к низким, высоким и средним показателям правильнее всего осуществлять с помощью методик измерения. Если, по каким-либо причинам в методике нормы не указаны, или неясно, насколько методика адаптирована, то можно осуществлять разбивку по выборочным данным. Если распределение выборочных данных соответствует нормальному распределению, то разбивка данных на две группы может осуществляться с помощью выборочного среднего x . Если оценки по тесту выше x , то их называют «выше среднего уровня». Если ниже x , то «ниже среднего уровня» (Таблица 12.7.1). Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб.: Речь. С.89. 39 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 233 Если распределение выборочных данных не соответствует нормальному распределению, то разбивка данных на две группы может осуществляться с помощью медианы Mdn. Если оценки по тесту выше Mdn, то их называют «выше среднего уровня». Если ниже Mdn, то «ниже среднего уровня» (Таблица 12.7.1). Таблица 12.7.1 Разбивка данных на две группы: «выше среднего уровня» и «ниже среднего уровня» В случае нормального распределения данных В любых случаях40 Если распределение Показатели ниже среднего уровня Ниже x Показатели выше среднего уровня Выше x Ниже Mdn Выше Mdn выборочных данных соответствует нормальному распределению, то разбивка данных на три группы может осуществляться с помощью выборочного среднего x и стандартного отклонения s X . Если оценки по тесту выше x + s X , то их называют «высокими». Если они находятся в интервале ( x − s X ; x − s X ) , то они считаются «средними». Если ниже x − s X , то оценки «низкие» (Таблица 12.7.1). Если распределение выборочных данных не соответствует нормальному распределению, то разбивка данных на три группы может осуществляться с помощью квартилей Q1 и Q3 Если оценки по тесту выше Q3 , то их называют «высокими». Если они находятся в интервале от Q1 до Q3 , то они считаются «средними». Если ниже Q1 , то оценки «низкие» (Таблица 12.7.2). Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб: Речь. C.43. 40 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 234 Таблица 12.7.2 Разбивка данных на три группы:«высокий», «средний» и «низкий» уровень В случае нормального распределения данных В любых случаях41 Низкие показатели ( x − 3s x ; x − s x ) Средние показатели ( x − sx ; x + sx ) Высокие показатели ( x + sx ; x + 3sx ) Ниже Q1 = P25 ( Q1 ; Q3 ) Выше Q3 = P75 12.7.1. Анализ двух групп самооценки В данном исследовании распределение всех данных статистически значимо отличается от нормального распределения. Поэтому разбивка самооценки на две группы будет осуществляться с помощью медианы. Из Таблицы 12.2.1.2 находим, что Mdn=62.33. Это значит, что 50% оценок не превышает 62.33. Ø Значение показателя, который меньше Mdn=62.33 будем считать показателем самооценки ниже среднего уровня, «низкой самооценкой»; Ø Значение показателя, который больше Mdn=62.33 будем считать показателем самооценки выше среднего уровня, «высокой самооценкой»; Низким показателям самооценки присвоим значение „1”. Высоким показателям самооценки присвоим значение „2”. Разбиение данных осуществляется автоматически, с помощью программы Syntax. Откроем новое окно синтакса: File New Syntax и напишем здесь следующий текст программы (Рис.12.7.1.1): 41 Там же. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 235 if (p<=62.33) p1_ind=1 . if (p>62.33) p1_ind=2 . variable labels p1_ind 'P'. value labels p1_ind 1 'Zems' 2 'Augsts'. execute. Рис. 12.7.1.1. Переход к низкому и высокому уровню самооценки. Ввод данных Сохраним полученный файл синтаксиса под именем M_of_Syntax_SA.sps. Для того, чтобы программа выполнила необходимые действия необходимо ВЫДЕЛИТЬ ВЕСЬ ТЕКСТ (Edit – Select All) и нажать Run (пуск), All (Рис. 12.7.1.2). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 236 Рис. 12.7.1.2. Запуск программы После выполнения всех выше перечисленных действий в наш исходный файл “ Samoocenka_Agresija.sav” автоматически будет добавлен один столбец данных. Появится новая переменная с названием р1_ind, меткой (Label) P и значениями 1 – zems (низкий уровень самооценки) и 2 – augsts - высокий уровень. Останется только поставить число знаков после запятой (Decimals) равным нулю и выбрать Nominal Measure. (Рис. 12.7.1.3). Рис. 12.7.1.3. Вид переменных с новой переменной p1_ind. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 237 Рис. 12.7.1.4. Вид данных с новой переменной p1_ind. Полученный файл сохраним как (Save as) Samoocenka_Agressija_M.sav. Расщепление файла Для того, чтобы выбрать правильные коэффициенты корреляции, повторим исследование данных для каждого из уровней самооценки. Разобьем файл на две группы: Data Split File Organize output by groups Рис. 12.7.1.5. Расщепление файла по группам самооценки Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 238 OK Описательные статистики: Analyze Descriptive Statistics Frequencies… Рис. 12.7.1.6. Ввод переменных Statistics Рис. 12.7.1.7. Заказ показателей описательной статистики Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 239 OK Таблица 12.7.1.1 Описательные статистики для участников с низкой самооценкой P N 73 73 NA 73 50.78 5.30 1.05 Valid Missing Mean Std. Error of Mean Median Std. Deviation FA K N VA 73 73 73 4.78 5.62 2.93 5.58 0.31 0.28 0.26 0.15 0.25 53.82 5.00 5.00 5.00 3.00 5.00 8.96 2.64 2.39 2.21 1.26 2.12 Variance 80.31 6.99 5.73 4.88 1.59 4.50 Skewness -0.30 -0.05 0.08 -0.24 0.05 -0.10 Std. Error of Skewness 0.28 0.28 0.28 0.28 0.28 0.28 -1.19 -1.34 -1.25 -0.75 -0.74 -0.81 0.56 0.56 0.56 0.56 0.56 0.56 Range 31.17 9.00 8.00 8.00 5.00 8.00 Minimum 31.16 0.00 1.00 1.00 0.00 1.00 Maximum 62.33 9.00 9.00 9.00 5.00 9.00 Percentiles 25 42.42 3.00 2.00 4.00 2.00 4.00 50 53.82 5.00 5.00 5.00 3.00 5.00 75 59.16 8.00 7.00 7.50 4.00 7.00 Kurtosis Std. Error of Kurtosis a. P = Zems Таблица 12.7.1.2 Описательные статистики для участников с высокой самооценкой P N Valid Missing 72 FA 72 NA 72 73.98 5.42 0.89 0.32 71.58 7.55 K N VA 72 72 72 4.61 5.50 2.85 5.43 0.29 0.22 0.15 0.19 5.00 4.00 5.00 3.00 6.00 2.69 2.45 1.91 1.30 1.61 57.03 7.26 6.02 3.63 1.68 2.59 Skewness 0.43 0.13 0.21 0.04 0.29 -0.72 Std. Error of Skewness 0.28 0.28 0.28 0.28 0.28 0.28 -0.71 -1.45 -1.25 -0.48 -0.99 0.11 0.56 0.56 0.56 0.56 0.56 0.56 Range 29.00 9.00 8.00 7.00 4.00 7.00 Minimum 62.50 1.00 1.00 2.00 1.00 1.00 Maximum 91.50 10.00 9.00 9.00 5.00 8.00 Percentiles 25 68.87 3.00 2.00 4.00 2.00 5.00 50 71.58 5.00 4.00 5.00 3.00 6.00 75 79.79 8.00 7.00 7.00 4.00 7.00 Mean Std. Error of Mean Median Std. Deviation Variance Kurtosis Std. Error of Kurtosis a. P = Augsts Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 240 В Таблицах 12.7.1.1 и 12.7.1.2 отмечены случаи, когда показатели асимметрии и эксцесса превышают свои стандартные ошибки. В этих случаях нормального распределения точно нет. Получение гистограмм с нормальными кривыми Для экономии места можно получить диаграммы с нормальной кривой для низкой и высокой самооценки на одном рисунке. Для этого нужно, чтобы файл данных не был бы разбит на две группы: Data Split file... Reset OK. После чего можно заказывать гистограммы: Graphs Legacy Dialogs Histogram… Рис.12.7.1.8. Заказ гистограмм с нормальной кривой Появится диалоговое окно (Рис.12.7.1.8). Для построения гистограмм с нормальной кривой по P[p] переменную P[p] надо перенести в окно «Variable», переменную P[p1_ind] – Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 241 в окно «Columns», а в окошке «Display normal curve» надо поставить галочку и нажать кнопку ОК. После чего появится рисунок с двумя гистограммами (Рис. 12.7.1.9). Ту же самую процедуру надо проделать для всех остальных переменных (Рис. 12.7.1.10-12.7.1.14.) Рис.12.7.1.9. Гистограммы с нормальной кривой по переменной «Самооценка» для высокой и низкой самооценок На Рис.12.7.1.9-12.7.1.14 изображены гистограммы с нормальной кривой для визуального сравнения с нормальным распределением. Рис.12.7.1.10. Гистограммы с нормальной кривой по переменной «Физическая агрессия» для высокой и низкой самооценок Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 242 Рис.12.7.1.11. Гистограммы с нормальной кривой по переменной «Косвенная агрессия» для высокой и низкой самооценок Рис.12.7.1.12. Гистограммы с нормальной кривой по переменной «Раздражение» для высокой и низкой самооценок Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 243 Рис.12.7.1.13. Гистограммы с нормальной кривой по переменной «Негативизм» для высокой и низкой самооценок Рис.12.7.1.14. Гистограммы с нормальной кривой по переменной «Вербальная агрессия» для высокой и низкой самооценок Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 244 Тесты на нормальность распределения: Analyze Descriptive Statistics Explore… Рис. 12.7.1.15. Заказ тестов на нормальность распределения Plots Рис.12.7.1.16. Заказ тестов на нормальность распределения Continue Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 245 OK Таблица 12.7.1.3 Тесты на нормальность распределения (Tests of Normality) Kolmogorov-Smirnova P P FA NA K N VA Statistic df Shapiro-Wilk Sig. Statistic df Sig. Zems .140 73 .001 .908 73 .000 Augsts .148 72 .001 .953 72 .009 Zems .161 73 .000 .915 73 .000 Augsts .159 72 .000 .900 72 .000 Zems .151 73 .000 .926 73 .000 Augsts .147 72 .001 .922 72 .000 .944 73 .003 Zems .145 73 .001 Augsts .159 72 .000 .941 72 .002 Zems .167 73 .000 .927 73 .000 Augsts .202 72 .000 .897 72 .000 Zems .127 73 .005 .951 73 .007 Augsts .180 72 .000 .922 72 .000 a. Lilliefors Significance Correction Тесты Колмогорова-Смирнова с поправкой Лиллифора и Шапиро-Уилкса показали несоответствие распределения данных нормальному распределению. Построение коробчатых диаграмм Analyze Descriptive Statistics Explore… Убрать самооценку Р из списка переменных (Dependent List). Plots Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 246 Рис. 12.7.1.17. Заказ коробчатых диаграмм Continue OK Рис. 12.7.1.18. Коробчатые диаграммы Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 247 Заказать коробчатую диаграмму для самооценки. Рис. 12.7.1.19. Коробчатая диаграмма для самооценки Вычисление коэффициентов корреляции Распределения данных не соответствует нормальному распределению Поэтому надо вычислять непараметрические коэффициенты корреляции Спирмена и Кендалла. Расщепление данных: Data Split File Organize output by groups В окно переменных ввести P[p_ind] OK Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 248 Analyze Correlate Bivariate… Рис.12.7.1.20. Заказ коэффициентов корреляции OK Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 249 Таблица 12.7.1.4 Корреляционная матрица. Низкая самооценка a Correlations Kendall's tau_b P FA NA K N Ap Az VA SP Spearman's rho P FA NA K N Ap Az VA SP P Correlation Coefficient 1.000 Sig. (2-tailed) . N 73 Correlation Coefficient -.520** Sig. (2-tailed) .000 N 73 Correlation Coefficient -.513** Sig. (2-tailed) .000 N 73 Correlation Coefficient -.584** Sig. (2-tailed) .000 N 73 Correlation Coefficient .202* Sig. (2-tailed) .022 N 73 Correlation Coefficient .131 Sig. (2-tailed) .133 N 73 Correlation Coefficient .016 Sig. (2-tailed) .856 N 73 Correlation Coefficient -.389** Sig. (2-tailed) .000 N 73 Correlation Coefficient .171* Sig. (2-tailed) .049 N 73 Correlation Coefficient 1.000 Sig. (2-tailed) . N 73 Correlation Coefficient -.724** Sig. (2-tailed) .000 N 73 Correlation Coefficient -.681** Sig. (2-tailed) .000 N 73 Correlation Coefficient -.765** Sig. (2-tailed) .000 N 73 Correlation Coefficient .276* Sig. (2-tailed) .018 N 73 Correlation Coefficient .181 Sig. (2-tailed) .126 N 73 Correlation Coefficient .022 Sig. (2-tailed) .853 N 73 Correlation Coefficient -.537** Sig. (2-tailed) .000 N 73 Correlation Coefficient .229 Sig. (2-tailed) .052 N 73 FA -.520** .000 73 1.000 . 73 .434** .000 73 .585** .000 73 -.304** .001 73 -.049 .594 73 .002 .984 73 .413** .000 73 -.184* .043 73 -.724** .000 73 1.000 . 73 .587** .000 73 .757** .000 73 -.387** .001 73 -.058 .625 73 .003 .978 73 .569** .000 73 -.236* .045 73 NA -.513** .000 73 .434** .000 73 1.000 . 73 .582** .000 73 -.273** .003 73 -.031 .737 73 .039 .677 73 .379** .000 73 -.070 .440 73 -.681** .000 73 .587** .000 73 1.000 . 73 .730** .000 73 -.339** .003 73 -.038 .750 73 .052 .664 73 .485** .000 73 -.089 .452 73 K -.584** .000 73 .585** .000 73 .582** .000 73 1.000 . 73 -.371** .000 73 -.058 .523 73 .028 .768 73 .431** .000 73 -.072 .433 73 -.765** .000 73 .757** .000 73 .730** .000 73 1.000 . 73 -.464** .000 73 -.071 .550 73 .034 .773 73 .580** .000 73 -.090 .448 73 N .202* .022 73 -.304** .001 73 -.273** .003 73 -.371** .000 73 1.000 . 73 .200* .034 73 -.045 .646 73 -.324** .000 73 -.004 .968 73 .276* .018 73 -.387** .001 73 -.339** .003 73 -.464** .000 73 1.000 . 73 .250* .033 73 -.048 .686 73 -.413** .000 73 -.007 .951 73 Ap .131 .133 73 -.049 .594 73 -.031 .737 73 -.058 .523 73 .200* .034 73 1.000 . 73 .085 .377 73 -.042 .649 73 .079 .399 73 .181 .126 73 -.058 .625 73 -.038 .750 73 -.071 .550 73 .250* .033 73 1.000 . 73 .103 .388 73 -.060 .614 73 .101 .394 73 Az .016 .856 73 .002 .984 73 .039 .677 73 .028 .768 73 -.045 .646 73 .085 .377 73 1.000 . 73 .026 .784 73 -.015 .873 73 .022 .853 73 .003 .978 73 .052 .664 73 .034 .773 73 -.048 .686 73 .103 .388 73 1.000 . 73 .033 .784 73 -.019 .872 73 VA -.389** .000 73 .413** .000 73 .379** .000 73 .431** .000 73 -.324** .000 73 -.042 .649 73 .026 .784 73 1.000 . 73 -.019 .839 73 -.537** .000 73 .569** .000 73 .485** .000 73 .580** .000 73 -.413** .000 73 -.060 .614 73 .033 .784 73 1.000 . 73 -.023 .846 73 SP .171* .049 73 -.184* .043 73 -.070 .440 73 -.072 .433 73 -.004 .968 73 .079 .399 73 -.015 .873 73 -.019 .839 73 1.000 . 73 .229 .052 73 -.236* .045 73 -.089 .452 73 -.090 .448 73 -.007 .951 73 .101 .394 73 -.019 .872 73 -.023 .846 73 1.000 . 73 **. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed). a. P = zems Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 250 Таблица 12.7.1.5 Корреляционная матрица. Высокая самооценка a Correlations Kendall's tau_b P FA NA K N Ap Az VA SP Spearman's rhoP FA NA K N Ap Az VA SP Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N P 1.000 . 72 .485** .000 72 .496** .000 72 .380** .000 72 -.042 .635 72 -.062 .477 72 .042 .637 72 .427** .000 72 -.085 .330 72 1.000 . 72 .701** .000 72 .686** .000 72 .522** .000 72 -.058 .631 72 -.086 .473 72 .055 .647 72 .555** .000 72 -.114 .342 72 FA .485** .000 72 1.000 . 72 .495** .000 72 .388** .000 72 -.063 .495 72 -.029 .752 72 .028 .761 72 .358** .000 72 -.109 .232 72 .701** .000 72 1.000 . 72 .674** .000 72 .515** .000 72 -.085 .476 72 -.038 .752 72 .035 .769 72 .466** .000 72 -.140 .242 72 NA .496** .000 72 .495** .000 72 1.000 . 72 .388** .000 72 -.120 .196 72 -.073 .428 72 -.005 .960 72 .239** .009 72 -.104 .255 72 .686** .000 72 .674** .000 72 1.000 . 72 .519** .000 72 -.154 .196 72 -.094 .433 72 -.008 .947 72 .341** .003 72 -.136 .253 72 K .380** .000 72 .388** .000 72 .388** .000 72 1.000 . 72 -.144 .125 72 -.168 .072 72 -.087 .353 72 .178 .055 72 -.232* .012 72 .522** .000 72 .515** .000 72 .519** .000 72 1.000 . 72 -.181 .127 72 -.211 .076 72 -.111 .352 72 .233* .049 72 -.295* .012 72 N -.042 .635 72 -.063 .495 72 -.120 .196 72 -.144 .125 72 1.000 . 72 .014 .882 72 .028 .773 72 -.123 .195 72 -.092 .329 72 -.058 .631 72 -.085 .476 72 -.154 .196 72 -.181 .127 72 1.000 . 72 .017 .890 72 .036 .761 72 -.148 .213 72 -.125 .297 72 Ap -.062 .477 72 -.029 .752 72 -.073 .428 72 -.168 .072 72 .014 .882 72 1.000 . 72 -.143 .133 72 -.037 .695 72 -.038 .681 72 -.086 .473 72 -.038 .752 72 -.094 .433 72 -.211 .076 72 .017 .890 72 1.000 . 72 -.178 .135 72 -.054 .653 72 -.059 .623 72 Az .042 .637 72 .028 .761 72 -.005 .960 72 -.087 .353 72 .028 .773 72 -.143 .133 72 1.000 . 72 .133 .161 72 -.062 .515 72 .055 .647 72 .035 .769 72 -.008 .947 72 -.111 .352 72 .036 .761 72 -.178 .135 72 1.000 . 72 .171 .150 72 -.076 .523 72 VA .427** .000 72 .358** .000 72 .239** .009 72 .178 .055 72 -.123 .195 72 -.037 .695 72 .133 .161 72 1.000 . 72 .011 .907 72 .555** .000 72 .466** .000 72 .341** .003 72 .233* .049 72 -.148 .213 72 -.054 .653 72 .171 .150 72 1.000 . 72 .014 .906 72 SP -.085 .330 72 -.109 .232 72 -.104 .255 72 -.232* .012 72 -.092 .329 72 -.038 .681 72 -.062 .515 72 .011 .907 72 1.000 . 72 -.114 .342 72 -.140 .242 72 -.136 .253 72 -.295* .012 72 -.125 .297 72 -.059 .623 72 -.076 .523 72 .014 .906 72 1.000 . 72 **. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed). a. P = augsts Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 251 Построение корреляционных диаграмм с прямыми регрессии Убрать расщепление файла: Data Split File Reset OK Graphs Legacy Dialogs Scatter/Dot... Рис. 12.7.1.21. Заказ корреляционных диаграмм Define Появится диалоговое окно (Рис.12.7.22), в которое надо внести пару переменных, связь между которыми изучается. Рис.12.7.1.22. Заказ корреляционных диаграмм с учетом групп самооценки Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 252 OK В результате появится корреляционная диаграмма, в которой точки, относящиеся к наблюдениям из разных групп самооценки отличаются по цвету. Щелкнув два раза мышью по корреляционной диаграмме, мы войдем в редактор графиков – Chart Editor. Рис.12.7.1.23. Редактор графиков. Корреляционная диаграмма с учетом групп самооценки Для того, чтобы получить две регрессионные прямые для высокой и низкой самооценок, надо нажать на . По умолчанию появятся прямые регрессии (Рис.12.7.1.24). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 253 Рис.12.7.1.24. Прямые регрессии для групп с низкой и с высокой самооценкой поотдельности Для того, чтобы получить параболу – линию регрессии для всех наблюдений – надо в редакторе графиков нажать на . Поставить точку у окошка квадратической регрессии (Quadratic) (Рис.12.7.1.25). Apply Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 254 Рис.12.7.1.25. Выбор квадратической линии регрессии Закрыть редактор графика. Полученная корреляционная диаграмма и коэффициенты корреляции показывают: В группе участников с высокой самооценкой связь самооценки с физической агрессией монотонная, положительная. Коэффициент корреляции Спирмена rS =0.701; p ≤ 0.001 (Таблица 12.7.1.5); В группе участников с низкой самооценкой связь самооценки с физической агрессией монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.724; p ≤ 0.001 (Таблица 12.7.1.4); Для всей группы участников корреляционная связь самооценки с физической агрессией не найдена. Коэффициент корреляции Спирмена rS =-0.018 (Таблица 12.3.1). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 255 Рис.12.7.1.26. Корреляционная диаграмма (Самооценка – Физическая агрессия) с прямыми регрессиями для участников с низкой самооценкой и для участников с высокой самооценкой и с линией квадратической регрессии для всех наблюдений. Для остальных случаев схема получения корреляционных диаграмм с прямыми регрессии сохраняется. Рассмотрим результаты. Самооценка – Косвенная агрессия В группе участников с высокой самооценкой связь самооценки с косвенной агрессией монотонная, положительная. Коэффициент корреляции Спирмена rS =0.686; p ≤ 0.001 (Таблица 12.7.1.5); В группе участников с низкой самооценкой связь самооценки с косвенной агрессией монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.681; p ≤ 0.001 (Таблица 12.7.1.4); Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 256 Для всей группы участников корреляционная связь самооценки с косвенной агрессией не найдена. Коэффициент корреляции Спирмена rS =-0.027 (Таблица 12.3.1). Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.27. Рис.12.7.1.27. Корреляционная диаграмма (Самооценка – Косвенная агрессия) с прямыми регрессиями для участников с низкой самооценкой и для участников с высокой самооценкой и с линией квадратической регрессии для всех наблюдений. Самооценка – Вербальная агрессия В группе участников с высокой самооценкой связь самооценки с вербальной агрессией монотонная, положительная. Коэффициент корреляции Спирмена rS =0.555; p ≤ 0.001 (Таблица 12.7.1.5); Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 257 В группе участников с низкой самооценкой связь самооценки с вербальной агрессией монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.537; p ≤ 0.001 (Таблица 12.7.1.4); Для всей группы участников корреляционная связь самооценки с вербальной агрессией не найдена. Коэффициент корреляции Спирмена rS =-0.055 (Таблица 12.3.1). Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.28. Рис.12.7.1.28. Корреляционная диаграмма (Самооценка – Вербальная агрессия) с прямыми регрессиями для участников с низкой самооценкой и для участников с высокой самооценкой и с линией квадратической регрессии для всех наблюдений. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 258 Самооценка – Раздражение В группе участников с высокой самооценкой связь самооценки с раздражением монотонная, положительная. Коэффициент корреляции Спирмена rS =0.522; p ≤ 0.001 (Таблица 12.7.1.5); В группе участников с низкой самооценкой связь самооценки с раздражением монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.765; p ≤ 0.001 (Таблица 12.7.1.4); Для всей группы участников корреляционная связь самооценки с раздражением не найдена. Коэффициент корреляции Спирмена rS =-0.111 (Таблица 12.3.1). Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.29. Рис.12.7.1.29. Корреляционная диаграмма (Самооценка – Раздражение) с прямыми регрессиями для участников с низкой самооценкой и для участников с высокой самооценкой и с линией квадратической регрессии для всех наблюдений. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 259 Самооценка – Негативизм В группе участников с высокой самооценкой связь самооценки с негативизмом не найдена. Коэффициент корреляции Спирмена rS =0.058 (Таблица 12.7.1.5); В группе участников с низкой самооценкой связь самооценки с негативизмом монотонная, положительная. Коэффициент корреляции Спирмена rS =0.276; p ≤ 0.05 (Таблица 12.7.1.4); Для всей группы участников корреляционная связь самооценки с негативизмом не найдена. Коэффициент корреляции Спирмена rS =0.016 (Таблица 12.3.1). Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.30. Рис.12.7.1.30. Корреляционная диаграмма (Самооценка – Негативизм) с прямыми регрессиями для участников с низкой самооценкой и для участников с высокой самооценкой и с линией квадратической регрессии для всех наблюдений. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 260 Самооценка – Обида В группе участников с высокой самооценкой связь самооценки с обидой не найдена. Коэффициент корреляции Спирмена rS =-0.086 (Таблица 12.7.1.5); В группе участников с низкой самооценкой связь самооценки с обидой не найдена. Коэффициент корреляции Спирмена rS =0.181 (Таблица 12.7.1.4); Для всей группы участников корреляционная связь самооценки с обидой не найдена. Коэффициент корреляции Спирмена rS =0.060 (Таблица 12.3.1). Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.31. Рис.12.7.1.31. Корреляционная диаграмма (Самооценка – Обида) с прямыми регрессиями для всех участников, для участников с низкой самооценкой, для участников с высокой самооценкой. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 261 Самооценка – Подозрительность В группе участников с высокой самооценкой связь самооценки с подозрительностью не найдена. Коэффициент корреляции Спирмена rS =0.055 (Таблица 12.7.1.5); В группе участников с низкой самооценкой связь самооценки с подозрительностью не найдена. Коэффициент корреляции Спирмена rS =0.022 (Таблица 12.7.1.4); Для всей группы участников корреляционная связь самооценки с подозрительностью не найдена. Коэффициент корреляции Спирмена rS =0.150 (Таблица 12.3.1). Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.32. Рис. 12.7.1.32. Корреляционная диаграмма (Самооценка – Подозрительность) с прямыми регрессиями для всех участников, для участников с низкой самооценкой, для участников с высокой самооценкой. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 262 Самооценка – Угрызения совести В группе участников с высокой самооценкой связь самооценки с угрызениями совести не найдена. Коэффициент корреляции Спирмена rS =-0.114 (Таблица 12.7.1.5); В группе участников с низкой самооценкой найдена положительная монотонная связь самооценки с угрызениями совести. Коэффициент корреляции Кендалла τ =0.171; p ≤ 0.05 (Таблица 12.7.1.4); Для всей группы участников корреляционная связь самооценки с угрызениями совести не найдена. Коэффициент корреляции Спирмена rS =0.060 (Таблица 12.3.1). Корреляционная диаграмма с прямыми регрессии показана на Рис.12.7.1.33. Рис.12.7.1.33. Корреляционная диаграмма (Самооценка – Угрызения совести) с прямыми регрессиями для всех участников, для участников с низкой самооценкой, для участников с высокой самооценкой. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 263 12.7.2. Анализ двух групп вербальной агрессии Одним из результатов регрессионного анализа оказалась возможная квадратическая связь, когда независимой переменной является вербальная агрессия, а зависимой – самооценка. Самостоятельно разобъем файл данных по медиане вербальной агрессии Mdn = 6 (Табл. 12.2.1.2) и по аналогии с предыдущим случаем – разбиением самооценки - получим все результаты. Разбиение: Mdn ≤ 6 - низкий уровень вербальной агрессии (zems); Mdn > 6 - высокий уровень вербальной агрессии (augsts). Выходная информация В Таблицах 12.7.2.1 и 12.7.2.2 отмечены случаи, когда показатели асимметрии и эксцесса превышают свои стандартные ошибки. В этих случаях нормального распределения точно нет. Таблица 12.7.2.1 Описательные статистики для участников с низкой вербальной агрессией P N Valid VA 100 100 63.9291 1.08975 62.5000 10.89754 118.756 -.253 4.5500 .13881 5.0000 1.38808 1.927 -.811 .241 .429 .478 56.83 31.33 88.16 58.1600 .241 -.374 .478 5.00 1.00 6.00 4.0000 50 62.5000 5.0000 75 70.4975 6.0000 Missing Mean Std. Error of Mean Median Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Percentiles 25 a. VA = Zems Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 264 Таблица 12.7.2.2 Описательные статистики для участников с высокой вербальной агрессией P N Valid VA 45 45 58.6776 2.90596 48.8300 19.49379 380.008 .324 .354 -1.647 7.6222 .11141 7.0000 .74739 .559 .757 .695 60.34 31.16 91.50 41.9950 .695 2.00 7.00 9.00 7.0000 50 48.8300 7.0000 75 79.3300 8.0000 Missing Mean Std. Error of Mean Median Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Percentiles 25 .354 -.786 a.VA = Augsts На Рис. 12.7.2.1-12.7.2.2 изображены гистограммы с нормальной кривой для визуального сравнения с нормальным распределением. Рис. 12.7.2.1. Гистограммы с нормальной кривой для самооценки в группах с низкой и высокой вербальной агрессией Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 265 Рис. 12.7.2.2. Гистограммы с нормальной кривой для вербальной агрессии в группах с низкой и высокой вербальной агрессией Тесты на нормальность распределения: Таблица 12.7.2.3 Тесты на нормальность распределения (Tests of Normality) Kolmogorov-Smirnova VA P VA Statistic df Shapiro-Wilk Sig. Statistic df Sig. Zems .063 100 .200* .985 100 .334 Augsts .266 45 .000 .835 45 .000 Zems .267 100 .000 .854 100 .000 Augsts .331 45 .000 .743 45 .000 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. Тесты Колмогорова-Смирнова и Шапиро-Уилкса не нашли отличия распределения данных по самооценке для низкой вербальной агрессии от нормального распределения. Но показатели асимметрии и эксцесса по абсолютным значениям превышают свои стандартные ошибки. Поэтому можно считать, что распределение данных не соответствует нормальному распределению. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 266 Для исследования связи следует применить непараметрические коэффициенты корреляции Спирмена и Кендалла. Коробчатые диаграммы (Рис. 12.7.2.3-12.7.2.4) Рис. 12.7.2.3. Коробчатые диаграммы для самооценки. Низкая и высокая вербальная агрессия Рис. 12.7.2.4. Коробчатые диаграммы для вербальной агрессии. Низкая и высокая вербальная агрессия Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 267 Вычисление коэффициентов корреляции Распределения данных не соответствует нормальному распределению Поэтому надо вычислять непараметрические коэффициенты корреляции Спирмена и Кендалла. Таблица 12.7.2.4 Корреляционная матрица. Низкая вербальная агрессия P Kendall's tau_b P Correlation Coefficient 1.000 .222** . .003 100 100 .222** 1.000 .003 . Sig. (2-tailed) N VA Correlation Coefficient Sig. (2-tailed) N Spearman's rho P Correlation Coefficient 100 100 1.000 .300** . .002 Sig. (2-tailed) N VA Correlation Coefficient VA 100 100 .300** 1.000 Sig. (2-tailed) .002 . N 100 100 **. Correlation is significant at the 0.01 level (2-tailed). a. VA = Zems Таблица 12.7.2.5 Корреляционная матрица. Высокая вербальная агрессия P Kendall's tau_b P Correlation Coefficient Sig. (2-tailed) N VA Correlation Coefficient Sig. (2-tailed) N Spearman's rho P Correlation Coefficient Sig. (2-tailed) N VA Correlation Coefficient Sig. (2-tailed) N VA 1.000 -.347** . .004 45 45 -.347** 1.000 .004 . 45 45 1.000 -.450** . .002 45 45 -.450** 1.000 .002 . 45 45 **. Correlation is significant at the 0.01 level (2-tailed). a. VA = Augsts Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 268 Вербальная агрессия - Самооценка В группе участников с высокой вербальной агрессией связь самооценки с вербальной агрессией монотонная, отрицательная. Коэффициент корреляции Спирмена rS =-0.450; p ≤ 0.01 (Таблица 12.7.2.5); В группе участников с низкой вербальной агрессией связь самооценки с вербальной агрессией монотонная, положительная. Коэффициент корреляции Спирмена rS =0.300; p ≤ 0.01 (Таблица 12.7.2.4); Для всей группы участников корреляционная связь самооценки с вербальной агрессией не найдена. Коэффициент корреляции Спирмена rS =-0.055 (Таблица 12.3.1). Корреляционная диаграмма с прямыми регрессии показана на Рис.15.112. Корреляционная диаграмма с прямыми регрессии Рис. 12.7.2.5. Корреляционная диаграмма (Вербальная агрессия – Самооценка) с прямыми регрессиями для участников с низкой вербальной агрессией и для участников с высокой вербальной агрессией и с линией квадратической регрессии для всех наблюдений. Описание данного исследования можно найти в Приложении 2. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 269 13. Критерий согласия χ 2 -Пирсона 13.1. Выявление различий в Критерий согласия χ 2 -Пирсона распределениях признаков. (Chi-square, Pearson) Критерий согласия χ 2 -Пирсона используют: - Для сравнения распределения признака с теоретическим распределением; - Для сравнения распределений двух, трех и более признаков. Гипотезы: Вариант 1 H 0 : Отличие эмпирического распределения признака от теоретического распределения случайное. H 1 : Отличие эмпирического распределения признака от теоретического распределения закономерное. Вариант 2 H 0 : Эмпирические распределения 1 и 2 имеют случайные различия. H 1 : Эмпирические распределения 1 и 2 имеют закономерные различия. Вариант 3 H 0 : Эмпирические распределения 1, 2, 3, ..., m имеют случайные различия. H 1 : Существуют хотя бы два эмпирические распределения из 1, 2, 3, ... m, различия между которыми не случайны. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 270 Если число разрядов признака k>2, то наблюдаемое значение критерия можно вычислить по формуле: mk ( nei − nti ) i =1 nti χ =∑ 2 e 2 , (13.1.1) где k – число разрядов (групп); m – число распределений; nei -эмпирические частоты; nti теоретические частоты; n – число наблюдений. Если число разрядов признака k=2, то следует учитывать „поправку на непрерывность Йета (Yate)1: 2m χ =∑ 2 e (n − nti − 0,5) 2 ei i =1 nti . (13.1.2) Ограничения: 1. Точность критерия растет с увеличением числа наблюдений n. 2. Каждая теоретическая частота должна быть nti ≥ 5 . 3. Группировка по разрядам должна быть одинаковой для всех сравниваемых распределений. 4. Если число разрядов k=2, то необходимо учитывать „поправку на непрерывность” Йета. 5. Если наблюдение относится к конкретному разряду, то оно не должно принадлежать ни к одному другому разряду. 1 Хили, Д. (2005). Статистика. Социологические и маркетинговые исследования. Под ред. Руденко А.А. Киев: ООО «ДиаСофтЮП». С.341. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 271 13.2. Сравнение эмпирического распределения признака с равномерным распределением В рассматриваемом случае всего одно эмпирическое распределение m=1. Если число разрядов признака k>2, то наблюдаемое значение критерия можно вычислить по формуле (13.1.1). Для равномерного распределения теоретические частоты nti находятся по формуле: nti = n , k (13.2.1) где n – число наблюдений, при этом должны соблюдаться равенства: n = ne1 + ne 2 + L nek и n = nt1 + nt 2 + L ntk , которые могут быть использованы для контроля. Также справедливо равенство: k ∑ (n i =1 ei − nti ) = 0 , которое также может быть использовано для контроля. Если число разрядов признака k=2 то теоретические частоты равны nti = n , и 2 следует учитывать „поправку на непрерывность” Йета (Yate)2 (13.2.2): χ 2 e (n = e1 − n 2 − 0.5) ( nei − n 2 − 05) + . n2 n2 2 2 (13.2.2) 22 Хили, Д. (2005). Статистика. Социологические и маркетинговые исследования. Под ред. Руденко А.А. Киев: ООО «ДиаСофтЮП». С.341. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 272 Алгоритм применения критерия- χ 2 1. Формулируют гипотезы приблизительно так: H 0 : Эмпирическое распределение признака имеет случайные отличия от равномерного распределения. H 1 : Эмпирическое распределение признака отличается от равномерного распределения закономерно. 2. Если n – число наблюдений и количество разрядов k>2, то строят таблицу с 5-ю столбцами и k+2 строками, в соответствии с Таблицей 13.2.1. Таблица 13.2.1. Вычисление наблюдаемого значения критерия- χ 2 Разряды nei nti k ne1 ... nek n k ... n k Суммы n n 1 ... nei − nti (nei − nti )2 (nei − nti )2 nei - эмпирические частоты; nti - теоретические частоты: nti = nti χ e2 n . k В последней строке вычисляют указанные суммы для контроля. Контроль: 1) n = ne1 + ne 2 +L nek ; 2) n = nt1 + nt 2 + L ntk ; k 3) ∑ (n i =1 ei − nti ) = 0 . Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с χ e2 . 3. Если число наблюдений n и количество разрядов признака k=2, то строят таблицу с 6-ю столбцами и k+2 строками, по образцу Таблицы 13.2.2. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 273 Таблица 13.2.2. Вычисление скорректированного наблюдаемого значения критерия- χ 2 3 Разряды nei nti nei − nti nei − nti − 0.5 1. ne1 n 2 ne1 − n 2 ne1 − n 2 − 0,5 2. ne 2 n 2 ne 2 − n 2 ne 2 − n 2 − 0,5 Суммы n n (n ei − nti − 0.5) 2 (n ei − nti − 0.5) nti 2 χ e2 nei - эмпирические частоты; nti - теоретические частоты: nti = n . k В последней строке вычисляют указанные суммы для контроля. Контроль: 1) n = ne1 + ne 2 ; 2) n = nt1 + nt 2 = n 2 + n 2 . Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с. χ e2 4. По числу степеней свободы df = k − 1 и по уровню значимости и статистики χ e2 с помощью программы GRETL находят p-value для правостороннего one-tailed теста. 5. По значению p-value, куда попадает χ e2 и формулируют ответ. При p>.05 нет оснований отклонить нулевую гипотезу H 0 . Нулевая гипотеза отклоняется и принимается альтернативная гипотеза H 1 , если p ≤ .05. Пример 1 На вопрос: „Какие эмоции и чувства вызывает у Вас реклама пива «ПИТ» были получены ответы: Таблица 13.2.3 Результаты опроса Ответ a) Раздражение b) Безразличие c) Восторг Число ответов 20 17 8 33 Хили, Д. (2005). Статистика. Социологические и маркетинговые исследования. Под ред. Руденко А.А. Киев: ООО «ДиаСофтЮП». С.341. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 274 Являются ли ответы случайными? Может быть нет различия в восприятии рекламы пива «ПИТ»? Решение Теоретические частоты в данном случае равны nti = n , где k = 3 – число вариантов k ответов, n = 45 – число наблюдений. В нашем случае nti = 45 = 15 . 3 Гипотезы: H 0 : Распределение восприятия рекламы пива «ПИТ» имеет случайные отличия от равномерного распределения. H 1 : Распределение восприятия рекламы пива «ПИТ» отличается от равномерного распределения закономерно. Таблица 13.2.4 Вычисление наблюдаемого значения критерия- χ 2 Разряды a) b) c) nei 20 17 8 nti 15 15 15 nei − nti 5 2 -7 Суммы 45 45 (nei − nti )2 25 4 49 (nei − nti )2 nti 1.6667 0.2667 3.2667 χ e2 =5.20 Контроль: 1) n = 20 + 17 + 8 = 45 ; 2) n = 15 + 15 + 15 = 45 ; k 3) ∑ (n i =1 ei − nti ) = 5 + 2 − 7 = 0 . Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 275 Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с χ e2 =5.20. Число степеней свободы равно df = 3 − 1 = 2 . C помощью программы GRETL находим для правостороннего one-tailed теста p = .074 > .05. Нет оснований отклонить нулевую гипотезу. Ответ. Отличия распределения восприятия рекламы пива «ПИТ» от равномерного распределения не выявлено. Неодинаковое число данных ответов можно объяснить случайностями. Или χ2(2, N=45)=5.20, p=.074, ns. Решение с помощью SPSS Файл с данными Pivo_PIT_reklama.xlsx. Для решения данной задачи на SPSS исходные данные должны быть представлены в виде двух столбцов: «шифр респондента [kod]» и номинальной переменной «Восприятие [v]», для которой должны быть описаны разряды «Раздражение [1]», «Безразличие [2]», «Восторг [3]» (Рис.13.2.6-13.2.7). Рис.13.2.6. Описание переменных Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 276 Рис.13.2.7. Ввод данных Данные должны быть в наличии с самого начала. По ним строится Таблица 13.2.3. Но так как в данной задаче исходных данных нет, то их можно «восстановить», сконструировав Таблицу 13.2.5, используя данные Таблицы 13.2.3. Таблица 13.2.5 Результаты опроса kod k1 k2 k3 k4 k5 k6 k7 k8 k9 k10 k11 k12 k13 k14 k15 k16 k17 k18 k19 k20 v 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 kod k21 k22 k23 k24 k25 k26 k27 k28 k29 k30 k31 k32 k33 k34 k35 k36 k37 v 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 kod k38 k39 k40 k41 k42 k43 k44 k45 v 3 3 3 3 3 3 3 3 После ввода данных: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 277 Analyze Nonparametric Tests Chi-Square … В появившемся диалоговом окне перенести переменную Vosprijatie [v] в окно Test Variable List (Рис.13.2.8). Рис.13.2.8. Диалоговое окно теста Chi-Square – сравнение с равномерным распределением. OK Выходная информация: Chi-Square Test Frequencies Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 278 Таблица 13.2.6 Построенная в SPSS таблица результатов опроса с теоретическими частотами и разностями частот Observed N Expected N Residual razdrazhenie bezrazlichie vostorg Total 20 17 8 45 15.0 15.0 15.0 5.0 2.0 -7.0 Таблица 13.2.7 Статистики теста χ 2 (Test Statistics) Vosprijatie Chi-Square df Asymp. Sig. 5.200a 2 .074 a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 15.0. В верхней строчке - наблюдаемое значение критерия χ e2 =5.200; Во второй строке – число степеней свободы df=2; В третьей строке – р-вероятность, равная .074>.05, которая говорит о том, что отличия от равномерного распределения не выявлено: χ2(2, N=45)=5.20, p=.074. Под таблицей сообщение о том, что минимальная ожидаемая (теоретическая) частота в ячейках равна 15, что нет ни одной ячейки с теоретической частотой, меньшей 5. Результаты совпадают с результатами, полученными вручную. Пример 2. (С „поправкой на непрерывность”) Из опрошенных n=91 респондента 63 респондентов категорически против введения смертной казни, а 28 – за. Сравнить распределение ответов с равномерным распределением. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 279 Гипотезы: H 0 : Распределение ответов имеет случайные отличия от равномерного распределения. H 1 : Распределение ответов отличается от равномерного распределения закономерно. В нашем случае количество разрядов признака k=2, имеются лишь две группы ответов. Поэтому надо учесть „поправку на непрерывность”. Таблица 13.2.8 Вычисление наблюдаемого значения критерия- χ 2 Разряды nei nti nei − nti nei − nti − 0.5 a) против b) за 63 28 45.5 45.5 17.5 17.5 17 17 Суммы 91 91 (n ei − nti − 0.5) 2 (n ei 289 289 − nti − 0.5) nti 2 6.352 6.352 χ e2 =12.70 В последней строке указаны суммы для контроля. Контроль: 1) n = 63 + 28 = 91 ; 2) n = 45,5 + 45,5 = 91 . Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с χ e2 =12.70. Число степеней свободы равно df = 2 − 1 = 1 . C помощью программы GRETL находим для правостороннего one-tailed теста p = .000 < .001. Нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Ответ. Число респондентов, которые «против» введения смертной казни превышает число респондентов, которые «за». Распределение ответов закономерно отличается от равномерного распределения. Полученный результат статистически значим. Уровень значимости р < .001 . Или χ2(1, N=91) = 12.70, p < .001. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 280 Решение с помощью SPSS Файл с данными Smertnaja_Kaznj.xlsx. Для решения данной задачи на SPSS исходные данные должны быть представлены в виде двух столбцов: «шифр респондента [kod]» и номинальной переменной «Отношение [otn]», для которой должны быть описаны разряды «protiv [1]», «za [2]». Ввод данных и заказ теста такие же, как и в Примере 1. Выходная информация: Chi-Square Test Frequencies Таблица 13.2.9 Построенная в SPSS таблица результатов опроса с теоретическими частотами и разностями частот против за Total Observed N Expected N Residual 63 28 91 45.5 45.5 17.5 -17.5 Таблица 13.2.10 Статистики теста χ 2 (Test Statistics) otn Chi-Square df Asymp. Sig. 13.462a 1 .000 a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 45.5. В верхней строчке - наблюдаемое значение критерия χ e2 =13.462; Во второй строке – число степеней свободы df=1; В третьей строке – р-вероятность, равная .000<.001, которая говорит о том, что выявлено максимально значимое отличие от равномерного распределения. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 281 Под таблицей сообщение о том, что минимальная ожидаемая (теоретическая) частота в ячейках равна 45.5, что нет ни одной ячейки с теоретической частотой, меньшей 5. Результаты немного отличаются от результатов, полученных вручную: χ2(1, N=91)=13.46, p=.000<.001. Программа SPSS не учитывает «поправки на непрерывность». 13.3. Сравнение двух эмпирических распределений Число распределений m=2. Если количество разрядов признака k>2, то наблюдаемое значение критерия можно вычислить по формуле (13.1.1). Если n – число наблюдений, то справедливы равенства: n = ne1 + ne 2 + L ne 2 k и n = nt1 + nt 2 + L nt 2 k , 2k ∑ (n i =1 ei − nti ) = 0 , которые используются для контроля. Также справедливо равенство: Если число разрядов признака k=2, то следует учитывать „поправку на непрерывность” и будет справедлива формула (13.3.2). k Также справедливо равенство: ∑ (nei − nti ) = 0 , которое используется для контроля. i =1 Пример 3 Проверить, связан ли выборов фигур с тревожностью. Исходные данные: Низкая тревожность Высокая тревожность Треугольник Круг 10 5 72 10 Выбираемые фигуры Квадрат Зигзаг 12 11 Прямоугольник 6 47 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 8 19 282 Для решения этой задачи можно выделить две группы участников: с высокой и низкой тревожностью и проверить, отличаются ли распределения выборов фигур у участников с высокой и низкой тревожностью случайно или закономерно. Построим таблицу сопряженности (Таблица 13.3.1). Таблица 13.3.1 Распределения выборов геометрических фигур старшеклассников в зависимости от их уровня тревожности Низкая тревожность Высокая тревожность Суммы Треуголь ник Круг Выбираемые фигуры Квадрат Зигзаг Суммы Прямоуголь ник 1 2 3 4 5 1 10 72 12 6 8 108 2 5 10 11 47 19 92 15 82 23 53 27 n=200 Рас пределение выборов фигур Количество выборов, % 70 60 50 40 30 20 10 1 2 3 4 5 Фигу ры: 1-Tреугольник; 2-Круг; 3-Kвадрат; 4-Зигзаг; 5-Прямоу гольник Низкая тревожность Высокая тревожность Рис.13.3.1. Диаграмма, распределения выборов фигур, построенная в Excel Число всех наблюдений n=200. Количество разрядов признака k=5>2. Число человек с низкой тревожностью Σ1 =108; Число человек с высокой тревожностью Σ 2 =92. Контроль: Σ1 + Σ 2 =108+92=200. Число выборов в группе с низкой тревожностью: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 283 Треугольник - 10; круг - 72; квадрат - 12; зигзаг - 6; прямоугольник – 8. Сумма 10+72+12+6+8=108= Σ1 . Число выборов в группе с высокой тревожностью: Треугольник - 5; круг - 10; квадрат - 11; зигзаг - 47; прямоугольник– 19. Сумма 5+10+11+47+19=92= Σ 2 . Число выборов по фигурам: Треугольник - n1 =10+5=15; круг - n 2 =72+10=82; квадрат - n3 =12+11=23; зигзаг - n 4 =6+47=53; прямоугольник – n5 =8+19=27. Контроль: n1 + n2 + n3 + n4 + n5 =15+82+23+53+27=200. Гипотезы: H 0 : Распределения выборов фигур у участников с высокой и низкой тревожностью имеют случайные отличия друг от друга. Выбор фигур и тревожность не связаны. H 1 : Распределения выборов фигур у участников с высокой и низкой тревожностью друг от друга отличаются закономерно. Выбор фигур и тревожность связаны. С помощью Таблицы 13.3.2 можно вычислить теоретические частоты: nti = ( Сумма частот строки ) ⋅ ( Сумма частот столбца ) n . Таблица 13.3.2 Вычисление теоретических частот Разряд 1-1 1-2 1-3 1-4 1-5 Теоретические частоты 15 ⋅ 108 nt 1 = = 8.1 200 82 ⋅ 108 nt 2 = = 44.28 200 23 ⋅ 108 nt 3 = = 12.42 200 53 ⋅ 108 nt 4 = = 28.62 200 27 ⋅ 108 nt 5 = = 14.58 200 Разряд 2-1 2-2 2-3 2-4 2-5 nt 6 nt 7 nt 8 nt 9 nt 1 Теоретические частоты 15 ⋅ 92 = = 6.9 200 82 ⋅ 92 = = 37.72 200 23 ⋅ 92 = = 10.58 200 53 ⋅ 92 = = 24.38 200 27 ⋅ 92 = = 12.42 200 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 284 Таблица 13.3.3 Вычисление наблюдаемого значения критерия- χ 2 Разряд nei 1-1 1-2 1-3 1-4 1-5 2-1 2-2 2-3 2-4 2-5 Суммы 10 72 12 6 8 5 10 11 47 19 200 nei − nti nti (nei − nti )2 (nei − nti )2 nti 8.10 44.28 12.42 28.62 14.58 6.90 37.72 10.58 24.38 12.42 200 1.90 27.72 -0.42 -22.62 -6.58 -1.90 -27.72 0.42 22.62 6.58 3.6100 768.3984 0.1764 511.6644 43.2964 3.6100 768.3984 0.1764 511.6644 43.2964 0.446 17.353 0.014 17.878 2.970 0.523 20.371 0.017 20.987 3.486 χ e2 =84.04 Контроль: 1) Сумма 2-ого столбца: n = ne1 + ne 2 + L + ne10 = 200 ; 2) Сумма 3-ого столбца: n = nt1 + nt 2 + L + nt10 = 200 ; 3) Сумма 4-ого столбца: 10 ∑ (n i =1 ei − nti ) = 0 . Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : с χ e2 =84.04. Число степеней свободы равно df = ( k − 1)( m − 1) = ( 5 − 1)( 2 − 1) = 4 . C помощью программы GRETL находим для правостороннего one-tailed теста p = .000 < .001. Нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Ответ. Распределения выборов фигур у участников с высокой и низкой тревожностью друг от друга отличаются закономерно. χ2(4, N=200)=84.04, p<.001. Выбор фигур связан с тревожностью. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 285 Решение с помощью SPSS Файл с данными Trevozhnostj_Figuri.xlsx. Для решения данной задачи на SPSS исходные данные должны быть представлены в виде трех столбцов: «шифр респондента [kod]», номинальной переменной «Тревожность [t]», с двумя разрядами «nizkaja [1]», «visokaja [2]», и номинальной переменной «Figura [f]» c пятью разрядами «треугольник [1]», «круг [2]», «квадрат [3]», «зигзаг [4]», «прямоугольник [5]» (Рис.13.3.2-13.3.2). Рис.13.3.2. Описание переменных Рис.13.3.3. Ввод данных Данные должны быть в наличии с самого начала. По ним строится Таблица 13.3.1. Но так как в данной задаче исходных данных нет, то их можно «восстановить», сконструировав Таблицу 13.3.4, используя данные Таблицы 13.3.1. После ввода данных: Analyze Descriptive Statistics Crosstabs … В появившемся диалоговом окне Crosstabs перенести переменную Figura [f] в окно Row(s), а переменную Trevozhnostj [t] - в окно Column(s). Поставить галочку в окошке Display clustered bar charts (Рис.13.3.4). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 286 Таблица 13.3.4 Фигура Тревожность Шифр Фигура Тревожность Шифр Фигура Тревожность Шифр Фигура Тревожность Шифр Фигура Тревожность Шифр Результаты опроса k1 1 1 k41 1 2 k81 1 2 k121 2 2 k161 2 4 k2 1 1 k42 1 2 k82 1 2 k122 2 2 k162 2 4 k3 1 1 k43 1 2 k83 1 3 k123 2 2 k163 2 4 k4 1 1 k44 1 2 k84 1 3 k124 2 3 k164 2 4 k5 1 1 k45 1 2 k85 1 3 k125 2 3 k165 2 4 k6 1 1 k46 1 2 k86 1 3 k126 2 3 k166 2 4 k7 1 1 k47 1 2 k87 1 3 k127 2 3 k167 2 4 k8 1 1 k48 1 2 k88 1 3 k128 2 3 k168 2 4 k9 1 1 k49 1 2 k89 1 3 k129 2 3 k169 2 4 k10 1 1 k50 1 2 k90 1 3 k130 2 3 k170 2 4 k11 1 2 k51 1 2 k91 1 3 k131 2 3 k171 2 4 k12 1 2 k52 1 2 k92 1 3 k132 2 3 k172 2 4 k13 1 2 k53 1 2 k93 1 3 k133 2 3 k173 2 4 k14 1 2 k54 1 2 k94 1 3 k134 2 3 k174 2 4 k15 1 2 k55 1 2 k95 1 4 k135 2 4 k175 2 4 k16 1 2 k56 1 2 k96 1 4 k136 2 4 k176 2 4 k17 1 2 k57 1 2 k97 1 4 k137 2 4 k177 2 4 k18 1 2 k58 1 2 k98 1 4 k138 2 4 k178 2 4 k19 1 2 k59 1 2 k99 1 4 k139 2 4 k179 2 4 k20 1 2 k60 1 2 k100 1 4 k140 2 4 k180 2 4 k21 1 2 k61 1 2 k101 1 5 k141 2 4 k181 2 4 k22 1 2 k62 1 2 k102 1 5 k142 2 4 k182 2 5 k23 1 2 k63 1 2 k103 1 5 k143 2 4 k183 2 5 k24 1 2 k64 1 2 k104 1 5 k144 2 4 k184 2 5 k25 1 2 k65 1 2 k105 1 5 k145 2 4 k185 2 5 k26 1 2 k66 1 2 k106 1 5 k146 2 4 k186 2 5 k27 1 2 k67 1 2 k107 1 5 k147 2 4 k187 2 5 k28 1 2 k68 1 2 k108 1 5 k148 2 4 k188 2 5 k29 1 2 k69 1 2 k109 2 1 k149 2 4 k189 2 5 k30 1 2 k70 1 2 k110 2 1 k150 2 4 k190 2 5 k31 1 2 k71 1 2 k111 2 1 k151 2 4 k191 2 5 k32 1 2 k72 1 2 k112 2 1 k152 2 4 k192 2 5 k33 1 2 k73 1 2 k113 2 1 k153 2 4 k193 2 5 k34 1 2 k74 1 2 k114 2 2 k154 2 4 k194 2 5 k35 1 2 k75 1 2 k115 2 2 k155 2 4 k195 2 5 k36 1 2 k76 1 2 k116 2 2 k156 2 4 k196 2 5 k37 1 2 k77 1 2 k117 2 2 k157 2 4 k197 2 5 k38 1 2 k78 1 2 k118 2 2 k158 2 4 k198 2 5 k39 1 2 k79 1 2 k119 2 2 k159 2 4 k199 2 5 k40 1 2 k80 1 2 k120 2 2 k160 2 4 k200 2 5 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 287 Рис.13.3.4. Диалоговое окно теста Crosstabs – сравнение двух эмпирических распределений. Statistics… В появившемся диалоговом окне Crosstabs: Statistics поставить галочку в окошке Chi-square (Рис.13.3.5). Рис.13.3.5. Диалоговое окно теста Crosstabs: Statistics Continue OK Выходная информация: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 288 Crosstabs Таблица 13.3.5 Обработанные наблюдения (Case Processing Summary) Cases Valid Figura * Trevozhnostj Missing Total N Percent N Percent N Percent 200 100.0% .0% 200 100.0% Таблица 13.3.6 Построенная в SPSS таблица результатов опроса (Figura * Trevozhnostj Crosstabulation) Count Trevozhnostj Figura nizkaja visokaja Total treugoljnik 10 5 15 krug 72 10 82 kvadrat 12 11 23 zigzag 6 47 53 prjamougoljnik Total 8 108 19 92 27 200 Таблица 13.3.7 Статистики тестов χ 2 (Chi-Square Tests) Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases a 84.045 93.979 59.902 df Asymp. Sig. (2-sided) 4 4 1 .000 .000 .000 200 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 6.90. В верхней строчке: Value- наблюдаемое значение критерия χ e2 =84.045; число степеней свободы df=4; Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 289 р-вероятность, равная .000<.001, которая говорит о том, что распределения отличаются статистически значимо. Выявлена связь между тревожностью и выбором фигур. Под таблицей сообщение о том, что минимальная ожидаемая (теоретическая) часота в ячейках равна 6.90, что нет ни одной ячейки с теоретической частотой, меньшей 5. Таким образом, принимаем альтернативную гипотезу: χ2(4, N=200)=84.04, p=.000<.001. Графические иллюстрации, полученные в SPSS (Рис.13.3.7-13.3.8). Рисунки отредактированы в SPSS. Рис.13.3.6. Распределения участников с высокой и низкой тревожностями по выборам фигур Рис.13.3.7. Распределения выборов фигур испытуемыми с высокой и низкой тревожностями Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 290 Диаграмма распределения участников с высокой и низкой тревожностями по выборам фигур (Рис.13.3.6) получается автоматически по заказу - галочка в окне Display clustered bar charts (Рис.13.3.4). Для получения диаграммы распределения выборов фигур испытуемыми с высокой и низкой тревожностями (Рис.13.3.7) в диалоговом окне Crosstabs переменную Trevozhnostj [t] надо перенести в окно Row(s), а переменную Figura [f] - в окно Column(s) (Рис.13.3.4). Результаты совпадают с результатами, полученными вручную. Пример 4 (С „поправкой на непрерывность”) Было опрошено n=250 участников с низким и высоким уровнями интеллекта (IQ). Им были предложены два вида рекламы: абстрактная и образная. Результаты опроса представлены в Таблице 22. Сравнить распределения выборов рекламы у участников с низким IQ и высоким IQ. Таблица 13.3.8. Распределения выборов рекламы Низкий IQ Высокий IQ Суммы 1 2 ВИДЫ РЕКЛАМЫ Абстрактная Образная 1 2 12 82 93 63 105 145 Суммы 94 156 n=250 Число всех наблюдений n=250. Количество разрядов признака k=2. Количество участников с низким IQ Σ1 =94; количество участников с высоким IQ Σ 2 =156. Контроль: Σ1 + Σ 2 =94+156=250. Количество выборов в группе с низким IQ: Абстрактная реклама - 12; образная реклама - 82. Сумма 12+82=94= Σ1 . Количество выборов в группе с высоким IQ: Абстрактная реклама - 93; образная реклама - 63. Сумма 93+63=156= Σ 2 . Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 291 Число выборов по видам рекламы: Абстрактная реклама - n1 =12+93=105; образная реклама - n 2 =82+63=145. Kонтроль: n1 + n 2 =105+145=250. Гипотезы: H 0 : Распределения выборов рекламы у участников с высоким IQ и низким IQ имеют случайные отличия друг от друга. H 1 : Распределения выборов рекламы у участников с высоким IQ и низким IQ друг от друга отличаются закономерно. С помощью Таблицы 13.3.9 можно вычислить теоретические частоты: nti = ( Сумма частот строки ) ⋅ ( Сумма частот столбца ) . n Таблица 13.3.9 Вычисление теоретических частот Разряды 1-1 1-2 Теоретические частоты 105 ⋅ 94 nt1 = = 39.48 250 145 ⋅ 94 nt 2 = = 54.52 250 Разряды 2-1 Теоретические частоты 105 ⋅156 nt 3 = = 65.52 250 145 ⋅156 nt 4 = = 90.48 250 2-2 Количество разрядов признака k=2, имеются лишь две группы ответов. Поэтому надо учесть „поправку на непрерывность”. Таблица 13.3.10 Вычисление наблюдаемого значения критерия- χ 2 Разряды nei nti nei − nti nei − nti − 0.5 1-1 1-2 2-1 2-2 Суммы 12 82 93 63 39.48 54.52 65.52 90.48 27.48 27.48 27.48 27.48 26.98 26.98 26.98 26.98 250 250 (n ei − nti − 0.5) 2 727.9204 727.9204 727.9204 727.9204 (n ei − nti − 0.5) nti 2 18.438 13.351 11.110 8.045 2 χ e =50.94 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 292 В последней строке Таблицы 13.3.10 указаны суммы для контроля. Контроль: 1) Сумма 2-ого столбца: n = ne1 + ne 2 + ne 3 + ne 4 = 250 ; 2) Сумма 3-ого столбца: n = nt1 + nt 2 + nt 3 + nt 4 = 250 . Сумма последнего столбца совпадает с наблюдаемым значением критерия- χ 2 : χ e2 =50.94. Число степеней свободы равно df = ( k − 1)( m − 1) = ( 2 − 1)( 2 − 1) = 1 . C помощью программы GRETL находим для правостороннего one-tailed теста p = .000 < .001. Нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Ответ. Распределения выборов рекламы у участников с высоким IQ и низким IQ друг от друга отличаются закономерно. χ2(1, N=250)=50.94, p<.001. Выбор рекламы связан с IQ. Решение с помощью SPSS Файл с данными Reklama_IQ.xlsx. Для решения данной задачи на SPSS исходные данные должны быть представлены в виде трех столбцов: «шифр респондента [kod]», номинальной переменной «IQ [iq]», с двумя разрядами «nizkij [1]», «visokij [2]» и номинальной переменной «Reklama [r]» c двумя разрядами «abstraktnaja [1]», «obraznaja [2]» (Рис.13.3.8-13.3.9). Рис.13.3.8. Описание переменных Рис.13.3.9. Ввод данных Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 293 Данные можно «восстановить», используя данные Таблицы 13.3.8, по аналогии с Примером 3. После ввода данных: Analyze Descriptive Statistics Crosstabs … В появившемся диалоговом окне Crosstabs перенести переменную IQ [iq] в окно Row(s), а переменную Reklama [r] - в окно Column(s). Поставить галочку в окошке Display clustered bar charts. Statistics… В появившемся диалоговом окне Crosstabs: Statistics поставить галочку в окошке Chi-square. Continue OK Выходная информация: Crosstabs Таблица 13.3.11 Обработанные наблюдения (Case Processing Summary) Cases Valid N Percent IQ * Reklama 250 Missing N Percent 100.0% .0% Total N Percent 250 100.0% Таблица 13.3.12 Построенная в SPSS таблица результатов опроса (IQ * Reklama Crosstabulation) Count Reklama IQ Total abstraktnaja obraznaja Total nizkij 12 82 94 visokij 93 105 63 145 156 250 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 294 Таблица 13.3.13 Статистики тестов χ 2 (Chi-Square Tests) Value a Pearson Chi-Square Continuity Correctionb Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases 52.850 50.944 57.890 52.638 df Asymp. Sig. (2-sided) 1 1 1 .000 .000 .000 1 Exact Sig. (2-sided) Exact Sig. (1-sided) .000 .000 .000 250 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 39.48. b. Computed only for a 2x2 table В верхней строчке: Value- наблюдаемое значение критерия χ e2 =52.850; число степеней свободы df=1; р-вероятность, равная .000<.001, которая говорит о том, что распределения отличаются статистически значимо. Выявлена связь между IQ и выбором рекламы. Под таблицей сообщение о том, что минимальная ожидаемая (теоретическая) частота в ячейках равна 39.48, что нет ни одной ячейки с теоретической частотой, меньшей 5. Таким образом, нулевая гипотеза отклоняется и принимается альтернативная гипотеза: χ2(1, N=250)=52.85, p=.000<.001. Графические иллюстрации, полученные в SPSS (Рис.13.3.10-13.3.11). Рисунки отредактированы в SPSS. Диаграмма распределения участников с высоким и низким IQ по выборам рекламы (Рис.13.3.10) получается строится автоматически по заказу - галочка в окошке Display clustered bar charts. Для получения диаграммы распределения выборов рекламы испытуемыми с высоким и низким IQ (Рис.13.3.11) в диалоговом окне Crosstabs переменную IQ [iq] надо перенести в окно Row(s), а переменную Reklama [r] - в окно Column(s). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 295 Результаты расчета статистики немного отличаются от результатов, полученных вручную. SPSS не учитывает «поправку на непрерывность». Рис.13.3.10. Распределения участников с высоким и низким IQ по выборам рекламы Рис.13.3.11. Распределения выборов рекламы испытуемыми с высоким и низким IQ 14. Исследование выборов терминальных ценностей (ТЦ) по М. Рокичу Терминальными ценностями по М.Рокичу являются следующие 18 ценностей: t1 активная, деятельная жизнь; жизненная мудрость (зрелость суждений и здравый смысл, достигаемые t2 жизненным опытом); t3 здоровье (физическое и психическое здоровье); t4 интересная работа; t5 красота природы и искусства t6 любовь (духовная и физическая близость) t7 материально обеспеченная жизнь (отсутствие материальных затруднений) t8 наличие хороших и верных друзей; t9 общественное признание познание (возможность расширения своего образования, кругозора, общей t10 культуры, интеллектуальное развитие); t11 продуктивная жизнь; Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 296 t12 развитие; t13 развлечения; t14 свобода; t15 счастливая семейная жизнь; t16 счастье других; t17 творчество; t18 уверенность в себе Исследовалось, какие именно ценности предпочитают люди переживающие одиночество (выборка G1, 30 участников) и не переживающие одиночество (выборка G2, 30 участников). Исходные данные представлены в файле Data_Chi_Rokich.xlsx. Испытуемым было предложено проранжировать ценности по отношению их важности для себя. Ранг 1 соответствовал наиболее важной ценности, а ранг 18 – наименее важной. Для решения данной задачи на SPSS исходные данные должны быть представлены в виде 20 столбцов: «шифр участника [kod]», номинальной переменной «Group [gr]», с двумя разрядами «G1 [1]», «G2 [2]» и порядковыми переменными t1, t2, …, t18 (Рис.14.1). Рис.14.1. Описание переменных. Фрагмент Рис.14.2. Ввод данных. Фрагмент Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 297 Если разбить группу из 18 рангов на квартили, то точные значения квартилей4 Q1=4.75 и Q3=14.25. Значения рангов, меньших, чем 5, будет составлять группу наиболее важных ценностей. Значения рангов от 5 до 14 составляют группу ценностей средней важности, а значения рангов, больших, чем 14, будет составлять группу наименее важных ценностей. Сравнивались распределения ценностей, имеющих ранги от одного до четырех (первая квартильная группа – наиболее важные ценности) в выборках G1 и G2. Статистическая значимость полученных результатов проверялась с помощью критерия «Хи-квадрат» Пирсона. Analyze Descriptive Statistics Frequencies… Рис.14.3. Заказ частотных таблиц OK С помощью полученных частотных таблиц были составлены Таблицы 14.1-14.2. Распределение ценностей по первым четырем рангам представлены Таблицами 14.3-14.4. Таблицы 14.3-14.4 объединены в Таблицу 14.5. Наследов, А.Д. (2004). Математические методы психологического исследования. Анализ и интерпретация данных. СПб: Речь. С. 43 4 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 298 Таблица 14.1 Распределения терминальных ценностей в выборке переживающих одиночество G1 t10 t11 t12 t13 t14 t15 t16 t17 t18 Суммы G1 t1 t2 t3 t4 t5 t6 t7 t8 t9 1 1 2 1 8 5 4 1 1 1 6 1 31 2 3 3 3 5 2 5 2 2 3 1 4 33 3 2 1 2 1 5 2 3 2 2 1 1 3 1 1 27 4 1 5 2 2 2 1 5 1 1 2 2 5 3 32 5 1 3 1 1 2 3 2 3 1 1 3 1 2 3 2 29 6 1 2 2 1 1 2 2 2 8 2 2 2 1 3 31 7 4 3 1 1 1 2 2 2 3 4 2 2 1 28 8 3 1 2 3 1 2 2 1 4 2 4 2 2 1 1 5 36 9 5 3 2 1 1 2 2 1 3 3 2 1 3 29 10 4 2 1 2 3 2 2 2 4 1 2 1 26 11 1 3 2 1 1 2 1 2 6 4 1 1 3 1 3 32 12 3 2 1 1 1 3 1 3 3 1 3 1 1 1 1 26 13 2 2 5 1 1 1 5 2 3 1 2 3 3 31 14 7 6 1 2 1 2 4 1 8 2 1 2 37 15 1 3 1 3 1 2 2 2 1 2 1 2 2 1 24 16 2 1 1 6 1 2 2 5 6 4 30 17 1 8 2 1 8 3 2 5 6 36 18 2 1 2 2 5 10 22 Суммы 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 540 Таблица 14.2 Распределения терминальных ценностей в выборке непереживающих одиночество G2 G2 t1 t2 t3 t4 t5 t6 t7 t8 t9 1 8 2 5 1 1 6 1 2 1 2 1 30 2 2 6 8 2 2 2 1 1 1 1 1 1 2 30 3 8 3 6 3 3 1 1 1 2 3 31 4 5 4 2 2 8 2 2 1 2 1 1 30 5 1 1 3 3 3 1 1 1 3 1 1 3 3 1 5 31 6 3 1 1 4 2 2 4 3 1 4 3 1 3 32 7 4 3 1 5 3 3 4 1 2 1 3 30 8 1 1 2 1 4 1 2 1 5 3 1 1 5 2 30 t10 t11 t12 t13 t14 t15 t16 t17 t18 Суммы 9 1 4 3 3 3 3 2 1 1 5 1 1 2 30 10 1 1 3 1 2 1 1 2 2 7 1 3 2 2 29 11 1 1 1 1 1 1 8 1 5 3 2 3 1 29 12 1 1 1 1 1 1 3 4 2 4 2 3 2 1 4 31 13 3 3 4 2 4 3 1 3 6 1 2 32 14 1 4 1 3 6 4 1 2 3 1 1 1 28 15 1 5 1 8 1 1 1 1 2 2 4 3 5 1 1 37 16 1 2 1 7 1 1 3 2 3 5 1 27 17 1 1 3 2 3 6 9 25 18 3 1 1 1 3 5 14 28 Суммы 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 540 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 299 Таблица 14.3 Распределения терминальных ценностей, попавших на 1-4 место в выборке переживающих одиночество G1 G1 t1 t2 t3 t4 t5 t6 t7 t8 t9 1 1 2 1 8 5 4 1 1 1 6 1 31 2 3 3 3 5 2 5 2 2 3 1 4 33 3 2 1 2 1 5 2 3 2 2 1 1 3 1 1 27 4 1 5 2 2 2 1 5 1 1 2 2 5 3 32 Суммы 6 5 12 3 3 20 10 17 3 3 2 4 1 6 17 1 1 9 123 t10 t11 t12 t13 t14 t15 t16 t17 t18 Суммы Таблица 14.4 Распределения терминальных ценностей, попавших на 1-4 место, в выборке непереживающих одиночество G2 G2 t1 t2 t3 t4 t5 t6 t7 t8 t9 1 8 2 5 1 1 6 1 2 1 2 1 30 2 2 6 8 2 2 2 1 1 1 1 1 1 2 30 3 8 3 6 3 3 1 1 1 2 3 31 4 5 4 2 2 8 2 2 1 2 1 1 30 Суммы 23 2 13 21 1 3 13 14 4 1 3 4 1 4 4 2 2 6 121 t10 t11 t12 t13 t14 t15 t16 t17 t18 Суммы Таблица 14.5. Распределения терминальных ценностей по М. Рокичу, попавших на 1-4 место, в выборках людей, субъективно переживающих одиночество (G1) и непереживающих одиночество (G2) t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12 t13 t14 t15 t16 t17 t18 6 5 12 3 3 20 10 17 3 3 2 4 1 G1 G2 23 2 13 21 1 3 13 14 4 1 3 4 1 Суммы 29 7 25 24 4 23 23 31 7 4 5 8 2 6 Суммы 9 123 2 6 121 3 15 244 17 1 1 4 4 2 10 21 3 По Таблице 14.5 составим файл данных TermCen.sav. Данные должны быть представлены в виде двух столбцов: номинальной переменной «Group [gr]», с двумя разрядами «G1 [1]», «G2 [2]» и номинальной переменной «TC [tcen]» c 18 разрядами «t1 [1]», «t1 [2]» (Рис.14.4). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 300 Рис.14.4. Описание переменных Рис.14.5. Ввод данных. Фрагмент Данные можно «восстановить», сконструировав Таблицу 14.5, используя данные Таблицы 14.6. Сравнение двух эмпирических распределений с равномерным распределением Гипотезы: 1-ая группа H 0 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у участников, переживающих одиночество, имеет случайные отличия от равномерного распределения. H 1 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у участников, переживающих одиночество, отличается от равномерного распределения закономерно. 2-ая группа H 0 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у участников, непереживающих одиночество, имеет случайные отличия от равномерного распределения. H 1 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у участников, непереживающих одиночество, отличается от равномерного распределения закономерно. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 301 Таблица 14.6 Выбираемые на 1-4 место терминальные ценности Nr Gr TC Nr Gr TC Nr Gr TC Nr Gr TC Nr Gr TC Nr Gr TC 1 1 1 42 1 6 83 1 11 124 2 1 165 2 4 206 2 8 2 1 1 43 1 6 84 1 11 125 2 1 166 2 4 207 2 8 3 1 1 44 1 6 85 1 12 126 2 1 167 2 4 208 2 8 4 1 1 45 1 6 86 1 12 127 2 1 168 2 4 209 2 8 5 1 1 46 1 6 87 1 12 128 2 1 169 2 4 210 2 8 6 1 1 47 1 6 88 1 12 129 2 1 170 2 4 211 2 8 7 1 2 48 1 6 89 1 13 130 2 1 171 2 4 212 2 8 8 1 2 49 1 6 90 1 14 131 2 1 172 2 4 213 2 8 9 1 2 50 1 7 91 1 14 132 2 1 173 2 4 214 2 9 10 1 2 51 1 7 92 1 14 133 2 1 174 2 4 215 2 9 11 1 2 52 1 7 93 1 14 134 2 1 175 2 4 216 2 9 12 1 3 53 1 7 94 1 14 135 2 1 176 2 4 217 2 9 13 1 3 54 1 7 95 1 14 136 2 1 177 2 4 218 2 10 14 1 3 55 1 7 96 1 15 137 2 1 178 2 4 219 2 11 15 1 3 56 1 7 97 1 15 138 2 1 179 2 4 220 2 11 16 1 3 57 1 7 98 1 15 139 2 1 180 2 4 221 2 11 17 1 3 58 1 7 99 1 15 140 2 1 181 2 4 222 2 12 18 1 3 59 1 7 100 1 15 141 2 1 182 2 4 223 2 12 19 1 3 60 1 8 101 1 15 142 2 1 183 2 5 224 2 12 20 1 3 61 1 8 102 1 15 143 2 1 184 2 6 225 2 12 21 1 3 62 1 8 103 1 15 144 2 1 185 2 6 226 2 13 22 1 3 63 1 8 104 1 15 145 2 1 186 2 6 227 2 14 23 1 3 64 1 8 105 1 15 146 2 1 187 2 7 228 2 14 24 1 4 65 1 8 106 1 15 147 2 2 188 2 7 229 2 14 25 1 4 66 1 8 107 1 15 148 2 2 189 2 7 230 2 14 26 1 4 67 1 8 108 1 15 149 2 3 190 2 7 231 2 15 27 1 5 68 1 8 109 1 15 150 2 3 191 2 7 232 2 15 28 1 5 69 1 8 110 1 15 151 2 3 192 2 7 233 2 15 29 1 5 70 1 8 111 1 15 152 2 3 193 2 7 234 2 15 30 1 6 71 1 8 112 1 15 153 2 3 194 2 7 235 2 16 31 1 6 72 1 8 113 1 16 154 2 3 195 2 7 236 2 16 32 1 6 73 1 8 114 1 17 155 2 3 196 2 7 237 2 17 33 1 6 74 1 8 115 1 18 156 2 3 197 2 7 238 2 17 34 1 6 75 1 8 116 1 18 157 2 3 198 2 7 239 2 18 35 1 6 76 1 8 117 1 18 158 2 3 199 2 7 240 2 18 36 1 6 77 1 9 118 1 18 159 2 3 200 2 8 241 2 18 37 1 6 78 1 9 119 1 18 160 2 3 201 2 8 242 2 18 38 1 6 79 1 9 120 1 18 161 2 3 202 2 8 243 2 18 39 1 6 80 1 10 121 1 18 162 2 4 203 2 8 244 2 18 40 1 6 81 1 10 122 2 18 163 2 4 204 2 8 41 1 6 82 1 10 123 2 18 164 2 4 205 2 8 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 302 Data Split file… Рис.14.6. Создание выхода по группам ОК Analyze Nonparametric Tests Chi-Square … В появившемся диалоговом окне перенести переменную TC [tcen] в окно Test Variable List. ОК Выходная информация: Chi-Square Test Frequencies Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 303 Таблица 14.7 Построенная в SPSS таблица результатов опроса с теоретическими частотами и разностями частот. Группа G1 Observed N t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12 t13 t14 t15 t16 t17 t18 Total Expected N 6 5 12 3 3 20 10 17 3 3 2 4 1 6 17 1 1 7 121 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 6.7 Residual -.7 -1.7 5.3 -3.7 -3.7 13.3 3.3 10.3 -3.7 -3.7 -4.7 -2.7 -5.7 -.7 10.3 -5.7 -5.7 .3 a. Group = G1 Таблица 14.8 Статистики теста χ 2 (Test Statistics). Группа G1 TC Chi-Square df Asymp. Sig. 91.281a 17 .000 a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 6.7. b. Group = G1 р-вероятность, равная .000<.001, говорит о том, что распределение терминальных ценностей, выдвигаемых на первые четыре места, у участников, переживающих одиночество, максимально значимо отличается от равномерного распределения: χ2(17, N=121)=91.28, p=.000<.001. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 304 Таблица 14.9 Построенная в SPSS таблица результатов опроса с теоретическими частотами и разностями частот. Группа G2 Observed N t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12 t13 t14 t15 t16 t17 t18 Total Expected N 23 2 13 21 1 3 13 14 4 1 3 4 1 4 4 2 2 8 123 Residual 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 16.2 -4.8 6.2 14.2 -5.8 -3.8 6.2 7.2 -2.8 -5.8 -3.8 -2.8 -5.8 -2.8 -2.8 -4.8 -4.8 1.2 a. Group = G2 Таблица 14.10 Статистики теста χ 2 (Test Statistics). Группа G2 TC Chi-Square df Asymp. Sig. 120.659a 17 .000 a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 6.8. b. Group = G1 р-вероятность, равная .000<.001, говорит о том, что распределение терминальных ценностей, выдвигаемых на первые четыре места, у участников, непереживающих одиночество, максимально значимо отличается от равномерного распределения: χ2(17, N=123)=120.66, p=.000<.001. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 305 Сравнение двух эмпирических распределений Гипотезы: H 0 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у участников, переживающих одиночество и у участников, непереживающих одиночество, имеют случайные отличия друг от друга. H 1 : Распределение терминальных ценностей, выдвигаемых на первые четыре места, у участников, переживающих одиночество и у участников, непереживающих одиночество, отличаются друг от друга закономерно. Data Split file… Reset OK Analyze Descriptive Statistics Crosstabs … В появившемся диалоговом окне Crosstabs перенести переменную TC [tcen] в окно Row(s), а переменную Group[gr] - в окно Column(s). Поставить галочку в окошке Display clustered bar charts. Statistics… В появившемся диалоговом окне Crosstabs: Statistics поставить галочку в окошке Chi-square. Continue OK Выходная информация: Crosstabs Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 306 Таблица 14.11 Построенная в SPSS таблица результатов опроса (TC * Group Crosstabulation) Count Group G1 TC G2 Total t1 6 23 29 t2 5 2 7 t3 12 13 25 t4 3 21 24 t5 3 1 4 t6 20 3 23 t7 10 13 23 t8 17 14 31 t9 3 4 7 t10 3 1 4 t11 2 3 5 t12 4 4 8 t13 1 1 2 t14 6 4 10 t15 17 4 21 t16 1 2 3 t17 1 2 3 t18 7 121 8 123 15 244 Total Таблица 14.12 Статистики тестов χ 2 (Chi-Square Tests) Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 49.549a 54.176 7.309 244 df Asymp. Sig. (2-sided) 17 17 1 .000 .000 .007 a. 19 cells (52.8%) have expected count less than 5. The minimum expected count is .99. р-вероятность, равная .000<.001, говорит о том, что распределения отличаются статистически значимо: χ2(17, N=244)=49.55, p=.000<.001. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 307 Выявлена связь между переживанием одиночества и выбором терминальных ценностей. Графические иллюстрации, полученные в SPSS (Рис.14.7-14.8). Рисунки отредактированы в SPSS. Для получения диаграммы (Рис. 14.8) в диалоговом окне Crosstabs переменную Group [gr] надо перенести в окно Row(s), а переменную TC [tcen] - в окно Column(s). Рис.14.7. Распределения участников переживающих одиночество и непереживающих одиночество по выборам терминальных ценностей Рис.14.8. Распределения выборов терминальных ценностей испытуемыми переживающих одиночество и непереживающих одиночество Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 308 Так как распределения отличаются статистически значимо, то можно просто описать рисунки. Наиболее выраженными ценностями можно считать ценности, количество выборов которых превышает 3-ий квартиль. Если рассмотреть все выборы, то это будет: Q3 = 11.5. Значимые терминальные ценности у непереживающих одиночество (из Таблиц 14.5 или 14.11): t1, t3, t4, t7, t8. Это: § активная, деятельная жизнь; § здоровье (физическое и психическое здоровье); § интересная работа; § материально обеспеченная жизнь (отсутствие материальных затруднений); § наличие хороших и верных друзей. Значимые ценности у переживающих одиночество: t3, t6, t8, t15. Это: § здоровье (физическое и психическое здоровье); § любовь (духовная и физическая близость); § наличие хороших и верных друзей; § счастливая семейная жизнь. Таким образом, выбор терминальных ценностей связан с переживанием одиночества. 15. Многофункциональные статистические критерии. Критерий Фишера- ϕ ∗ Критерий ϕ ∗ - называют также угловым преобразованием Фишера (Fisher's angular transformation). Его используют в случаях: - данные могут быть представлены в любой шкале; Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 309 - выборки могут быть как зависимыми, так и независимыми; - объемы выборок n ≥ 5 . Критерий Фишера ϕ ∗ позволяет решать задачи: - Сравнение уровней исследуемых признаков; - Сравнение сдвигов в значениях исследуемых признаков; - Сравнение распределений. Критерий Фишера ϕ ∗ - основан на сравнении долей. Доли могут также быть выражены в процентах. Критерий Фишера ϕ ∗ предназначен для сравнения двух выборок по частоте встречаемости исследуемого эффекта. Число выборок: 2. Выборки: любые. Распределения данных: любые. Доли обозначим через p . Ограничения: p ≠ 0 . Алгоритм применения критерия- ϕ ∗ 1. Даны две выборки участников: 1 и 2. Объемы выборок n1 и n 2 . Количество участников в выборке 1, у которых присутствует изучаемый эффект равно ne1 и доля этих участников равна p1 = ne1 n , или в процентах: p1 = e1 ⋅ 100% . n1 n1 Аналогично, количество участников в выборке 2, у которых присутствует изучаемый эффект равно ne 2 и доля этих участников равна p 2 = ne 2 , или в процентах: n2 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 310 p2 = ne 2 ⋅ 100% n2 При этом p1 < p 2 . 2. Сформулировать гипотезы приблизительно так: H 0 : Доли участников, у которых проявляется исследуемый эффект в выборках 1 и 2 имеют случайные отличия. H 1 : Доля участников, у которых проявляется исследуемый эффект в выборке 1 закономерно меньше, чем в выборке 2. 3. Вычислить ϕ1 и ϕ 2 по формуле: ϕ = 2 ⋅ arcsin ( p ), (15.1) в которой p выражено в долях единицы: 0 < p ≤ 1 . 4. Вычислить наблюдаемое значение критерия ϕe∗ по формуле: ϕe∗ = ϕ 2 − ϕ1 ⋅ n1n2 , n1 + n2 (15.2) n1 и n2 - объемы выборок. 5. Критические точки ϕ р (р - уровень значимости) - равны: ϕ.05 = 1.64 ; ϕ.01 = 2.33 и ϕ.001 = 3.09 . 6. Начертить правостороннюю критическую область: Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 311 H0 H1 ϕα ϕ∗ 7. Установить, куда попадает ϕe∗ и сформулировать ответ. Нулевая гипотеза H 0 принимается, если ϕe∗ < ϕ р . Нулевая гипотеза отклоняется и принимается альтернативная гипотеза H 1 , если ϕe∗ ≥ ϕ р . Замечание. Процесс вычисления может быть организован в Excel (Смотрите файл Fisher's_angular_transformation.xlsx). Программирование формул: 1) ϕ = 2 ⋅ arcsin ( p) =2*ASIN(SQRT(номер ячейки, где стоит р, вычисленное в долях единицы)) 2) ϕe∗ = ϕ 2 − ϕ1 ⋅ n1n2 n1 + n2 =ABS( ϕ 2 − ϕ1 )*SQRT( n1n2 /( n1 + n2 )) где вместо ϕ 2 , ϕ1 , n1 , n2 стоят номера их ячеек. Пример 1 В ходе исследования установлено, что в конфликтной ситуации избегание, как стратегию поведения, выбирают 83.7% взрослых (из 43 участников) с заниженной самооценкой и 32.4% взрослых (из 37 участников) с адекватной самооценкой. Проверить, является ли полученное различие статистически значимым? 1. Даны две выборки участников: 1 (с адекватной самооценкой) и 2 (с заниженной самооценкой). Объемы выборок n1 =37 и n 2 =43. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 312 Доля участников в выборке 1, которые выбирают избегание, как стратегию поведения в конфликтной ситуации, равна p1 =32.4%; Доля участников в выборке 2, которые выбирают избегание, как стратегию поведения в конфликтной ситуации, равна p 2 =83.7%. При этом p1 < p 2 . 2. Гипотезы: H 0 : Доля участников с адекватной самооценкой, выбирающих избегание, как стратегию поведения в конфликтной ситуации имеет случайное отличие, от доли участников с заниженной самооценкой, выбирающих избегание. H 1 : Доля участников с адекватной самооценкой, выбирающих избегание, как стратегию поведения в конфликтной ситуации закономерно ниже, чем доля участников с заниженной самооценкой, выбирающих избегание. 3. Находим: ( ) ( ) ϕ1 = 2 ⋅ arcsin .324 = 1.211; ϕ 2 = 2 ⋅ arcsin .837 = 2.310. 4. Вычисляем наблюдаемое значение критерия ϕe∗ : ϕe∗ = (2.310 − 1.211) ⋅ 37 ⋅ 43 = 4.90 . 37 + 43 5. Правосторонняя критическая область: ϕe∗ =4.90 H1 ϕ∗ H0 ϕ.05 =1.64 ϕ.01 =2.33 ϕ.001 =3.09 Рис.15.1. Критическая область Наблюдаемое значение критерия ϕe∗ =4.90 принадлежит критической области: ϕe∗ ≥ ϕ.001 . Нулевая гипотеза отклоняется и принимается альтернативная гипотеза H 1 . Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 313 Ответ. Доля взрослых участников с адекватной самооценкой, выбирающих избегание, как стратегию поведения в конфликтной ситуации ниже, чем доля участников с заниженной самооценкой, выбирающих избегание ( ϕe∗ =4.90; p < .001 ). Взрослые люди с заниженной самооценкой в конфликтной ситуации, как правило, в качестве стратегии поведения выбирают избегание, для людей с адекватной самооценкой не характерно выбирать именно эту стратегию поведения. Результат является закономерным и не может быть объяснен случайными причинами. Выбор стратегии поведения в конфликтной ситуации связан с самооценкой. Пример 2. В ходе исследования установлено, что из 35 молодых участников с высоким социометрическим статусом высокий уровень субъективного контроля (УСК) имеют 22 участника, а из 45 участников с низким социометрическим статусом высокий уровень субъективного контроля лишь у 4. Проверить гипотезу: «Девушки и юноши с высоким социометрическим статусом имеют интернальный (т.е. высокий) локус контроля» 1. Даны две выборки участников: 1 (с высоким СС) и 2 (с низким СС). Объемы выборок n1 =35 и n 2 =45. Количество участников с высоким СС, у которых высокий УСК, равно ne1 =22 и доля таких участников равняется p1 = 22 = .6286 или p1 = 62.86% . 35 Количество участников с низким СС, у которых высокий УСК, равно ne 2 =4 и доля таких участников равняется p2 = 4 = .0889 или p2 = 8.89% . 45 При этом p1 > p2 . 2. Гипотезы: H 0 : Доля участников с высоким СС, у которых высокий УСК, и доля участников с низким СС, у которых высокий УСК имеют случайное отличие. H 1 : Доля участников с высоким СС, у которых высокий УСК, закономерно выше, чем доля участников с низким СС, у которых высокий УСК. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 314 3. Находим: ( ) ( ) ϕ1 = 2 ⋅ arcsin .6286 = 1.83; ϕ 2 = 2 ⋅ arcsin .0889 = 0.61. 4. Вычисляем наблюдаемое значение критерия ϕe∗ : ϕe∗ = (1.83 − 0.61) ⋅ 35 ⋅ 45 = 5.44 . 35 + 45 5. Правосторонняя критическая область: ϕe∗ =5.44 H1 ϕ∗ H0 ϕ.05 =1.64 ϕ.01 =2.33 ϕ.001 =3.09 Рис.15.2. Критическая область Наблюдаемое значение критерия ϕe∗ =5.44 принадлежит критической области: ϕe∗ ≥ ϕ.001 . Нулевая гипотеза отклоняется и принимается альтернативная гипотеза H 1 . Ответ. Доля участников с высоким СС, у которых высокий УСК, выше, чем доля участников с низким СС, у которых высокий УСК ( ϕe∗ =5.44; p < .001 ). Результат является закономерным и не может быть объяснен случайными причинами. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 315 16. Частотный анализ для примера исследования связи между самооценкой и агрессией Продолжим исследование связи между самооценкой и агрессией у подростков, которое было начато в параграфе 12. Переход к низким, к высоким и к средним показателям Переход к низким, высоким и средним показателям правильнее всего осуществлять с помощью методик измерения. Если, по каким-либо причинам в методике нормы не указаны, или неясно, насколько методика адаптирована, то можно осуществлять разбивку по выборочным данным. Если распределение выборочных данных не соответствует нормальному распределению, то разбивка данных на три группы может осуществляться с помощью квартилей Q1 и Q3 . Если оценки по самооценке выше Q3 , то их называют «высокими». Если они находятся в интервале от Q1 до Q3 , то они считаются для самооценки «адекватными» и для других переменных «средними». Если ниже Q1 , то оценки «низкие» (Таблица 16.1). Из таблицы 16.1 находим, квартили Q1 и Q3 по всем переменным (берем их из Таблицы 12.2.1.1). Таблица 16.1 Квартили Q1 и Q3 P FA NA K N Av Az VA SP Q1 52.91 3.00 2.00 4.00 2.00 2.00 2.00 4.50 2.00 Q3 71.58 8.00 7.00 7.00 4.00 5.00 5.00 7.00 5.00 Разбиение данных осуществляется автоматически, с помощью программы Syntax. Откроем файл Samoocenka_Agresija.sav Откроем новое окно синтакса: File Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 316 New Syntax и напишем в нем следующий текст программы: if (p<=52.91) p_ind=1 . if (p>52.91 & p<71.58 ) p_ind=2 . if (p>=71.58) p_ind=3 . variable labels p_ind 'P'. value labels p_ind 1 'Zems' 2 'Adekvaats' 3 'Augsts'. if (fa<=3) fa_ind=1 . if (fa>3 & fa<8 ) fa_ind=2 . if (fa>=8) fa_ind=3 . variable labels fa_ind 'FA'. value labels fa_ind 1 'Zema' 2 'Videja' 3 'Augsta'. if (na<=2) na_ind=1 . if (na>2 & na<7 ) na_ind=2 . if (na>=7) na_ind=3 . variable labels na_ind 'NA'. value labels na_ind 1 'Zema' 2 'Videja' 3 'Augsta'. if (k<=4) k_ind=1 . if (k>4 & k<7 ) k_ind=2 . if (k>=7) k_ind=3 . variable labels k_ind 'K '. value labels k_ind 1 'Zema' 2 'Videja' 3 'Augsta'. if (n<=2) n_ind=1 . if (n>2 & n<4 ) n_ind=2 . if (n>=4) n_ind=3 . variable labels n_ind 'N'. value labels n_ind 1 'Zems' 2 'Videjs' 3 'Augsts'. if (av<=2) av_ind=1 . if (av>2 & av<5 ) av_ind=2 . if (av>=5) av_ind=3 . variable labels av_ind 'Av'. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 317 value labels av_ind 1 'Zems ' 2 'Videjs' 3 'Augsts'. if (az<=2) az_ind=1 . if (az>2 & az<5 ) az_ind=2 . if (az>=5) az_ind=3 . variable labels az_ind 'Az'. value labels az_ind 1 'Zems ' 2 'Videjs' 3 'Augsts'. if (va<=4.5) va_ind=1. if (va>4.5 & va<7 ) va_ind=2 . if (va>=7) va_ind=3 . variable labels va_ind 'VA'. value labels va_ind 1 'Zema' 2 'Videja' 3 'Augsta'. if (sp<=2) sp_ind=1 . if (sp>2 & sp<5 ) sp_ind=2 . if (sp>=5) sp_ind=3 . variable labels sp_ind 'SP'. value labels sp_ind 1 'Zems' 2 'Videjs' 3 'Augsts'. execute. Сохраним файл под именем Q_of SyntaxSA.SPS (Рис.16.1). Для того, чтобы программа выполнила необходимые действия необходимо ВЫДЕЛИТЬ ВЕСЬ ТЕКСТ (Edit – Select All) и нажать Run (пуск), All (Рис.16.2). После выполнения всех выше перечисленных действий в наш исходный файл Samoocenka_Agresija.sav автоматически будут добавлены столбцы данных. Появятся новые переменные. Останется только поставить число знаков после запятой (Decimals) равным нулю и выбрать Nominal Measure (Рис.16.3). Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 318 Рис.16.1. Переход к низким, средним и высоким показателям. Рис.16.2. Запуск программы Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 319 Рис.16.3. Новые переменные Рис.16.4. Новые данные Analyze Descriptive Statistics Crosstabs … В появившемся диалоговом окне Crosstabs перенести переменную P[p_ind] в окно Row(s), а переменную FA[fa_ind] - в окно Column(s). Поставить галочку в окне Display clustered bar charts (Рис.16.5). Рис.16.5. Диалоговое окно теста Crosstabs – сравнение двух эмпирических распределений Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 320 Statistics… В появившемся диалоговом окне Crosstabs: Statistics поставить галочку в окне Chisquare (Рис.16.6). Рис.16.6. Диалоговое окно теста Crosstabs: Statistics Continue OK Выходные данные: «Самооценка – Физическая агрессия» Таблица 16.2 Обработанные наблюдения Cases Valid N P * FA Missing Percent 145 100.0% N Total Percent .0% N Percent 145 100.0% Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 321 Таблица 16.3 P * FA Crosstabulation Count FA Zema P Zems Videja Augsta 4 9 Adekvaats 36 Augsts 3 43 Total Total 23 36 36 1 73 11 56 22 46 36 145 Таблица 16.4 Chi-Square Tests Value df Asymp. Sig. (2-sided) 66.447a 4 .000 80.532 4 .000 Linear-by-Linear Association .000 1 1.000 N of Valid Cases 145 Pearson Chi-Square Likelihood Ratio a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.68. При помощи критерия «Хи-квадрат» проверена взаимная независимость переменных таблиц сопряженности. Поэтому косвенно выявляется связь между переменными «Самооценка» и «Физическая агрессия»5: χ2(4, N=145)=66.45, p=.000<.001. Показаны результаты тестов «Хи-квадрат»: - Хи-квадрат по Пирсону; - Отношение правдоподобия (поправка на правдоподобие «на непрерывность»); - тест Мантеля-Хэнзеля («линейный по линейному», для данных, относящихся к номинальной шкале, этот критерий не применим). Результат получился максимально значимым: р <.001. 5 Бююль, А., Цефель, П. (2002). SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб.: ООО «ДиаСофтЮП». Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 322 Рис.16.7. Распределение участников с высокой, средней и низкой физической агрессией по самооценке. Из полученных Таблицы 16.3 и диаграммы (Рис.16.7) видно, что 1) Среди подростков с низкой самооценкой больше всего подростков с высокой физической агрессией; 2) Среди подростков с адекватной самооценкой больше всего подростков с низкой и средней физической агрессией; 3) Среди подростков с высокой самооценкой больше всего подростков с высокой физической агрессией. Поменяв местами (Рис.16.5) переменные «Самооценка [p_ind]» и «Физическая агрессия («FА [fa_ind]»), можно получить другую диаграмму, относящуюся к той же таблице сопряженности (Рис.16.8): Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 323 Рис.16.8. Распределение участников с высокой, адекватной и низкой самооценкой по физической агрессии Из диаграммы (Рис.16.8) видно, что 1) Среди подростков с низкой физической агрессией преобладают подростки с адекватной самооценкой; 2) Среди подростков со средней физической агрессией преобладают подростки с адекватной самооценкой; 3) Среди подростков с высокой физической агрессией преобладают подростки с высокими и низкими самооценками. Аналогичным способом можно получить таблицы и диаграммы для остальных переменных. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 324 «Самооценка – Косвенная агрессия» Таблица 16.5 P * NA Crosstabulation Count NA Zema P Zems Videja Augsta Total 3 11 22 36 Adekvaats 34 38 1 73 Augsts 2 39 13 62 21 44 36 145 Total Таблица 16.6 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases df 65.040a 79.219 .000 145 Asymp. Sig. (2-sided) 4 4 1 .000 .000 1.000 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 9.68. Максимально значимая связь: χ2(4, N=145)=65.04, p=.000<.001. Рис.16.9. Распределение участников с высокой, средней и низкой косвенной агрессией по самооценке Рис.16.10. Распределение участников с высокой, адекватной и низкой самооценкой по косвенной агрессии Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 325 «Самооценка – Раздражение» Таблица 16.7 P * К Crosstabulation Count K Zema P Videja Zems Augsta Total 3 4 29 36 Adekvaats 34 37 2 73 Augsts 5 42 12 53 19 50 36 145 Total Таблица 16.8 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 73.384a 85.181 3.146 145 df Asymp. Sig. (2-sided) 4 4 1 .000 .000 .076 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.43. Максимально значимая связь: χ2(4, N=145)=73.38, p=.000<.001. Рис.16.10. Распределение участников с высоким, средним и низким раздражением по самооценке Рис.16.11. Распределение участников с высокой, адекватной и низкой самооценкой по раздражению Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 326 «Самооценка – Негативизм» Таблица 16.9 P * N Crosstabulation Count N Zems P Videjs Augsts Total Zems 17 12 7 36 Adekvaats 28 16 29 73 Augsts 17 62 9 37 10 46 36 145 Total Таблица 16.10 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases df 5.264a 5.382 .169 145 Asymp. Sig. (2-sided) 4 4 1 .261 .250 .681 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 9.19. Связь не выявлена: χ2(4, N=145)=5.26, p=.261, ns. Рис.16.12. Распределение участников с высоким, средним и низким негативизмом по самооценке Рис.16.13. Распределение участников с высокой, адекватной и низкой самооценкой по негативизму Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 327 «Самооценка – Обида» Таблица 16.11 P * Av Crosstabulation Count av Zems P Videjs Augsts Total Zems 18 13 5 36 Adekvaats 18 30 25 73 Augsts 12 48 14 57 10 40 36 145 Total Таблица 16.12 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases df 8.456a 8.654 2.764 145 Asymp. Sig. (2-sided) 4 4 1 .076 .070 .096 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 9.93. Связь не выявлена: χ2(4, N=145)=8.46, p=.076, ns. Рис.16.14. Распределение участников с высокой, средней и низкой обидой по самооценке Рис.16.15. Распределение участников с высокой, адекватной и низкой самооценкой по обиде Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 328 «Самооценка – Подозрительность» Таблица 16.13 P * Az Crosstabulation Count Az Zems P Videjs Augsts Total Zems 17 11 8 36 Adekvaats 23 24 26 73 Augsts 7 47 13 48 16 50 36 145 Total Таблица 16.14 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases df 7.125a 7.276 6.685 145 Asymp. Sig. (2-sided) 4 4 1 .129 .122 .010 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 11.67. Связь не выявлена: χ2(4, N=145)=7.125, p=.129, ns. Рис.16.16. Распределение участников с высокой, средней и низкой подозрительностью по самооценке Рис.16.17. Распределение участников с высокой, адекватной и низкой самооценкой по подозрительности Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 329 «Самооценка – Вербальная агрессия» Таблица 16.15 P * VA Crosstabulation Count VA Zema P Zems Videja Augsta Total 4 8 24 36 Adekvaats 31 38 4 73 Augsts 1 36 18 64 17 45 36 145 Total Таблица 16.16 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases df 57.289a 65.614 .398 145 Asymp. Sig. (2-sided) 4 4 1 .000 .000 .528 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 8.94. Максимально значимая связь: χ2(4, N=145)=57.29, p=.000<.001. Рис.16.18. Распределение участников с высокой, средней и низкой вербальной агрессией по самооценке Рис.16.19. Распределение участников с высокой, адекватной и низкой самооценкой по вербальной агрессии Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 330 «Самооценка – Угрызения совести и чувство вины» Таблица 16.17 P * SP Crosstabulation Count SP Zems P Videjs Augsts Total Zems 13 8 15 36 Adekvaats 18 17 38 73 Augsts 13 44 9 34 14 67 36 145 Total Таблица 16.18 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases df 2.746a 2.762 .019 145 Asymp. Sig. (2-sided) 4 4 1 .601 .598 .891 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 8.44. Связь не выявлена: χ2(4, N=145)=2.75, p=.601, ns. Рис.16.20. Распределение участников с высокой, средней и низкой «угрызениями совести и чувством вины» по самооценке Рис.16.21. Распределение участников с высокой, адекватной и низкой самооценкой по «угрызениям совести и чувством вины» Очевидно, что различий в распределениях, а, следовательно, и связи между переменными нет. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 331 Хотя статистически значимых результатов не выявлено, ситуацию, на уровне выборки, можно описать так: 1) Среди подростков с низкой самооценкой больше всего подростков с высоким и низким уровнями угрызения совести, чувства вины; 2) Среди подростков с адекватной самооценкой больше всего подростков с высоким уровнем угрызения совести, чувства вины; 3) Среди подростков с высокой самооценкой больше всего подростков с высоким и низким уровнями угрызения совести, чувства вины; 4) Среди подростков с низким уровнем угрызения совести, чувства вины больше всего подростков с адекватной самооценкой; 5) Среди подростков с адекватным уровнем угрызения совести, чувства вины больше всего подростков с адекватной самооценкой; 6) Среди подростков с высоким уровнем угрызения совести, чувства вины больше всего подростков с адекватной самооценкой. Для уточнения можно сравнить процентные доли участников в разных категориях с помощью критерия Фишера ϕ ∗ . Исследование связи путем сравнения процентных долей с помощью критерия Фишера ϕ ∗ Перенесем в Excel таблицы сопряженности (например, 16.3 (СамооценкаФизическая агрессия) и 16.17 (Угрызения совести и чувство вины)). Сравним столбики по высоте внутри каждой группы. Для этого организуем в Excel таблицу 16.19 (См. файл FI.xls, которую можно продолжать, можно в нее записывать другие исходные данные). Все формулы во второй строке таблицы программируются следующим образом. ki - число из соответствующей ячейки таблицы сопряженности; ni - объем соответствующей группы; Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 332 pi = ki ⋅ 100% = ki / ni *100 ni  pi  = 2*asin(sqrt( pi /100)) ϕi = 2 ⋅ arcsin   100    ϕ ∗ = ϕ2 − ϕ1 n1 n2 =abs( ϕ2 - ϕ1 )*sqrt( n1 * n2 /( n1 + n2 )) n1 + n2 Некоторые выводы: «Самооценка - Физическая агрессия» 1) Среди подростков с высокой физической агрессией в одинаковой степени большие доли составляют подростки с высокой и низкой самооценками (р<.001); 2) Среди подростков со средней и низкой физическими агрессиями преобладает доля подростков с адекватной самооценкой (р<.001); 3) Среди подростков с высокой самооценкой большую долю составляют подростки с высокой физической агрессией (р<.001), затем со средней физической агрессией и, в меньшей степени, с низкой физической агрессией (р<.01); 4) Среди подростков с адекватной самооценкой большую долю составляют подростки со средней физической агрессией (р<.001) и с низкой физической агрессией – меньшую долю (р<.001); 5) Среди подростков с низкой самооценкой доля подростков с высокой физической агрессией больше доли подростков со средней <0.001). «Самооценка- Угрызения совести, чувство вины» 1) Среди подростков с высокими угрызениями совести и чувством вины большую долю составляют подростки с адекватной самооценкой (р<.001); 2) Среди подростков со средними угрызениями совести и чувством вины большую долю составляют подростки с адекватной самооценкой (р<.05); Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 333 Таблица 20.18 Исследование различий процентных долей (Самооценка – P; Физическая агрессия – FA; Угрызения совести, чувство вины – SP) 1 Высокая FА Средняя FА Низкая FА Высокая P Адекватная P Низкая P Высокая SP Средняя SP Низкая SP Высокая P Адекватная P Низкая P 2 k1 k2 n1 n2 p1 p2 ϕ1 ϕ2 ϕ∗ Высокая P Адекватная P 22 1 46 46 47.83 2.17 1.53 0.30 5.91 Высокая P Низкая P 22 23 46 46 47.83 50.00 1.53 1.57 0.21 Адекватная P Низкая P 1 23 46 46 2.17 50.00 0.30 1.57 6.11 Высокая P Адекватная P 11 36 56 56 19.64 64.29 0.92 1.86 4.99 Высокая P Низкая P 11 9 56 56 19.64 16.07 0.92 0.82 0.49 Адекватная P Низкая P 36 9 56 56 64.29 16.07 1.86 0.82 5.48 Высокая P Адекватная P 3 36 43 43 6.98 83.72 0.53 2.31 8.24 Высокая P Низкая P 3 4 43 43 6.98 9.30 0.53 0.62 0.40 Адекватная P Низкая P 36 4 43 43 83.72 9.30 2.31 0.62 7.84 Высокая FA Средняя FА 22 11 36 36 61.11 30.56 1.79 1.17 2.65 Высокая FA Низкая FА 22 3 36 36 61.11 8.33 1.79 0.59 5.13 Средняя FА Низкая FА 11 3 36 36 30.56 8.33 1.17 0.59 2.48 Высокая FA Средняя FА 1 36 73 73 1.37 49.32 0.23 1.56 7.99 Высокая FA Низкая FА 1 36 73 73 1.37 49.32 0.23 1.56 7.99 Средняя FА Низкая FА 36 36 73 73 49.32 49.32 1.56 1.56 0.00 Высокая FA Средняя FА 23 9 36 36 63.89 25.00 1.85 1.05 3.42 Высокая FA Низкая FА 23 4 36 36 63.89 11.11 1.85 0.68 4.97 Средняя FА Низкая FА 9 4 36 36 25.00 11.11 1.05 0.68 1.56 Высокая P Адекватная P 14 38 67 67 20.90 56.72 0.95 1.71 4.38 Высокая P Низкая P 14 15 67 67 20.90 22.39 0.95 0.99 0.21 Адекватная P Низкая P 38 15 67 67 56.72 22.39 1.71 0.99 4.17 Высокая P Адекватная P 9 17 34 34 26.47 50.00 1.08 1.57 2.02 Высокая P Низкая P 9 8 34 34 26.47 23.53 1.08 1.01 0.28 Адекватная P Низкая P 17 8 34 34 50.00 23.53 1.57 1.01 2.30 Высокая P Адекватная P 13 18 44 44 29.55 40.91 1.15 1.39 1.12 Высокая P Низкая P 13 13 44 44 29.55 29.55 1.15 1.15 0.00 Адекватная P Низкая P 18 13 44 44 40.91 29.55 1.39 1.15 1.12 Высокая SP Средняя SP 14 9 36 36 38.89 25.00 1.35 1.05 1.27 Высокая SP Низкая SP 14 13 36 36 38.89 36.11 1.35 1.29 0.24 Средняя SP Низкая SP 9 13 36 36 25.00 36.11 1.05 1.29 1.03 Высокая SP Средняя SP 38 17 73 73 52.05 23.29 1.61 1.01 3.65 Высокая SP Низкая SP 38 18 73 73 52.05 24.66 1.61 1.04 3.46 Средняя SP Низкая SP 17 18 73 73 23.29 24.66 1.01 1.04 0.19 Высокая SP Средняя SP 15 8 36 36 41.67 22.22 1.40 0.98 1.79 Высокая SP Низкая SP 15 13 36 36 41.67 36.11 1.40 1.29 0.48 Средняя SP Низкая SP 8 13 36 36 22.22 36.11 0.98 1.29 1.30 Все значимые различия процентных долей выделены. Критические точки: Значимо на уровне .001 Значимо на уровне .01 Значимо на уровне .05 3.09 2.33 1.64 Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 334 3) Среди подростков с низкими угрызениями совести и чувством вины, доли подростков с высокой, средней и адекватной самооценками различаются статистически незначимо; 4) Среди подростков с высокой самооценкой доли подростков с высокими, средними и низкими угрызениями совести и чувством вины различаются статистически незначимо; 5) Среди подростков адекватной самооценкой доля подростков с высокими угрызениями совести и чувством вины больше доли подростков со средними и низкими угрызениями совести и чувством вины (р<.001); 4) Среди подростков с низкой самооценкой доля подростков с высокими угрызениями совести больше, чем со средними (р<.05). Полученные результаты согласуются с результатами, полученными в результате корреляционного анализа и уточняют их. Домашнее задание 4 Провести исследование связи между самооценкой, измеренной по методике ДембоРубинштейна и агрессией, измеренной по методике Басса-Дарки у подростков. Варианты данных находятся в файле Samoocenka-Agressija_Varianti_(1-16).xlsx. Результаты оформить по образцу Приложения 4. Домашнее задание 5 Выполнить задания, которые находятся в файле Chi_Square_Varianti_(1-16).pdf. Анализ данных в психологии и социальных науках. Конспект лекций. © Блюменау Н.Ф., 2017 335

СОЦИОЛОГИЯ

#Лекция

Анализ данных в социальных науках

Тебе могут подойти лекции

Предмет, объект, функции и методы социологии

Предмет политологии

Социология как наука

Источниковедение как наука

Криминология как наука, ее предмет, методология и место в системе других наук

Криминология как наука, ее предмет, методология и место в системе других наук

Развития методов социологического исследования

Развития методов социологического исследования

Предмет, история и методы социальной психологии

Социальное взаимодействие

Анализ данных в социальных науках

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ