Взаимосвязь переменных и корреляционный анализ

👀 669 просмотров
📌 603 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Взаимосвязь переменных и корреляционный анализ», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Взаимосвязь переменных и корреляционный анализ», Word формат

Тема 11 ВЗАИМОСВЯЗЬ ПЕРЕМЕННЫХ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Мыслители с незапамятных времен обратили внимание на наличие связи между различными свойствами человека: телесными, душевными, духовными. К примеру, Гиппократ обнаружил взаимосвязь между телосложением и темпераментом человека, между телосложением и склонностью к тем или иным душевным заболеваниям. Однако не существовало возможности количественных измерений самих переменных и силы их взаимосвязи. C началом математизации психологии проблема измерения взаимосвязи психологических переменных могла решаться с помощью различных математических средств, например, с помощью понятия функции f, для которой каждому значению независимой переменной x, называемой аргументом, ставится в соответствие определенное значение зависимой переменной y, или функции y = f(x). Простая и знакомая функция из школьной математики — линейная связь между переменными: y = ах + b, где a и b — постоянные величины, константы, на плоскости с координатами x и y эта функция отображается как прямая линия. Функция y может быть линейной, квадратичной, но во всех случаях функциональная связь должна быть однозначной, каждому х соответствует только одно значение у. Так с помощью понятия логарифмической функции был сформулирован психофизический закон Вебера–Фехнера: Y = а lg X + b. Но вскоре выяснилось, что в психологии редко удается установить функциональные связи между переменными. Дело в том, что каждая из них обусловлена воздействием многих других переменных, которые «размывают» попарные функциональные связи. Взаимосвязь точнее определяется как статистическое понятие, связывающее переменные, имеющие вероятностную природу. Такая взаимосвязь получила название корреляции, обозначается она обычно как r. Например, уровень общего интеллекта ребенка обусловлен генетическим фактором, который можно формализовать как суммарный интеллект родителей, и многими факторами внутренней и внешней среды: соматическим и психическим здоровьем, стилем отношений в семье и воспитания, наличием библиотеки дома, мотивацией к чтению книг, качеством преподавания в школе т. д. Поэтому попарная взаимосвязь между переменными превращается в некую тенденцию, обнаруживаемую статистически, на выборках испытуемых, состоящую в возможности предсказания значения одного признака по значениям другого признака. Так, к примеру, для таких переменных, как рост и вес человека, можно говорить о тенденции, состоящей в том, что чем выше человек, тем он тяжелей, и наоборот, хотя эта тенденция часто нарушается. Когда исключения редки (отход от тенденции), мы говорим о тесной связи, когда исключения часты, связь истончается, исчезает, т. е. приближается к нулю. Итак, связь может быть сильной и слабой. Корреляция между двумя переменными может быть положительной либо отрицательной. В случае, когда высоким значениям одной переменной чаще соответствуют высокие значения другой переменной, а низким значениям одной переменной низкие другой, корреляция положительна. К примеру, рост и вес человека связаны положительной корреляцией. Но, когда высоким значениям одной переменной соответствуют низкие значения другой, корреляция или связь между ними негативна. Мотивация достижение успеха негативно связана с уровнем тревожности; среднее количество выкуриваемых в день сигарет негативно связано с продолжительностью жизни. Корреляции классифицируются по величине на сильные (тесные), средние, слабые. При этом знак корреляции не учитывается, рассматривается абсолютное значение. Границы между этими классами не абсолютны, так как на них влияет также объем выборки, на котором вычислена корреляция. Принято считать сильными корреляциями превышающие 0,70, т. е. r > 0,70. При 0,50 < r < 0,69 говорят о средней по величине корреляции, при 0,30 < r < 0,49 — об умеренной, при 0,20 < r < 0,29 — о слабой, при r < 0,19 — об очень слабой. Однако и очень слабая связь при выборке в несколько сот человек может статистически достоверно отличаться от 0. Обычно в эмпирических исследованиях психолог имеет дело со средними, умеренными и слабыми корреляциями. Связь может наблюдаться между количественными признаками (пример — шкалы психодиагностических опросников), между порядковыми признаками (школьными оценками по близким предметам — русский язык и литература, геометрия и тригонометрия). Может измерить и связь качественных признаков, измеренных по номинативной шкале, например, между светлым цветом волос и голубым цветом радужной оболочки глаз. В психологии обычно рассматривают два типа корреляций, в соответствии с разными исследовательскими задачами и видом эмпирических данных. Первый тип — корреляция между переменными, рассчитываемая на выборке испытуемых. Вычисляется она, к примеру, на данных следующего вида, где две переменные (признаки) варьируют для n объектов (испытуемых): Таблица 14 Испытуемые 1. А. 2. Б. 3. В. ……. n. Я. Переменная x 20 15 19 …. 17 Переменная у 14 33 19 …. 21 Корреляция второго типа — между испытуемыми, рассчитываемая на выборке переменных: Таблица 15 Переменные 1. X1 2. X2 3. X3 ……. n. Xn Испытуемый А 20 15 19 …. 17 Испытуемый B 14 33 19 …. 21 В качестве корреляций 2-го типа часто выступают корреляции между профилями личности двух испытуемых, измеренные в многомерных личностных опросниках типа 16PF Кеттела, ММMI Хаттауэя и Мак-Кинли . Понятно, что в обоих случаях с математической точки зрения данные одинаковы по своей структуре и требуют одинаковых вычислений, но их интерпретация будет различной. Возможны и другие типы корреляций, когда в качестве одной из переменных выступает время, о них будет упомянуто далее, при рассмотрении техник факторного анализа. За многие десятилетия разными авторами были предложены многочисленные коэффициенты корреляции, ассоциации, конкордации, сопряженности и т. д. Далее будут рассмотрены наиболее употребимые коэффициенты корреляции, позволяющие работать с данными, измеренными на любой шкале. Коэффициент линейной корреляции Пирсона Коэффициент линейной корреляции является параметрическим показателем, требует расчета средних и дисперсий, употребляется для количественных данных. Наиболее популярен линейный коэффициент линейной корреляции К. Пирсона (Пирсона–Бравэ). Он вычисляется по формуле: 1 n ( xi − x )( yi i − y )  cov xy i =1 n − 1 r= = , Sx  S y Sx  Sy где Sx — стандартное отклонение для переменной x; Sy — стандартное отклонение для переменной y. Число степеней свободы df = n − 2. Величину в знаменателе называют ковариацией, поэтому коэффициент корреляции просчитывается через ковариацию. Ковариация есть усредненная величина произведений отклонений каждой пары значений xi, x и yi от их средних. Очевидно, что сила ковариации показателя зависит от того, насколько часто в общем ряду слагаемых (xi – x )(yi – y ) сомножители будут иметь один знак — плюс или минус. В этом случае пары переменных либо отклоняются от средних в сторону превышения их xi > x и yi > y , либо оба значения меньше средних, в любом случае будут суммироваться положительные слагаемые. Этот случай соответствует позитивной ковариации и ковариации — большим значениям одного признака соответствуют большие значения другого. (При негативной корреляции чаще будут суммироваться отрицательные слагаемые). Недостаток понятия ковариации в том, что он зависит от масштаба признаков, единиц их измерения. Для устранения этого недостатка в формуле для корреляции, отклонения нормируются на свои среднеквадратичные отклонения. В случае преобразования переменных x и у в стандартизированные Z значения формула упрощается, так как для них средние равны 0, а стандартные отклонения равны 1: r= Z Z x n −1 y . Коэффициент корреляции — отвлеченное число, значения которого могут находиться в пределах от –1 до +1. При полной независимости признаков r = 0. Такие признаки называют на геометрическом языке ортогональными. Чем сильнее связь между признаками, тем более значение коэффициента корреляции приближается к + 1, либо к − 1. Рабочая формула: для более экономного вычисления коэффициента корреляции Пирсона имеет следующий вид: n −1 n −1 rxy =  xi  yi − x  y i =1 i =1 Sx  S y i n −1 i . Коэффициент корреляции, вычисленный на выборке, как и любой другой выборочный показатель, служит оценкой своего генерального параметра, который обозначается как ρ. Выборочное оценивание коэффициента корреляции сопровождается ошибкой репрезентативности: 1− r2 , Sr = n−2 где r — коэффициент корреляции, n — объем выборки. При увеличении объема выборки n →  статистическая ошибка Sr → 0, r → 0. Cвое название линейного коэффициент кореляции Пирсона получил в силу того, что он измеряет линейный аспект взаимосвязи переменных, которая вполне может быть нелинейной. Однако предположение о линейности взаимосвязи вполне разумно, поскольку линейная функция является простейшей и часто встречающейся математической моделью эмпирических взаимосвязей. При расчете коэффициента корреляции Пирсона важно соблюдать следующие условия для эмпирических данных: 1. Нормальность распределения переменных в выборке. 2. Связь между переменными должна быть линейной. 3. Для получения представительной оценки генерального параметра  необходим достаточный объем выборки: n > 30. Однако в дальнейших иллюстративных примерах для экономии времени будут использоваться выборки из 10 человек. Важно знать хотя бы несколько граничных значений коэффициента корреляции. Таблица 16 Граничные значения коэффициента корреляции Пирсона Объем выборrb n=10 n=15 n=30 Граничные значения коэффициентов α =5% α = 1% 0,63 0,77 0,51 0,64 0,36 0,46 Статистическая проверка для коэффициента корреляции производится следующим образом. Исследователь сам принимает решение о допустимой вероятности ошибки. В исследовательской практике в качестве граничного обычно принимается табличное значение на 5% уровне значимости rгр (5%), с которым сравнивается фактическое значение критерия. В случае, когда абсолютное значение rф < rгр (5%), принимается нулевая гипотеза, это означает, что выборочный коэффициент корреляции недостоверно отличается от 0, т. е. является выборочной оценкой генерального коэффициента корреляции, равного 0 ( = 0). В противоположном случае, т. е. при rф  > rгр(5%) , принимается альтернативная гипотеза H1, согласно которой фактический (эмпирический) коэффициент корреляции достоверно отличается от 0. Альтернативная гипотеза принимается уже при равенстве фактического и граничного значений. Принято также фиксировать в выводах случаи, когда происходит превышение граничного значения rгр (1%), в этом случае принятие альтернативной гипотезы происходит с меньшим риском ошибки. Однако при применении пакета прикладных статистических программ типа «Statistica» или SPSS для фактического значения рассчитывается его уровень значимости. Пример 1 Определим, существует ли значимая корреляционная связь между средними значениями интеллекта родителей и уровнем интеллекта их ребенка. Таблица 17 № 1 2 3 4 5 6 7 8 9 IQ (средний для родителей) 125 120 110 105 105 95 95 90 80 IQ ребенка 110 105 95 125 120 105 75 95 90 10 75 80 В результате вычислений получаем: x = 100; y = 100; Sx = 16,16; SY = 16,16; DX = 261,15; DY = 261,15. Фактическое значение rф = 0,59 ( = 0,076). Поскольку при n = 10 rгр (5%) = 0,63 и rгр (1%) = 0,77, выполняется неравенство rф = 0,59 < rгр (5%) = 0,63. Эти данные могут быть перенесены на график, где по оси х откладывается r : Н1 — наличие различий H0 — отсутствие различий rф = 0,59 ( r гр.(5% ) =0,63 r гр.(1% ) = 0,77 r Рис. 17 Cтатистический вывод. Поскольку фактическое значение rф = 0,52 меньше, чем rгр (5%) = 0,63, принимается нулевая гипотеза Н0, согласно которой наш фактический коэффициент корреляции rф = 0,52 статистически недостоверно отличается от 0. Психологический вывод. Не существует достоверной корреляционной связи между средним интеллектом обоих родителей и интеллектом их ребенка. Однако следует отметить условность (конвенциональность) статистических выводов в отношении выбора пороговых значений, которые приводят к смене принимаемой гипотезы. В нашем примере очевидна близость фактического значения коэффициента корреляции к 5% граничному значению, в этом случае говорят о наличии тенденции и принято рекомендовать увеличить выборку, предпринять меры по ее рандомизации и повторить вычисления. Пример 2 С помощью коэффициента линейной корреляции Пирсона проверить, есть ли достоверная связь между уровнем эмпатии и способностью идентифицировать эмоции по мимике (импрессивностью). Таблица 18 Испытуемый № Эмпатия (х) Импрессивность (y) 1 20 72 2 28 84 3 16 71 4 12 70 5 15 71 6 24 76 7 28 83 8 9 60 9 14 65 10 18 69 В результате вычислений получаем; x = 18,40; y = 72,10; Sx = 6,54; SY = 7,37; DX = 42,77; DY = 54,32, rф = 0,94 ( = 0,0006), rф = 0,94 > rгр(1%) = 0,77, следовательно принимается Н1. Статистический вывод по сути уже сделан. Психологический вывод. Поскольку принимается альтернативная гипотеза, можно утверждать наличие статистически достоверной корреляции между уровнями эмпатии и импрессивности испытуемых. Геометрическое представление коэффициента корреляции Поскольку понятие корреляции играет весьма важную роль в психологических исследованиях, это понятие должно стать математической моделью, удобной и привычной для объяснения и интерпретации опытных данных. Для освоения этого понятия применяются разные способы его наглядного и геометрического представления. Смысл понятия корреляции просто объяснить наглядным образом, с помощью диаграмм рассеивания. Диаграмма рассеивания для корреляций 1-го типа представляет собой отображение эмпирических данных в виде совокупности точек, представляющих изучаемые объекты (эллипсоид рассеивания), в пространстве признаков с координатами x и y. Таким объектом может быть, как в вышеприведенном примере, семья, ее координатой х — cреднее значение IQ родителей, координатой y — значение IQ их ребенка. Изменение величины корреляции влияет на ширину эллипса (т. е. отношения большой и малой осей), но только для нормированных переменных, чтобы на его форму не влиял масштаб переменных. Для устранения влияния масштаба переменных на характер диаграммы полезно нормировать переменные, например, приведением их к Z значениям. Для нас наиболее интересны характерные диаграммы рассеивания, приведенные ниже: а) при r = 1 она приобретает вид прямой, имеющей острый угол с осью Х: Рис. 18 б) при 0 < r < 1 диаграмма имеет вид эллипса, главная ось которого имеет острый угол с осью Х. При этом форма эллипсоида зависит от величины коэффициента: Рис. 19 в) при r = 0 эллипсоид превращается в шар: Рис. 20 г) при 0 > r > –1 диаграмма имеет вид эллипса, главная ось которого имеет тупой угол с осью Х: Рис. 21 д) при r = –1 она приобретает вид прямой, имеющей тупой угол с осью Х: Рис. 22 Корреляция как скалярное произведение Существует еще один способ графического представления коэффициента корреляции. Этот способ ведет происхождение из векторного анализа и аналитической геометрии, где существует понятие многомерного (n-мерного) пространства. Если мы имеем выборку и измеряем на ней переменную х, то получаем набор данных, который может быть представлен как вектор или как точка в n-мерном пространстве. Вектор характеризуется длиной и направлением. Если коррелируемые переменные представить в виде векторов, то можно показать, что корреляция между ними равна скалярному произведению rxy = lx ly cosxy, где lx — длина вектора х, ly — длина вектора y, xy — угол между векторами x и y. Если предположить, что lx = ly = 1, т. е. они нормированы на свою дисперсию, то получим единичные вектора, для которых rxy = cosxy. Скалярное произведение двух единичных векторов равно проекции одного из них на другой. y ά x Рис. 23 Отсюда вытекают интересные выводы: 1. Во-первых, становится понятным, что для переменной х и равной ей переменной y, т. е. при у = x корреляция равна 1: при  = 00 соs  = 1 и коэффициент корреляции r = 1,00. Таким образом, корреляция совпадающих векторов, задаваемых одинаковыми наборами чисел, максимальна и равна 1. 2. При 00 <  < 900, т. е. для острых углов коэффициент корреляции лежит в интервале от 1 до 0. При  = 450 r = 0,707. 3. При  = 900 коэффициент корреляции r = 0, такие векторы называют ортогональными. 4. При 900 <  < 1800, т. е. для тупых углов коэффициент корреляции находится в интервале от 0 до −1,00, т. е. отрицательной корреляции соответствует тупой угол между векторами. 5. При  = 1800 r = −1,00. Вектора, угол между которыми составляет 1800, преобразуются друг в друга умножением на −1, т. е. для них х = − у. Коэффициент корреляции второго типа называют также мерой подобия двух графиков (профилей), отображающих соответствующие наборы чисел. Эта мера подобия чувствительна к сходству формы графиков, но не чувствительна к различию в их высоте. Контрольные вопросы и задания 1. Чем отличаются корреляции 1-го и 2-го типа? 2. Перечислите ограничения на применение коэффициента линейной корреляции Пирсона. 3. В каких случаях статистическая взаимосвязь превращается в функциональную? 4. Что происходит с коэффициентом корреляции, когда значения обоих признаков на выборке умножаются на -1, т.е. когда признаки превращаются в противоположные по значению? 5. Чему равен коэффициент корреляции между ортогональными переменными? 6. В пространстве каких координат строится диаграмма рассеивания? 7. Вычислите коэффициент корреляции для следующих данных: Таблица 19 Испытуемые 1 2 3 4 5 6 7 8 9 10 Переменная х 12 15 19 20 17 39 15 22 17 31 Переменная у 11 33 19 17 21 30 6 12 21 26 Ответ: rф = 0,50, и, поскольку rф= 0,50 < rгр (5%) = 0,63, принимается Н0, то-есть фактический коэффициент корреляции недостоверно отличается от 0. Тема 12 КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ДЛЯ ПОРЯДКОВЫХ И КАЧЕСТВЕННЫХ ДАННЫХ В этой теме продолжается изучение связи между признаками, но будут рассмотрены коэффициенты для вычисления связи между порядковыми и качественными признаками. Для этого могут использоваться только непараметрические показатели связи, не требующие вычисления оценок параметров. Коэффициент корреляции Ч. Спирмена — наиболее популярный среди непараметрических показателей связи. Прямое назначение этого коэффициента — вычисление связи между порядковыми признаками, но он применяется и для определения связи между количественными признаками, предварительно ранжированными и превращенными в порядковые. Это оправдано для количественных признаков, распределение которых по частоте далеко от нормального. Коэффициент ранговой корреляции Спирмена вычисляется по следующей формуле: n rs = 1 − 6 d i2 i −1 n(n 2 − 1) , где di = Rxi − Ryi — разность между рангами сопряженных значений признаков x и y, а n — число парных членов ряда или объем выборки объектов. Число степеней свободы для коэффициента корреляции Спирмена df = n. Как и коэффициент линейной корреляции Пирсона, ранговый коэффициент корреляции Спирмена может принимать значения в пределах −1 ≤ rs ≤ 1. В основу этой формулы положены простые соображения. Ранжируя значения признаков, можно видеть, как они распределяются относительно друг друга. Если возрастающим значением одного признака X соответствуют возрастающие значения другого, то разности d будут сравнительно невелики. В предельном случае, когда ранги полностью совпадают, все разности между рангами сопряженных значений признаков в парах будут равны нулю. В таком случае rs = 1 − 0 = 1. При неполном совпадении рангов, но при наличии тенденции возрастания одного признака при возрастании другого rs > 0. В случае, когда возрастанию одного признака соответствует убывание другого, разности рангов di по абсолютным величинам будут максимальными, их сумма  di2 также будет максимальной, а в формуле 6 d 6 d i r = 1 − коэффициента ранговой корреляции s n(n 2 − 1) величина n(n 2 − 1) 2 2 станет максимальной и коэффициент корреляции достигнет минимума, т. е. rs = −1. Пример 1 Имеем следующие данные по росту бегунов и результатам, полученным в беге на 100 метров. Необходимо определить коэффициент ранговой корреляции Спирмена. Таблица 20 № Рост Результат в беге Ранг роста 1 2 3 4 5 6 7 8 9 10  186 187 190 185 176 183 182 181 180 184 10,1 10,8 10,9 10,4 11,2 11,0 11,1 11,4 10,3 10,2 3 2 1 4 10 6 7 8 9 5 Ранг в скорости бега 1 5 6 4 9 7 8 10 3 2 di d i2 2 −3 −5 1 −1 −1 −2 6 3 4 9 25 1 1 1 4 36 9 90 Поскольку  di2 = 90, n(n2 − 1) = 10(100 − 1) =990, получаем 6  90 rs = 1 − = 0,45 . Полученная величина rs сравнивается с табличным 990 граничным значением, для n = 10 имеем rгр (5%) = 0,64, rгр (1%) = 0,79, то-есть фактическое значение rs  rгр. (5%). Н1 — наличие различий H0 — отсутствие различий rФ = 0,45 rгр.(5% ) = 0,64 Рис. 24 rгр.(1% ) = 0,79 r Cтатистический вывод: поскольку фактическое значение коэффициента ранговой корреляции Спирмена, равное 0,45, меньше граничного значения коэффициента корреляции на 5% уровне значимости, равного 0,64, то принимается нулевая гипотеза H0, согласно которой выборочный коэффициент корреляции rs недостоверно отличается от 0 (тоесть является выборочной оценкой генерального коэффициента корреляции , равного 0). Содержательный вывод: поскольку принимается нулевая гипотеза, не существует достоверной корреляционной связи между ростом бегунов и их результатом в беге на 100 метров. Коэффициент корреляции Спирмена, как уже говорилось, можно использовать для быстрой оценки статистической связи между количественными признаками. Опыт показал, что в большинстве случаев совпадение rs и линейного коэффициента корреляции Пирсона rp оказывается довольно хорошим. Напомним, что в случае, когда числовые значения совпадают, им присваиваются средние арифметические ранги, например: Таблица 21 Хi Ri 189 1 188 3 188 3 188 3 185 5 183 7 183 7 183 7 В случаях, когда в эмпирических данных встречается много одинаковых значений признаков и соответственно одинаковых рангов, оценка rs генерального параметра s делается неточной. Для получения точной оценки, в формулу для rs нужно вводить поправку: 6 d + Т , rS = 1 − n(n 2 − 1) где T = Vx + Vу, 2 где Vx — поправка для переменной х, Vу — поправка для переменной у. Чем больше усредненных рангов, тем больше величина поправки. Она может определяться из специальной таблицы с параметрами L и T; где L — число групп с одинаковыми рангами, T — число рангов в этих группах [2, с. 242], где по оси Х откладывается число групп с одинаковым рангом, по оси У — число рангов в этих группах: Таблица 22 L T 2 3 4 5 L=1 L=2 L=3 L=4 0,5 2 5 10 1 4 10 20 1,5 6 15 30 2 8 20 40 При наличии нескольких групп с одинаковыми рангами поправки суммируются. Так, в таблице 21 с повторяющимися рангами имеем две группы, в каждой — по 3 элемента. Согласно таблице поправка для Vx = 4. Есть и формулы для расчетов поправок: Vx = 1 1  (t x3 − t x ); Vy =  (t y3 − t y ), 12 12 где tx и ty — количество усредненных рангов в каждой группе. Суммирование производится по группам. Для нашего примера с двумя группами, в каждой из которых по три одинаковых ранга. 1 1 Vx =  (t x3 − t x ) = (33 − 3 + 33 − 3)  = 4 . 12 12 Коэффициент корреляции рангов, в отличие от линейного коэффициента корреляции, характеризует корреляционную связь независимо от закона распределения переменных. Коэффициент Спирмена менее мощен, чем коэффициент линейной корреляции, поэтому для количественных нормально распределяемых признаков следует отдавать предпочтение коэффициенту корреляции Пирсона. Но для порядковых признаков, а также для количественных, не распределенных по нормальному закону, а также с целью быстрой оценки взаимосвязи, следует применять непараметрические показатели, в частности, коэффициент корреляции Спирмена. Для определения степени сопряженности между качественными признаками, с количеством градаций каждого признака равным или большим двух, используется коэффициент взаимной сопряженности или полихорический показатель связи Пирсона: C= 2  +n 2 , где  2 — значение критерия Пирсона Применяется также его усовершенствованный вариант, предложенный Чупровым, именуемый коэффициентом взаимной сопряженности Чупрова. Коэффициент взаимной сопряженности Чупрова Он применяется, в отличие, к примеру, от коэффициента ассоциации и коэффициента корреляции знаков, для таких качественных данных, в которых признаки имеют несколько градаций, а не только две. Его формула: K= 2 n (n x − 1)(n y − 1) , где  =  2 i =1 f xy2  f  f x −1 , y  2 связана с критерием Пирсона формулой  2 = N   2 . Число степеней свободы для коэффициента Чупрова df = (nх − 1)  (ny − 1), fхy — частоты «взаимной встречаемости» в клетках многопольной таблицы, fx — сумма частот по строкам, fy — суммы частот по столбцам, nx, ny — число градаций признаков x, y; n — число полей в многопольной таблице, равное nx  ny, N =  fхy =  fx =  fy — общая сумма частот или объем выборки. Ограничение на применение коэффициента Чупрова: в клетках таблицы значения fхy должны быть не менее 5, объем выборки N  50. Для оценки значимости взаимосвязи производится следующая операция 2 2 сравнения фактического значения  = N·  с граничным значением критерия. При  2ф = N   2 <  2гр (5%) принимается нулевая гипотеза H0 и коэффициент взаимосвязи оценивается как недостоверно отличающийся от 0. 2 При  2ф = N     2гр(5%) принимается альтернативная гипотеза H1. Пример. Изучалась зависимость между цветом волос и глаз у 890 человек, необходимо с помощью коэффициента Чупрова определить величину взаимосвязи, определить ее достоверность. Таблица 23 Цвет глаз Голубые Серые Карие зеленые сумма Брюнеты Шатены 10 18 94 8 130 20 32 123 28 203 Русые Блондины Рыжие Сумма 128 89 148 79 444 36 15 5 6 62 20 4 16 7 51 214 159 389 128 890 10  10 20  20 128  128 36  36 20  20 + + + + + 130  214 203  214 444  214 62  214 51 214 18  18 32  32 89  89 15  15 4 4 + + + + + 130  159 203  159 444  159 62  159 51 159 94  94 123  123 148  148 5 5 16  16 + + + + + 130  389 203  389 444  389 62  389 51 389 88 28  28 79  79 66 77 + + + + + = 1,173 − 1,0 = 0,173. 130  128 203  128 444  128 62  128 51 128 2 = K= 0,173 = 0,23 , что означает наличие слабой связи. (5 − 1)(4 − 1)  2ф= N  ·  = 890·  0,173  154. При df = 12  2гр(5%) = 21,0128,  2гр(1%) = 26,221. Поскольку  2ф = 154 >  2гр(1%) = 26,221, принимается H1. Значение 2 Можно сделать вывод о наличии слабой, но достоверной взаимосвязи между цветом волос и цветом радужной оболочки глаз. В заключение приведем сводную таблицу, содержащую характеристики рассмотренных коэффициентов корреляции. Таблица 24 Сводная таблица коэффициентов корреляции № Название 1 Коэфф-т линейной корреляции Пирсона 2 Коэфф-т ранговой корреляции Спирмена 3 Коэфф-т взаимной сопряженност и Чупрова Вид Требования к данным Параметр Количествен ический ные. Нормальное распределени е Непараме Порядковые трически или й количественн ые с преобразован ием в ранги Непараме Качественны трически е й с любым количеством градаций признака Число степеней свободы df = n – 2 Примечания Измеряет линейную часть взаимосвязи df = n Содержит поправки на одинаковые ранги df = = (nx–1)(ny –1) Накладывает ограничения N ≥ 50 fхy ≥ 5 Контрольные вопросы и задания 1. В каких случаях целесообразно вместо коэффициента линейной корреляции применять коэффициент ранговой корреляции? 2. Какие данные требуются для расчета коэффициента ранговой корреляции? 3. Чем отличается коэффициент корреляции переменных от коэффициента корреляции испытуемых? 4. В каком направлении изменяют коэффициент ранговой корреляции поправки на одинаковые ранги?