Взаимосвязь переменных и корреляционный анализ

👀 450 просмотров
📌 419 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Взаимосвязь переменных и корреляционный анализ», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Взаимосвязь переменных и корреляционный анализ», Word формат

Лекция 8. Взаимосвязь переменных и корреляционный анализ. Ученые с незапамятных времен. обратили внимание на наличие связи между различными свойствами разных уровней организации человека: телесными и духовными, телесными и патологическими. К примеру, Гиппократ наблюдал взаимосвязь между телосложением и темпераментом человека, между телосложением и склонностью к тем или иным заболеваниям. Много позднее экспериментально было доказано, что существует связь между интеллектом, измеренным в показателях IQ, у родителей и их детей. В принципе взаимосвязь между изменяющимися признаками может быть описана с помощью различного математического аппарата. Так, В математике существует понятие функции f, которая ставит в соответствие каждому определенному значению независимой переменной Х, называемой аргументом, определенное значение зависимой переменной Y или функции Y = f(x). Связь между переменными y и x может быть линейной, квадратичной. Во всех случаях функциональная связь является однозначной. Но в психологии, особенно за пределами психофизики редко встречаются функциональные связи. Например, между ростом человека и его весом связь неоднозначна. Она имеет скорее характер тенденции: мы говорим, что обычно чем выше человек, тем он тяжелее и наоборот. Когда исключения редки ( отход от тенденции), мы говорим о тесной связи, когда исключения часты, связь истончается, исчезает. Итак, связь может быть сильной и слабой. Связь может наблюдаться как между количественными признаками (пример - рост и вес), так и между порядковыми, шкальными оценками, например, по близким предметам - русский язык и литература, геометрия и тригонометрия). Может существовать и связь качественных признаков, измеренных по номинальной шкале, например, между светлым цветом волос и голубым цветом глаз. Связь или корреляция между двумя переменными может быть положительной и отрицательной. В случае, когда высоким значениям одной переменной (рост) чаще соответствуют высокие значения другой переменной (вес), корреляция положительна. Но, когда высоким значениям одной переменной ( скорость выполнения задания) соответствуют низкие значения другой ( точность выполнения задания), корреляция или связь между ними негативна. Знак корреляции характеризует направление взаимосвязи. Теперь рассмотрим понятие коэффициента корреляции для количественных данных. Наиболее популярен линейный коэффициент корреляции Пирсона. (Пирсона - Бравэ): Он измеряется по формуле: R xy = 1 N N  (xi  x )( yi  y ) i 1 Sx * Sy  cov xy , где Sx - стандартное отклонение для Sx * Sy переменной x, Sy - стандартное отклонение для переменной y. r=  Zx * Zy Rxy= N Коэффициент корреляции просчитывается через ковариацию. Ковариация есть усредненная величина произведений отклонений каждой пары значений x и y от их средних . Очевидно, что величина этого показателя зависит от того, насколько часто в общем ряду слагаемых (xx )(y- y ) сомножители будут иметь один знак - плюс или минус. В этом случае пары переменных отклоняются от средних в сторону превышения их xi > x и yi > y , либо обе пары меньше средних. Этот случай соответствует позитивной ковариации и ковариации – большим значениям одного признака соответствуют большие значения другого. (При негативной корреляции чаще будут суммироваться отрицательные слагаемые). Недостаток понятия ковариации в том, что он зависит от масштаба признаков, единиц их измерения. Для устранения этого недостатка, отклонения нормируются на свои среднеквадратичные отклонения. Коэффициент корреляции - отвлеченное число, значения которого для разных данных могут находиться в пределах от -1 до +1. При полной независимости признаков, r=0. Чем сильнее связь между признаками, тем более значение коэффициента корреляции приближается к + 1 либо к - 1.. Рабочая формула:для более экономного вычисления коэффициента корреляции Пирсона имеет следующий вид: N N  xi *  yi i 1 N  xi * yi  Rxy= i 1 Sx * Sy . Эмпирический коэффициент корреляции, как и любой другой выборочный показатель, служит оценкой своего генерального параметра  и, как величина случайная, сопровождается ошибкой репрезентативности: Sr= 1 r , где n Ошибка средней: r - коэффициент корреляции, n - объем выборки. Sx= Sx ; где n Если объем выборки n   , Sr  0 При расчете коэффициента корреляции Пирсона важно соблюдать следующие условия для эмпирических данных: 1. Нормальность распределения переменных в выборке. 2. Связь между переменными должна быть линейной. 3. Для получения представительной оценки генерального параметра необходим достаточный объем выборки: (n  30 ).  Число степеней свободы df=N-2 Для подсчета коэффициента корреляции нужна таблица данных, состоящая из пар чисел. В ней могут два признака варьируют для n объектов, в этом случае говорят о корреляции признаков на выборке испытуемых. Но может быть рассчитан коэффициент корреляции между двумя объектами, например, испытуемыми, когда для них измерены n признаков. В последнем случае говорят о корреляции между профилями испытуемых. Смысл понятия корреляции просто объяснить наглядным образом, с помощью диаграммы рассеивания. Возьмем пример с средним показателем IQ у родителей и IQ их ребенка. № IQ ( сред. IQ ребенка. родителей) 1 125 110 2 120 105 3 110 95 4 105 125 5 105 120 6 95 105 7 95 75 8 90 95 9 80 90 10 75 80 Можно представить пары значений на следующей диаграмме: r=0.59 Изменения величины корреляции влияет на ширину эллипса ( т.е. отношения большой и малой осей) ( но только для нормированных переменных, чтобы не влиял масштаб переменных) ( графики) Корреляция как скалярное произведение Существует еще один коэффициента корреляции. способ графического представления Этот способ ведет происхождение из векторного анализа и аналитической геометрии, где существует понятие многомерного ( N- мерного) пространства. Если мы имеем выборку из N испытуемых и измеряем две переменные, получив два набора данных, то каждый такой набор может быть представлен как соответственно две точки X и Y в N- мерном пространстве с N координатами аналитической геометрии вместо понятия по осям. В точки используют понятие вектора, начинающегося в начале координат и заканчивающегося в точке Х. Вектор характеризуется длиной и направлением. Если обе переменные представить в виде векторов, то можно показать, что корреляция между ними равна rXY= lx*ly*cos  xy ; где lx - длина вектора х скалярное произведение ly - длина вектора y lxy - угол между векторами Если предположить, что lx = ly = 1, т.е. они нормированы на свою дисперсию, то rXY= cos  xy - для единичных векторов. Отсюда вытекают интересные выводы: 1) Корреляция равна 0, когда cos900=0 ортогогональны) ??????????????????????? (график) 2) Когда 180 >  >90 , -1 < cos  < 0 т.е. xy ==90 ( факторы т.е. отрицательной корреляции соответствует тупой угол между векторами. (график) при  =450 3)(график) r= 0,707 Скалярное произведение двух единичных векторов равно проекции одного из них на другой. При каком значении коэффициента корреляции она становится значимой?. Эта величина зависит от объема выборки . Чем больше выборка, тем достовернее величина полученного коэффициента корреляции и тем меньшее значение коэффициента корреляции может стать значимым. Существуют таблицы критических значений rкр. Для линейного коэффициента корреляции критическое значение находится в строке с n на 1 меньшим , чем объем выборки. 5% 1% n=15 rгр 0.512 0.641 n=30 rгр 0.367 0.460 Пример1: Есть ли статистическая связь между оценками по тесту эмпатии и способностью идентифицировать эмоции по мимике ( импрессивность). 1 Эмп. 20 2 3 4 5 6 7 8 9 10 28 16 12 15 24 28 9 14 18 x Sx 84 71 70 71 76 83 60 65 69 y Sy х имп р. Y 72 Обычно в тестологической практике r=0.7 r12=0.75  1  0.75  S0 =0.5 ?????????? Это довольно много, такой ошибкой нельзя пренебречь. При такой ошибке эмпирически полученное отклонение индивидуального тестового балла от среднего завышается. Истинное значение Х  можно подсчитать по формуле Х  = r xi+(1-r) x ,???????????? xi - эмп. балл i - го испытуемого r - эмпирически изменяемая ....теста x - среднее для теста ??????????????????????????????7 Пример2: пусть IQ=120 .... баллов ( Стенфорд-Бине) m=100, r=0.9 Х  =0.9*120+100*0.1=110

ВЫСШАЯ МАТЕМАТИКА

#Лекция

Взаимосвязь переменных и корреляционный анализ

Тебе могут подойти лекции