Взаимосвязь переменных и корреляционный анализ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 8. Взаимосвязь переменных и корреляционный анализ.
Ученые с незапамятных времен. обратили внимание на наличие связи
между различными свойствами
разных уровней организации человека:
телесными и духовными, телесными и
патологическими. К примеру,
Гиппократ наблюдал взаимосвязь между телосложением и темпераментом
человека, между телосложением
и склонностью к тем или иным
заболеваниям.
Много позднее экспериментально было доказано, что существует связь
между интеллектом, измеренным в показателях IQ, у родителей и их детей.
В принципе взаимосвязь между изменяющимися признаками может
быть описана с помощью различного математического аппарата. Так, В
математике существует понятие функции f, которая ставит в соответствие
каждому определенному значению независимой переменной Х, называемой
аргументом, определенное значение зависимой переменной Y или функции
Y = f(x).
Связь между переменными y и x может быть линейной, квадратичной.
Во всех случаях функциональная связь является однозначной.
Но в психологии, особенно за пределами психофизики
редко
встречаются функциональные связи. Например, между ростом человека и его
весом связь неоднозначна.
Она имеет скорее характер тенденции: мы
говорим, что обычно чем выше человек, тем он тяжелее и наоборот. Когда
исключения редки ( отход от тенденции), мы говорим о тесной связи, когда
исключения часты, связь истончается, исчезает. Итак, связь может быть
сильной и слабой.
Связь может наблюдаться как между количественными признаками
(пример - рост и вес), так и между порядковыми, шкальными оценками,
например, по близким предметам - русский язык и литература, геометрия и
тригонометрия). Может существовать и
связь качественных
признаков,
измеренных по номинальной шкале, например, между светлым цветом волос
и голубым цветом глаз.
Связь или корреляция
между двумя переменными может
быть
положительной и отрицательной. В случае, когда высоким значениям
одной переменной (рост) чаще соответствуют высокие значения другой
переменной (вес), корреляция положительна. Но, когда высоким значениям
одной переменной ( скорость выполнения задания) соответствуют низкие
значения
другой ( точность выполнения задания), корреляция или связь
между ними
негативна.
Знак корреляции характеризует
направление
взаимосвязи.
Теперь
рассмотрим
понятие
коэффициента
корреляции
для
количественных данных. Наиболее популярен линейный коэффициент
корреляции Пирсона. (Пирсона - Бравэ):
Он измеряется по формуле:
R xy
=
1
N
N
(xi x )( yi y )
i 1
Sx * Sy
cov xy
, где Sx - стандартное отклонение для
Sx * Sy
переменной x, Sy - стандартное отклонение для переменной y.
r=
Zx * Zy
Rxy=
N
Коэффициент
корреляции
просчитывается
через
ковариацию.
Ковариация есть усредненная величина произведений отклонений каждой
пары значений x и y
от их средних . Очевидно, что величина этого
показателя зависит от того, насколько часто в общем ряду слагаемых (xx )(y- y )
сомножители будут иметь один знак - плюс или минус. В этом
случае пары переменных отклоняются от средних в сторону превышения их
xi > x и yi > y , либо обе пары меньше средних. Этот случай соответствует
позитивной ковариации и ковариации – большим значениям одного признака
соответствуют большие значения другого. (При негативной корреляции чаще
будут суммироваться отрицательные слагаемые).
Недостаток понятия ковариации в том, что он зависит от масштаба
признаков, единиц их измерения. Для устранения этого недостатка,
отклонения нормируются на свои среднеквадратичные отклонения.
Коэффициент корреляции - отвлеченное число, значения которого для
разных данных
могут находиться в пределах от -1 до +1. При полной
независимости признаков, r=0. Чем сильнее связь между признаками, тем
более значение коэффициента корреляции приближается к + 1 либо к - 1..
Рабочая формула:для более экономного
вычисления коэффициента
корреляции Пирсона имеет следующий вид:
N
N
xi * yi
i 1
N
xi * yi
Rxy=
i 1
Sx * Sy
.
Эмпирический коэффициент корреляции, как и любой другой
выборочный показатель, служит оценкой своего генерального параметра
и, как величина случайная, сопровождается ошибкой репрезентативности:
Sr=
1 r
, где
n
Ошибка средней:
r - коэффициент корреляции, n - объем выборки.
Sx=
Sx
; где
n
Если объем выборки n , Sr 0
При расчете коэффициента корреляции Пирсона важно
соблюдать
следующие условия для эмпирических данных:
1. Нормальность распределения переменных в выборке.
2. Связь между переменными должна быть линейной.
3. Для получения представительной оценки генерального параметра
необходим достаточный объем выборки: (n 30 ).
Число степеней свободы df=N-2
Для подсчета коэффициента корреляции нужна таблица данных,
состоящая из
пар чисел. В
ней могут два признака варьируют для n
объектов, в этом случае говорят о корреляции признаков на выборке
испытуемых.
Но может быть рассчитан коэффициент корреляции между двумя объектами,
например, испытуемыми, когда для них измерены
n
признаков. В
последнем случае говорят о корреляции между профилями испытуемых.
Смысл понятия корреляции просто объяснить наглядным образом, с
помощью диаграммы рассеивания.
Возьмем пример с средним показателем IQ у родителей и IQ их
ребенка.
№
IQ ( сред.
IQ ребенка.
родителей)
1
125
110
2
120
105
3
110
95
4
105
125
5
105
120
6
95
105
7
95
75
8
90
95
9
80
90
10
75
80
Можно представить пары значений на следующей диаграмме:
r=0.59
Изменения величины корреляции влияет на ширину эллипса ( т.е. отношения
большой и малой осей) ( но только для нормированных переменных, чтобы
не влиял масштаб переменных)
( графики)
Корреляция как скалярное произведение
Существует
еще
один
коэффициента корреляции.
способ
графического
представления
Этот способ ведет происхождение из
векторного анализа и аналитической геометрии, где существует понятие
многомерного ( N- мерного) пространства. Если мы имеем выборку из N
испытуемых и измеряем две переменные, получив два набора данных, то
каждый такой набор может быть представлен как соответственно две точки
X и
Y в N- мерном
пространстве с N координатами
аналитической геометрии вместо понятия
по осям. В
точки используют понятие
вектора, начинающегося в начале координат и заканчивающегося в точке Х.
Вектор характеризуется длиной и направлением. Если обе переменные
представить в виде векторов, то можно показать, что корреляция между
ними равна
rXY= lx*ly*cos xy ;
где lx - длина вектора х
скалярное произведение
ly - длина вектора y
lxy - угол между векторами
Если предположить, что lx = ly = 1, т.е. они нормированы на свою
дисперсию, то rXY= cos xy - для единичных векторов.
Отсюда вытекают интересные выводы:
1) Корреляция
равна
0,
когда
cos900=0
ортогогональны) ???????????????????????
(график)
2) Когда 180 > >90 ,
-1 < cos < 0
т.е.
xy ==90
(
факторы
т.е. отрицательной корреляции соответствует тупой угол между векторами.
(график)
при =450
3)(график)
r= 0,707
Скалярное произведение двух единичных векторов равно проекции одного
из них на другой.
При каком значении коэффициента корреляции она становится
значимой?. Эта величина зависит от объема выборки . Чем больше выборка,
тем достовернее величина полученного коэффициента корреляции и тем
меньшее значение коэффициента корреляции может стать значимым.
Существуют таблицы критических значений rкр. Для линейного
коэффициента корреляции критическое значение находится в строке с n на
1 меньшим , чем объем выборки.
5%
1%
n=15
rгр
0.512
0.641
n=30
rгр
0.367
0.460
Пример1:
Есть ли статистическая связь между оценками по тесту эмпатии и
способностью идентифицировать эмоции по мимике ( импрессивность).
1
Эмп. 20
2
3
4
5
6
7
8
9
10
28
16
12
15
24
28
9
14
18
x
Sx
84
71
70
71
76
83
60
65
69
y
Sy
х
имп
р. Y
72
Обычно
в
тестологической
практике
r=0.7
r12=0.75 1 0.75 S0 =0.5 ?????????? Это довольно много, такой ошибкой
нельзя пренебречь. При такой ошибке эмпирически полученное отклонение
индивидуального тестового балла от среднего завышается.
Истинное значение Х
можно подсчитать по формуле
Х = r xi+(1-r) x ,????????????
xi - эмп. балл i - го испытуемого
r - эмпирически изменяемая ....теста
x - среднее для теста
??????????????????????????????7
Пример2:
пусть IQ=120 .... баллов ( Стенфорд-Бине)
m=100, r=0.9
Х =0.9*120+100*0.1=110