Регрессионно-корреляционный анализ и линеаризация функций
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Тема 3. Психофизическая проблема и шкалирование ощущений (Регрессионно-корреляционный анализ и линеаризация функций)
Лекция 1. Регрессионно-корреляционный анализ и линеаризация функций
План лекции
1. Оценка связи
2. Ранговый коэффициент корреляции Спирмена
3. Коэффициент корреляции Пирсона
4. Регрессионно-корреляционный анализ
5. Линеаризирующие преобразования
1. Оценка связи
Силу связи между двумя переменными можно определить с помощью коэффициента корреляции (r). Имеется несколько различных формул для вычисления корреляции. Наиболее распространенный метод вычисления корреляции – корреляция как произведение моментов Пирсона, которая требует интервальных или относительных данных для каждой переменной. Однако если хотя бы одна из переменных порядковая, для определения меры связи необходимо использовать ранговый (порядковый) коэффициент корреляции Спирмена (rs) – непараметрический статистический показатель.
2. Ранговый коэффициент корреляции Спирмена
Формула для вычисления .
Задача 1. Какова корреляция между рангом рождения и СБ осенним для людей, отработавших 20 и менее часов? Ранг рождения – это порядковая переменная, поэтому необходимо использовать формулу Спирмена. Выберите записи с числовыми значениями 20 или менее из графы Отработанные часы. Впишите номера испытуемых в первый столбец, а СБ осенний (XI) – во второй. Расположите часы в порядке возрастания и впишите данные по рангу СБ (Rx) и рангу рождения (RY) в столбцы 3 и 4. Определите разность между рангом СБ и рангом рождения (Rx – RY), возведите в квадрат каждую разность: (Rx – RY)2, а затем сложите полученные результаты Σ(RX – RY)2. Подставьте эти величины в формулу.
X1
X5
X3
Номер
СБ осенний
Ранг СБ
Ранг рождения
(Rx – Ry)
(Rx – RY)2
XI
Rx
Ry
2
4,6
1
3
–2
4
3
4,7
2
2
5
5,0
4
1
3
9
9
4,6
1
2
–1
1
10
4,9
3
1
2
4
11
5,0
4
2
2
4
16
4,9
3
1
2
4
17
4,7
2
3
–1
1
n = 8
Σ(RX – RY)2 = 27
.
По таблицам П 4 (см. ниже) определяем статистическую значимость r, найдя критическое значение. В нашем примере rS = 0,678, а n = 8. Выбрав уровень значимости р = 0,05, мы видим, что в нашем случае величина rS не достигает критического значения 0,738 и, следовательно, он не является статистически значимым, что неудивительно, принимая во внимание ограниченное число наблюдений.
3. Коэффициент корреляции Пирсона
Еще один часто используемый коэффициент корреляции, называемый коэффициентом корреляции Пирсона (r), используется для измерения связи между двумя переменными на интервальных шкалах. Используется только в случае линейной зависимости. Формула для приблизительного вычисления r.
.
Задача 2. Какова корреляция между количеством отработанных часов (X7) и СБ осенним (X5) испытуемого? Начните анализ с построения столбцов для номера, СБ (Xi) и отработанных часов (Yi). Далее найдите отклонения DX и DY , затем квадраты отклонений DX2 и DY2. Затем вычислите суммы квадратов отклонений ΣDX2 и ΣDY2, а также сумму произведений отклонений ΣDXDY.
X1
X5
X7
№
СБ
Отработанные часы
Xi
Yi
DX
DY
DX2
DY2
DXDY
1
3,9
38,0
–0,5
14,5
0,3
209,4
–7,5
2
4,6
15,0
0,2
–8,5
0,0
72,8
–1,6
3
4,7
10,0
0,3
–13,5
0,1
183,0
–3,8
4
4,2
30,0
–0,2
6,5
0,0
41,9
–1,4
5
5,0
12,0
0,6
–11,5
0,3
132,9
–6,7
6
3,7
35,0
–0,7
11,5
0,5
131,6
–8,2
7
3,7
30,0
–0,7
6,5
0,5
41,9
–4,6
8
4,4
30,0
0,0
6,5
0,0
41,9
–0,1
9
4,6
20,0
0,2
–3,5
0,0
12,5
–0,6
10
4,9
10,0
0,5
–13,5
0,2
183,0
–6,5
11
5,0
20,0
0,6
–3,5
0,3
12,5
–2,1
12
4,0
35,0
–0,4
11,5
0,2
131,6
–4,8
13
4,6
30,0
0,2
6,5
0,0
41,9
1,2
14
4,2
30,0
–0,2
6,5
0,0
41,9
–1,4
15
4,0
35,0
–0,4
11,5
0,2
131,6
–4,8
16
4,9
10,0
0,5
–13,5
0,2
183,0
–6,5
17
4,7
10,0
0,3
–13,5
0,1
183,0
–3,8
n = 17
4,4
23,5
0,0
0,0
3,3
1776,2
–63,4
Полученные значения подставьте в формулу
.
Примечание. Знак «минус» перед коэффициентом корреляции отражает направление связи, а не значение. В данном случае зависимость обратная – чем больше человек занимается, тем ниже его СБ осенний (естественно, это шуточный пример). Чтобы найти уровень значимости для r, нам необходимо подсчитать степени свободы, или df = (n – 2), а затем обратиться к табл. П 3.2. Имея df = 15 и используя уровень значимости 0,05, мы можем определить, превышает ли полученная нами величина r = 0,846 критическое значение, приведенное в таблице. Критическое значение равно 0,456 и меньше полученной нами величины 0,846; таким образом, между количеством отработанных часов и СБ осенним имеет место статистически значимая отрицательная корреляция.
4. Регрессионно-корреляционный анализ
Регрессионный анализ устанавливает форму зависимости случайной величины y и значениями переменной x.
Корреляционный анализ определяет степень связи между двумя случайными величинами y и x.
Графическое решение задачи выявляет регрессию (форму зависимости) и уравнение связи. Линейная зависимость описывается уравнением
y = a + bx,
где: а и b – коэффициенты, определяемые по формулам:
a = y – bx,
.
Задача 3. Для задачи 2 построить график и определить уравнение регрессии.
r2 = 0,719 как на графике.
, a = 23,5 – 4,4(–20,15) = 112,54.
Итак, уравнение регрессии
y = 112,54 – 20,15x.
5. Линеаризирующие преобразования
Но так ли это на самом деле? Оказывается, в данном примере была (умышленно) допущена неточность. Все уравнения, по которым проводились расчеты, применяются только в случае линейной зависимости. На графике же точки расположены явно не на одной линии, и мы можем предположить, что регрессия может быть иной, нелинейной. Если зависимость y от x нелинейная, то иногда эту зависимость можно линеаризовать с помощью преобразования переменных x и y. Линеаризацию можно провести с помощью формул табл. П 6. (см. ниже) Но для данного случая остановимся на полигональной зависимости
y = b0 x0 + b1 x1 + b2 x2 + b3 x3 + … + bn xn
где n – степень функции.
Используя электронную таблицу MS Excel, строим полигональную линию тренда (n = 3) и получаем r = – 0,906 (r2 = 0,820). Это выше, чем при расчетах линейной зависимости.
Если вы не можете принять решение, какую формулу подобрать для конкретной регрессии, то выберете ту, при которой получается максимальный коэффициент корреляции.
Вопросы и задания для самоконтроля
1. Параметрические критерии, условия их применения.
2. Что выявляет корреляционный анализ?
3. Что выявляет регрессионный анализ?
4. С какойцелью проводятся линеаризирующие преобразования?
5. По какому параметру выбирается максимально адекватная модель в регрессионно-корреляционном анализе?
6. Варианты заданий для самостоятельного решения задач (см ниже).
Таблица П 4
Критические значения р (коэффициента корреляции Спирмена для рангов)
N
р = 0,05
р = 0,01
5
1,000
-
6
0,886
1,000
7
0,786
0,929
8
0,738
0,881
9
0,683
0,833
10
0,648
0,794
12
0,591
0,777
14
0,544
0,715
16
0,506
0,665
18
0,475
0,625
20
0,450
0,591
22
0,428
0,562
24
0,409
0,537
26
0,392
0,515
28
0,377
0,496
30
0,364
0,478
Таблица П 5
Критические значения r (коэффициента корреляции Пирсона)
df
Уровень значимости для проверки по двустороннему критерию
0,10
0,05
0,01
1
0,988
0,997
0,9999
2
0,900
0,950
0,990
3
0,805
0,878
0,959
4
0,729
0,811
0,917
5
0,669
0,754
0,874
6
0,622
0,707
0,834
7
0,582
0,666
0,798
8
0,549
0,632
0,765
9
0,521
0,602
0,735
10
0,497
0,576
0,708
11
0,476
0,553
0,684
12
0,458
0,532
0,661
13
0,441
0,514
0,641
14
0,426
0,497
0,623
15
0,412
0,482
0,606
16
0,400
0,468
0,590
17
0,389
0,456
0,575
18
0,378
0,444
0,561
19
0,369
0,433
0,549
20
0,360
0,423
0,537
25
0,323
0,381
0,487
30
0,296
0,349
0,449
35
0,275
0,325
0,418
40
0,257
0,304
0,393
45
0,243
0,288
0,372
50
0,231
0,273
0,354
60
0,211
0,250
0,325
70
0,195
0,232
0,303
80
0,183
0,217
0,283
90
0,173
0,205
0,267
100
0,164
0,195
0,254
Таблица П 6
Линеаризующие преобразования
Варианты заданий для самостоятельной работы
Y
X
1
9
1
12
3
18
4
18
4
15
3
13
7
12
8
22
10
21
10
24
11
27
13
20
15
32
17
28
16
34
18
48
17
50
18
52
19
52
17
57
Y
X
-1
9
-1
12
-3
18
-4
18
-4
1
-3
13
-7
12
-8
22
-10
21
-10
24
-11
27
-13
20
-15
32
-17
28
-16
34
-18
48
-17
50
-18
52
-19
52
-17
57
Y
X
1,46
3,06
1,46
4,08
4,38
6,12
5,84
6,12
5,84
5,10
4,38
4,42
10,22
4,08
11,68
7,48
14,60
7,14
14,60
8,16
16,06
9,18
18,98
6,80
21,90
10,88
24,82
9,52
23,36
11,56
26,28
16,32
24,82
17,00
26,28
17,68
27,74
17,68
24,82
19,38
Y
X
1,46
3,06
1,46
4,08
0,49
6,12
0,37
6,12
0,37
5,10
0,49
4,42
0,21
4,08
0,18
7,48
0,15
7,14
0,15
8,16
0,13
9,18
0,11
6,80
0,10
10,88
0,09
9,52
0,09
11,56
0,08
16,32
0,09
17,00
0,08
17,68
0,08
17,68
0,09
19,38
Y
X
1,10
0,11
1,10
0,08
0,37
0,06
0,28
0,06
0,28
0,07
0,37
0,08
0,16
0,08
0,14
0,05
0,11
0,05
0,11
0,04
0,10
0,04
0,08
0,05
0,07
0,03
0,06
0,04
0,07
0,03
0,06
0,02
0,06
0,02
0,06
0,02
0,06
0,02
0,06
0,02
Y
X
1,00
0,11
1,00
0,08
0,33
0,06
0,25
0,06
0,25
0,07
0,33
0,08
0,14
0,08
0,13
0,05
0,10
0,05
0,10
0,04
0,09
0,04
0,08
0,05
0,07
0,03
0,06
0,04
0,06
0,03
0,06
0,02
0,06
0,02
0,06
0,02
0,05
0,02
0,06
0,02
Y
X
1,00
0,11
1,00
0,08
3,00
0,06
4,00
0,06
4,00
0,07
3,00
0,08
7,00
0,08
8,00
0,05
10,00
0,05
10,00
0,04
11,00
0,04
13,00
0,05
15,00
0,03
17,00
0,04
16,00
0,03
18,00
0,02
17,00
0,02
18,00
0,02
19,00
0,02
17,00
0,02
Y
X
1,10
0,19
1,10
0,07
3,30
0,05
4,40
0,05
4,40
0,06
3,30
0,07
7,70
0,07
8,80
0,04
11,00
0,04
11,00
0,04
12,10
0,03
14,30
0,04
16,50
0,03
18,70
0,03
17,60
0,03
19,80
0,02
18,70
0,02
19,80
0,02
20,90
0,02
18,70
0,01
Y
X
1,10
0,34
1,10
0,68
3,30
0,39
4,40
0,45
4,40
0,34
3,30
0,34
7,70
0,30
8,80
0,12
11,00
0,13
11,00
0,11
12,10
0,10
14,30
0,14
16,50
0,09
18,70
0,10
17,60
0,08
19,80
0,06
18,70
0,05
19,80
0,05
20,90
0,05
18,70
0,03
Y
X
11,30
0,34
11,30
1,28
33,90
0,73
45,20
0,85
45,20
0,64
33,90
0,64
45,20
0,57
90,40
0,23
113,00
0,24
113,00
0,21
124,30
0,19
146,90
0,26
169,50
0,16
192,10
0,18
180,80
0,15
203,40
0,11
192,10
0,10
203,40
0,09
214,70
0,10
192,10
0,06
Y
X
1,00
0,34
1,00
0,53
9,00
0,30
16,00
0,35
16,00
0,27
9,00
0,27
16,00
0,24
64,00
0,10
100,00
0,10
100,00
0,09
121,00
0,08
169,00
0,11
225,00
0,07
289,00
0,08
256,00
0,06
324,00
0,04
289,00
0,04
324,00
0,04
361,00
0,04
289,00
0,03
Y
X
1
125
1
64
9
343
16
216
16
512
9
512
16
729
64
10648
100
9261
100
13824
121
19683
169
8000
225
32768
289
21952
256
39304
324
110592
289
125000
324
175616
361
140608
289
512000