Корреляционный анализ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Корреляционный анализ
Одной из важнейших задач статистики является установление связи
и вида или формы этой связи между случайными величинами.
Например, первая же принципиальная идея - это идея о взаимосвязях
между разными переменными. Формирующийся на рынке спрос на некоторый
товар рассматривается как функция его цены; затраты, связанные с изготовлением какого-либо продукта, предполагаются зависящими от объема производства; потребительские расходы могут быть функцией дохода. Все это примеры
связи между двумя переменными, однако, для большей реалистичности в каждое соотношение приходится вводить несколько переменных.
Зависимость между двумя величинами, при которой изменение одной
влечет изменение закона распределения другой, называется статистической.
При статистической зависимости величины не связаны функционально, но
как случайные величины заданы совместным распределением вероятностей.
Исследование взаимозависимости случайных величин приводит к теории
корреляции как разделу теории вероятностей и корреляционному анализу как
разделу математической статистики.
Во многих случаях некоторые величины могут быть неслучайными, в
то время как остальные имеют случайные флуктуации, обусловленные ошибками измерений или другими причинами. Исследование взаимозависимости
случайных величин от ряда неслучайных и случайных приводит к моделям
регрессии и регрессионному анализу на базе выборочных данных.
Чаще всего для описания, анализа и прогнозирования явлений и процессов в экономике применяют модели в форме уравнений или функций.
Проведем корреляционный анализ по имеющимся факторам x1 , x2 , x3 ,
определяя корреляционную (линейную) зависимость между ними и установления наиболее информативных из них. Для этого воспользуемся формулой
выборочного коэффициента корреляции
rB = rˆ =
n( xi x j ) − xi x j
[n( xi ) 2 − (xi ) ] [n( x j ) 2 − (x j ) ]
2
2
.
Данный коэффициент показывает линейную зависимость
между анализируемыми показателями. Значения коэффициента корреляции
принадлежат промежутку − 1;1. Чем больше его абсолютное значение к 1, тем
теснее связь между признаками. Положительная величина коэффициента корреляции свидетельствует о прямой связи между ними, отрицательная – о наличии обратной связи между признаками.
Гипотеза об отсутствии линейной функциональной связи между
xi и x j может быть записана как H 0 : r = 0 . Для проверки H 0 используется
критерий, статистика которого
r n−2
t= B
t (n − 2)
2
1 − rB
распределена по закону Стьюдента с (n − 2) степенями свободы.
Вывод о значимости корреляции между xi и x j может быть сделан, если t0 t
1−
, где t
1−
2
2
= t 1 − , n − 2 – квантиль t – распределения, –
2
уровень значимости.
Пример 2. Провести корреляционный анализ между рассматриваемыми
факторами: уровень подготовки студентов по предмету «Бухгалтерский
учет» на одном из факультетов в зависимости от: x1 – количества студентов,
x2 – посещаемости занятий и x3 – коэффициента интеллекта студентов.
x1
x2
x3
89
75
82
84
91
92
89
107
89
87
85
70
86
80
97
79
92
99
83
77
88
85
81
87
87
110
102
105
94
92
Решение:
1. Посчитаем выборочные коэффициенты, по формуле:
n( x1 x2 ) − x1 x2
,
rx x =
2
2
(n( x1 ) 2 − (x1 ) ) (n( x2 ) 2 − (x2 ) )
n( x1 x3 ) − x1 x3
,
rx x =
2
2
(n( x1 ) 2 − (x1 ) ) (n( x3 ) 2 − (x3 ) )
n( x2 x3 ) − x2 x3
.
rx x =
2
2
2
2
(n( x2 ) − (x2 ) ) (n( x3 ) − (x3 ) )
1 2
1 3
2 3
Для этого понадобиться вспомогательная таблица:
1
2
3
4
5
6
7
8
9
10
x1
x2
x3
x1 x 2
x1 x3
x 2 x3
x12
x 22
x 32
89
75
82
84
91
92
89
107
89
87
85
70
86
80
97
79
92
99
83
77
88
85
81
87
87
110
102
105
94
92
7565
5250
7052
6720
8827
7268
8188
10593
7387
6699
7832
6375
6642
7308
7917
10120
9078
11235
8366
8004
7480
5950
6966
6960
8439
8690
9384
10395
7802
7084
7921
5625
6724
7056
8281
8464
7921
11449
7921
7569
7225
4900
7396
6400
9409
6241
8464
9801
6889
5929
7744
7225
6561
7569
7569
12100
10404
11025
8836
8464
885
848
931
75549
82877
79150
78931
72654
87497
rx x =
1 2
10 75549 − 885 848
(10 78931 − (885) ) (10 72654 − (848) )
rx x = 0,684102
rx x = 0,257521
2
2
= 0,744797
1 3
2 3
Так как коэффициент корреляции находится в пределах: − 1 rx x 1 ,
i
j
то следуя этому, можно сделать вывод, что:
● − 1 0,7448 1 , между x1 и x2 существует достаточно тесная линейная зависимость;
● − 1 0,6841 1 , между x1 и x 3 есть не сильная линейная зависимость;
● − 1 0,2575 1, между x2 и x 3 практически отсутствует линейная зависимость, но связь может быть нелинейная.
Рассмотрим гипотезу Н 0 , об отсутствии линейной функциональной
связи между x i и x j . Н 0 : r = 0 , зададим уровень значимости = 0,05 .
Найдем t кр по критерию Стьюдента:
t кр = ( ; n − 2) = (0,05; 8) = 2,306
Найдем t набл по всем переменным:
rx x n − 2 0,7448 10 − 2
t набл x1 x2 =
=
= 4,73 ;
1 − (rx x ) 2
1 − (0,7448) 2
1 2
1 2
t наблx1 x3 =
rx x n − 2
1 3
1 − (rx x ) 2
=
1 3
t наблx2 x3 =
rx x n − 2
2 3
1 − (rx x )
2 3
2
=
0,6841 8
1 − (0,6841) 2
0,2575 8
1 − (0,2575) 2
= 3,637 ;
= 0,78 .
На основании полученных решений можно сделать следующие выводы:
● t наблx1 x2 t кр => гипотеза отклонена, т.е. между переменными x1 –количество студентов и x 2 – посещаемость занятий линейная зависимость статистически значимая;
● t наблx1 x3 t кр => гипотеза отклонена, т.е. между переменными x1 –количество студентов и x3 – коэффициент интеллекта студентов линейная зависимость статистически значимая;
● t наблx2 x3 t кр => гипотеза принята, т.е. между переменными x 2 –посещаемость занятий и x3 – коэффициент интеллекта студентов линейная зависимость статистически не значима.