Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 9 – Применение корреляционного и регрессионного анализа для анализа статистических данных
Корреляционно-регрессионный анализ предназначен для статистического моделирования зависимостей, причем необходимо четко представлять, что исследование объективно существующих связей между явлениями и их показателями – одна из важнейших задач анализа.
Различают два класса статистических признаков: независимые (факторные) и зависимые (результативные). Зависимости бывают функциональными и нет. Зависимости, не являющиеся функциональными представляют собой зависимости с элементом случайности. При функциональной зависимости каждому значению независимой переменной соответствует определенное значение зависимой.
Примером функциональной связи может служить балансовая связь:
,
где – остаток средств на начало изучаемого периода;
– поступление средств в течении данного периода;
– расход средств за период;
– остаток средств на конец периода.
В социально-экономических исследованиях в большинстве случаев наблюдается связь, при которой каждому значению одной переменной соответствует некоторое множество возможных значений другой переменной. Такая зависимость называется статистической.
Корреляционной зависимостью между двумя переменными величинами называется функциональная зависимость между значениями одной из них и средним значением другой. Графическое изображением взаимосвязи двух признаков является поле корреляции.
Поле корреляции представляет собой диаграмму рассеяния (точечная диаграмма, scatter plot) – математическую диаграмму, изображающую значения двух переменных в виде точек на декартовой плоскости. На диаграмме рассеяния каждому наблюдению (или элементарной единице набора данных) соответствует точка, координаты которой (в декартовой системе координат) равны значениям двух каких-то параметров этого наблюдения. Если предполагается, что один из параметров зависит от другого, то обычно значения независимого параметра откладывается по горизонтальной оси, а значения зависимого — по вертикальной.
Рисунок 1 – Диаграмма рассеяния
На данном рисунке изображена парная корреляция – линейная зависимость между двумя переменными, однако существуют другие виды корреляционной зависимости. Это частная и множественная корреляция. Частная корреляция представляет собой линейную зависимость между двумя переменными при исключении влияния других, а множественная корреляция это линейная зависимость между набором переменных. Наиболее частой является множественная корреляция.
Связи между явлениями и их признаками классифицируются:
• По тесноте: сильная, умеренная, слабая или отсутствует;
• По направлению: прямая или обратная;
• По аналитическому выражению: линейная или нелинейная.
Для определения взаимосвязей между переменными используют методы регрессии и корреляции. Регрессия - величина, выражающая зависимость среднего значения случайной величины (зависимая переменная, результативный признак) от значений случайной величины (независимая или объясняющая переменная, признак-фактор). Таким образом, регрессионный анализ позволяет получить функциональную зависимость между некоторой случайной величиной и некоторыми влияющими на величинами . Такая зависимость получила название уравнения регрессии, то есть уравнение регрессии выражает среднюю величину одного признака как функцию другого. Линией регрессии называется график функции .
Существует два типа взаимосвязей между и :
1) может быть неизвестно, какая из двух переменных является независимой, а какая - зависимой, переменные равноправны, это взаимосвязь корреляционного типа;
2) если и неравноправны и одна из них рассматривается как объясняющая (независимая) переменная, а другая - как зависимая, то это взаимосвязь регрессионного типа.
Регрессия может быть линейной и нелинейной. Линейная регрессия - регрессия, применяемая в статистике в виде четкой экономической интерпретации ее параметров: .
К нелинейной регрессии относится регрессия, нелинейная относительно включенных в анализ объясняющих переменных, но линейная по оцениваемым параметрам; или регрессия, нелинейная по оцениваемым параметрам.
Линейная регрессия может быть простой (парной), когда исследуется связь между двумя признаками (результативным и факторным)
или множественной, когда исследуется связь между несколькими признаками - результативным и несколькими факторными
(1)
Для построения линейной регрессионной модели необходимо использовать вкладку Данные, пункт Анализ данных - Регрессия.
Рисунок 2 - Регрессия
Пусть застройщик оценивает стоимость группы небольших офисных зданий в деловом районе. Застройщик может использовать множественный регрессионный анализ для оценки цены офисного здания в заданном районе на основе следующих переменных:
• Ф5 () - оценочная цена здания под офис;
• Ф1 () - общая площадь в квадратных метрах;
• Ф2 () - количество офисов;
• Ф3 () - количество входов (0,5 входа означает вход только для доставки корреспонденции);
• Ф4 () - время эксплуатации здания в годах.
В этом примере предполагается, что существует линейная зависимость между каждой независимой переменной (,, и ) и зависимой переменной (), то есть ценой здания под офис в данном районе.
Таблица 1 - Исходные данные для расчета
Необходимо оценить цену следующих зданий:
Таблица 2 - Исходные данные для оценки расчетной цены зданий
Решим поставленную задачу с помощью регрессии:
Результаты расчетов размещены на отдельном листе в трех таблицах:
В регрессионном анализе наиболее важными результатами являются:
• коэффициенты регрессии при переменных и Y-пересечение, являющиеся искомыми параметрами модели;
• множественный R, характеризующий точность модели для имеющихся исходных данных;
• F-критерий Фишера;
• t-статистика – величины, характеризующие степень значимости отдельных коэффициентов модели.
На основании коэффициентов регрессии (таблица 3)
Таблица 3 - Полученные коэффициенты регрессии
будет получена следующая математическая модель:
= -1548466,42 + 799,55* + 51044,65* + 4450,41* - 1924,88*.
Теперь застройщик может определить оценочную стоимость здания под офис в том же районе по исходной таблице (таблица 2).
Таблица 4 - Оценка цены офиса по коэффициентам регрессии
Для оценки степени связи между величинами используется коэффициент множественной корреляции Пирсона (корреляционное отношение), который может принимать значения от 0 до 1:
• , если между величинами нет никакой связи;
• , если между величинами имеется функциональная (детерминированная) связь;
• в большинстве случаев принимает промежуточные значения от 0 до 1.
Величина называется коэффициентом детерминации.
Если значение близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение , близкое к нулю, означает плохое качество построенной модели.
Задачей построения регрессионной зависимости является нахождение вектора коэффициентов M модели (1) при котором коэффициент принимает максимальное значение.
В данном примере значение , то есть качество построенной модели является скорее средним, чем хорошим, то есть построенная модель не объясняет всю изменчивость соответствующих переменных. В свою очередь коэффициент зависимости , что говорит об уровне связи (зависимости) первых четырех факторов и последнего () выше среднего.
Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения данным генеральной совокупности (оценке значимости множественного ). Для оценки значимости применяется - критерий Фишера, вычисляемый по формуле
где - размер выборки (количество экспериментов), а - число коэффициентов модели.
Если превышает некоторое критическое значение для данных и и принятой доверительной вероятности, то величина считается существенной. Таблицы критических значений приводятся в справочниках по математической статистике (таблица 5). В данной таблице - число степеней свободы большей дисперсии, - число степеней свободы меньшей дисперсии. Выборкой с большей дисперсией является количество влияющих факторов (Ф1-Ф4), а выборкой с меньшей дисперсией является количество оцененных вариантов в исходных данных (таблица 1).
Таблица 5 - Таблица значений - критерия Фишера при уровне значимости
1
2
3
4
5
6
8
12
24
1
161,5
199,5
215,7
224,6
230,2
233,9
238,9
243,9
249,0
254,3
2
18,51
19,00
19,16
19,25
19,30
19,33
19,37
19,41
19,45
19,50
3
10,13
9,55
9,28
9,12
9,01
8,94
8,84
8,74
8,64
8,53
4
7,71
6,94
6,59
6,39
6,26
6,16
6,04
5,91
5,77
5,63
5
6,61
5,79
5,41
5,19
5,05
4,95
4,82
4,68
4,53
4,36
6
5,99
5,14
4,76
4,53
4,39
4,28
4,15
4,00
3,84
3,67
7
5,59
4,74
4,35
4,12
3,97
3,87
3,73
3,57
3,41
3,23
8
5,32
4,46
4,07
3,84
3,69
3,58
3,44
3,28
3,12
2,93
9
5,12
4,26
3,86
3,63
3,48
3,37
3,23
3,07
2,90
2,71
10
4,96
4,10
3,71
3,48
3,33
3,22
3,07
2,91
2,74
2,54
11
4,84
3,98
3,59
3,36
3,20
3,09
2,95
2,79
2,61
2,40
12
4,75
3,88
3,49
3,26
3,11
3,00
2,85
2,69
2,50
2,30
13
4,67
3,80
3,41
3,18
3,02
2,92
2,77
2,60
2,42
2,21
14
4,60
3,74
3,34
3,11
2,96
2,85
2,70
2,53
2,35
2,13
15
4,54
3,68
3,29
3,06
2,90
2,79
2,64
2,48
2,29
2,07
16
4,49
3,63
3,24
3,01
2,85
2,74
2,59
2,42
2,24
2,01
17
4,45
3,59
3,20
2,96
2,81
2,70
2,55
2,38
2,19
1,96
18
4,41
3,55
3,16
2,93
2,77
2,66
2,51
2,34
2,15
1,92
19
4,38
3,52
3,13
2,90
2,74
2,63
2,48
2,31
2,11
1,88
20
4,35
3,49
3,10
2,87
2,71
2,60
2,45
2,28
2,08
1,84
21
4,32
3,47
3,07
2,84
2,68
2,57
2,42
2,25
2,05
1,81
22
4,30
3,44
3,05
2,82
2,66
2,55
2,40
2,23
2,03
1,78
23
4,28
3,42
3,03
2,80
2,64
2,53
2,38
2,20
2,00
1,76
24
4,26
3,40
3,01
2,78
2,62
2,51
2,36
2,18
1,98
1,73
25
4,24
3,38
2,99
2,76
2,60
2,49
2,34
2,16
1,96
1,71
26
4,22
3,37
2,98
2,74
2,59
2,47
2,32
2,15
1,95
1,69
27
4,21
3,35
2,96
2,73
2,57
2,46
2,30
2,13
1,93
1,67
28
4,20
3,34
2,95
2,71
2,56
2,44
2,29
2,12
1,91
1,65
29
4,18
3,33
2,93
2,70
2,54
2,43
2,28
2,10
1,90
1,64
30
4,17
3,32
2,92
2,69
2,53
2,42
2,27
2,09
1,89
1,62
35
4,12
3,26
2,87
2,64
2,48
2,37
2,22
2,04
1,83
1,57
40
4,08
3,23
2,84
2,61
2,45
2,34
2,18
2,00
1,79
1,51
45
4,06
3,21
2,81
2,58
2,42
2,31
2,15
1,97
1,76
1,48
50
4,03
3,18
2,79
2,56
2,40
2,29
2,13
1,95
1,74
1,44
60
4,00
3,15
2,76
2,52
2,37
2,25
2,10
1,92
1,70
1,39
70
3,98
3,13
2,74
2,50
2,35
2,23
2,07
1,89
1,67
1,35
80
3,96
3,11
2,72
2,49
2,33
2,21
2,06
1,88
1,65
1,31
90
3,95
3,10
2,71
2,47
2,32
2,20
2,04
1,86
1,64
1,28
100
3,94
3,09
2,70
2,46
2,30
2,19
2,03
1,85
1,63
1,26
125
3,92
3,07
2,68
2,44
2,29
2,17
2,01
1,83
1,60
1,21
150
3,90
3,06
2,66
2,43
2,27
2,16
2,00
1,82
1,59
1,18
200
3,89
3,04
2,65
2,42
2,26
2,14
1,98
1,80
1,57
1,14
300
3,87
3,03
2,64
2,41
2,25
2,13
1,97
1,79
1,55
1,10
400
3,86
3,02
2,63
2,40
2,24
2,12
1,96
1,78
1,54
1,07
500
3,86
3,01
2,62
2,39
2,23
2,11
1,96
1,77
1,54
1,06
1000
3,85
3,00
2,61
2,38
2,22
2,10
1,95
1,76
1,53
1,03
3,84
2,99
2,60
2,37
2,21
2,09
1,94
1,75
1,52
1
Таким образом, значимость определяется не только его величиной, но и соотношением между количеством экспериментов и количеством коэффициентов (параметров) модели. Действительно, корреляционное отношение для для простой линейной модели равно 1 (через 2 точки на плоскости можно всегда провести единственную прямую). Однако, если экспериментальные данные являются случайными величинами, доверять такому значению следует с большой осторожностью. Обычно для получения значимого и достоверной регрессии стремятся к тому, чтобы количество экспериментов существенно превышало количество коэффициентов модели ().
Поскольку количество степеней свободы равно общему числу выборки за минусом 2, то для рассчитанного варианта , а . Таким образом, критическое значение - критерия Фишера (по таблице 5) равно 4,74. Согласно анализу регрессии рассчитанное значение данного критерия равно 0,45. Таким образом, достоверность влияния факторов является достаточно низкой.
Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, то есть значения данных коэффициентов будут меньше их стандартной ошибки. То есть очень часто при построении регрессионной модели неизвестно, влияет тот или иной фактор на . Включение в модель факторов, которые не влияют на выходную величину, ухудшает качество модели. Вычисление t-статистики (t-критерия Стьюдента) помогает обнаружить такие факторы. Приближенную оценку можно сделать следующим образом: если при величина t-статистики по абсолютному значению существенно больше трех, соответствующий коэффициент следует считать значимым, а фактор включить в модель, иначе исключить из модели.
Преобразуем полученную регрессионную модель по данным t-статистики:
1) проанализировать значения t-статистики, полученные регрессией на первом шаге;
2) удалить из таблицы исходных данных столбцы с теми факторами, для которых коэффициенты незначимы и обработать с помощью регрессии новую таблицу.
Величины t-критического приводятся в справочниках по математической статистике (таблица 6), где число степеней свободы равно , где - объем первой выборки (факторов Ф1-Ф4), а - объем второй выборки (количество оцененных вариантов в исходных данных по таблице 1).
Таблица 6 - Критические значения t-критерия Стьюдента при уровне значимости
Число степеней свободы
1
12,706
2
4,3027
3
3,1825
4
2,7764
5
2,5706
6
2,4469
7
2,3646
8
2,3060
9
2,2622
10
2,2281
11
2,2010
12
2,1788
13
2,1604
14
2,1448
15
2,1315
16
2,1199
17
2,1098
18
2,1009
19
2,0930
20
2,0860
21
2,0796
22
2,0739
23
2,0687
24
2,0639
25
2,0595
26
2,0555
27
2,0518
28
2,0484
29
2,0452
30
2,0423
40
2,0211
60
2,0003
120
1,9799
1,9600
Рассмотрим последний фактор. По полученной таблице t-критериев значение его t-статистики равно -0,79. Таким образом, его абсолютная величина равна . Для третьего же фактора эта величина равна 0,08.
Таблица 7 - Степень значимости отдельных коэффициентов модели
Согласно таблице 6 t-критическое с степенями свободы равно 2,2010. Таким образом, влияние последнего фактора (срока эксплуатации здания) почти в 10 раз больше, чем влияние оценки количества входов (третий фактор). Аналогичным образом можно протестировать все факторы, их влияние на оценочную цену здания (), а также их степени влияния по сравнению с друг с другом.
Однако о полезности для предсказания оценочной стоимости здания под офис в данном районе всех переменных, использованных в уравнении регрессии можно говорить только тогда, когда значения их t-статистик больше t-критического по абсолютной величине, что не наблюдается в приведенном примере.
На основе вышеизложенного и по аналогии с этапами анализа данных сформируем этапы статистического изучения связи. Они будут выглядеть следующим образом:
1. Качественный анализ на наличие объективной зависимости;
2. Построение модели связи:
• Метод приведения параллельных данных и построение поля корреляции;
• Корреляционный анализ;
• Регрессионный анализ;
3. Содержательная интерпретация полученных результатов моделирования.