Обобщенная линейная модель множественной регрессии; гетероскедастичность
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 9
Обобщенная линейная модель множественной регрессии. Гетероскедастичность.
Вопросы:
1. Обобщенная линейная модель множественной регрессии. Теорема Айткена.
2.Суть гетероскедастичности.
3. Обнаружение гетероскедастичности.
4. Методы смягчения проблемы гетероскедастичности.
1. Обобщенная линейная модель множественной регрессии. Теорема Айткена.
Рассмотрим линейную модель множественной регрессии:
1)
2) , , , ,
Значения признака Матрица объясняющих Вектор Вектор Вектор
переменных, столбцами регрессора j случайных коэфф-тов
которой являются Xj ошибок регрессии
3),
В классической модели компоненты вектора возмущений некоррелированы М() = 0 при , а дисперсии компонент постоянны , ковариационная матрица возмущений
Суть обобщения регрессионной модели состоит в том, что ковариации и дисперсии объясняющих переменных могут быть произвольными (т.о. обобщенная модель множественной регрессии отличается от классической только видом ковариационной матрицы). - положительно определенная матрица (АТ = А и хТАх > 0). В классической модели множественной регрессии обычным МНК был получен вектор оценок параметров, он является несмещенной и состоятельной оценкой для . Рассмотрим ковариационную матрицу
В классической модели и К = . В качестве выборочной оценки ковариационной матрицы К была взята матрица , где , причем
M(S2) = и = К, т.е. - несмещенная оценка К.
В обобщенной модели и К = . Если в качестве оценки матрицы К взять ту же матрицу, то , т.е. - смещенная оценка для К. Т.о., обычный МНК в обобщенной линейной регрессионной модели дает смещенную оценку ковариационной матрицы К вектора оценок параметров. Следовательно, оценка не будет оптимальной в смысле теоремы Гаусса-Маркова. Для получения наиболее эффективной оценки ковариационной матрицы К нужно использовать оценку, получаемую так называемым обобщенным МНК.
Теорема Айткена: в классе линейных несмещенных оценок вектора для обобщенной регрессионной модели оценка имеет наименьшую ковариационную матрицу.
Для применения обобщенного МНК надо знать ковариационную матрицу вектора возмущений , что встречается крайне редко в практике эконометрического моделирования. Если считать все n(n+1)/2 элементов матрицы неизвестными параметрами обобщенной модели (в дополнение к (р+1) параметрам регрессии), то общее число параметров превысит число наблюдений n, что сделает оценку этих параметров неразрешимой задачей.
Для практической реализации обобщенного МНК вводятся дополнительные условия на структуру матрицы .
2.Суть гетероскедастичности.
В случаях, когда выполняются все предпосылки теоремы Гаусса-Маркова, оценки, полученные по МНК, являются несмещенными, состоятельными и эффективными. Если распределение случайных остатков не соответствует некоторым предпосылкам МНК, то следует корректировать модель.
Прежде всего, необходимо проверить случайный характер остатков . Для этого можно построить график зависимости остатков от теоретических значений результативного признака (рис.1).
Рис. 1. Зависимость случайных остатков от теоретических значений
Если на графике нет направленности в расположении точек , то остатки представляют собой случайные величины и использование МНК оправдано.
Возможны следующие случаи (рис.2.):
Рис.2. Зависимость от
а) остатки не случайны; б) остатки носят систематический характер; в) остатки не имеют постоянной дисперсии.
В этих случаях необходимо использовать другую функцию, либо вводить дополнительную информацию.
Другой предпосылкой регрессионного анализа является предположение о постоянстве дисперсии случайного члена для всех наблюдений (гомоскедастичность).
Это значит, что для каждого значения объясняющей переменной случайные члены имеют одинаковые дисперсии.
D() = M(2) – M2() = M(2) = 2 = Const для всех наблюдений.
Если это условие не соблюдается, то имеет место гетероскедастичность (рис. 3).
Рис. 3. Примеры гетероскедастичности.
Гомоскедастичность остатков означает, что дисперсия остатков одинакова для каждого значения х (рис. 4, рис. 5).
Рис. 4. Гомоскедастичность остатков
Рис.5. Гетероскедастичность остатков
Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, хотя несмещенность оценок в основном зависит от соблюдения предположения о независимости остатков и величин факторов (т.е. cov(х,) = 0). Гетероскедастичность будет сказываться на уменьшении эффективности оценок параметров. В частности, невозможно использовать формулу стандартной ошибки коэффициентов Sb, предполагающей единую дисперсию остатков. При нарушении гомоскедастичности имеет место неравенство .
Поэтому все выводы, получаемые на основе соответствующих t- и F- статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы будут неверны.
Возможные причины:
1. Значения переменных значительно различаются для разных наблюдений. Например, строя зависимость между государственными расходами на образование и ВВП в различных странах используем и Сингапур, и США, где 3% ВВП соответственно: 0,0096 и 5,439 (для 1980 г.) и изменения в 1% сильно отличаются.
2. Проблема гетероскедастичности характерна для перекрестных данных и довольно редко встречается при рассмотрении временных рядов.
3. Обнаружение гетероскедастичности.
Не существует какого-либо однозначного метода определения гетероскедастичности. При этом разработано большое число различных тестов и критериев. Рассмотрим наиболее популярные из них.
3.1. Тест ранговой корреляции Спирмена. Выдвигается Ho об отсутствии гетероскедастичности случайного члена. Предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения Х, и поэтому в регрессии по МНК абсолютные величины остатков и значения Х будут коррелированны. Схема теста:
1) данные по Х и остатки ранжируются по Х и определяются их ранги;
2) коэффициент ранговой корреляции Спирмена определяется по формуле
, где Di - разность между рангами Х и ;
3) Статистический критерий имеет распределение Стьюдента, т.к. .
Если , H0 об отсутствии гетероскедастичности будет отклонена.
Если в модели регрессии имеется более одной объясняющей переменной, то проверка гипотезы может выполняться с использованием любой из них.
Пример. Исследуется зависимость между доходом (Х) домохозяйства и его расходом (Y) на продукты питания. Выборочные данные по 40 домохозяйствам даны в таблице.
x
25,5
26,5
27,2
29,6
35,7
38,6
39
39,3
40
41,9
y
14,5
11,3
14,7
10,2
13,5
9,9
12,4
8,6
10,3
13,9
x
42,5
44,2
44,8
45,5
45,5
48,3
49,5
52,3
55,7
59
y
14,9
11,6
21,5
10,8
13,8
16
18,2
19,1
16,3
17,5
x
61
61,7
62,5
64,7
69,7
71,2
73,8
74,7
75,8
76,9
y
10,9
16,1
10,5
10,6
29
8,2
14,3
21,8
26,1
20
x
79,2
81,5
82,4
82,8
83
85,9
86,4
86,9
88,3
89
y
19,8
21,2
29
17,3
23,5
22
18,3
13,7
14,5
27,3
Решение
1. Строим уравнение регрессии и определяем остатки.
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,564649
R-квадрат
0,318828
Нормированный R-квадрат
0,300903
Стандартная ошибка
4,672041
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
388,2371
388,2371
17,786
0,0001
Остаток
38
829,4627
21,82796
Итого
39
1217,7
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Нижние 95,0%
Верхние 95,0%
Y-пересечение
7,040019
2,322793
3,030842
0,0044
2,3378
11,742
2,3378
11,74
х
0,156883
0,037199
4,217372
0,0001
0,0816
0,2322
0,0816
0,232
ВЫВОД ОСТАТКА
Наблюдение
Предсказанное у
Остатки
1
11,04054
3,459461
2
11,19742
0,102578
3
11,30724
3,39276
4
11,68376
-1,48376
5
12,64075
0,859253
6
13,09571
-3,19571
7
13,15846
-0,75846
8
13,20553
-4,60553
9
13,31534
-3,01534
10
13,61342
0,286578
11
13,70755
1,192448
12
13,97425
-2,37425
13
14,06838
7,431617
14
14,1782
-3,3782
15
14,1782
-0,3782
16
14,61747
1,382526
17
14,80573
3,394266
18
15,24501
3,854994
19
15,77841
0,521591
20
16,29612
1,203877
21
16,60989
-5,70989
22
16,71971
-0,61971
23
16,84521
-6,34521
24
17,19036
-6,59036
25
17,97477
11,02523
26
18,2101
-10,0101
27
18,61799
-4,31799
28
18,75919
3,040812
29
18,93176
7,16824
30
19,10433
0,895669
31
19,46516
0,334838
32
19,82599
1,374006
33
19,96719
9,032812
34
20,02994
-2,72994
35
20,06132
3,438682
36
20,51628
1,483721
37
20,59472
-2,29472
38
20,67316
-6,97316
39
20,8928
-6,3928
40
21,00262
6,297383
2. Значения хi уже упорядочены по возрастанию, поэтому определяем ранги хi и ранги соответствующих остатков.
х
ABS(e)
ранг х
ранг е
D
25,5
3,459461
1
26
-25
26,5
0,102578
2
1
1
27,2
3,39276
3
23
-20
29,6
1,48376
4
15
-11
35,7
0,859253
5
8
-3
38,6
3,195708
6
21
-15
39
0,758461
7
7
39,3
4,605526
8
29
-21
40
3,015344
9
19
-10
41,9
0,286578
10
2
8
42,5
1,192448
11
10
1
44,2
2,374253
12
17
-5
44,8
7,431617
13
37
-24
45,5
3,378201
14
22
-8
45,5
0,378201
15
4
11
48,3
1,382526
16
13
3
49,5
3,394266
17
24
-7
52,3
3,854994
18
27
-9
55,7
0,521591
19
5
14
59
1,203877
20
11
9
61
5,70989
21
30
-9
61,7
0,619708
22
6
16
62,5
6,345214
23
32
-9
64,7
6,590357
24
34
-10
69,7
11,02523
25
40
-15
71,2
10,0101
26
39
-13
73,8
4,317994
27
28
-1
74,7
3,040812
28
20
8
75,8
7,16824
29
36
-7
76,9
0,895669
30
9
21
79,2
0,334838
31
3
28
81,5
1,374006
32
12
20
82,4
9,032812
33
38
-5
82,8
2,729942
34
18
16
83
3,438682
35
25
10
85,9
1,483721
36
14
22
86,4
2,294721
37
16
21
86,9
6,973162
38
35
3
88,3
6,392799
39
33
6
89
6,297383
40
31
9
3. Определяем коэффициент корреляции Спирмена и t-статистику
4. Т.к. tкр(0,05;38)=2,021 < , то гетероскедастичность доказана.
3.2. Метод Голдфелда-Квандта. При проведении проверки по этому тесту предполагается, что стандартное отклонение случайного члена пропорционально значению независимой переменной Х. Схема теста:
1) все n наблюдений упорядочиваются по возрастанию переменной Х;
2) оцениваются отдельные регрессии для первых m и для последних m наблюдений. Средние (n-2m) наблюдений отбрасываются ();
3) составляется статистика , где S1, S2 – суммы квадратов остатков для первых и последних наблюдений;
4) Если , Ho об отсутствии гетероскедастичности отклоняется (если обратно пропорционально Х, то ).
Пример. Воспользуемся условием предыдущего примера и определим наличие гетероскедастичности остатков с помощью теста Голдфелда-Квандта.
Решение.
1) Упорядоченные по возрастанию х данные хi и уi разбиваются на три приблизительно равные части. Для первой и последней строятся уравнения регрессии и рассчитывается F-статистика.
1-я часть 2-я часть
х
у
x
y
25,5
14,5
73,8
14,3
26,5
11,3
74,7
21,8
27,2
14,7
75,8
26,1
29,6
10,2
76,9
20
35,7
13,5
79,2
19,8
38,6
9,9
81,5
21,2
39
12,4
82,4
29
39,3
8,6
82,8
17,3
40
10,3
83
23,5
41,9
13,9
85,9
22
42,5
14,9
86,4
18,3
44,2
11,6
86,9
13,7
44,8
21,5
88,3
14,5
45,5
10,8
89
27,3
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,11
R-квадрат
0,012
Нормированный R-квадрат
-0,07
Стандартная ошибка
3,335
Наблюдения
14
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
1,6285
1,628
0,146
0,7087
Остаток
12
133,5
11,12
Итого
13
135,12
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Нижние 95,0%
Верхние 95,0%
Y-пересечение
10,87
4,926
2,206
0,048
0,1351
21,6
0,135078
21,60065
х
0,05
0,1304
0,383
0,709
-0,234
0,334
-0,23415
0,3339
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,039
R-квадрат
0,002
Нормированный R-квадрат
-0,082
Стандартная ошибка
4,992
Наблюдения
14
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
0,4598
0,46
0,018
0,8942
Остаток
12
299,09
24,92
Итого
13
299,55
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Нижние 95,0%
Верхние 95,0%
Y-пересечение
23,63
22,15
1,067
0,307
-24,63
71,89
-24,6287
71,89183
x
-0,037
0,27
-0,136
0,894
-0,625
0,552
-0,62485
0,551522
2) Т.к. , то нет оснований отвергать Н0 об отсутствии гетероскедастичности.
3.3. Тест Глейзера. Тест Глейзера основывается на более общих представлениях о зависимости стандартной ошибки случайного члена от значений объясняющей переменной. Предположение о пропорциональности и Х снимаем и хотим проверить, может ли быть более подходящей какая-либо другая функциональная форма, например, . Чтобы использовать этот метод:
1) оценивают регрессию Y по Х и вычисляют – абсолютные значения остатков;
2) оценивают регрессию по для нескольких значений : ;
3) если Н0: b = 0 отклоняется (т.е. b значим), то гипотеза об отсутствии гетероскедастичности будет отклонена.
Если при оценивании более чем одной функции получается значимая оценка b, то ориентиром при определении характера гетероскедастичности может служить лучшая из них.
Пример. Воспользуемся расчетами предыдущего примера и проверим наличие гетероскедастичности с помощью теста Глейзера.
Решение
1) Рассчитаем уравнения регрессии еi от при .
х
ABS(e)
x^(-1)
x^(-0,5)
x^0,5
x^1,5
25,5
3,459461
0,039216
0,19803
5,049752
128,7687
26,5
0,102578
0,037736
0,194257
5,147815
136,4171
27,2
3,39276
0,036765
0,191741
5,215362
141,8578
29,6
1,48376
0,033784
0,183804
5,440588
161,0414
35,7
0,859253
0,028011
0,167365
5,974948
213,3056
38,6
3,195708
0,025907
0,160956
6,21289
239,8175
39
0,758461
0,025641
0,160128
6,244998
243,5549
39,3
4,605526
0,025445
0,159516
6,268971
246,3706
40
3,015344
0,025
0,158114
6,324555
252,9822
41,9
0,286578
0,023866
0,154487
6,473021
271,2196
42,5
1,192448
0,023529
0,153393
6,519202
277,0661
44,2
2,374253
0,022624
0,150414
6,648308
293,8552
44,8
7,431617
0,022321
0,149404
6,69328
299,859
45,5
3,378201
0,021978
0,14825
6,745369
306,9143
45,5
0,378201
0,021978
0,14825
6,745369
306,9143
48,3
1,382526
0,020704
0,143889
6,94982
335,6763
49,5
3,394266
0,020202
0,142134
7,035624
348,2634
52,3
3,854994
0,01912
0,138277
7,231874
378,227
55,7
0,521591
0,017953
0,13399
7,463243
415,7026
59
1,203877
0,016949
0,130189
7,681146
453,1876
61
5,70989
0,016393
0,128037
7,81025
476,4252
61,7
0,619708
0,016207
0,127309
7,854935
484,6495
62,5
6,345214
0,016
0,126491
7,905694
494,1059
64,7
6,590357
0,015456
0,124322
8,043631
520,4229
69,7
11,02523
0,014347
0,11978
8,348653
581,9011
71,2
10,0101
0,014045
0,118511
8,438009
600,7863
73,8
4,317994
0,01355
0,116405
8,590693
633,9931
74,7
3,040812
0,013387
0,115702
8,642916
645,6258
75,8
7,16824
0,013193
0,114859
8,70632
659,939
76,9
0,895669
0,013004
0,114035
8,769265
674,3564
79,2
0,334838
0,012626
0,112367
8,899438
704,8355
81,5
1,374006
0,01227
0,11077
9,027735
735,7604
82,4
9,032812
0,012136
0,110163
9,077445
747,9814
82,8
2,729942
0,012077
0,109897
9,099451
753,4345
83
3,438682
0,012048
0,109764
9,110434
756,166
85,9
1,483721
0,011641
0,107896
9,268225
796,1406
86,4
2,294721
0,011574
0,107583
9,29516
803,1018
86,9
6,973162
0,011507
0,107273
9,322017
810,0833
88,3
6,392799
0,011325
0,106419
9,396808
829,7381
89
6,297383
0,011236
0,106
9,433981
839,6243
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,347879
R-квадрат
0,12102
Нормированный R-квадрат
0,097889
Стандартная ошибка
2,732943
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
39,07716
39,07716
5,23193
0,027833
Остаток
38
283,8211
7,468976
Итого
39
322,8983
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
8,7119
2,294002
3,797686
0,000512
4,067936
13,35586
x^(-0,5)
-37,7515
16,50452
-2,28734
0,027833
-71,1631
-4,33981
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,35414
R-квадрат
0,125415
Нормированный R-квадрат
0,1024
Стандартная ошибка
2,726101
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
40,49641
40,49641
5,449198
0,024963
Остаток
38
282,4019
7,431628
Итого
39
322,8983
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
-2,15816
2,486641
-0,8679
0,390897
-7,1921
2,875785
x^0,5
0,754429
0,323186
2,334352
0,024963
0,100174
1,408685
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,351385
R-квадрат
0,123472
Нормированный R-квадрат
0,100405
Стандартная ошибка
2,729129
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
39,8688
39,8688
5,35285
0,026194
Остаток
38
283,0295
7,448144
Итого
39
322,8983
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
0,58244
1,356838
0,429263
0,670156
-2,16433
3,329215
х
0,050274
0,02173
2,313623
0,026194
0,006285
0,094263
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,345728
R-квадрат
0,119528
Нормированный R-квадрат
0,096358
Стандартная ошибка
2,735261
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
38,59537
38,59537
5,158668
0,02888
Остаток
38
284,3029
7,481655
Итого
39
322,8983
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
1,504832
1,002367
1,501278
0,141548
-0,52435
3,534019
x^1,5
0,004324
0,001904
2,27127
0,02888
0,00047
0,008178
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,338157
R-квадрат
0,11435
Нормированный R-квадрат
0,091044
Стандартная ошибка
2,743292
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
36,92349
36,92349
4,906351
0,032827
Остаток
38
285,9748
7,525652
Итого
39
322,8983
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
5,973455
1,173304
5,091141
9,98E-06
3,598226
8,348684
x^(-1)
-124,996
56,43102
-2,21503
0,032827
-239,235
-10,7577
2) Т.к. коэффициент b статистически значим во всех уравнениях, то гетероскедастичность доказана. Наилучший коэффициент детерминации (R2 = 0,1254) при , поэтому примем зависимость: (см. далее).
3.4. Тест Парка. Тест относится к формализованным тестам гетероскедастичности. Предполагается, что дисперсия остатков связана со значениями факторов функцией . Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии b по t-критерию Стьюдента. Если коэффициент регрессии окажется статистически значимым, то, следовательно, имеет место гетероскедастичность.
Пример. По данным предыдущего примера построим регрессию .
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,343033
R-квадрат
0,117672
Нормированный R-квадрат
0,094453
Стандартная ошибка
2,097694
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
22,30024
22,30024
5,067869
0,030238
Остаток
38
167,2121
4,400319
Итого
39
189,5124
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
-6,49359
3,634358
-1,78672
0,081962
-13,851
0,863782
lnx
2,027965
0,90084
2,251193
0,030238
0,204309
3,851621
Так как коэффициент регрессии статистически значим, то гетероскедастичность доказана.
3.5. Тест Уайта. Предполагается, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факторов, т.е. при наличии одного фактора , или при р факторах
.
О наличии или отсутствии гетероскедастичности остатков судят по величине F-критерия Фишера. Если фактическое значение критерия выше табличного, то, следовательно, существует корреляционная связь дисперсии ошибок от значений факторов, и имеет место гетероскедастичность остатков.
Пример. Определим квадратичную функцию для нашего примера . Пусть х1 = х, х2 = х2, построим уравнение множественной регрессии
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,353257
R-квадрат
0,12479
Нормированный R-квадрат
0,077482
Стандартная ошибка
27,61916
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
2
4024,315
2012,157
2,637794
0,084932
Остаток
37
28224,27
762,8181
Итого
39
32248,59
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
-38,76
44,00045
-0,8809
0,384058
-127,913
50,39338
х
1,674985
1,618236
1,035069
0,307355
-1,60387
4,953843
х^2
-0,01017
0,013621
-0,74683
0,459886
-0,03777
0,017426
Так как уравнение статистически не значимо по F-критерию, то гетероскедастичность остатков отсутствует.
4. Методы смягчения проблемы гетероскедастичности.
При наличии гетероскедастичности и величина Ki может меняться от одного значения фактора к другому. При наличии гетороскедастичности вместо обычного МНК используют обобщенный МНК (взвешенный). Суть метода заключается в уменьшении вклада данных наблюдений, имеющих большую дисперсию в результате расчета.
1 случай. Если дисперсии возмущений известны , то гетероскедастичность легко устраняется. Вводят новые переменные: ; ; , . Регрессионная модель в векторной форме
(*) /:
, .
При этом , т.е. модель гомоскедастична.
2 случай. Если дисперсии возмущений неизвестны, то делают реалистические предположения о значениях .
Например:
а) дисперсии пропорциональны xi: . Уравнение регрессии (*) делят
- на - в случае одной переменной; - на - в случае множественной регрессии.
б) дисперсии пропорциональны , т.е.
,
Уравнение регрессии (*) делят на хi.
Пример. Воспользовавшись характером зависимости, полученным при использовании теста Глейзера
, разделим обе части уравнения на
. Уравнение регрессии примет вид
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,964
R-квадрат
0,929
Нормированный R-квадрат
0,927
Стандартная ошибка
5,502
Наблюдения
40
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
15105
15105
498,9
2E-23
Остаток
38
1150,5
30,28
Итого
39
16255
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
-1,408
1,0935
-1,288
0,206
-3,622
0,806
x/e
0,337
0,0151
22,34
2E-23
0,3064
0,367
Получены новые оценки параметров линейного уравнения, в котором смягчена гетероскедастичность.