Спецификация уравнения множественной регрессии
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Спецификация уравнения
множественной регрессии.
Выбор переменных.
Эконометрика. Осень 2020. Кеткина О.С.
10….Ошибки спецификации
переменной
I:
29….Ошибки спецификации
переменной
37…Методы
пошагового
переменных
невключение существенной
II:
включение
включения
и
излишней
исключения
38…Тесты для проверки гипотезы о существовании упущенных
переменных (надо ли включать в регрессию степени
независимых переменных)
40…Тест Рамсея
53…Тест множителей Лагранжа
60…К вопросу о том, что в эконометрике важно иметь
теоретическое обоснование оцениваемой модели регрессии.
78…Приложение 1. Вывод формулы для смещения (слайд 14).
Эконометрика. Осень 2020. Кеткина О.С.
Источники лекции:
1.Доугерти, К. Введение в эконометрику : учеб. для экон.
специальностей вузов / К. Доугерти; пер. с англ. Е. Н. Лукаш [и
др.]. – М. : ИНФРА-М, 2007, гл. 6.
2.Магнус, Я. Р. Эконометрика. Начальный курс : учеб. /
Я. Р. Магнус, П. К. Катышев, А. А. Пересецкий. – 3-е изд., перераб.
и доп. – М. : Дело, 2000. и более поздние издания – Гл. 4.
3. Вербик М. Путеводитель по современной эконометрике. М.:
Научная книга, 2008 – Гл.3.
Эконометрика. Осень 2020. Кеткина О.С.
Множественная линейная регрессия
yi = α + β1x1i + β2x2i + ui где i = 1,…,n (для временных рядов t=1,…,n )
x1i , x2i - две объясняющие переменные, неслучайные
(детерминированные) величины;
yi и ui - случайные величины.
yi – зависимая переменная, состоит из
(1) неслучайной составляющей α + β1x1i + β2x2i , где постоянные α и β1
и β2 параметры уравнения;
и (2) случайного члена ui (ошибок; расстояние между соответствующими
Q и Р; Q – точки на теоретической функции, P – наблюдаемые значения /
собранные данные).
x1i , x2i и yi
это фактические значения (реально собранные данные /
наблюдения, иными словами наблюдаемые значения).
Эконометрика. Осень 2020. Кеткина О.С.
Множественная линейная регрессия
yi = α + β1x1i + β2x2i + ui
Также как и в парной линейной регрессии
α - константа, и ее «техническая» интерпретация
(которая не всегда имеет смысл) - это среднее значение
y когда x1i и x2i равны нулю.
β1 и β2 это частные коэффициенты регрессии.
Эконометрика. Осень 2020. Кеткина О.С.
Также как и для парной линейной регрессии для случая множественной линейной
регрессии должны выполняться условия Гаусса-Маркова
Модель множественной линейной регрессии
yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n
1) Должна быть правильно
специфицирована (т.е. выбрана правильная
функциональная форма, включены необходимые объясняющие переменные и нет
лишних);
2) Не должно существовать линейной связи между регрессорами /объясняющими
переменными
(т.е.
нет
проблемы
коллинеарности
/
строгой
мультиколлинеарности);
3) Случайный член должен иметь нулевое математическое ожидание E(ui) = 0;
4) Случайный член должен иметь постоянную дисперсию для всех наблюдений,
Var(ui)=D(ui)= σu2 , i= 1,…,n (гомоскедастичность);
5) Случайные члены с разными номерами не должны коррелировать друг с другом,
Cov(ui, uj) = 0 (для i ǂ j) => отсутствие автокорреляциии;
Если
эти
условия
выполняются,
тогда
оценки
МНК
являются
наиболее
эффективными и несмещенными оценками коэффициентов регрессии [BLUE (Best
Linear Unbiased Estimator)].
Эконометрика. Осень 2020. Кеткина О.С.
σu2 - теоретическая дисперсия
случайного члена ui
Замечание:
величина σu неизвестна (основана на данных
генеральной совокупности), одна из задач регрессионного
анализа состоит в том чтобы оценить σu (найти оценку для
этого параметра).
Оценкой для дисперсии случайного члена (σu2 )является
величина:
Т.е. оценкой для дисперсии случайного члена/ошибок ui
является сумма квадратов остатков деленная на (n – 2).
Эконометрика. Осень 2020. Кеткина О.С.
Несмещенные оценки коэффициентов регрессии
Есть теоретическая модель парной линейной регрессии
yi = α + βxi + ui
^
Есть расчетная регрессия yi = a + b xi
где a и b это оценки истинных значений α и β
Тогда несмещенность означает следующее
Мат. ожидание E(a) = α
Мат. ожидание E(b) = β
Эконометрика. Осень 2020. Кеткина О.С.
Эффективные оценки коэффициентов регрессии
– среди всех несмещенных оценок оценки a и b обладают
наименьшей дисперсией.
Эконометрика. Осень 2020. Кеткина О.С.
Ошибки спецификации I: невключение существенной
переменной
Истинная модель
Оцененная модель
Y 1 2 X 2 u
Эконометрика. Осень 2020. Кеткина О.С.
Y 1 2 X 2 3 X 3 u
Ошибки спецификации I: невключение существенной
переменной
Истинная модель
Оцененная модель
Y 1 2 X 2 u
Правильная
спецификация,
все в порядке
Эконометрика. Осень 2020. Кеткина О.С.
Y 1 2 X 2 3 X 3 u
Ошибки спецификации I: невключение существенной
переменной
Истинная модель
Оцененная модель
Y 1 2 X 2 u
Y 1 2 X 2 3 X 3 u
Правильная
спецификация,
все в порядке
Правильная спецификация,
все в порядке
Эконометрика. Осень 2020. Кеткина О.С.
Ошибки спецификации I: невключение существенной
переменной
Истинная модель
Оцененная модель
Y 1 2 X 2 u
Правильная
спецификация,
все в порядке
Y 1 2 X 2 3 X 3 u
Оценки коэффициентов
будут смещенными
(т.к. не включили существенную
переменную – X3)
Правильная спецификация,
все в порядке
Эконометрика. Осень 2020. Кеткина О.С.
Ошибки спецификации I: невключение существенной
переменной
Истинная модель
Оцененная модель
Y 1 2 X 2 3 X 3 u
E (b2 ) 2 3
X X X X
X X
2i
2
3i
3
2
2i
2
В этом случае оценка параметра β2 (b2) (что мы оцениваем в
модели с невключенной существенной переменной) будет
смещенной.
Формула для смещения выделена желтым цветом.
Эконометрика. Осень 2020. Кеткина О.С.
Ошибки спецификации I: невключение существенной
переменной
Y 1 2 X 2 3 X 3 u
E (b2 ) 2 3
X X X X
X X
2i
2
3i
3
2
2i
2
Направление смещения будет зависеть от «знака» числителя
слагаемого, выделенного желтым, а его знак будет определяться
коэффициентом корреляции между переменными X2 и X3 (точнее
коэффициентом ковариации)
коэффициент парной корреляции:
Эконометрика. Осень 2020. Кеткина О.С.
Ошибки спецификации I: невключение существенной
переменной
Y 1 2 X 2 3 X 3 u
E (b2 ) 2 3
X X X X
X X
2i
2
3i
3
2
2i
2
при положительной корреляции между переменными X2 и X3
оценка параметра β2 будет смещена вверх,
при отрицательной корреляции между переменными X2 и X3
оценка параметра β2 будет смещена вниз,
коэффициент парной корреляции:
Эконометрика. Осень 2020. Кеткина О.С.
Ошибки спецификации I: невключение существенной
переменной
Истинная модель
Оцененная модель
Y 1 2 X 2 3 X 3 u
E (b2 ) 2 3
X X X X
X X
2i
2
3i
3
2
2i
2
Y
Непосредственный эффект
переменной X2, при
фиксированной/неизменной X3
эффект X3
2
3
X2
Эконометрика. Осень 2020. Кеткина О.С.
Kажущийся эффект
переменной X2,
действующей в качестве
заменителя для X3 (если
мы не вкл. X3 в уравнение
регрессии).
X3
Ошибки спецификации I: невключение существенной
переменной (допустим X3)
Y 1 2 X 2 3 X 3 u
В этом случае оценка параметра β 2 (что мы оцениваем в
модели с невключенной существенной переменной) будет
смещенной.
Формула для смещения выделена желтым цветом на слайде
16.
Направление смещения будет зависеть от коэффициента
корреляции между переменными X2 и X3
! Оценки стандартных отклонений при невключении
существенной переменной тоже являются смещенными,
t и F – статистики рассчитываются неправильно.
Мы не сможем проверить
коэффициентов регрессии.
значимость
Эконометрика. Осень 2020. Кеткина О.С.
оцененных
Пример 1
Оцениваем регрессию вида:
S 1 2 ASVABC 3 SM u
. reg S ASVABC SM
Source |
SS
df
MS
-------------+-----------------------------Model | 1135.67473
2 567.837363
Residual | 2069.30861
537 3.85346109
-------------+-----------------------------Total | 3204.98333
539 5.94616574
Number of obs
F( 2,
537)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
540
147.36
0.0000
0.3543
0.3519
1.963
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------ASVABC |
.1328069
.0097389
13.64
0.000
.1136758
.151938
SM |
.1235071
.0330837
3.73
0.000
.0585178
.1884963
_cons |
5.420733
.4930224
10.99
0.000
4.452244
6.389222
------------------------------------------------------------------------------
S – количество лет обучения,
ASVABC – показатель способностей,
SM – количество лет обучения родителей.
Пример 1
S 1 2 ASVABC 3 SM u
Формула для смещения выделена желтым цветом:
E (b2 ) 2 3
ASVABC ASVABC SM SM
ASVABC ASVABC
i
i
2
i
. reg S ASVABC SM
Source |
SS
df
MS
-------------+-----------------------------Model | 1135.67473
2 567.837363
Residual | 2069.30861
537 3.85346109
-------------+-----------------------------Total | 3204.98333
539 5.94616574
Number of obs
F( 2,
537)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
540
147.36
0.0000
0.3543
0.3519
1.963
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------ASVABC |
.1328069
.0097389
13.64
0.000
.1136758
.151938
SM |
.1235071
.0330837
3.73
0.000
.0585178
.1884963
_cons |
5.420733
.4930224
10.99
0.000
4.452244
6.389222
------------------------------------------------------------------------------
Знак смещения зависит от произведения двух множителей в числителе (от
корреляции между переменными ASVABC и SM).
. reg S ASVABC SM
Пример 1
S 1 2 ASVABC 3 SM u
Source |
SS
df
MS
-------------+-----------------------------Model | 1135.67473
2 567.837363
Residual | 2069.30861
537 3.85346109
-------------+-----------------------------Total | 3204.98333
539 5.94616574
Number of obs
F( 2,
537)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
540
147.36
0.0000
0.3543
0.3519
1.963
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------ASVABC |
.1328069
.0097389
13.64
0.000
.1136758
.151938
SM |
.1235071
.0330837
3.73
0.000
.0585178
.1884963
_cons |
5.420733
.4930224
10.99
0.000
4.452244
6.389222
------------------------------------------------------------------------------
E (b2 ) 2 3
ASVABC ASVABC SM SM
ASVABC ASVABC
i
i
2
i
В регрессии, оцененной с двумя объясняющими переменными оценка
коэффициента β3 положительна (=0,1235071).
Пример 1
S 1 2 ASVABC 3 SM u
. reg S ASVABC SM
Source |
SS
df
MS
-------------+-----------------------------Model | 1135.67473
2 567.837363
Residual | 2069.30861
537 3.85346109
-------------+-----------------------------Total | 3204.98333
539 5.94616574
. cor SM ASVABC
Number of obs =
540
(obs=540)
F( 2,
537) = 147.36
Prob
> F SM
= 0.0000
|
ASVABC
R-squared
= 0.3543
--------+-----------------Adj R-squared
= 0.3519
SM|
1.0000
Root 0.4202
MSE
=1.0000
1.963
ASVABC|
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------ASVABC |
.1328069
.0097389
13.64
0.000
.1136758
.151938
SM |
.1235071
.0330837
3.73
0.000
.0585178
.1884963
_cons |
5.420733
.4930224
10.99
0.000
4.452244
6.389222
------------------------------------------------------------------------------
E (b2 ) 2 3
ASVABC ASVABC SM SM
ASVABC ASVABC
i
i
2
i
Коэффициент корреляции между переменными ASVABC и SM
равен 0,4202 (положительный).
. reg S SM
Пример 1
S 1 2 ASVABC 3 SM u
Source |
SS
df
MS
-------------+-----------------------------Model | 419.086251
1 419.086251
Residual | 2785.89708
538 5.17824736
-------------+-----------------------------Total | 3204.98333
539 5.94616574
Number of obs
F( 1,
538)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
540
80.93
0.0000
0.1308
0.1291
2.2756
.(регрессия без объясняющей переменной ASVABC)
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------SM |
.3130793
.0348012
9.00
0.000
.2447165
.3814422
_cons |
10.04688
.4147121
24.23
0.000
9.232226
10.86153
------------------------------------------------------------------------------
E (b3 ) 3 2
ASVABC ASVABC SM
SM SM
i
i
SM
2
i
Предположим, что в уравнение регрессии не будет включена переменная
ASVABC. Тогда коэффициент при переменной SM будет смещен. Это смещение
будет положительным (т.к. коэффициент корреляции между переменными
ASVABC и SM положительный, равен 0,4202) , что и наблюдается. В регрессии с
двумя объясняющими переменными коэфф. при SM равен 0.1235071, при
исключении из уравнения переменной ASVABC коэфф. при SM увеличился до
0.3130793.
Пример 1
. reg S ASVABC SM
S 1 2 ASVABC 3 SM u
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------ASVABC |
.1328069
.0097389
13.64
0.000
.1136758
.151938
SM |
.1235071
.0330837
3.73
0.000
.0585178
.1884963
_cons |
5.420733
.4930224
10.99
0.000
4.452244
6.389222
-----------------------------------------------------------------------------. reg S ASVABC
(регрессия без объясняющей переменной SM)
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------ASVABC |
.148084
.0089431
16.56
0.000
.1305165
.1656516
_cons |
6.066225
.4672261
12.98
0.000
5.148413
6.984036
------------------------------------------------------------------------------
Т.к. коэффициент корреляции между переменными ASVABC и SM равен
0,4202 (положительный), то знак смещения – положительный, что и
наблюдается в реальности.
Пример 2
Оцениваем регрессию вида:
LGEARN 1 2 S 3 EXP u
.reg LGEARN S EXP
Source |
SS
df
MS
-------------+-----------------------------Model | 50.9842581
2
25.492129
Residual | 135.723385
537 .252743734
-------------+-----------------------------Total | 186.707643
539
.34639637
Number of obs
F( 2,
537)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
540
100.86
0.0000
0.2731
0.2704
.50274
-----------------------------------------------------------------------------LGEARN |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------S |
.1235911
.0090989
13.58
0.000
.1057173
.141465
EXP |
.0350826
.0050046
7.01
0.000
.0252515
.0449137
_cons |
.5093196
.1663823
3.06
0.002
.1824796
.8361596
------------------------------------------------------------------------------
LGEARN – log заработной платы,
S – количество лет обучения,
EXP – стаж работы
. reg LGEARN S EXP
Пример 2
LGEARN 1 2 S 3 EXP u
Source |
SS
df
MS
-------------+-----------------------------Model | 50.9842581
2
25.492129
Residual | 135.723385
537 .252743734
-------------+-----------------------------Total | 186.707643
539
.34639637
. cor S EXP
540
(obs=540)Number of obs =
F( 2,
537) = 100.86
=EXP0.0000
|Prob > F S
R-squared
= 0.2731
--------+-----------------R-squared = 0.2704
S|Adj 1.0000
Root MSE
= .50274
EXP| -0.2179
1.0000
-----------------------------------------------------------------------------LGEARN |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------S |
.1235911
.0090989
13.58
0.000
.1057173
.141465
EXP |
.0350826
.0050046
7.01
0.000
.0252515
.0449137
_cons |
.5093196
.1663823
3.06
0.002
.1824796
.8361596
------------------------------------------------------------------------------
E (b2 ) 2 3
S
i
S EXPi EXP
2
S
S
i
Если опущена переменная EXP, то смещение коэффициента перед переменной
S будет отрицательным (вниз), т.к. оценка коэффициента β2 положительная, а
коэффициент корреляции S и EXP отрицательный (corr ( S , EXP) = -0.2179).
Пример 2
LGEARN 1 2 S 3 EXP u
reg LGEARN S EXP
. cor S EXP
(obs=540)
Source |
SS
df
MS
-------------+-----------------------------Model | 50.9842581
2
25.492129
Residual | 135.723385
537 .252743734
-------------+-----------------------------Total | 186.707643
539
.34639637
|Number ofS obs =EXP 540
F( 2,
537) = 100.86
--------+-----------------> F
= 0.0000
S|Prob1.0000
=1.0000
0.2731
EXP|R-squared
-0.2179
Adj R-squared = 0.2704
Root MSE
= .50274
-----------------------------------------------------------------------------LGEARN |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------S |
.1235911
.0090989
13.58
0.000
.1057173
.141465
EXP |
.0350826
.0050046
7.01
0.000
.0252515
.0449137
_cons |
.5093196
.1663823
3.06
0.002
.1824796
.8361596
------------------------------------------------------------------------------
E (b3 ) 3 2
EXP EXP S S
EXP EXP
i
i
2
i
Аналогично, если опущена переменная S, то оценка коэффициента перед
переменной EXP будет смещена вниз.
Пример 2
. reg LGEARN S EXP
-----------------------------------------------------------------------------LGEARN |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------S |
.1235911
.0090989
13.58
0.000
.1057173
.141465
EXP |
.0350826
.0050046
7.01
0.000
.0252515
.0449137
_cons |
.5093196
.1663823
3.06
0.002
.1824796
.8361596
. reg LGEARN S
(не включена переменная EXP)
-----------------------------------------------------------------------------LGEARN |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------S |
.1096934
.0092691
11.83
0.000
.0914853
.1279014
_cons |
1.292241
.1287252
10.04
0.000
1.039376
1.545107
. reg LGEARN EXP (не включена переменная S)
-----------------------------------------------------------------------------LGEARN |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------EXP |
.0202708
.0056564
3.58
0.000
.0091595
.031382
_cons |
2.44941
.0988233
24.79
0.000
2.255284
2.643537
Смещение в случае невключения одной из переменных S или EXP
действительно является отрицательным.
Оцененная модель
Ошибки спецификации II: включение излишней
переменной
Истинная модель
Y 1 2 X 2 u
Y 1 2 X 2 3 X 3 u
Правильная
спецификация
Оценки коэффициентов
будут смещенными
(т.к. не включили существенную
переменную – X3)
Оценки коэффициентов
являются
несмещенными, но не
эффективными
(т.к. включили лишнюю
переменную – X3)
Эконометрика. Осень 2020. Кеткина О.С.
Правильная
спецификация
Ошибки спецификации II: включение излишней переменной
Y 1 2 X 2 u
Y 1 2 X 2 0 X 3 u
Оценки коэффициентов β1 и β2 являются несмещенными
E (b1 ) = β1 и E (b2 ) =β2 и E (b3 ) = β3 = 0
t и F – статистики рассчитываются правильно.
Мы
сможем
проверить
коэффициентов регрессии.
значимость
Эконометрика. Осень 2020. Кеткина О.С.
оцененных
Ошибки спецификации II: включение излишней переменной
(пусть лишняя X3)
Y 1 2 X 2 u
Y 1 2 X 2 0 X 3 u
u2
1
2
2
1
r
X
X
X2 ,X3
2i 2
2
b2
При включении излишней переменной X3 увеличивается оценка дисперсии
коэффициента перед переменной X2. Добавляется множитель 1 / (1 – r2X2X3),
где rX2X3 – коэффициент корреляции между X2 и X3.
Т.к. rX2X3 изменяется от 0 до 1, то множитель 1 / (1 – r2X2X3) ≥ 1,
Т.е. оценки дисперсии коэффициентов не будут минимальными, т.е. оценки
коэффициентов не будут эффективными (не будут обладать минимальной
дисперсией).
Эконометрика. Осень 2020. Кеткина О.С.
Пример 3
. reg LGFDHO LGEXP LGSIZE
Source |
SS
df
MS
---------+-----------------------------Model | 138.776549
2 69.3882747
Residual | 130.219231
865 .150542464
---------+-----------------------------Total | 268.995781
867 .310260416
Number of obs
F( 2,
865)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
868
460.92
0.0000
0.5159
0.5148
.388
-----------------------------------------------------------------------------LGFDHO |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------LGEXP |
.2866813
.0226824
12.639
0.000
.2421622
.3312003
LGSIZE |
.4854698
.0255476
19.003
0.000
.4353272
.5356124
_cons |
4.720269
.2209996
21.359
0.000
4.286511
5.154027
------------------------------------------------------------------------------
Пусть это наша истинна модель: LGFDHO = f(LGEXP, LGSIZE )
LGFDHO – логарифм ежегодных расходов домохозяйств на продукты,
LGEXP – логарифм общих годовых расходов домохозяйств,
LGSIZE – логарифм числа потребителей в домохозяйстве.
Данные 1995 г. US Consumer Expenditure Survey для 868 домохозяйств.
Пример 3
. reg LGFDHO LGEXP LGSIZE LGHOUS
Source |
SS
df
MS
---------+-----------------------------Model | 138.841976
3 46.2806586
Residual | 130.153805
864 .150640978
---------+-----------------------------Total | 268.995781
867 .310260416
Number of obs
F( 3,
864)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
868
307.22
0.0000
0.5161
0.5145
.38812
-----------------------------------------------------------------------------LGFDHO |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------LGEXP |
.2673552
.0370782
7.211
0.000
.1945813
.340129
LGSIZE |
.4868228
.0256383
18.988
0.000
.4365021
.5371434
LGHOUS |
.0229611
.0348408
0.659
0.510
-.0454214
.0913436
_cons |
4.708772
.2217592
21.234
0.000
4.273522
5.144022
------------------------------------------------------------------------------
Мы решили ввести дополнительную объясняющую переменную - LGHOUS .
LGHOUS – логарифм годовых расходов на жилье.
Пример 3
. reg LGFDHO LGEXP LGSIZE LGHOUS
Source |
SS
df
MS
---------+-----------------------------Model | 138.841976
3 46.2806586
Residual | 130.153805
864 .150640978
---------+-----------------------------Total | 268.995781
867 .310260416
. cor LGHOUS LGEXP LGSIZE
(obs=869)
Number of obs =
868
|
LGHOUS
LGEXP= 307.22
LGSIZE
F( 3,
864)
--------+--------------------------Prob > F
= 0.0000
lGHOUS|
1.0000
R-squared
= 0.5161
LGEXP|
0.8137
1.0000= 0.5145
Adj R-squared
LGSIZE|
0.3256
1.0000
Root MSE 0.4491= .38812
-----------------------------------------------------------------------------LGFDHO |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------LGEXP |
.2673552
.0370782
7.211
0.000
.1945813
.340129
LGSIZE |
.4868228
.0256383
18.988
0.000
.4365021
.5371434
LGHOUS |
.0229611
.0348408
0.659
0.510
-.0454214
.0913436
_cons |
4.708772
.2217592
21.234
0.000
4.273522
5.144022
------------------------------------------------------------------------------
Коэффициенты корреляции (парные) для объясняющих переменных LGHOUS, LGEXP = 0.8137;
Коэффициенты корреляции (парные) для объясняющих переменных LGHOUS, LGSIZE = 0.3256;
LGFDHO – логарифм ежегодных расходов домохозяйств на продукты,
LGEXP – логарифм общих годовых расходов домохозяйств,
LGSIZE – логарифм числа потребителей в домохозяйстве,
LGHOUS – логарифм годовых расходов на жилье.
. reg LGFDHO LGEXP LGSIZE
Пример 3
-----------------------------------------------------------------------------LGFDHO |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------LGEXP |
.2866813
.0226824
12.639
0.000
.2421622
.3312003
LGSIZE |
.4854698
.0255476
19.003
0.000
.4353272
.5356124
_cons |
4.720269
.2209996
21.359
0.000
4.286511
5.154027
------------------------------------------------------------------------------
. reg LGFDHO LGEXP LGSIZE LGHOUS
-----------------------------------------------------------------------------LGFDHO |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------LGEXP |
.2673552
.0370782
7.211
0.000
.1945813
.340129
LGSIZE |
.4868228
.0256383
18.988
0.000
.4365021
.5371434
LGHOUS |
.0229611
.0348408
0.659
0.510
-.0454214
.0913436
_cons |
4.708772
.2217592
21.234
0.000
4.273522
5.144022
------------------------------------------------------------------------------
В результате включения в уравнение дополнительной объясняющей
переменной (излишней) = LGUOUS
Увеличились стандартные ошибки и уменьшились t-статистики
объясняющих переменных LGEXP, LGSIZE.
Коэффициенты при переменных LGEXP, LGSIZE не изменились.
Способы спецификации
регрессионной модели:
Эконометрика. Осень 2020. Кеткина О.С.
Методы пошагового включения и исключения
переменных (это механические способы, так обычно не
делают. Почему? см. слайд 60 – )
Пошаговый
метод
предусматривает
построение
модели
последовательно по шагам.
Для пошагового метода включения (Forwardstepwisemethod) на
каждом шаге оценивается вклад в регрессионную функцию ранее
не
включённых
в
модель
переменных.
Переменная,
обеспечивающая наибольший вклад, включается в модель, после
чего производится переход к следующему шагу.
Для пошагового метода исключения (Backwardstepwisemethod)
характерно включение в модель на первом этапе всех переменных,
после чего производится их последовательное исключение.
Эконометрика. Осень 2020. Кеткина О.С.
ТЕСТ РАМСЕЯ
RESET- тест Рамсея для проверки
гипотезы о существовании упущенных
переменных
Эконометрика. Осень 2020. Кеткина О.С.
RESET – regression specification error test.
RESET – тест Рамсея отвечает на вопрос, надо ли
включать в регрессию степени независимых
переменных (т.е. объясняющих переменных уже
включенных в регрессию).
Эконометрика. Осень 2020. Кеткина О.С.
RESET – тест Рамсея
Y 1 2 X 2 ... k X k u (*)
H0 : спецификация модели (*) является правильной
H1: спецификация модели (*) является неправильной (т.е. есть
пропущенные переменные),
Эконометрика. Осень 2020. Кеткина О.С.
ТЕСТ Рамсея
Проведение RESET – теста Рамсея
1) Оцениваем коэффициенты функции регрессии (*):
2) Сохраняем столбец оцененных значений
и
R2 ( обозначим R2old)
3) Оцениваем коэффициенты вспомогательной регрессии ,
где
…… это столбец оцененных на 2) шаге значений
возведенный в соответствующую степень.
Для этой регрессии сохраняем R2 ( обозначим его R2new)
Эконометрика. Осень 2020. Кеткина О.С.
ТЕСТ РАМСЕЯ
4) Теперь проверка
гипотезы о правильной спецификации модели
равносильна проверке гипотезы
H0:
2 ... m 0 (т.е. все вновь введенные переменные лишние)
H1:
i 0, i 2,..., m
(т.е. хотя бы одно значение αi не равно нулю)
Тест помогает определить не нужно ли включить в модель (*) в качестве
объясняющих переменных исходные переменные (X2, X3, … Xk ), но в более
высокой степени – в квадрате, кубе и пр., или их произведения X2*X3 , X3*X4 … и
т.д.
Эконометрика. Осень 2020. Кеткина О.С.
• 5) Вычисляем значение тестовой статистики
• 6) Если F > Fcritα (со степенями свободы = количество новых регрессоров, и
n- количество параметров в новой модели), то гипотеза H0 отвергается и
мы заключаем, что спецификация модели (*) НЕ является правильной и
необходимо включить в модель дополнительные переменные.
• Если F < Fcritα , то H0 не может быть отклонена/отвергнута и мы
заключаем, что спецификация модели (*) является правильной.
Замечание: В случае когда F > Fcritα
(т.е. модель (*) имеет неверную
спецификацию) в качестве дополнительных переменных подойдут исходные
переменные, включенные в модель (X2, X3, … Xk ), но в более высокой
степени – в квадрате, в кубе и пр., или их произведения X2*X3 , X3*X4 … и т.д.
Эконометрика. Осень 2020. Кеткина О.С.
Пример 4
Пусть у нас есть данные об объеме выпуска (X) и общих
издержках (TC) производства товара А.
Как
предсказывает
теория,
функциональная
зависимость между объемом выпуска и общими
издержками (для обычных товаров) имеет форму (см.
рис.), т.е. нелинейная функциональная зависимость :
где X – объем выпуска,
Y – общие издержки.
Эконометрика. Осень 2020. Кеткина О.С.
Пример 4
Наши данные имеют распределение подобное
теоретическому:
450
ИЗДЕРЖКИ
400
350
300
250
200
150
100
50
2
4
6
8
ВЫПУСК
Эконометрика. Осень 2020. Кеткина О.С.
10
12
Пример 4
Такая форма кривой может быть описана
следующей функциональной зависимостью:
Yi =β0 + β1Xi+β2Xi2+β3Xi3+ui
(**)
где X – объем выпуска,
Y – общие издержки производства.
Результаты оценки данного уравнения регрессии следующие:
(22,2368)
(13,2837)
(-13,1501)
R2 = 0,9983
В скобках указаны t - статистика.
Эконометрика. Осень 2020. Кеткина О.С.
(15,8968)
Пример 4
Предположим вместо того чтобы использовать
модель (**) мы решили оценить зависимость
‘общих издержек от выпуска’ в виде линейной
функции:
Yi =β0 + β1Xi + u1i
(***)
где X – объем выпуска,
Y – общие издержки производства.
И получили следующую оценку данного уравнения:
(8,7515)
R2old = 0,8409
(6,5023)
Эконометрика. Осень 2020. Кеткина О.С.
Пример 4
Теперь мы применим тест Рамсея для выяснения
нет ли в нашем уравнении (***) пропущенных
переменных (т.е. не нужно ли включить в
регрессию
(***)
степени
независимых
переменных, т.е. Xi в степени квадрат или куб.
Будем проверять вплоть до 3-й степени).
Для этого оценим уравнение вида:
(****)
где
это столбец , полученный при
оценке уравнения (***) и возведенный в
соответствующую степень.
Пример 4
Получим следующую оценку уравнения (****):
(16,2151) (14,2719) (-14,8368) (15,8968)
R2new = 0,9983
И вычислим F-статистику
Получим,
Эконометрика. Осень 2020. Кеткина О.С.
Пример 4
где количество новых регрессоров равно 2
(это
), n = 10 количество наблюдений, и
количество параметров в новой модели равно 4
(
).
Fcritα =1% (2, 10-2 = 6) = 10,9248
А значит F расчетное = 284,4035 > 10,9248 и мы
отклоняем Ho о верной спецификации модели (***) и
заключаем, что в оцененной нами линейной модели
(***) не достает объясняющих переменных, а именно
текущей объясняющей переменной Xi в квадрате и
кубе.
Эконометрика. Осень 2020. Кеткина О.С.
ТЕСТ МНОЖИТЕЛЕЙ ЛАГРАНЖА
LM – тест множителей Лагранжа для
проверки гипотезы о существовании
упущенных переменных
Эконометрика. Осень 2020. Кеткина О.С.
LM – Lagrange multiplier test.
LM – тест множителей Лагранжа отвечает на вопрос,
надо ли включать в регрессию степени независимых
переменных (альтернатива тесту Рамсея); тест
аналогичен F-тесту «Проверка линейных гипотез о
наличии
линейных
соотношений
между
коэффициентами регрессии».
Эконометрика. Осень 2020. Кеткина О.С.
LM – тест множителей Лагранжа
H0 : спецификация модели (☼) является правильной
H1: спецификация модели (☼) является неправильной (т.е. есть
пропущенные переменные),
отступление:
В контексте F-теста (☼) - это наша модель с ограничениями.
Эконометрика. Осень 2020. Кеткина О.С.
LM - тест множителей Лагранжа
Проведение LM – теста множителей Лагранжа
1) Оцениваем уравнение регрессии (☼) и сохраняем остатки (ei):
где
2) Если спецификация модели (☼) является неверной и в модели есть
пропущенные переменные (степени более высокого порядка уже
включенных в модель переменных X1i , X2i , … Xki , то остатки ei модели (☼)
должны быть связаны с этими новыми переменными - X21i , X22i ,… X2ki , X31i ,
X32i ,… X3ki , … Xm1i , Xm2i ,… Xmki некоторым уравнением. И потому, на
следующем шаге мы оцениваем следующее уравнение:
(☼ ☼)
В контексте F- теста (☼ ☼) - это наша модель без ограничений.
Эконометрика. Осень 2020. Кеткина О.С.
LM - тест множителей Лагранжа
3) Сохраняем значение R2 регрессии (☼ ☼).
Вычисляем тест статистику nR2 .
Для больших выборок данная статистика имеет распределение χ2 со
степенями свободы равными количеству накладываемых на модель
ограничений, т.е.
nR2 ~ χ2( со степенями свободы = количеству накладываемых на модель ограничений)
▪Если вычисленная нами статистика nR2 > χ2crit, α при заданной уровне
значимости α, тогда мы отклоняем Но о том, что спецификация модели
(☼) является правильной и заключаем, что
в модели (☼) есть
пропущенные переменные.
▪Если вычисленная нами статистика nR2 < χ2crit, α при заданной уровне
значимости α, тогда мы не можем отклонить Но, и заключаем, что
спецификация модели (☼) правильная, дополнительные переменные
добавлять к модели не нужно.
Эконометрика. Осень 2020. Кеткина О.С.
Пример 5
Рассмотрим пример со слайда 44. У нас есть данные об объеме
выпуска и общих издержках производства товара А.
Мы предположили, что зависимость между объемом выпуска (Y)
и общими издержками производства (X) линейная, и оценили
следующую регрессию:
Yi =β0 + β1Xi + ui
получив оценку данного уравнения:
(◊)
(8,7515)
(6,5023)
мы сохранили остатки (ei), где
И затем оценили уравнение вида:
ei = β0 + β1Xi + β2X2i + β3X3i + vi (◊◊)
предположив, что X2i и X3i пропущенные переменные модели (◊).
Эконометрика. Осень 2020. Кеткина О.С.
Пример 5
Результаты оценки уравнения (◊◊) следующие:
se: (6,375)
(4,779)
(0,986)
(0,059)
R2 = 0,9896
(в скобках указаны стандартные ошибки).
Замечание: наша выборка включает только 10
наблюдений (n = 10), и потому применение теста
LM не вполне корректно (в LM тесте
nR2 ~ χ2(степени свободы – количество накладываемых на модель
ограничений) только для больших выборок).
Но в качестве примера рассмотрим данный результат.
Эконометрика. Осень 2020. Кеткина О.С.
Пример 5
Мы получили расчетное значение статистики
nR2 = 10*0,9896 = 9,896.
Из таблицы распределения χ2 находим
критическое значение χcrit2(α = 1% = 0,01;df=2)
= χcrit2(α=0,01;df=2) = 9,21
df (степени свободы) = 2, т.к. две модели (◊) и
(◊◊) отличаются двумя слагаемыми X2i и X3i ,
т.е. именно два ограничения мы накладываем на
уравнение (◊◊) для получения уравнения (◊), а
ограничения эти β2=0 и β3=0.
Эконометрика. Осень 2020. Кеткина О.С.
Пример
▪Так как наша расчетная статистика
nR2 = 9,896 > χcrit2 (α=0,01;df=2) = 9,21
то на уровне значимости 1% мы отклоняем H0
о том, что спецификация модели (◊) является
правильной и заключаем, что в модели (◊)
есть пропущенные переменные.
Эконометрика. Осень 2020. Кеткина О.С.
К вопросу о том, что в эконометрике важно иметь
теоретическое обоснование оцениваемой модели
регрессии.
Рассмотрим три ситуации:
(1) невключение в модель существенных
переменных (текущая лекция, слайд 10-28);
(2) эндогенные переменные;
(3) ложная регрессия;
• примеры ситуаций (1) и (2) из лекции
преподавателя МГУ Филиппа Картаева.
Эконометрика. Осень 2020. Кеткина О.С.
(1) Невключение в модель
существенных переменных
Оценим есть ли положительный эффект от
подготовительных курсов МГУ (экономических
факультет),
проводимых
для
желающих
поступить в магистратуру данного факультета.
Для этого рассмотрим результаты вступительного
экзамена по экономике для абитуриентов
магистратуры:
(1)
Невключение
в
модель
существенных переменных
Похоже эффект от посещения курсов
негативный?
(средний бал, тех кто не ходил на курсы,
превышает таковой тех, кто посещал курсы).
(1) Невключение в модель
существенных переменных
Но если учесть еще один фактор – где ранее
учился
абитуриент
магистратуры
экономического факультета МГУ (на эконом.
фак-те МГУ или в другом институте/ВУЗе), то
все встает на свои места:
(1)
Невключение
в
модель
существенных переменных
Как видим, для каждой из групп (1. студенты, что
закончили бакалавриат на экон. факт-те МГУ и 2.
студенты, закончившие бакалавриат в других
институтах/ВУЗах) есть положительный эффект от
посещения курсов.
(1) Невключение в модель
существенных переменных
Вывод:
1. думайте о теоретическом обосновании
модели, что оцениваете и о данных с
которыми работаете;
2. если
вы
будете
игнорировать
существенные переменные, вы получите
смещенные результаты.
Эконометрика. Осень 2020. Кеткина О.С.
(2) Эндогенные переменные
Эндогенные переменные имеют место в том
случае, когда не только Y объясняется
переменными X1, X2, … Xk , но и некоторые из X
(например, X2) объясняются переменной Y.
Т.е. существует двусторонняя (одновременная)
связь между переменными Y и X.
В этом случае сложно понять какая переменная
является зависимой (объясняемой), а какая
независимой (объясняющей).
Для оценки таких функциональных зависимостей
используют системы одновременных уравнений.
Эконометрика. Осень 2020. Кеткина О.С.
(2) Эндогенные переменные
Например,
рассмотрим
функцию спроса и
предложения на товар А:
Qtd = α0 + α1Pt + u1t (d)
QtS = β0 + β1Pt + u2t (s)
d = Q S => (Q*,P*)
Q
В равновесии:
t
t
• Qtd – спрашиваемое количество товара,
• QtS – предлагаемое количество товара;
• t – время;
• u1t , u2t – ошибки (например, ошибки из-за
невключенных в модель переменных, которые не
поддаются измерению).
Эконометрика. Осень 2020. Кеткина О.С.
(2) Эндогенные переменные
Несложно заметить, что равновесные Q* и P* являются
одновременно определяемыми переменными (т.е.
между ними существует двусторонняя связь).
Например, если меняется u1t из-за изменения
переменных, что влияют на спрос (Qtd), например,
вкусы и предпочтения потребителей, то кривая
спроса сдвинется вверх / вниз (при той же цене
потребители будут спрашивать больше / меньше
товара А). Это приведет к изменению не только
равновестного Q* , но и P* .
т.е. Q влияет на P.
Эконометрика. Осень 2020. Кеткина О.С.
(2) Эндогенные переменные
C другой стороны, изменение u2t из-за изменения
переменных, что влияют на предложение (QtS),
например, забастовки, погодные условия и пр.,
приведет к сдвигу кривой предложения вверх /
вниз (при той же цене производители будут
готовы предложить меньше/больше товара А).
Что в свою очередь приведет к изменению не
только количества предлагаемого товара, но и
его цены.
т.е. Q влияет на P.
(2) Эндогенные переменные
Понятно, что изменение цены, вызванное
например
введением
государством
дополнительного НДС на товар А также в
свою очередь повлияет на Q.
Т.е. и P влияет на Q.
Эконометрика. Осень 2020. Кеткина О.С.
(2) Эндогенные переменные
Что важно. Из-за взаимного влияния Q и P переменные
u1t и Pt в уравнении (d) и переменные u2t и Pt в
уравнении (s) не могут быть независимыми,
а их независимость одно из условий Гаусса-Маркова
(слайд 6, условие V:
V. Объясняющие переменные не коррелированны со
случайным членом, Cov(ui, xi) = 0).
У нас получается, что случайный член ut коррелирован
с объясняющей переменной Pt :
в уравнении (d) коррелированы u1t и Pt
в уравнении (s) коррелированы u2t и Pt
Эконометрика. Осень 2020. Кеткина О.С.
(2) Эндогенные переменные
Т.е. условие V. Гаусса-Маркова не выполняется, и как
результат, оценки уравнений (d) и (s), если их
оценивать каждое в отдельности применяя метод
МНК дадут неверные результаты.
Вывод:
Если вы не будете задумываться об экономической
сущности
оцениваемой
вами
модели
и
проигнорируете проблему эндогенности (problem
of endogeneity) объясняющих переменных, вы
получите некорректные результаты.
Эконометрика. Осень 2020. Кеткина О.С.
(3) Ложная регрессия
• Зададимся вопросом: что определяет
темпы экономического роста?
Построим зависимость ВВП России
(обозначим GDP) от некоторого фактора N.
Эконометрика. Осень 2020. Кеткина О.С.
(3) Ложная регрессия
Выглядит так будто мы нашли важную переменную
определяющую темпы экономического роста. В данном
уравнении N объясняет 93% вариации зависимой
переменной ВВП (GDP).
(3) Ложная регрессия
Увы, все дело в нестационарности. Просто обе переменные N и
ВВП (GDP) имеют восходящий тренд, т.е. обе растут в
рассматриваемом промежутке времени, и потому между ними
есть положительная корреляция (и как результат мы получаем
значимую зависимость между данными переменными:
GDP=5.1*N – 71,5 и R2 =0,93)
N – это численность
населения Австралии.
Было
бы
странно
полагать,
что
это
основной
фактор
определяющий темп
экономического роста
России.
Эконометрика. Осень 2020. Кеткина О.С.
(3) Ложная регрессия
В данном случае стандартный способ приведения
данных к стационарности – «лишения рядов данных
линии тренда» (избавления их от тренда). Для этого
вычисляются первые разности переменных, в нашем
случае это
первые разности Y (обозначим их ΔYt): ΔYt = Yt – Yt-1
и
первые разности Х (обозначим их ΔXt) : ΔXt = Xt – Xt-1
Формулы верны для любого t от 1 до n, где n –
количество наблюдений (дат).
Эконометрика. Осень 2020. Кеткина О.С.
(3) Ложная регрессия
Вывод:
▪ оценивать зависимости имеющие под собой экономическое
(логическое, имеющее смысл) обоснование;
▪ при оценке временных рядов не игнорировать их свойства (например,
нестационарность, наличие тренда), иначе вы получите искаженные
результаты.
Эконометрика. Осень 2020. Кеткина О.С.
Приложение 1. Вывод формулы для смещения (слайд 14).
Истинная модель
Оцененная модель
Y 1 2 X 2 3 X 3 u
Yi Y 1 2 X 2 i 3 X 3 i ui 1 2 X 2 3 X 3 u
2 X 2 i X 2 3 X 3 i X 3 ui u
b2
X X Y Y
X X
X X X X X X X X u
X X
X X X X X X u u
X X
X X
2i
2
i
2
2i
2
2
2
2i
2
3
2i
2
3i
3
2i
2
2
2i
2i
2
2
3i
3
2
3
2i
2
i
2
2i
2
Эконометрика. Осень 2020. Кеткина О.С.
2
2i
2
i
u
Приложение 1. Вывод формулы для смещения (слайд 14).
Истинная модель
Оцененная модель
Y 1 2 X 2 3 X 3 u
b2 2 3
X X X X X X u u
X X
X X
2i
2
3i
2i
2
i
2
2i
E b2 2 3
3
2
2
2i
2
X X X X E X X u u
X
X
X
X
2i
2
3i
3
2i
2
i
2
2i
2
Эконометрика. Осень 2020. Кеткина О.С.
2
2i
2
Приложение 1. Вывод формулы для смещения (слайд 14).
E b2 2 3
X X X X E X X u u
X X
X X
2i
2
3i
3
2i
2
i
2
2i
2
2
2i
2
X 2 i X 2 ui u
1
E
E X 2 i X 2 ui u
2
2
X 2i X 2
X 2i X 2
1
E X 2 i X 2 ui u
2
X 2i X 2
1
X 2 i X 2 E ui u
2
X 2i X 2
0
Эконометрика. Осень 2020. Кеткина О.С.
Приложение 1. Вывод формулы для смещения (слайд 14).
Истинная модель
Оцененная модель
Y 1 2 X 2 3 X 3 u
E b2 2 3
X X X X E X X u u
X
X
X X
2i
2
3i
3
2i
2
i
2
2i
E b2 2 3
2
2
2i
X X X X
X X
2i
2
3i
3
2
2i
Эконометрика. Осень 2020. Кеткина О.С.
2
2