Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Множественная регрессия
Множественная регрессия
1 / 57
Зачем нужна множественная
регрессия?
Если нас интересует связь между 𝑋 и 𝑌 ,
почему не оценить парную регрессию?
Пример: 70 стран
g6097 – экономический рост за 1960-1997
corrup – индекс коррупции
Какой знак коэффициента при коррупции
вы ожидаете?
О.А.Подкорытова
Множественная регрессия
2 / 57
Пример
О.А.Подкорытова
Множественная регрессия
3 / 57
Добавим ещё один фактор
investshare – доля инвестиций
О.А.Подкорытова
Множественная регрессия
4 / 57
Предположение 1
спецификация
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖2 + · · · + 𝛽𝑘 𝑋𝑖𝑘 + 𝜀𝑖,
𝑖 = 1, . . . , 𝑛
𝑋𝑖𝑚 – значение регрессора 𝑋𝑚 в
наблюдении с номером 𝑖
О.А.Подкорытова
Множественная регрессия
5 / 57
График
www.ck12.org
О.А.Подкорытова
Множественная регрессия
6 / 57
Предположения 2 и 3
Регрессоры 𝑋𝑖 не коррелируют с
ошибкой 𝜀𝑖 , регрессоры не коллинеарны
Математическое ожидание ошибок
равно 0: 𝐸𝜀𝑖 = 0
О.А.Подкорытова
Множественная регрессия
7 / 57
Предположения 4 и 5
Однородность дисперсий
(гомоскедастичность) 𝐷𝜀𝑖 = 𝐸𝜀2𝑖 = 𝜎 2
отсутствие автокорреляции ошибок
𝐶𝑜𝑣(𝜀𝑖, 𝜀𝑗 ) = 𝐸𝜀𝑖𝜀𝑗 = 0,
О.А.Подкорытова
𝑖 ̸= 𝑗
Множественная регрессия
8 / 57
Ковариация
Предположения 4 и 5 часто записывают в
другом виде. Вспомним, что
𝐶𝑜𝑣(𝜀𝑖, 𝜀𝑗 ) = 𝐸(𝜀𝑖 − 𝐸𝜀𝑖)(𝜀𝑗 − 𝐸𝜀𝑗 ) =
= 𝐸𝜀𝑖𝜀𝑗
𝑖 = 𝑗 ⇒ 𝐶𝑜𝑣(𝜀𝑖, 𝜀𝑖) = 𝐷𝜀𝑖
О.А.Подкорытова
Множественная регрессия
9 / 57
Ковариационная матрица
𝑉 (𝜀) = 𝐶𝑜𝑣(𝜀) = 𝐸(𝜀𝑖 𝜀𝑗 ) =
⎛
⎞
𝐸𝜀1 𝜀1 𝐸𝜀1 𝜀2 · · · 𝐸𝜀1 𝜀𝑛
⎜ 𝐸𝜀2 𝜀1 𝐸𝜀2 𝜀2 · · · 𝐸𝜀2 𝜀𝑛 ⎟
=⎜
...
...
... ⎟
⎝ ...
⎠=
𝐸𝜀𝑛 𝜀1 𝐸𝜀𝑛 𝜀2 · · · 𝐸𝜀𝑛 𝜀𝑛
⎛
⎞
𝐷𝜀1 𝐸𝜀1 𝜀2 · · · 𝐸𝜀1 𝜀𝑛
⎜ 𝐸𝜀2 𝜀1 𝐷𝜀2 · · · 𝐸𝜀2 𝜀𝑛 ⎟
=⎜
...
...
... ⎟
⎝ ...
⎠
𝐸𝜀𝑛 𝜀1 𝐸𝜀𝑛 𝜀2 · · · 𝐷𝜀𝑛
О.А.Подкорытова
Множественная регрессия
10 / 57
Предположения 4 и 5
Ковариационная матрица должна иметь вид
⎛
2
𝜎 0
⎜
⎜ 0 𝜎2
𝑉 (𝜀) = ⎜ .. ..
⎝ . .
0 0
···
···
⎞
⎟
0⎟
= 𝜎 2 𝐼𝑛
. . . ... ⎟
⎠
· · · 𝜎2
Гомоскедастичность – диагональные
элементы одинаковы.
Отсутствие автокорреляции –
внедиагональные элементы равны 0.
О.А.Подкорытова
Множественная регрессия
11 / 57
Транспонирование
Транспонированная матрица — матрица
𝑋 ⊤, полученная из исходной матрицы 𝑋
заменой строк на столбцы.
О.А.Подкорытова
Множественная регрессия
12 / 57
МНК в матричной форме
Остатки
𝑒𝑖 = 𝑌𝑖 − 𝑌^𝑖 =∑︀
𝑌𝑖 − (𝛽^1 + 𝛽^2 𝑋𝑖2 + · · · + 𝛽^𝑘 𝑋𝑖𝑘 )
𝑛
Критерий 𝑄 = 𝑡=1 𝑒2𝑡 → 𝑚𝑖𝑛
𝛽^𝑀 𝐻𝐾 = (𝑋 ⊤ 𝑋)−1 𝑋 ⊤ 𝑌,
где 𝑌 – вектор значений зависимой переменной
𝑛 × 1, 𝛽 – вектор коэффициентов 𝑘 × 1, 𝑋 –
матрица регрессоров размерности 𝑛 × 𝑘
⎛
⎞
1 𝑋12 . . . 𝑋1𝑘
..
.. ⎠
...
𝑋 = ⎝ ...
.
.
1 𝑋𝑛2 . . . 𝑋𝑛𝑘
О.А.Подкорытова
Множественная регрессия
13 / 57
Обозначение
Вместо
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖2 + · · · + 𝛽𝑘 𝑋𝑖𝑘 + 𝜀𝑖
часто пишут
𝑌 = 𝑋𝛽 + 𝜀
О.А.Подкорытова
Множественная регрессия
14 / 57
Теорема Гаусса-Маркова
При выполнении условий оценка
𝛽^ = (𝑋 ⊤𝑋)−1𝑋 ⊤𝑌
обладает наименьшей дисперсией в классе
всех линейных несмещённых оценок.
BLUE – Best Linear Unbiased Estimator
О.А.Подкорытова
Множественная регрессия
15 / 57
Как оценивать?
Оценка дисперсии ошибок
𝜎^2 =
𝐸𝑆𝑆
𝑛−𝑘
∑︀𝑛
=
𝑡=1
𝑒2𝑡
𝑛−𝑘
Оценка ковариационной матрицы
^ = 𝜎 2(𝑋 ⊤𝑋)−1
𝑉 (𝛽)
О.А.Подкорытова
Множественная регрессия
16 / 57
Замечания
Регрессоры ортогональны остаткам
Гиперплоскость проходит через средние
значения
¯ 2 + · · · + 𝛽^𝑘 𝑋
¯𝑘
𝑌¯ = 𝛽^1 + 𝛽^2𝑋
О.А.Подкорытова
Множественная регрессия
17 / 57
Разложение дисперсии
𝑛
∑︁
𝑡=1
𝑛
∑︁
(𝑌𝑡 − 𝑌¯ )2 =
(𝑌𝑡 − 𝑌^𝑡) +
2
𝑛
∑︁
(𝑌^𝑡 − 𝑌¯ )2
𝑡=1
𝑡=1
𝑇 𝑆𝑆 = 𝐸𝑆𝑆 + 𝑅𝑆𝑆
Total Sums of Squares=
=Erros SS + Regression SS
О.А.Подкорытова
Множественная регрессия
18 / 57
Коэффициент детерминации
2
𝑅 =
𝑅𝑆𝑆
𝑇 𝑆𝑆
𝑅2 ∈ [0, 1] ,
=1−
𝐸𝑆𝑆
𝑇 𝑆𝑆
𝑅2 = 𝑟𝑌2 𝑌^
𝑅2 = 0 – ничего не объясняет,
𝑅2 = 1– идеальная подгонка.
Проблема: при росте количества регрессоров
𝑅2 не уменьшается, теоретически – растёт
до 1.
О.А.Подкорытова
Множественная регрессия
19 / 57
Скорректированный
коэффициент детерминации
Определение
2
𝑅𝑎𝑑𝑗
=1−
𝐸𝑆𝑆/(𝑛 − 𝑘)
𝑇 𝑆𝑆/(𝑛 − 1)
2
𝑅2 > 𝑅𝑎𝑑𝑗
Может быть отрицательным, не есть доля
вариации
О.А.Подкорытова
Множественная регрессия
20 / 57
Что использовать?
2
Для сравнения моделей – 𝑅𝑎𝑑𝑗
Для качества подгонки – 𝑅2
О.А.Подкорытова
Множественная регрессия
21 / 57
Информационные критерии
Akaike,1973
𝐴𝐼𝐶 = ln
𝑛
1 ∑︁
𝑛
𝑒2𝑖 +
𝑖=1
2𝑘
𝑛
Schwarz,1978
𝑆𝐶 = ln
𝑛
1 ∑︁
𝑛
𝑖=1
𝑒2𝑖 +
𝑘
𝑛
ln 𝑛
Чем меньше значение, тем лучше модель.
О.А.Подкорытова
Множественная регрессия
22 / 57
Информационные критерии
О.А.Подкорытова
Множественная регрессия
23 / 57
Информационные критерии
могут быть использованы
налагают штраф за
"лишние"регрессоры
для разных видов зависимой
переменной
для уравнения без константы.
Само значение не имеет интерпретации (не
доля вариации...)
О.А.Подкорытова
Множественная регрессия
24 / 57
Незначимая регрессия
Если нет никакой зависимости (уравнение
незначимо в целом), то
𝛽2 = · · · = 𝛽𝑘 = 0
и уравнение
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖2 + · · · + 𝛽𝑘 𝑋𝑖𝑘 + 𝜀𝑖
принимает вид
𝑌𝑖 = 𝛽1 + 𝜀𝑖
О.А.Подкорытова
Множественная регрессия
25 / 57
Тест Фишера на незначимость в
целом
𝐻0 : 𝛽2 = · · · = 𝛽𝑘 = 0
𝐻1 : 𝛽22 + · · · + 𝛽𝑘2 ̸= 0
( хотя бы один отличен от 0)
𝑅𝑆𝑆/(𝑘 − 1)
∼ 𝐹 (𝑘 − 1, 𝑛 − 𝑘)
𝐸𝑆𝑆/(𝑛 − 𝑘)
Если 𝐹 > 𝐹𝛼 (𝑘 − 1, 𝑛 − 𝑘), то 𝐻0
𝐹 =
отвергается
О.А.Подкорытова
Множественная регрессия
26 / 57
О.А.Подкорытова
Множественная регрессия
27 / 57
Тест Стьюдента
𝐻0 : 𝛽𝑗 = 𝛽 *
𝐻1 : 𝛽𝑗 ̸= 𝛽 *
𝑡=
𝛽^𝑗 − 𝛽 *
𝑠𝛽^𝑗
𝐻0 отвергается на 𝛼-процентном уровне
значимости, если |𝑡| > 𝑡 𝛼2 (𝑛 − 𝑘)
О.А.Подкорытова
Множественная регрессия
28 / 57
Плотность распределения
Стьюдента
О.А.Подкорытова
Множественная регрессия
29 / 57
О.А.Подкорытова
Множественная регрессия
30 / 57
Интерпретация коэффициентов
𝑌𝑡 = 𝛽1 + 𝛽2𝑋𝑡 + 𝛽3𝑍𝑡 + 𝜀𝑡
𝛽2 : при увеличении 𝑋 на 1 единицу при
прочих равных условиях в среднем 𝑌
изменится на 𝛽2 единиц.
О.А.Подкорытова
Множественная регрессия
31 / 57
Примеры
Пусть 𝑤𝑎𝑔𝑒 – заработная плата (руб/час),
𝑒𝑑𝑢𝑐 – количество лет, затраченных на
обучение, 𝑒𝑥𝑝𝑒𝑟 – опыт работы (в годах).
В оцененных регрессиях все коэффициенты
значимы. Интерпретируйте коэффициенты.
𝑤𝑎𝑔𝑒
\𝑖 = 8 + 80 * 𝑒𝑑𝑢𝑐𝑖 + 7 * 𝑒𝑥𝑝𝑒𝑟𝑖,
ln\
𝑤𝑎𝑔𝑒𝑖 =
4 + 0.43 ln 𝑒𝑑𝑢𝑐𝑖 + 0.23 ln 𝑒𝑥𝑝𝑒𝑟𝑖
О.А.Подкорытова
Множественная регрессия
32 / 57
Квадратичная зависимость
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖 + 𝛽3𝑋𝑖2 + 𝜀𝑖
Эффект зависит от 𝑋𝑖 , а именно
𝑌𝑖′ = 𝛽2 + 2𝛽3𝑋𝑖
𝛽2
Экстремум в точке 𝑋0 = − 2𝛽
3
О.А.Подкорытова
Множественная регрессия
33 / 57
Экологическая кривая Кузнеца
(Environmental Kuznets Curve) предполагает
перевернутую U-образную зависимость
между экономическим ростом и ухудшением
экологической обстановки. Пусть ln 𝐶𝑂2 –
логарифм выбросов CO2 (метрических тонн
на душу населения), ln 𝑔𝑑𝑝𝑝𝑐 – логарифм
душевого ВВП ($). По данным о 193 странах
за 2010 год было оценено уравнение
О.А.Подкорытова
Множественная регрессия
34 / 57
О.А.Подкорытова
Множественная регрессия
35 / 57
О.А.Подкорытова
Множественная регрессия
36 / 57
ln\
𝐶𝑂2𝑖 =
−16.74 + 3.22 ln 𝑔𝑑𝑝𝑝𝑐𝑖 − 0.13 ln 𝑔𝑑𝑝𝑝𝑐2𝑖
Вершина этой параболы находится в точке
3.22
− 2·(−0.13)
= 12.38.
Предельный эффект от увеличения логарифма
душевого ВВП не постоянен
3.22 − 2 · 0.13 ln 𝑔𝑑𝑝𝑝𝑐𝑖 .
С ростом ln 𝑔𝑑𝑝𝑝𝑐𝑖 этот эффект уменьшается.
Следовательно, поначалу c ростом ln 𝑔𝑑𝑝𝑝𝑐𝑖
количество выбросов растёт, причём чем больше
логарифм душевого ВВП, тем медленнее.
По-видимому, когда ln 𝑔𝑑𝑝𝑝𝑐𝑖 достигнет уровня
12.38, тенденция сменится на обратную, то есть
богатые страны будут уменьшать выбросы.
О.А.Подкорытова
Множественная регрессия
37 / 57
Кривая Кузнеца
GINI – индекс Джини
GDP – реальный душевой ВВП
(скорректированный на ППС)
О.А.Подкорытова
Множественная регрессия
38 / 57
\𝐼 𝑖 =
𝐺𝐼𝑁
−3.3+1.05 ln 𝐺𝐷𝑃 𝑖 −0.07 ln2 𝐺𝐷𝑃 𝑖
𝜕𝐺𝐼𝑁 𝐼
𝜕 ln 𝐺𝐷𝑃
= 1.05 − 2 · 0.07 ln 𝐺𝐷𝑃
1.05
Вершина − −2·0.07
= 7.5
ln 𝐺𝐷𝑃 = 7.5 ⇒
\𝐼 = 0.49
𝐺𝐷𝑃 = 1808 ⇒ 𝐺𝐼𝑁
О.А.Подкорытова
Множественная регрессия
39 / 57
Нередко возникает вопрос, нельзя ли без
потери качества исключить целую группу
регрессоров.
Какие проблемы могут возникнуть?
О.А.Подкорытова
Множественная регрессия
40 / 57
Исключение существенных
Реальность 𝑌 = 𝑋𝛽 + 𝑍𝛾 + 𝑢
𝑌𝑡 = 𝛽1 + · · · + 𝛽𝑘 𝑋𝑖𝑘 +
+ 𝛾1𝑍𝑖1 + · · · + 𝛾𝑔 𝑍𝑖𝑔 + 𝜀𝑖
(Короткая) модель 𝑌 = 𝑋𝛽 + 𝜀
𝑌𝑡 = 𝛽1 + · · · + 𝛽𝑘 𝑋𝑖𝑘 + 𝜀𝑖
О.А.Подкорытова
Множественная регрессия
41 / 57
В результате
𝛽^ – cмещённая, за исключением двух
случаев
𝛾1 = · · · = 𝛾𝑔 = 0
𝑋 ортогональны 𝑍
𝜎
^ 2 – cмещённая, количество регрессоров
неправильное, поэтому проблемы с
^ = 𝜎 2(𝑋 ⊤𝑋)−1,
𝑉 (𝛽)
которая нужна для проверки гипотез.
О.А.Подкорытова
Множественная регрессия
42 / 57
Включение несущественных
Реальность 𝑌 = 𝑋𝛽 + 𝜀
𝑌𝑡 = 𝛽1 + · · · + 𝛽𝑘 𝑋𝑖𝑘 + 𝜀𝑖,
(Длинная) модель 𝑌 = 𝑋𝛽 + 𝑍𝛾 + 𝑢
𝑌𝑡 = 𝛽1 + · · · + 𝛽𝑘 𝑋𝑖𝑘 +
+ 𝛾1𝑍𝑖1 + · · · + 𝛾𝑔 𝑍𝑖𝑔 + 𝜀𝑖
О.А.Подкорытова
Множественная регрессия
43 / 57
В результате
Оценка 𝜎
^ 2 – неcмещённая,
^ несмещённая , но дисперсии
оценка 𝛽
увеличены, то есть точность падает.
О.А.Подкорытова
Множественная регрессия
44 / 57
Совместная незначимость
𝑌𝑡 = 𝛽1 + · · · + 𝛽𝑘 𝑋𝑖𝑘 +
+ 𝛾1𝑍𝑖1 + · · · + 𝛾𝑔 𝑍𝑖𝑔 + 𝜀𝑖
Мы хотим проверить гипотезу о совместной
незначимости группы коэффициентов (то
есть все 𝑍 можно удалить)
(𝑌 = 𝑋𝛽 + 𝑍𝛾 + 𝑢)
𝐻0 : 𝛾1 = · · · = 𝛾𝑔 = 0
(𝐻0 : 𝛾 = 0)
О.А.Подкорытова
Множественная регрессия
45 / 57
Тест на совместная незначимость
Оценим короткую (только на 𝑋 ) модель,
получим 𝐸𝑆𝑆𝑅 .
Оценим длинную (на 𝑋 и 𝑍 ) модель,
получим 𝐸𝑆𝑆𝑈 𝑅 . Статистика
𝐹 =
(𝐸𝑆𝑆𝑅 − 𝐸𝑆𝑆𝑈 𝑅 )/𝑔
𝐸𝑆𝑆𝑈 𝑅 /(𝑛 − (𝑘 + 𝑔))
имеет при 𝐻0 распределение
𝐹 (𝑔, 𝑛 − (𝑘 + 𝑔))
О.А.Подкорытова
Множественная регрессия
46 / 57
Пример
О.А.Подкорытова
Множественная регрессия
47 / 57
Пример
𝐻0 : 𝛽𝑡𝑒𝑛𝑢𝑟𝑒 = 𝛽𝑠𝑜𝑢𝑡ℎ = 𝛽𝑠𝑖𝑏𝑠 = 𝛽𝑚𝑒𝑑𝑢𝑐 =
𝛽𝑏𝑟𝑡ℎ𝑜𝑟𝑑 = 𝛽𝑎𝑔𝑒 = 0
𝐻1 : хотя бы один из шести коэффициентов
не равен 0
О.А.Подкорытова
Множественная регрессия
48 / 57
Уравнение с ограничениями
О.А.Подкорытова
Множественная регрессия
49 / 57
Пример
𝐹 = (92693871−81127825)/6
= 1.42 <
81127825/(663−16)
𝐹 (6, 647)
𝐻0 не отвергается.
О.А.Подкорытова
Множественная регрессия
50 / 57
Линейные ограничения общего
вида
𝑌 = 𝛽1 + 𝛽2 𝑋 + 𝛽3 𝑍 + 𝛽4 𝑊 + 𝜀
(без ограничений)
𝐻0 : 𝛽2 + 𝛽3 = 0, 𝛽4 = 2
𝑌 = 𝛽1 − 𝛽3 𝑋 + 𝛽3 𝑍 + 2𝑊 + 𝜀
𝑌 − 2𝑊 = 𝛽1 + 𝛽3 (𝑍 − 𝑋) + 𝜀
(с ограничением)
О.А.Подкорытова
Множественная регрессия
51 / 57
Тест на линейные ограничения
Оценим модель без ограничений, получим
𝐸𝑆𝑆𝑈 𝑅 .
Оценим модель с 𝑔 ограничениями, получим
𝐸𝑆𝑆𝑅 . Статистика
𝐹 =
(𝐸𝑆𝑆𝑅 − 𝐸𝑆𝑆𝑈 𝑅 )/𝑔
𝐸𝑆𝑆𝑈 𝑅 /(𝑛 − 𝑘)
имеет при 𝐻0 распределение 𝐹 (𝑔, 𝑛 − 𝑘)),
где 𝑘 – число регрессоров в модели без
ограничений.
О.А.Подкорытова
Множественная регрессия
52 / 57
Пример
HOUSING: количество новых домов (в
1000), POP: население (млн.чел.), GNP:
ВНП (млрд. $ 1982), INTRATE: ставка
процента по закладной (%) . Оцените модель
ln 𝐻𝑂𝑈 𝑆𝐼𝑁 𝐺𝑖 = 𝛽1 + 𝛽2 ln 𝑃 𝑂𝑃𝑖 +
𝛽3 ln 𝐺𝑁 𝑃𝑖 + 𝛽4 ln 𝐼𝑁 𝑇 𝑅𝐴𝑇 𝐸𝑖 + 𝜀𝑖
и проверьте гипотезу 𝛽2 + 𝛽3 = 1
О.А.Подкорытова
Множественная регрессия
53 / 57
Без ограничения
О.А.Подкорытова
Множественная регрессия
54 / 57
C ограничением
Подставим ограничение 𝛽2 + 𝛽3 = 1 в уравнение:
ln 𝐻𝑂𝑈 𝑆𝐼𝑁 𝐺𝑖 = 𝛽1 + (1 − 𝛽3 ) ln 𝑃 𝑂𝑃𝑖 +
𝛽3 ln 𝐺𝑁 𝑃𝑖 + 𝛽4 ln 𝐼𝑁 𝑇 𝑅𝐴𝑇 𝐸𝑖 + 𝜀𝑖
ln 𝐻𝑂𝑈 𝑆𝐼𝑁 𝐺𝑖 = 𝛽1 + ln 𝑃 𝑂𝑃𝑖 − 𝛽3 ln 𝑃 𝑂𝑃𝑖 +
𝛽3 ln 𝐺𝑁 𝑃𝑖 + 𝛽4 ln 𝐼𝑁 𝑇 𝑅𝐴𝑇 𝐸𝑖 + 𝜀𝑖
ln 𝐻𝑂𝑈 𝑆𝐼𝑁 𝐺𝑖 − ln 𝑃 𝑂𝑃𝑖 = 𝛽1 +
𝛽3 (ln 𝐺𝑁 𝑃𝑖 − ln 𝑃 𝑂𝑃𝑖 ) + 𝛽4 ln 𝐼𝑁 𝑇 𝑅𝐴𝑇 𝐸𝑖 + 𝜀𝑖
𝑆𝐼𝑁 𝐺𝑖
ln 𝐻𝑂𝑈
=
𝑃 𝑂𝑃𝑖
𝐺𝑁 𝑃𝑖
𝛽1 + 𝛽3 ln 𝑃 𝑂𝑃𝑖 + 𝛽4 ln 𝐼𝑁 𝑇 𝑅𝐴𝑇 𝐸𝑖 + 𝜀𝑖
О.А.Подкорытова
Множественная регрессия
55 / 57
C ограничением
О.А.Подкорытова
Множественная регрессия
56 / 57
Тест
У нас одно ограничение 𝐻0 : 𝛽2 + 𝛽3 = 1
𝐹 =
(𝐸𝑆𝑆𝑅 − 𝐸𝑆𝑆𝑈 𝑅 )/𝑔
=
𝐸𝑆𝑆𝑈 𝑅 /(𝑛 − 𝑘)
(0.58 − 0.56)/1
=
=
0.56/(23 − 4)
= 0.67 < 𝐹 (1, 19) = 4, 38
Поэтому 𝐻0 не отвергается.
О.А.Подкорытова
Множественная регрессия
57 / 57