Классическая линейная регрессия
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Классическая
линейная
регрессия
План лекции
Понятие регрессии
Классическая линейная регрессионная
модель
Метод наименьших квадратов (МНК)
Критерии качества подгонки регрессии
Свойства оценок МНК
Статистический анализ результатов
Прогнозирование по регрессионной
модели.
2
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Происхождение термина
«регрессия»
По смысловой нагрузке слово
«регрессия» не имеет отношения к
существу стохастических связей, для
описания которых оно используется.
Термин был введён Фрэнсисом
Гальтоном в конце 19-го века.
3
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Происхождение термина
«регрессия»
Френсис Гальтон
(16 февраля 1822 — 17 января
1911)
4
английский
исследователь, географ,
антрополог и психолог;
основатель
дифференциальной
психологии и
психометрики, статистик.
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Происхождение термина
«регрессия»
Занимаясь антропологическими
исследованиями, Гальтон обнаружил, что
сыновья отцов с высоким или низким ростом
обычно не наследуют выдающийся рост и
назвал этот феномен "регрессия к
посредственности".
Сначала этот термин использовался
исключительно в биологическом смысле.
После работ ученика Гальтона, Карла Пирсона,
этот термин стали использовать и в статистике.
5
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Возможности
регрессионного подхода
Он позволяет
выявить, влияют ли управляемые показатели,
факторы внешней среды, статусные факторы
(теперь для удобства мы будем обозначать
совокупность этих показателей буквой Х) на
результирующий показатель Y
построить приближенную функциональную
зависимость Y от Х, которую можно
использовать для прогнозирования поведения
Y при известных значениях Х
6
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Постановка задачи
подгонки зависимости
Пусть нас интересует некоторое экономическое явление,
например, потребление домохозяйствами продуктов питания.
Y
f(X)
εi
Yi
Xi
7
X
У нас есть данные
о расходах на продукты (У)
и доходах (Х) домохозяйств.
Мы хотим построить по этим
данным зависимость У= f(X),
например,
линейную: f(X) = β0 + β1 X.
Наша задача: подобрать параметры
β0 и β1 так, чтобы линия,
изображающая эту зависимость
прошла через основную массу точек
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Какими способами можно
это осуществить?
Нужно найти такой способ подбора
параметров функции f(X),
при котором различия между фактически
наблюдаемыми значениями Yi и
значениями функции f(Xi) были как можно
меньше
i Yi f X i Yi 0 1 X i
(эту разницу называют невязкой или ошибкой)
8
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Наилучший прогноз
Задача подбора параметров функции f(Xi)
– задача поиска наилучшего прогноза Yi
по Xi
Это оптимизационная задача
Для ее решения надо определить целевую
функцию – «функцию потерь»
; min
i
i
9
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Метод наименьших
квадратов (МНК)
2
,
i
i min
i
2
i
i
Yi 0 1 X i
i
2
i
Yi f X i nE Y f X min
2
i
Теорема.
2
E Y f X E Y EY | X
2
2
Таким образом , решение будет соответствовать
оценке условного по X i среднего значения Yi
fˆ X ˆ ˆ X Eˆ Y | X
i
10
1
i
i
Эконометрика Ратникова Т.А.
ВШБИ
i
22.05.2018
Метод наименьших
квадратов (МНК)
Достоинства:
Недостатки:
11
дифференцируемость функции потерь,
вычислительная простота,
единственность решения
неробастность
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Неробастность МНК
Нетипичные значения (выбросы) приводят к
существенному ухудшению прогностических
свойств функции f(X) = β0 + β1 X.
Y
f(X)
εi
Yi
Xi
12
X
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Робастные методы
подгонки зависимости
(М-оценки)
; min
i
i
функция ρ(.) растет по ε медленнее, чем само ε.
Например: , | |
Полученная регрессия называется медианной,
поскольку соответствует условной медиане Yi
fˆ X i ˆ0 ˆ1 X i med Yi | X i
^
13
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Медианная регрессия
Достоинства:
Недостатки:
14
робастность
недифференцируемость функции потерь,
вычислительная сложность (симплексметод, методы линейного
программирования)
неединственность решения
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Квантильная регрессия
Используется, когда предметом исследования
служат не средние значения зависимой
переменной при фиксированных объясняющих, а
определенные квантили распределения
PrY f X | X q
При q=0.5 превращается в медианную регрессию
Хорошо работает для асимметричных
распределений, например, при исследованиях
финансового рынка (доли аутсайдеров среди
акционеров),
доли расходов на питание домохозяйств,
данных о предприятиях, сильно различающихся
размером
15
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Непараметрическая
регрессия
Является интуитивной формализацией идеи
сглаживания «на глаз», когда линия проводится с
учетом локальных особенностей поведения У
вблизи интересующих исследователя Х
2
1
Wni X i Yi f X i min
f X
n
Ее можно интерпретировать, как локально
взвешенный МНК с весами
Wni X K h X X i / K h X
n
n
K hn X
16
1
K hn X X i
n i
1
K hn u
K u / hn , г де
hn
K u du 1
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Непараметрическая
регрессия
hn – окно сглаживания
K(u) – ядерная функция, может быть
выбрана в виде плотности стандартного
нормального распределения
Достоинства: нет необходимости в строгой
спецификации модели
Недостатки: одномерность
Полезна для проверки точности подгонки
17
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Графическое
представление данных –
диаграмма рассеяния
Определим понятие теоретической регрессии
величины Y на величину Х. Это будет означать,
что линия регрессии строится по всей генеральной
совокупности (в нашем примере – по всем
домохозяйствам России).
Терминология:
Y
63
64
18
65 Х
Х – независимая, объясняющая,
экзогенная переменная, регрессор,
У – зависимая, объясняемая,
эндогенная величина, регрессант.
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Уравнение
теоретической регрессии
Расходы на продукты (Y) в разных домохозяйствах
при одном и том же доходе (X) могут различаться
(на рисунке показано, что при одном и том же
значении Х могут быть разные Y)
Из Y можно выделить некоторую часть,
определяемую Х – ожидаемое значение расходов
при данном доходе: f(X) = E(Y | X)
Ту часть Y, что не укладывается в f(X), обозначают
i и называют случайной ошибкой
Уравнением теоретической регрессии называют
зависимость вида: Yi = E(Yi | Xi) + i
19
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Эконометрическая
модель
Эконометрическая модель – это совокупность
уравнения теоретической регрессии
Yi = E(Yi | Xi) + i
и предположений о природе i.
Какова природа i, причина появления?
Пропуск в модели ряда существенных переменных,
влияющих на поведение Y
Врожденная неопределенность поведения
экономических агентов
Использование в уравнении тех величин, которые
можно измерить, а не тех, которые хотелось бы
иметь теоретически
Наличие ошибок измерения
20
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Линейность модели
Уравнение теоретической регрессии Yi=f(Xi)+i
в зависимости от f(Xi) может быть линейным,
квадратичным, логарифмическим и т.п.
Мы будем рассматривать (для начала)
полностью линейную модель: f(x)=a+b*x –
линейна по Х и по параметрам
Впоследствии станет ясно, что важна лишь
линейность по параметрам (модели
f(x)=a+b*ln(x), f(x)=a+b*(1/x) – линейны по
параметрам a и b)
21
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Выборочная регрессия
Как правило, теоретическую регрессию построить
невозможно из-за недоступности полной информации
о генеральной совокупности.
Обычно нам бывает доступна только выборка.
Пусть теперь в нашем примере выборка из 100
домохозяйств. При использовании выборки, мы не
можем построить условное ожидание –
теоретическую регрессию, но мы можем оценить ее.
Выборочной оценкой теоретической регрессии (ТР)
Yi X i i
является выборочная регрессия (ВР) Yˆi ˆ ˆX i
Разницу ˆi Yi Yˆi называют остатком.
22
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Выборочная регрессия
Графическая интерпретация
ТР
Q(Y)
ˆi
ВР
Р(Х)
23
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Метод наименьших
квадратов (МНК)
Как оценить выборочную линию регрессии?
Естественно потребовать, чтобы остатки ˆi min.
min ˆi
- плохо т.к. разные знаки
i
компенсируют друг друга, и сумма равна 0
min | ˆi | - тоже плохо, т.к. эта функция
i
не дифференцируема
2
2
min ˆ i min (Yi Yˆi ) - лучший вариант
i
i
В этом и заключается МНК
(OLS – ordinary least squares).
24
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Как найти
min ˆi2 min (Yi ˆ ˆX i ) 2
,
2
(Yi X i ) S
Обозначим
Чтобы найти минимум этой функции
необходимо приравнять к нулю частные
производные
S
2 (Y i Xi) 0
S 2 (Y i Xi) Xi 0
25
Эконометрика
(Y i Xi) 0
(Y i Xi) Xi 0
Ратникова Т.А.
ВШБИ
22.05.2018
Система нормальных
уравнений
Y i 1 X i 0
i
i
i
Y i X i X i X i X i 0
i
i
i
Yi n X i 0
i
i
2
X
Y
X
Xi
i i
i 0
i
i
i
26
Эконометрика
Y X
Y X X X 2 0
i
i
i
i
i
i
i
Ратникова Т.А.
ВШБИ
22.05.2018
Решение системы:
xi y i
2
xi
X Y nXY
X nX
i
Y X
n
1
где –
Y Yi
n i 1
i
2
i
2
1 n
X Xi
n i 1
xi X i X , yi Y i Y
xi2 0
27
не все Х равны между собой
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка соответствия
решения системы условию
минимума
2S
2
H 2
S
2S
2n
2
S 2 X i
2
2 X i
2
2 X i
главные угловые миноры должны быть >0 – тогда
это будет минимум.
Это так:
28
2n>0;
2n xi2 4( xi ) 2 0
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Множественная
регрессия
Обозначения
Yi 0 1 X i1 2 X i 2 k X ik i
X ij - i-ое выборочное значение объясняющей
переменной X j
Yi - i-ое выборочное значение объясняемой
переменной Y
j значение коэффициента при регрессоре X j
i - случайная ошибка
29
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Множественная
регрессия
Теоретическая регрессия
E (Yi | X i ) 0 1 X i1 k X ik
Дисперсия теоретической регрессии
V (Yi | X i ) V ( i ) 2
30
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Регрессия в матричных
обозначениях
Y X
где
Y1
Y ,
Y
n
31
1 X 11 X 1k
X
,
1 X
X
n1
nk
Эконометрика
Ратникова Т.А.
0
,
k
ВШБИ
1
n
22.05.2018
Метод наименьших
квадратов
Позволяет найти минимум функции
n
n
f ( 0, 1 ,, k ) (Yi 0 1 X i1 k X ik ) 2
i 1
2
i
i 1
В матричных обозначениях эта задача
может быть записать так
n
2
i (Y X )(Y X ) min
i 1
32
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
МНК
Условие 1-го порядка
2 X Y 2 X X
система нормальных уравнений
X Y X X
вектор оценок коэффициентов регрессии
̂ ( X X ) 1 X Y
вектор оцененных (предсказанных моделью)
значений Y
Y X̂
вектор остатков
Y Y
33
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Алгоритм МНК
Рассмотрим конкретный численный пример:
3
1
Y 8
3
5
1
1
X 1
1
1
3 5
1 4
5 6
2 4
4 6
2
Задача поиска min
i min min Y X Y X
i
приводит к системе нормальных уравнений
X X X Y
34
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Алгоритм МНК
В системе нормальных уравнений
используются следующие конструкты:
5 15 25 n
X X 15 55 81 X 1
25 81 129 X 2
X
X
X X X
X X X
1
2
1
2
1 2
2
2
2
1
20 Y
X Y 76 X 1Y
109 X 2Y
35
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Алгоритм МНК
Конкретный вид системы нормальных уравнений
5 15 25 0 20
15 55 81 76
1
25 81 129 2 109
Решение системы нормальных уравнений –
оценки МНК для коэффициентов регрессии Y X
1
ˆ
X X X Y
36
Эконометрика
ˆ0 4
ˆ1 2.5
ˆ 1.5
2
Ратникова Т.А.
ВШБИ
22.05.2018
Геометрическая суть МНК
для регрессии со
свободным членом ( 0)
Имеется плоскость (i, X )
,
образованная единичным вектором i и
векторами регрессоров Х.
Имеется вектор значений зависимой
переменной Y.
Мы ищем проекцию Y на так, чтобы
расстояние от конца Y до плоскости было
минимальным. Такое возможно, если
37
X X 0, i 0
Y Y 0
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Геометрическая суть МНК
для регрессии со
свободным членом Y
ˆ
X
π
Yˆ
i
38
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Дисперсионный анализ
результатов регрессии
n
n
TSS (Yi Y ) y yy
2
i 1
i 1
2
i
n
2
2
ESS (Yi Y ) yi yy
n
i 1
i 1
n
2
2
RSS (Yi Y ) i
n
i 1
39
i 1
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Дисперсионный анализ
результатов регрессии
TSS – общая сумма квадратов
отклонения наблюдаемых
значений Y от среднего
значения
ESS – сумма квадратов
отклонения от среднего
значения объясненных с
помощью регрессии значений
RSS – остаточная сумма
квадратов отклонения
наблюдаемых значений Y от
объясненных с помощью
регрессии значений
40
TSS – total sum
of squares
ESS –
explained sum
of squares
RSS – residual
sum of squares
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Критерии качества
подгонки регрессии
Очевидно, что регрессия тем лучше, чем меньше
RSS и чем больше ESS.
Однако более удобным критерием качества
является относительный показатель коэффициент детерминации:
ESS
R
TSS
2
- доля объясненного разброса наблюдений Y
0 R 1
2
41
R r
Эконометрика
2
2
YY
Ратникова Т.А.
ВШБИ
22.05.2018
Модифицированный
коэффициент
детерминации регрессии
2
R
Чем ближе
к 1, тем лучше качество подгонки, хотя
надо помнить, что этот показатель всегда
механически увеличивается при добавлении нового
регрессора, даже если он никак не связан с Y.
Более чувствителен к качеству регрессии
модифицированный R 2 , нормированный на
степени свободы :
2
adj
R
.
42
n 1
1 (1 R )
n k 1
2
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Свойства оценок МНК,
обязанные наличию в
регрессии свободного члена
1.
2.
3.
4.
5.
Сумма остатков равна 0: i i 0
i
Среднее значение наблюдаемых
Y равно среднему
значению оцененных Y:Y Y
Точка X , Y лежит на линии регрессии
Выполняется теорема Пифагора TSS=ESS+RSS
Эквивалентны два определения коэффициента
детерминации
ESS
RSS
R
1
TSS
TSS
2
43
Эконометрика Ратникова Т.А.
ВШБИ
22.05.2018
Регрессия без свободного
члена
1.
2.
3.
4.
5.
Сумма остатков не равна 0
Среднее значение наблюдаемых Y не равно
среднему значению оцененных Y
Точка X , Y не лежит на линии регрессии
Не выполняется теорема Пифагора
TSS≠ESS+RSS
Не эквивалентны два определения
коэффициента детерминации
R2
44
ESS
RSS
1
TSS
TSS
Ратникова Т.А. Эконометрика-2
НИУ ВШЭ
Статистические
свойства оценок
Оценки считаются «хорошими», если они обладают
определенными свойствами:
несмещенностью (в этом случае математическое ожидание
оценки совпадает с оцениваемым теоретическим
параметром);
состоятельностью (это означает, что для больших
выборок вероятность значимых отклонений величины оценки
от значения оцениваемого теоретического параметра равна
нулю);
эффективностью (чем меньше дисперсия оценки, тем она
считается эффективнее).
Исследование свойств оценок – это важная теоретическая
задача.
45
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Теорема Гаусса-Маркова
Иога́нн Карл Фри́дрих Га́усс
(1777- 1855) — немецкий математик,
механик, физик, астроном, геодезист
Иностранный член Шведской (1821)
и Российской (1824) Академий наук,
английского Королевского общества.
Создатель МНК
46
Эконометрика
Андре́й Андре́евич Ма́рков
(1856 -1922) — русский математик,
академик. Создатель теории
стохастических процессов, цепей
Маркова
Ратникова Т.А.
ВШБИ
22.05.2018
Свойства оценок МНК
(теорема Гаусса-Маркова)
Если выполнены следующие условия:
1.
2.
3.
Модель Y X
верно специфицирована
Матрица Х – детерминирована и имеет
ранг k+1
Ошибка – случайный вектор с
математическим ожиданием и
ковариационной матрицей
E( ) 0, V ( ) E( E( ))( E( )) 2 I
47
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Свойства оценок МНК
(теорема Гаусса-Маркова)
тогда оценка МНК
̂ ( X X ) 1 X Y
является наилучшей (наиболее
эффективной) в классе линейных
несмещенных оценок, т.е.
она линейна по Y и по ε,
E ( ˆ )
и обладает наименьшей дисперсией в
классе линейных несмещенных оценок.
48
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Асимптотические свойства
оценок МНК
Для больших выборок для оценок МНК выполняется
свойство состоятельности.
Слишком жесткое требование детерминированности
матрицы регрессоров X заменяется на условие:
X
lim P
0
n
n
X
p lim
0
n n
тогда
lim P ˆ 0
n
1
X X 1 X
1
X
p lim p lim
p lim X X p lim
n
n
n
n n
n
n n
49
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Статистический анализ
результатов
Следующий вопрос: насколько достоверны полученные
оценки, ведь есть проблема выборочного смещения?
Кроме того, у нас могут иметься различные гипотезы о
влиянии тех или иных показателей на Y, и мы хотели бы их
проверить, пользуясь построенной моделью.
Для этого надо знать, каким вероятностным
распределениям подчиняются полученные оценки
Распределение оценок зависит от распределения ошибок
В КЛРМ делается следующее предположение:
~ N (0, I )
2
- это предположение о нормальности случайной ошибки.
50
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Статистический анализ
результатов
Для построения необходимых тестовых статистик
важно знать, как распределены показатели
теоретической и выборочной регрессии.
В силу линейности модели линейные комбинации
нормальных случайных векторов будут тоже
нормальными векторами:
Y ~ N ( X , I ), Y ~ N ( X , 2 X ( X X ) 1 X 2 P),
2
1
2
a ~ N ( , ( X X ) ), ~ N (0, ( I P))
2
51
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Статистический анализ
результатов
А что можно сказать о нелинейных
комбинациях?
2
(n k 1)
2
ESS
2
RSS
2
~ (k ),
2
2
~ 2 (n k 1)
TSS
2
~ 2 (n 1)
2
ˆ
Можно показать, что оценки и
статистически независимы, и тогда
52
ˆ j
( X X )
~ t (n k 1)
1
Эконометрика
jj
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка гипотез
Статистический анализ оценок сводится в
стандартном случае к проверке следующих
статистических гипотез:
1)
H 0 : j 0 - проверка значимости отдельного
коэффициента регрессии,
при альтернативной гипотезе H A : j 0
;
осуществляется на основании t-статистики,
ˆ j
t ˆ
ˆ
j
j
53
ˆ j
H 0 : j 0
( X X )
Эконометрика
~ t (n k 1)
1
jj
Ратникова Т.А.
ВШБИ
22.05.2018
Пример 1.
Оценивание множественной регрессии
для анализа капитализации банковской
системы РФ за период 2004-2009 г.г.
Source |
SS
df
MS
Number of obs =
64
-------------+-----------------------------F( 7,
56) = 621.86
Model | 3.3375e+18
7 4.7678e+17
Prob > F
= 0.0000
Residual | 4.2935e+16
56 7.6670e+14
R-squared
= 0.9873
-------------+-----------------------------Adj R-squared = 0.9857
Total | 3.3804e+18
63 5.3657e+16
Root MSE
= 2.8e+07
-----------------------------------------------------------------------------a |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------nf | -.0899685
.2113737
-0.43
0.672
-.5134008
.3334639
na |
.0844604
.0227928
3.71
0.000
.0388009
.1301199
nh |
-.185508
.1047839
-1.77
0.082
-.3954154
.0243994
db |
.0414967
.0641912
0.65
0.521
-.0870938
.1700871
df |
.1308707
.0248723
5.26
0.000
.0810455
.1806958
da | -.0087314
.0393488
-0.22
0.825
-.0875565
.0700938
dh |
.0277084
.0299776
0.92
0.359
-.0323439
.0877608
_cons |
1.07e+08
2.79e+07
3.84
0.000
5.13e+07
1.63e+08
54
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Пример 1
В примере с моделированием капитализации
значимость влияния, скажем, депозитов фирм (da)
можно проверить так:
ˆda 0.0087
t ˆ
0.22 P(t | 0.22 |) 0.825
ˆ
0.0394
поскольку вероятность оказалась велика – 82.5%
(например, по сравнению с 5%-ым уровнем
значимости), нет оснований отбрасывать
основную гипотезу . Это означает, что объем
депозитов фирм не оказывает значимого влияния
на капитализацию банковской системы РФ в
анализируемом
периоде.
55
da
da
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Пример 2.
Оценивание множественной
регрессии для анализа детерминант
заработной платы жителей Москвы в
2000 году.
Source |
SS
df
MS
Number of obs =
157
-------------+-----------------------------F( 6,
150) =
8.86
Model | 37.0211059
6 6.17018432
Prob > F
= 0.0000
Residual | 104.515396
150 .696769304
R-squared
= 0.2616
-------------+-----------------------------Adj R-squared = 0.2320
Total | 141.536502
156 .907285266
-----------------------------------------------------------------------------logrealwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------sex | -.6079527
.1378764
-4.41
0.000
-.8803834
-.3355219
age |
.1590116
.0309307
5.14
0.000
.0978954
.2201277
age2 | -.0018494
.0003508
-5.27
0.000
-.0025425
-.0011562
education | -.1191102
.0380372
-3.13
0.002
-.1942681
-.0439524
stagna | -.3624113
.1892399
-1.92
0.057
-.7363315
.0115089
stagna2 |
.0496421
.0267672
1.85
0.066
-.0032472
.1025315
_cons |
2.627421
.6371025
4.12
0.000
1.368566
3.886275
------------------------------------------------------------------------------
56
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Пример 2
В примере с уравнением заработной платы
значимость влияния, скажем, возраста (age)
можно проверить так:
t ˆ
age
ˆage 0.159
5.14
ˆ
0.031
P(t | 5.14 |) 0.000
agej
поскольку вероятность оказалась мала
(например, по сравнению с 5%-ым уровнем
значимости), основную гипотезу следует
отбросить. Это означает, что возраст оказывает
значимое влияние на заработную плату.
57
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка гипотез
2) проверка адекватности регрессии
H 0 : 1 2 k 0
(при этом R 2 0)
при альтернативной гипотезе
H A : a a ... a 0
(при этом R 0 )
2
1
58
2
2
2
k
2
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка гипотезы об
адекватности регрессии
осуществляется на основании F-статистики,
которая в условиях справедливости основной
гипотезы, т.е. гипотезы о неадекватности
регрессии, подчиняется F-распределению с k и
n-k-1 степенями свободы:
ESS / k
F
RSS /( n k 1)
H0:
R2 / k
(1 R 2 ) /( n k 1)
59
Эконометрика
1 2 k 0
~
Ратникова Т.А.
ВШБИ
F (k , n k 1)
22.05.2018
Пример 1
В примере с капитализацией адекватность регрессии в целом
можно проверить так:
3.34 *1018 / 7
P( F 621.86) 0.000
F
621.86
16
4.29 *10 / 56
поскольку вероятность оказалась мала (например, по сравнению
с 5%-ым уровнем значимости), основную гипотезу следует
отбросить. Это означает, что оцененная регрессия оказалась
адекватна данным.
Об этом же свидетельствует величина коэффициента
детерминации R 2 =0.9873 и его модифицированного с учетом
2
степеней свободы аналога
=0.9857.
Radj
Однако для регрессии на основе временных рядов высокие
показатели коэффициентов детерминации – явление типичное,
связанное с наличием общих временных тенденций в
анализируемых показателях.
60
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Пример 2
В примере с уравнением заработной платы адекватность
регрессии в целом можно проверить так:
37.021 / 6
F
8.86 P( F 8.86) 0.000
104.515 / 150
поскольку вероятность тоже оказалась мала (например, по
сравнению с 5%-ым уровнем значимости), основную гипотезу
следует отбросить.
Это означает, что оцененная регрессия оказалась адекватна
данным,
несмотря на то, что коэффициент детерминации
2
R =0.26, а его модифицированный с учетом степеней
2 =0.23.
свободы аналог Radj
Следует отметить, что такие маленькие значения
коэффициентов детерминации - довольно типичное явление
для данных опросов домохозяйств из-за сильной
неоднородности объектов выборки.
61
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка гипотез
3) H 0 : Q q
- проверка линейного ограничения на
коэффициенты, при альтернативной
гипотезе
H A : Q q
62
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка линейного
ограничения
Можно проверить гипотезу о не значимости
группы переменных.
В нашем примере с капитализацией есть целый
ряд показателей, которые по отдельности не
оказывают значимого влияния на капитализацию.
Это - расчетные счета нерезидентов (nf), МБК (db),
депозиты фирм (da), срочные депозиты населения
(dh). Можно проверить гипотезу о том, что они не
оказывают влияния и в совокупности:
H 0 : 1 4 6 7 0
H A : 12 42 62 72 0
63
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка линейного
ограничения
В таких случаях необходимо строить
дополнительную регрессию, в которую не
будут включены соответствующие регрессоры.
Для каждой регрессии вычисляется сумма
квадратов остатков: RSS (RSSд для исходной
регрессии и RSSк для дополнительной).
Затем, с помощью F-статистики производится
их сравнение
( RSS к RSS Д ) / r ~ Fr ,( nk 1)
F
RSS Д / n k 1
64
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка линейного
ограничения
Для наших данных оценка короткой регрессии
выглядит следующим образом:
Source |
SS
df
MS
Number of obs =
64
-------------+-----------------------------F( 3,
60) = 1499.02
Model | 3.3359e+18
3 1.1120e+18
Prob > F
= 0.0000
Residual | 4.4508e+16
60 7.4179e+14
R-squared
= 0.9868
-------------+-----------------------------Adj R-squared = 0.9862
Total | 3.3804e+18
63 5.3657e+16
Root MSE
= 2.7e+07
-----------------------------------------------------------------------------a |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------na |
.083186
.0166485
5.00
0.000
.049884
.116488
nh | -.1715743
.0828866
-2.07
0.043
-.3373722
-.0057765
df |
.153684
.0140171
10.96
0.000
.1256457
.1817224
_cons |
1.32e+08
1.40e+07
9.46
0.000
1.04e+08
1.60e+08
------------------------------------------------------------------------------
(4.4508 *1016 4.2935 *1016 ) / 4
F
0.51
16
4.2935 *10 / 56
65
Эконометрика
Ратникова Т.А.
ВШБИ
P( F 0.51) 0.73
22.05.2018
Проверка линейного
ограничения
Этот результат интерпретируется
следующим образом: при любом разумном
уровне значимости основная гипотеза не
может быть отвергнута, т.е. можно
исключить из регрессии группу незначимых
показателей.
Об этом так же свидетельствует несколько
возросшее
в
короткой
регрессии
значение
2
Radj
= 0.9862
66
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка линейного
ограничения
В примере с заработной платой есть 2
переменные, stagna и stagna2 – стаж
работы на данном предприятии и его
квадрат, которые по отдельности не
оказывают значимого влияния на
заработную плату.
Проверим гипотезу о том, что и в
совокупности эти переменные не значимы:
H 0 : 5 6 0 H A : 52 62 0
67
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка линейного
ограничения
Для наших данных оценка короткой регрессии выглядит следующим образом:
Source |
SS
df
MS
Number of obs =
158
-------------+-----------------------------F( 4,
153) =
12.23
Model | 34.8600216
4
8.7150054
Prob > F
= 0.0000
Residual | 109.023637
153
.71257279
R-squared
= 0.2423
-------------+-----------------------------Adj R-squared = 0.2225
Total | 143.883659
157 .916456424
Root MSE
= .84414
-----------------------------------------------------------------------------logrealwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------sex | -.6106794
.1378193
-4.43
0.000
-.8829538
-.338405
age |
.1463342
.0299831
4.88
0.000
.0870999
.2055684
age2 | -.0017299
.0003461
-5.00
0.000
-.0024136
-.0010462
education | -.1071937
.0381301
-2.81
0.006
-.1825232
-.0318642
_cons |
2.385354
.6251253
3.82
0.000
1.150363
3.620346
(109.024 104.515) / 2
F
3.24
104.515 / 150
68
Эконометрика
P( F 8.86) 0,0419
Ратникова Т.А.
ВШБИ
22.05.2018
Проверка линейного
ограничения
Этот результат интерпретируется следующим
образом: при уровне значимости 5% основная
гипотеза должна быть отвергнута, т.е.
нежелательно исключать из регрессии
переменные, отвечающие за стаж. Об этом же
свидетельствует упавшее в короткой регрессии
2
значение Radj
=0.22.
Аналогичным образом могут быть проверены
любые линейные гипотезы относительно
регрессионных коэффициентов.
69
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Доверительные интервалы
для коэффициентов
В последних двух столбцах таблицы
результатов оценивания регрессии в
некоторых статистических пакетах
выдаются интервальные оценки доверительные интервалы - для
коэффициентов.
Они строятся на основании t-статистик для
указанной (обычно 95%) доверительной
вероятности:
ˆ
ˆ
j t2.5% (n k 1) ˆ j j t2.5% (n k 1) ˆ
j
70
Эконометрика
j
Ратникова Т.А.
ВШБИ
22.05.2018
Прогнозирование по
регрессионной модели
Более интересно и целесообразно строить
интервальные оценки для прогноза
зависимой переменной:
ˆ
X 0 t / 2 (n k 1) 1 X 0 ( X X ) 1 X 0 Y0
ˆ
X 0 t / 2 (n k 1) 1 X 0 ( X X ) 1 X 0
здесь X 0 - набор значений регрессоров, для
которого мы намереваемся вычислить
прогноз Y0 .
71
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Прогнозирование по
регрессионной модели
Пусть в нашем примере мы хотим оценить
заработную плату жителя Москвы в 2000 году,
при условии, что это 30-ти летний мужчина с
аспирантурой и 2-х летним стажем работы на
некоем предприятии.
Согласно оцененному уравнению регрессии:
Y0 ˆ0 ˆ1sex ˆ2 age ˆ3age2 ˆ4education ˆ5 stagna ˆ6 stagna2
= 2.63 – 0.61*0 + 0.16*30 – 0.002*900 –
– 0.12*2 – 0.36*2 + 0.05*4 = 5.088
72
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Прогнозирование по
регрессионной модели
Мы предсказали логарифм заработной платы
Это соответствует оценке величины самой заработной
платы 162 условных единиц
Можно вычислить доверительный интервал для
логарифма заработной платы
s.e.(Y0 ) 1 X 0 ( X X ) 1 X 0 0.847
t / 2 (n k 1) 1.645,
3.695 < Y0 < 6.481.
Это означает, что в 2000 году сама заработная плата
такого индивида могла лежать в интервале
от 40 до 653-х условных единиц.
73
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018
Спасибо за внимание!
74
Эконометрика
Ратникова Т.А.
ВШБИ
22.05.2018