Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция №3. Базовая модель линейной регрессии. Классические критерии проверки гипотез
С данной лекции начинается непосредственно курс «Эконометрика». В лекции кратко изложены основные постулаты регрессионного анализа, предпосылки применения модели линейной регрессии, базовый метод оценки параметров — метод наименьших квадратов, свойства соответствующих оценок, а также ряд критериев для проверки гипотез о свойствах модели, в случае нарушения которых нельзя гарантировать те или иные привлекательные свойства получаемых оценок и необходимо искать пути решения этой проблемы.
Для более подробного изучения материала рекомендуется обратиться к учебнику Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков А.А. Эконометрия. — Новосибирск: Издательство СО РАН, 2005. Главы 6 — 8, 18. А также к аналогичным главам других учебников из списка базовой литературы по курсу (см. введение).
Регрессионный анализ: основные понятия и задачи
Задача регрессионного анализа – оценка и анализ зависимости изучаемой (зависимой) переменной (случайной величины) от значений набора факторов:
,
где – зависимая переменная,
– набор факторов,
– форма и параметры зависимости,
– случайная ошибка (например, измерения).
(независимые одинаково распределенные случайные величины)
Основная модель линейной регрессии
Основная модель линейной регрессии – частный случай простой регрессии (в левой части – 1 переменная, зависимая; в правой части – линейная комбинация набора факторов с некоторыми параметрами и случайная ошибка):
Исходная форма В форме оценок
Матричный вид
Скалярный вид
Далее в данном конспекте лекций чаще всего будут использоваться матричные формы записи форм регрессии, других формул и пр.
Оценки МНК линейной регрессии
Существует множество методов оценки параметров моделей.
Один из наиболее популярных – метод наименьших квадратов.
Интуиция метода: если изучаемая зависимость истинная, то лучшими оценками неизвестных параметров будут такие, что суммарная ошибка будет наименьшей.
Оценки МНК регрессии: такие значения неизвестных параметров, которые при имеющемся наборе данных (выборках зависимой переменной и факторов) дают наименьшую в среднеквадратическом смысле ошибку («остатки»).
Оператор оценки МНК
Задача оценивания МНК:
Оператор оценки МНК:
Или в сокращенной форме:
где
Основные гипотезы регрессионного анализа
Применение основной модели регрессии корректно, если выполняются следующие гипотезы:
H1: Между переменными x и z существует линейная зависимость и модель регрессии является истинной зависимостью
H2: Переменные z детерминированы, наблюдаются без ошибок и линейно независимы
H3:
H4:
Свойства оценок МНК линейной регрессии
В случае выполнения H1 – H4 имеют место следующие свойства :
P1: оценки МНК – линейные оценки
P2: оценки параметров зависимости являются несмещенными
P3: матрица ковариации оценок удовлетворяет соотношению
P4: несмещенная оценка имеет вид:
P5: теорема Гаусса – Маркова. Дисперсии оценок a параметров являются наименьшими в классе линейных несмещенных оценок.
P5+P1+P2: Оценки относятся к классу Best Linear Unbiased Estimate (BLUE)
Часто вводится дополнительная гипотеза: H5:
В этом случае оценки МНК также имеют нормальное распределение:
P6:
В частности,
, где , т.е. ,
и можно построить -ый ДИ для параметра:
,
или с учетом того, что дисперсия ошибки неизвестна:
Классические критерии проверки гипотез в регрессионной модели
Приведенные выше гипотезы и вытекающие из них свойства оценок используются в дальнейшем для тестирования «качества» оценок параметров модели и модели в целом. Далее приведен ряд критериев, использующихся в этой процедуре проверки качества модели.
t-критерий для оценок параметров регрессии
Если имеет место H5, и, следовательно, P6, то построенные ДИ можно использовать для проверки гипотез относительно параметров :
Например, рассматривается гипотеза
Критерий согласия, основанный на функции отклонения (t-статистике):
,
т.е. отвергается, если
(или отвергается, если ),
где – критический уровень для вероятности ошибки (например, 0.05).
Критерий, основанный на доверительном интервале для параметра:
,
и отвергается, если .
Оценка параметров регрессии при линейных ограничениях
Рассматривается модель линейной регрессии в условиях, когда параметры удовлетворяют набору линейных ограничений .
Задача оценивания МНК для такой модели имеет вид
Это задача условной оптимизации, решение которой удобно выполнить методом множителей Лагранжа. Функция Лагранжа: .
Условия первого порядка, F.O.C.: , .
Оператор оценивания МНК при линейных ограничениях
Решение системы F.O.C. для задачи МНК с ограничениями приводит к соответствующей оценки МНК (с учетом выставленных ограничений).
Из условий первого порядка следует, что
,
где – оценки без учета ограничений (т.е. ), .
Очевидно, что если оценка без учета ограничений удовлетворяет этим ограничениям (т.е. ограничения, по сути, излишни), то оценка с учетом этих ограничений в точности совпадет с оценкой , т.к. «невязки» ограничений в точке оценок без их учета (величина ) в этом случае равна нулю.
На основе модели с ограничениями на параметры строится ряд важных критериев проверки гипотез об оценках модели регрессии (даже если исходная задача регрессионного анализа не подразумевала ограничений).
Общий вид критерия проверки существенности ограничений
Обозначения:
– вектор остатков в регрессии без ограничений,
– сумма квадратов остатков в регрессии без ограничений;
– аналогично для регрессии с учетом ограничений;
из свойств оценки с ограничениями следует, что .
– количество наблюдений,
– количество факторов,
– количество ограничений.
Гипотеза состоит в том, что ограничения существенны:
Критерий основан на функции отклонения (F-статистике):
,
т.е. отвергается, если
,
где — допустимая вероятность ошибки первого рода, — соответствующий критический уровень функции отклонения.
Некоторые частные случаи критерия проверки существенности ограничений
Далее рассматривается ряд частных случаев применения критерия проверки существенности ограничений в модели линейной регрессии:
• проверка совместной значимости части факторов в модели;
• тестирование верной функциональной формы (RESET тест Рамсея);
• проверка автокорреляции остатков (тест Бреуша – Годфри);
• проверка постоянства коэффициентов модели (тест Чоу I, II);
В списке упущены два самых простых случая (проверка значимости отдельного фактора в модели; проверка совместной значимости всех факторов), поскольку они являются частными случаями проверки значимости части факторов.
Проверка совместной значимости части факторов в модели
Базовая модель регрессии – модель с несколькими (n) факторами:
,
Рассматривается гипотеза о том, что часть (k) факторов незначима
(коэффициенты при них неотличимы от нуля):
,
В терминах критерия проверки существенности ограничений:
• - сумма квадратов остатков в модели со всеми факторами,
• - сумма квадратов остатков в модели, где указанные факторы исключены,
• Количество ограничений составляет k.
В случае, если , критерий в точности совпадает с t-критерием Стьюдента. Если , то критерий становится известным критерием Фишера проверки совместной значимости всех факторов в модели (модель с ограничениями в данном случае становится простой моделью случайной величины ).
RESET тест Рамсея
Критерий применяется, если необходимо проверить гипотезу, что связь между зависимой переменной и факторами действительно линейная.
В базовую модель регрессии добавим матрицу регрессоров, состоящую из квадратов (кубов, 4-х степеней и т.д.) исходных факторов:
.
Рассматривается гипотеза о том, что добавочные факторы совместно незначимы
(т.е. связь между X и Z ограничена линейной формой):
,
В терминах критерия проверки существенности ограничений:
• - сумма квадратов остатков в модели со всеми факторами (включая добавочные),
• - сумма квадратов остатков в исходной линейной по факторам модели,
• Количество ограничений составляет .
Если гипотеза отвергается, то делается вывод, что связь в исходной модели не линейная, и в модель необходимо добавить некоторые из дополнительных факторов.
Существует также иная форма теста, в которой в качестве дополнительных факторов в исходную модель добавляются квадрат, куб и т.д. расчетных значений зависимой переменной, полученной в модели без ограничений:
.
В этом случае вывод имеет аналогичную форму, преимущество такой формы в том, что количество факторов во вспомогательной регрессии и количество ограничений существенно меньше (), если в исходной модели факторов больше 1.
Тест Бреуша – Годфри
Критерий применяется, если в регрессии временных рядов необходимо проверить гипотезу о том, что отсутствует автокорреляция остатков.
В базовую модель регрессии добавим матрицу регрессоров, состоящую из лагов остатков различного порядка (например, от 1 до p):
.
Рассматривается гипотеза о том, что добавочные факторы совместно незначимы
(т.е. отсутствует автокорреляция остатков):
,
В терминах критерия проверки существенности ограничений:
• - сумма квадратов остатков в модели со всеми факторами (включая лаги ),
• - сумма квадратов остатков в исходной модели без лагов остатков,
• Количество ограничений составляет .
Тест Чоу (I форма)
Критерий применяется, если необходимо проверить гипотезу о том, что параметры модели постоянны для всех наблюдений в выборке (например, в моделях временных рядов – остаются ли параметры постоянными во времени или при наступлении каких-либо значимых событий).
В базовой модели регрессии разобьем все наблюдения на 2 группы (из и наблюдений, ) и перепишем модель так, что она примет вид:
.
Рассматривается гипотеза о том, что для разных групп наблюдений параметры совпадают
(т.е. верна исходная, объединенная форма модели с постоянными параметрами):
,
В терминах критерия проверки существенности ограничений:
• - сумма квадратов остатков в модели с двумя группами наблюдений,
• - сумма квадратов остатков в исходной модели без деления на группы,
• Количество ограничений составляет (по на каждую добавочную группу наблюдений).
Существует несколько разновидностей данного критерия, отличающиеся принципом группировки наблюдений, и, следовательно, формой вспомогательной регрессии.