Нарушение гипотез в основной линейной модели
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция №5. Нарушение гипотез в основной линейной модели
В этой лекции мы возвращаемся к проверке качества модели линейной регрессии. Рассматривается ряд важных случаев — нарушения тех или иных посылок модели линейной регрессии. Если нарушается одна или несколько из гипотез H1 — H4, то нарушаются также и желательные свойства оценок параметров модели (P1 – P5). В этом случае необходимо найти способ избавиться от недостатков оценки, обычно это решается внесением модификаций либо в исходные данные, либо в методы вычисления оценок.
Для более подробного изучения материала рекомендуется обратиться к учебнику Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков А.А. Эконометрия. — Новосибирск: Издательство СО РАН, 2005. Глава 8. А также к аналогичным главам других учебников из списка базовой литературы по курсу (см. введение).
Обобщенный метод наименьших квадратов (взвешенная регрессия)
Нарушение гипотезы H4 приводит к тому, что оценки МНК линейной регрессии (при верных остальных гипотезах) остаются состоятельными и несмещенными, но перестают быть эффективными в классе линейных оценок.
Пусть матрица ковариации ошибок имеет вид , где – вещественная, симметричная, положительно полуопределенная матрица с положительными диагональными элементами.
В случае применения МНК для получения оценок линейной регрессии матрица ковариации оценок параметров примет вид:
,
т.о. «обычная» оценка матрицы ковариации оценок параметров при этом станет смещенной и несостоятельной.
Процедура обобщенного метода наименьших квадратов:
Обоснование ОМНК – преобразование в пространстве наблюдений. Любая матрица допускает существование такой матрицы , что
,
Преобразование линейной модели в пространстве наблюдений с помощью матрицы приведет к уравнению регрессии
,
в котором по построению матрицы ошибки удовлетворяют гипотезе H4.
Применение к этой регрессии метода наименьших квадратов приведет к таким же оценкам, что и процедура ОМНК для исходной модели.
Гетероскедастичность ошибок
«Обычно» ни дисперсия, ни тем более матрица ковариации остатков по наблюдениям в модели регрессии не известны.
Если матрица диагональная, но элементы на диагонали отличаются, то имеет место гетероскедастичность ошибок регрессии.
Гетероскедастичность «без негативных последствий»: если дисперсия ошибок по наблюдениям не коррелирована с переменными, входящими в модель (в особенности – с регрессорами), то наличие гетероскедастичности несущественно влияет на качество оценок.
Часто дисперсия ошибок коррелирована с одной или несколькими переменными, входящими в модель. Если имеет место зависимость дисперсии ошибок с факторами, то необходимо установить наличие этой зависимости и учесть ее в оценках параметров регрессии.
Для выявления и учета гетероскедастичности ошибок в регрессии существует ряд методов:
1. Критерий Бартлетта
2. Критерий Голдфельда – Квандта
3. Критерий Глейзера
4. Критерий Годфри (Бреуша – Годфри – Пагана)
5. Метод Уайта
Критерий Бартлетта
Критерий применяется для проверки того, что для разных групп наблюдений дисперсия ошибок совпадает.
Обозначения:
– вектор остатков в оценке регрессии МНК,
– количество наблюдений,
– количество непересекающихся групп наблюдений, на которые разбита выборка (например, если необходимо проверить зависимость дисперсии ошибок от некоторой переменной, то выборка упорядочивается по возрастанию этой переменной и делится на группы в этом порядке)
– количество наблюдений в -ой группе наблюдений ,
– оценка дисперсии ошибок в -ой группе наблюдений
Нулевая гипотеза состоит в гомоскедастичности ошибок:
,
Критерий строится на основе статистики Бартлетта:
Критерий Бреуша – Годфри – Пагана
Данный критерий является одним из основанных на построении вспомогательной регрессии. Используется для проверки зависимости дисперсии ошибок по наблюдениям от других переменных (в «базовой версии» - от одного или нескольких регрессоров в исходной модели).
Пусть имеются оценки исходной регрессии в стандартных обозначениях. Вспомогательная регрессия строится для квадратов остатков в качестве зависимой переменной и факторов исходной модели (или других переменных) в качестве регрессоров:
,
В полученной оценке регрессии делается проверка совместной значимости факторов одним из методов. Если удалось найти набор совместно значимых факторов, то нулевая гипотеза о гомоскедастичности ошибок отвергается.
«Устранение» гетероскедастичности ошибок
Если один из методов выявил гетероскедастичность с негативными последствиями, то необходимо учесть это при вычислении оценок параметров регрессии.
Возможны два пути:
1) применение ОМНК, если известна структура и оценка матрицы ;
2) устойчивая к гетероскедастичности оценка Уайта:
Оценки параметров уравнения остаются «обычными», на основе МНК, но корректируется оценка матрицы ковариации оценок параметров. Неизвестная матрица ковариации ошибок подменяется матрицей , т.е. квадраты остатков выступают оценкой дисперсии ошибок по наблюдениям; итоговая скорректированная оценка матрицы ковариации оценок параметров уравнения регрессии имеет вид
Автокорреляция ошибок
Об автокорреляции ошибок в регрессии говорят, когда матрица имеет ненулевые диагональные элементы.
Выявление автокорреляции осуществляется одним из классических критериев проверки ограничений на парметры уравнения регрессии (см. Лекцию №3) или с помощью вспомогательной регрессии (аналог критерия Бреуша – Годфри – Пагана для выявления гетероскедастичности, зависимая переменная – остатки в регрессии, оцененной МНК).
Устранение автокорреляции в случае гомоскедастичности ошибок проводится 2 путями:
1. Включение в модель дополнительных факторов, позволяющих устранить зависимости между ошибками по наблюдениям.
2. ОМНК, если известна структура и оценка матрицы .
«Устранение» гетероскедастичности при наличии автокорреляция ошибок
В случае, если одновременно имеет место автокорреляция и гетероскедастичность ошибок (общий вид матрицы ), применение ОМНК затруднительно (сложно выявить структуру и оценить матрицу ), а оценки Уайта не дает качественную оценку матрицы ковариации оценок параметров (метод Уайта рассчитан на случай отсутствия автокорреляции ошибок).
Обобщенная устойчивая к гетероскедастичности оценка Ньюи – Уеста:
Применяется для коррекции оценки матрицы ковариации оценок параметров уравнения регрессии в условиях гетероскедастичности и автокорреляции ошибок (более общая процедура, чем метод Уайта):
,
где ,
.
Ошибки измерения факторов. Проблема эндогенности
Если нарушается гипотеза H2, то оценки МНК параметров линейной регрессии теряют свойство состоятельности и несмещенности (в т.ч. – асимптотически).
Один из вариантов нарушения гипотезы H2 – ошибки измерения факторов. Пусть истинная модель имеет вид
,
но вместо значений истинных факторов имеется результат их измерения с ошибками . Тогда в терминах имеющихся «ошибочных» наблюдений за факторами модель регрессии имеет вид
.
Ошибки в такой модели не могут быть не скоррелированы с факторами , гипотеза H2 нарушается, оценки МНК теряют свои свойства.
Существует ряд методов коррекции оценок параметров МНК в условиях нарушения гипотезы H2:
1. Коррекция матрицы ковариации факторов на ковариацию ошибок измерения факторов (требует знания ковариации ошибок факторов).
2. Ортогональная регрессия (требует довольно точных оценок матрицы ковариации истинных ошибок регрессии).
3. Метод инструментальных переменных (подходит для нарушения гипотезы H2 в общем виде; требует ряд дополнительных переменных – инструментов).
Инструментальные переменные
Если нарушена гипотеза H2: факторы в модели регрессии являются случайными и коррелированы с ошибками (такую ситуацию называют «эндогенность факторов»), то можно получить состоятельные и несмещенные оценки параметров регрессии, если имеется ряд дополнительных переменных – инструментов.
Чтобы переменные можно было использовать в качестве инструментальных, необходимо выполнение условий:
I1. «Годные» инструменты: инструменты некоррелированы с ошибкой (в случае негодных инструментов метод даст смещенные оценки, как и МНК).
I2. «Сильные» инструменты: инструменты достаточно сильно коррелированы с факторами (в случае слабых инструментов оценки методом будут смещенными; однако то, что некоторые инструменты в отдельности являются слабыми не означает, что они слабые в совокупности).
Классический метод инструментальных переменных (точная идентификация)
Если выполнены I1, I2 и («количество инструментов равно количеству факторов, включая константу»), то оценки методом инструментальных переменных строятся на основе преобразования исходной модели регрессии:
,
переходу к мат. ожиданиям:
,
,
с последующей заменой теоретических моментов выборочными:
, где ,
и получением оценок параметров
.
Метод инструментальных переменных, как двухшаговый МНК
Метод инструментальных переменных можно интерпретировать, как двухшаговый МНК. Идея метода состоит в том, чтобы на первом шаге «очистить» факторы от ошибок с помощью вспомогательной регрессии и на втором шаге использовать «очищенные» факторы вместо исходных для оценки параметров исходной модели.
Шаг I. Строится вспомогательная регрессия каждого фактора на инструменты . В качестве «очищенной» замены фактора берутся расчетные значения из этой регрессии:
.
Если изначально фактор некоррелирован с ошибкой , то по свойству инструментов для этого фактора ; т.о. вспомогательные регрессии можно строить только для тех факторов, которые могут коррелировать с ошибкой.
Шаг II. Заменив в исходной модели регрессии факторы на , получим оценки параметров исходной модели
Оценка матрицы ковариации оценок параметров в методе инструментальных переменных
В случае применения метода инструментальных переменных, как двухшагового МНК, оценки параметров исходной модели получаются, как оценки в регрессии второго шага, однако остатки в этой модели имеют вид
,
т.е. основаны на «очищенных» факторах и не подходят для вычисления оценки дисперсии ошибок и оценки матрицы ковариации оценок параметров. Необходимо пересчитать остатки, основываясь на исходных факторах:
.
Тогда в качестве оценки дисперсии ошибок в исходной можно использовать или , и оценка матрицы ковариации оценок параметров модели будет иметь вид
.
Проблема идентификации в методе инструментальных переменных
Чтобы оценки были вычислимы, необходимо выполнение следующих условий:
1. Матрица инструментов должна иметь полный ранг по столбцам, иначе не существует.
2. Матрица должна быть невырожденной (для обратимости).
Если (в идеале, ), то матрица необратима и оценки вычислить невозможно (уравнение неидентифицируемо).
Набор инструментов должен быть как минимум такой, что – порядковое условие идентификации (необходимое, но не достаточное).
Достаточное условие идентификации (ранговое условие идентификации): .
Если ранговое условие идентификации соблюдается, но при этом матрица близка к вырожденности (мультиколлинеарность на II шаге 2-шагового МНК), то это является признаком слабости инструментов (нарушение I2) и «сильного» смещения оценок параметров уравнения регрессии. Проверка значимости (в отдельности, в совокупности) инструментов во вспомогательных регрессиях на I шаге метода – один из тестов силы инструментов.