Способ проверки остатков на случайный характер
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Рассмотрим некоторые методы проверки выполнения предпосылок
Гаусса-Маркова и приемы исследования в случаях, когда они нарушаются.
Способ проверки остатков на случайный характер
Для проверки остатков на случайный характер строят график
зависимости случайной компоненты от значений результативного признака:
ε
y
Если значения остатков расположены вблизи горизонтальной прямой
(оси абсцисс), то их можно считать случайными (как на рисунке выше).
На рисунке ниже остатки носят систематический характер:
ε
y
Зависимость регрессионного остатка от значений
результативного признака (систематический характер остатков)
На следующем рисунке дисперсия остатков, соответствующих
большим значениям y, больше, чем дисперсия при малых y, т.е. имеет место
гетероскедастичность остатков:
ε
y
Гетероскедастичность остатков
Кроме того, существует ряд специальных тестов, разработанных для
проверки остатков на гомоскедастичность и отсутствие автокорреляции.
Наиболее известным тестом для проверки на гомоскедастичность
является
тест
Голдфелда-Квандта,
а
для
проверки
остатков
на
автокорреляцию - тест Дарбина-Уотсона. Студентам рекомендуется изучить
их самостоятельно.
Обобщенный МНК
Рассмотрим
гомоскедастичность
отдельно
и
две
отсутствие
важные
предпосылки
автокорреляции
остатков.
МНК:
Взяв
n
наблюдений, для каждого из них можно получить регрессионный остаток ε1,
ε2, …, εn. Каждый из этих остатков сам по себе является случайной
величиной. Для этих случайных величин можно построить ковариационную
матрицу, на диагонали которой будут стоять дисперсии остатков, а
остальные элементы будут представлять собой ковариации между ними
(матрица симметрична относительно главной диагонали):
ε1
ε2
εn
...
ε1 σ2 (ε1 )
Cov(ε1, ε2 )
ε2 Cov(ε1 , ε2 )
σ2 (ε2 )
Ω=
...
...
...
εn Cov(ε1 , εn ) Cov(ε2 , εn )
... Cov(ε1 , εn )
... Cov(ε2 , εn )
...
...
2
...
σ (εn )
Если остатки гомоскедастичны, то элементы на главной диагонали
этой матрицы будут равны между собой. Если автокорреляция остатков
отсутствует, то ненулевые элементы этой матрицы могут стоять только на
главной диагонали. Существенное отличие любого другого элемента
матрицы от нуля означает, что регрессионные остатки коррелируют.
Как уже было сказано, гетероскедастичность и автокорреляция
остатков приводят к
тому,
что
оценки, полученные
МНК, будут
неэффективными. Исключить то и другое можно с помощью модификации
МНК – обобщенного метода наименьших квадратов (ОМНК), суть
которого сводится к тому, что при нахождении вектора параметров А
используют не формулу, которую мы ранее получили для матричной формы
МНК, а следующую формулу:
А = (XТΩ-1X)-1XТΩ-1Y,
где Ω-1 – матрица, обратная ковариационной матрице Ω.
Можно доказать, что при использовании этой формулы оценки будут
обладать свойством эффективности (теорема Айткена). Доказательство
можно найти, например, в [Яновский Л.П., Буховец А.Г. Введение в
эконометрику: уч. пособие – 2-е изд., доп. – М.: Кнорус, 2007. – 256 с.].
Исключение гетероскедастичности с помощью ОМНК
Предположим,
что
выполняется
требование
равенства
математического ожидания регрессионного остатка нулю. Тогда дисперсия
регрессионных остатков равна просто ожидаемому квадрату остатка:
σ2(ε) = M(ε – M(ε))2 = M(ε2); σ2(εi) = M(εi2).
Предположим, что требование отсутствия автокорреляции остатков
тоже выполняется. Тогда ковариационная матрица остатков примет вид
диагональной матрицы (ненулевые элементы стоят только на главной
диагонали):
ε1
ε2
ε1 σ2 (ε1 )
ε2 0
σ2 (ε2 )
Ω=
... ...
...
εn 0
...
εn
...
...
...
...
... σ2 (εn )
...
Пусть остатки гетероскедастичны, т.е. элементы на главной диагонали
матрицы не равны между собой. Применение ОМНК с такой ковариационной
матрицей сведется к тому, что в каждом i–м наблюдении все значения
переменных будут поделены на одно и то же число σ2(εi). Такая модификация
ОМНК называется взвешенным МНК.
Однако в реальных экономических задачах дисперсии регрессионных
остатков для отдельных наблюдений неизвестны, и нет возможности
построить ковариационные матрицы ни в каком виде. Поэтому вместо этих
матриц обычно используют какую-либо их оценку.
Для определения коэффициентов при использовании взвешенного
МНК может быть использован следующий подход. Предположим, что
дисперсии остатков σ2(εi) пропорциональны величине σ2(ε) (дисперсии
генеральной совокупности значений случайной компоненты). Коэффициенты
пропорциональности обозначим Кi, - эти коэффициенты характеризуют
неоднородность дисперсии (способ их нахождения обсудим позже). Получим
для каждого из n наблюдений:
σ2(εi) = σ2(ε) * Кi
В основе применения МНК к линеаризованной функции лежит
соотношение (на примере парной линейной регрессии), которое может быть
n
n
i =1
i =1
2
2
представлено следующим образом: ∑ (ax i + b − y i ) = ∑ ( εi ) . Если в левой
части этого выражения каждое слагаемое в скобках разделить на
K i , то в
результате каждое слагаемое в правой части будет скорректировано на
величину Кi. Поскольку из σ2(εi)/Кi = σ2(ε), можно условно считать, что после
такого преобразования данные будут гомоскедастичны, т.е. иметь общую
дисперсию σ2(ε).
Итак, чтобы применить к парной линейной регрессии ОМНК в случае
гетероскедастичности остатков, необходимо обе части уравнения y = ax + b
разделить на
K i для всех наблюдений:
yi
Ki
=a
xi
Ki
+ b
Ki
, i = 1, n
Чтобы это сделать, исходные данные модели – значения xi и yi, делят
на
K i . Одновременно осуществляют замену переменных
γi =
yi
Ki
; αi =
xi
Ki
; βi = 1
Ki
, i = 1, n
Значения новых переменных γ и α представляют собой значения
показателей, взвешенные на коэффициенты β i = 1
Ki
. В общем случае эти
веса надо задать для каждого наблюдения (каждой пары γi и αi).
После такой замены уравнение регрессии примет вид
γ = a * α + b *β
Полученное
множественной
выражение
(двухфакторной)
представляет
линейной
собой
регрессии,
уравнение
в
которой
результативный признак обозначен γ, а признаки-факторы - α и β. Параметры
регрессии a и b можно найти из системы нормальных уравнений. В данном
случае первое уравнение в системе следует опустить, так как свободный член
регрессии здесь равен нулю (здесь оба параметра - a и b - представляют собой
коэффициенты при переменных). Система примет вид:
a ∑ α 2 + b∑ αβ = ∑ γα
2
a ∑ αβ + b∑ β = ∑ γβ
где
n
n
n
n
n
i=1
i =1
i =1
∑ α2 =∑ αi ; ∑β2 = ∑βi ; ∑ αβ = ∑ αiβi ; ∑ γα = ∑ γ i αi ;∑ γβ = ∑ γ iβi
2
i=1
2
i=1
Каким образом определяются
коэффициенты
Кi?
Существуют
различные подходы к их определению, и выбор любого из них неизбежно
влияет на значение полученных параметров модели.
Иногда предполагают, что этими коэффициентами являются сами
значения фактора. В многофакторной модели при этом одновременно встает
проблема выбора одного из факторов (того, значения которого будут
использованы при расчете весов). Например, можно взять последний по
порядку фактор в множественной регрессии.
Следует отметить, что при этом, чем меньше значение фактора, тем на
меньшую величину будет поделена величина дисперсии, т.е. весовой
коэффициент 1
Ki
будет больше. Тем самым повышаются веса дисперсий
ошибок в наблюдениях с меньшими значениями. Это говорит о том, что
предположение о пропорциональности между коэффициентами Кi и
значениями фактора может быть вполне обосновано с экономической точки
зрения: большим значениям фактора действительно может соответствовать
большая дисперсия, которую необходимо умножить на меньший вес, чтобы
добиться гомоскедастичности.
Исключение автокорреляции в остатках с помощью ОМНК
Рассмотрим случай автокорреляции остатков для модели, в которой
наблюдения упорядочены во времени. Будем считать, что M(ε) = 0, и остатки
гомоскедастичны.
Возьмем так называемый авторегрессионный процесс первого
порядка, когда каждое последующее значение случайной компоненты
связано с предыдущим линейной зависимостью:
εt = pεt-1 + υt,
где t = 1, 2, …, n – номера последовательных наблюдений;
υt - случайная компонента построенной зависимости1, имеющая
нулевое математическое ожидание и дисперсию σ02, не подверженная
автокорреляции;
p - коэффициент авторегрессии.
Так как величины и независимы, дисперсию суммы можно посчитать
по следующей формуле (постоянный сомножитель выносим за скобки,
возводя в квадрат, по свойству дисперсии):
D(εt) = p2D(εt-1) + D(υt)
Поскольку остатки гомоскедастичны, D(εt) = D(εt-1) = σ2, получим:
σ 2 = p 2σ 2 + σ 02
σ 02
σ =
1 − p2
2
1
Обычно предполагается, что эта случайная величина имеет
нормальное распределение.
Отсюда следует, что |p| < 1 (так как величина дисперсии должна быть
положительной).
Найдем ковариацию2 двух соседних остатков, подставляя вместо εt
выражение (pεt-1 + υt). При этом учтем, что математическое ожидание
каждого из них равно нулю, и что математическое ожидание произведения
независимых случайных величин εt-1 и υt, можно рассчитать, как
произведение математических ожиданий:
Cov( ε t , ε t −1 ) = M ( ε t * ε t −1 ) − 0 = М ( ε t −1 * ( pε t −1 + υt )) =
= М ( pε t −1 ) + М ( ε t −1υ t ) = p * D( ε t −1 ) + M ( ε t −1 * υ t ) = рσ 2
2
Можно
показать,
что
ковариации
любой
пары
остатков
рассчитываются по формуле:
Cov( ε t , ε t − k ) = р k σ2
Тогда ковариационная матрица примет вид:
ε1
ε2
ε1 1
p
ε p
1
Ω = σ2 2
... ...
...
εn pn −1 pn −2
...
εn
... pn −1
n−2
... p
... ...
... 1
Если параметр p известен, то для нахождения параметров линейной
функции регрессии можно применить ОМНК.
Покажем, что при этом будет устранена автокорреляция остатков.
Рассмотрим множественную линейную регрессию y = a1x1 + a2x2 +
2
Для расчета ковариации в теории вероятностей можно использовать
следующую формулу: Cov (x,y) = M(x*y) – M(x)*M(y) (рекомендуется
сравнить с формулой, используемой в статистике: Cov( x, y) = xy − x * y .
+ … + amxm + b + ε. Запишем уравнения регрессии для периодов t и (t – 1),
умножив обе части последнего уравнения на p:
yt = a1x1t + a2x2t + … + amxmt + b + εt
pyt-1 = pa1x1 t-1 + pa2x2 t-1 + … + pamxm t-1 + pb + pεt-1
Вычтем из первого уравнения второе, преобразовав результат к
следующему виду:
yt - pyt-1 = a1(x1t - px1 t-1) + a2(x2t – px2 t-1) + … +
+ am(xmt – pxm t-1) + b(1 – p) + εt - pεt-1
Применив формулу (εt = pεt-1 + υt), получим
yt - pyt-1 = a1(x1t - px1 t-1) + a2(x2t – px2 t-1) + … +
+ am(xmt – pxm t-1) + b(1 – p) + υt
В новой модели устранена автокорреляция остатков, так как новые
остатки - υt - независимы.
Для определения неизвестного параметра авторегрессии p можно
использовать различные методы оценки. Проще всего оценить его с
помощью обычного МНК, применяя его к уравнению авторегрессии остатков
εt = pεt-1 + υt. Способ получения оценки дисперсии регрессионных остатков σ2
будет рассмотрен позже. С помощью оценок p и σ2 можно получить оценку
ковариационной матрицы для применения ОМНК. Такой способ нахождения
этой матрицы получил название доступного ОМНК.