Метод максимального правдоподобия
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Эконометрика
Лекция 17:
Метод максимального правдоподобия
Лозинская Агата Максимовна
Департамент экономики и финансов
1
План лекции 17
• Вспомогательные сведения из линейной
алгебры: матрицы
• Классическая линейная регрессионная модель
• Метод максимального правдоподобия (ММП):
– Функция правдоподобия и ее натуральный
логарифм
– Свойства ММП-оценки
2
Матрицы
Магнус и др. Приложение ЛА 8-17
Вербик Приложение А. Векторы и матрицы.
матрица – прямоугольная таблица чисел
Amn – матрица с m строк и n столбцов
ранг матрицы – максимальное число линейно независимых строк
(столбцов); порядок максимального отличного от нуля минора
матрицы rank ( A) rank ( AA) rank ( AA)
матрица полного ранга – если ее ранг совпадает с минимальным из
чисел m, n rank ( A) minm, n
собственные значения (характеристические корни) матрицы
единичная матрица
1 0 0
In 0 1 0
0 0 1
квадратная матрица количество строк количество столбцов
3
диагональная матрица – квадратная матрица, все элементы которой
кроме диагональных – нулевые
1 0 0
V diag (1,2,3)
A 0 2 0
0 0 3
симметричная матрица – квадратная матрица, элементы которой
симметричны относительно главной диагонали; это означает, что
она равна своей транспонированной матрице A A
1 0 0
A 0 1 0
0 0 1
1 3 0
A 3 2 6
0 6 5
положительно определенная матрица – симметричная матрица у
которой все собственные значения положительны (определители
всех угловых миноров положительны)
обратная матрица A1
AA1 I
вырожденная (сингулярная) матрица – матрица, для которой не
существует обратной матрицы
4
идемпотентная матрица M M 2
проекционная матрица – симметричная идемпотентная матрица
Пример
1 0 0
V ( ) 0 2 0
0 0 4
1 0,5 0
V ( ) 0,5 1 0
0
0 1
5
Условия Гаусса-Маркова
Y X (линейность
по параметрам и верная
спецификация)
1) E ( i ) 0 для всех наблюдений (несмещенность)
2) 2 ( i ) const постоянна для всех наблюдений
(гомоскедастичность) (эффективность)
3) cov( i , j ) 0 i j отсутствие автокорреляции (эффективность)
4) cov( xi , i ) 0 отсутствие эндогенности объясняющей
переменной (детерминированность объясняющей
переменной) (несмещенность, состоятельность)
5) отсутствие полной мультиколлинеарности
6) i N (0, 2 )
(нормальность)
6
2) 2 ( i ) const гомоскедастичность
3) cov( i , j ) 0 i j отсутствие автокорреляции
V ( ) E ( ) 2 I n
Ковариационная/
дисперсионная матрица
случайных ошибок
1 0
In 0 0
0 1
единичная
матрица
2 0
2
V ( ) I n 0 0
0 2
6) i N (0, 2 I n )
7
Классическая/нормальная
регрессионная модель
Y X (линейность
по
параметрам
и
верная
спецификация)
1) E ( i ) 0 для всех наблюдений (несмещенность)
2) V ( i ) E ( ) I n
2
1 0
In 0 0
0 1
единичная
матрица
(гомоскедастичность и отсутствие автокорреляции) (эффективность)
3) cov( xi , i ) 0 отсутствие эндогенности объясняющей
переменной (детерминированность объясняющей переменной)
(несмещенность, состоятельность)
4) отсутствие полной мультиколлинеарности
5)
i N (0, 2 I n )
(нормальность)
8
Классическая регрессионная
модель
Y X (линейность
по
параметрам
и
верная
спецификация)
1) E ( i ) 0 для всех наблюдений (несмещенность)
2) V ( i ) E ( ) I n
2
1 0
In 0 0
0 1
единичная
матрица
(гомоскедастичность и отсутствие автокорреляции) (эффективность)
3) X – отсутствие эндогенности объясняющей переменной
(детерминированная матрица ранга k), cov( X , ) 0
(несмещенность, состоятельность)
4) X – матрица полного ранга (отсутствие полной
мультиколлинеарности)
5)
i N (0, 2 I n )
(нормальность)
9
Метод максимального правдоподобия
Maximum likelihood estimation - MLE, ММП
yi 1 2 xi i
i 1, n
1) E ( i ) 0
2) V ( i ) I n (гомоскедастичность и отсутствие автокорреляции сл.ошибок)
2
3) cov( xi , i ) 0
Чтобы сделать возможным оценивание ММП необходимо добавить
предположение о виде распределения i
2
4) i N (0, )
Идея ММП: Подобрать неизвестные параметры 1, 2 таким
способом, чтобы получающееся распределение переменной
yi, условное по совокупности переменных xi и известное
вплоть до небольшого количества неизвестных параметров,
«насколько возможно лучше соответствовало наблюдаемым
см. Вербик, гл. 6
данным»
1) Корректно
специфицировать
правдоподобия
2
функцию
L( , )
(либо логарифмическую функцию правдоподобия
2) Найти ее максимум
max2 L( , )
2
,
max2 ln L( , 2 )
ln L( , 2 )
)
ˆ
ˆ
2
,
11
?
Функция
правдоподобия
12
1 ( y )2
f ( y)
exp
2
2
2
2
1
2
1 ( y y| x )
f ( y | x)
exp
2
2
2
2
y| x
1
y| x
yx
y 2 (x x )
x
y2| x
функция плотности нормального
распределения
условная функция плотности
нормального распределения
2
yx
y2 2 y2 (1 yx2 )
x
• Функция совместной плотности распределения f ( y, x) f ( y | x) f ( x)
• Если две (и больше) переменных имеют совместное нормальное
распределение, то все маргинальные распределения и условные
распределения также нормальны
• y| x является линейной функцией со свободным членом
• yx 0 (коэффициент корреляции), то f ( y | x) f ( y) f ( x)
См. Вербик, Приложение В.6
13
Вклад наблюдения i в функцию правдоподобия равен значению
функции плотности вероятностей в наблюдаемой точке yi. Для
нормального распределения вклад наблюдения i в функцию
правдоподобия есть функция плотности для каждого наблюдения i,
условная по xi :
1 ( yi 1 2 xi ) 2
f ( yi | xi ; , )
exp
2
2
2
2
X ( x1 ,, xn )
(1 , 2 )
1
2
Из
за предположения независимости совместная
распределения, условная по X, задается как n
1
f ( y1 ,, yn | X ; , ) f ( yi | xi ; , )
2
i 1
2
n
2
2
плотность
1 ( yi 1 2 xi ) 2
exp
2
2
i 1
n
Функция правдоподобия – идентична функции плотности y1 ,, yn , но
рассматривается как функция неизвестных параметров , 2
n
L( , ) f ( yi | xi ; , )
2
2
i 1
ˆММП max L( , 2 )
14
?
lnL вместо L
15
2
Логарифмическая функция правдоподобия ln L( , )
n
1 n ( yi 1 2 xi ) 2
2
ln L( , ) ln( 2 )
2
2 i 1
2
2
Натуральный логарифм функции правдоподобия ln L( , 2 ) является
монотонным преобразованием функции правдоподобия L( , 2 )
будет иметь максимум при том же значении , которое
максимизирует L( , 2 ) (поскольку
логарифм
от
любой
переменной возрастает или уменьшается с ростом или
уменьшением значения переменной)
В вычислительных целях часто более удобно найти максимум ln L( ,
ln L( , 2 )
ˆ
max ln L( , )
2
ММП
L[0;1]
lnL(-;0] (натуральный логарифм)
16
2
)
?
Поиск максимума
функции
17
yi 1 2 xi i
i 1, n
МНК: минимизация остаточной
суммы квадратов
ln L( , 2 )
1 n
2 ( yi 1 2 xi ) 0
ˆ1 , ˆ2
i 1
ММП
e y ˆ ˆ x
i
i
1
ln L( , 2 )
n 2
1 n ei2
0
2
2 2 2 2 i 1 4
1 n 2
̂ ei
n i 1
n
1
2
s
ei2
n m i 1
2
2 i
1 n 2
̂ ei
n i 1
2
состоятельная, но смещенная оценка дисперсии
несмещенная оценка дисперсии из МНК
2 ln L( , 2 )
H ( )
0
2 ln Li ( )
I ( ) E
- гессиан (Hessian matrix)
- информационная матрица (Фишера)
18
Y X
N (0, 2 I n )
Y N ( X , 2 I n )
1
L( , )
exp
(Y X )(Y X )
2
2
2 2
n
n
1
2
2
ln L( , ) ln 2 ln
(Y X )(Y X )
2
2
2
2
2
1
ln L( , 2 )
2 X Y 2 X X 0
ee
2
ln L( , 2 )
̂
... 0
2
n
ММП
ˆММП ˆМНК ( X X ) 1 X Y
e Y X̂ ММП
ˆ 2
ММП
Смещенная ММП-оценка дисперсии остатков
(следует из инвариантности: мы рассматриваем 2
как неизвестный параметр, поэтому дифференцируем
по 2 , а не . Полученная оценка инвариантна к такому
выбору.)
2
ˆ МНК
ee
(n m)
См. Магнус и др., 10.5.
19
Примечания к ММП (I)
1. ММП-оценка дисперсии остатков отклоняется от несмещенной
ee
ee
МНК-оценки ˆ 2 ˆ 2
, но является состоятельной.
n
(n m)
2. В малых выборках несмещенная оценка дисперсии остатков
имеет лучшие свойства, чем ММП-оценка.
3. Во многих существенных случаях нельзя показать, что ММПоценка будет несмещенной, а ее свойства для малых выборок
неизвестны.
4. Преимущества ММП могут быть обоснованы только в
асимптотическом смысле (n). ММП-оценка является
состоятельной и асимптотически эффективной.
5. Как правило, для ММП-оценки невозможно получить
аналитическое решение, за исключением ряда специальных
случаев.
ММП
МНК
6. Если в рассматриваемом примере N (0, 2 I n ) , то в таком случае
оценка, полученная максимизацией некорректной lnL, в строгом
смысле, не является ММП-оценкой, и нет гарантии, что она будет
20
иметь хорошие свойства.
Свойства ММП-оценки
1) Инвариантность
g ( ) - непрерывная функция; g ( ˆММП ) является ММП-оценкой
параметра g ( )
ˆ 2 - ММП-оценка параметра 2 , то ˆ и 1 / ̂ являются ММПоценками и 1 /
2) Состоятельность
3) Асимптотическая нормальность
4) Асимптотическая эффективность
1) выполняется для конечных выборок;
2)-4) являются асимптотическими свойствами
Примечания к ММП (II)
7.
ММП требует знания общего вида всего распределения
анализируемых случайных величин (за исключением неизвестных
параметров)
8. Если применить ММП к классической регрессионной модели,
предполагая нормальное распределение , то ˆММП ˆМНК кроме
оценки дисперсии остатков ˆ 2 ˆ 2
9. Предпосылка о нормальном распределении не является
необходимой для применения МНК, в отличие от ММП
(специфическое распределение )
10. ММП-оценка будет иметь хорошие свойства лишь в случае
корректно специфицированной функции правдоподобия L (lnL)
11. Оценка по ММП может занимать больше времени исследователя,
чем по МНК. Оценки ММП часто получаются с использованием
итеративных процедур, поскольку не всегда могут быть
выражены в аналитическом виде.
ММП
МНК
22