Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 4
23.09.2020
●
Нелинейные регрессионные модели …...3
Интерпретация
множественной
логарифмической модели регрессии…19
●
Показатели качества уравнения регрессии
в целом …………………………………….21
●Выбор
между
линейной
и
логарифмической
(или
полулогарифмической)
моделями
(Тест Бокса – Кокса и Тест Пола Зарембки
(Zarembka) …………………………………31
●
Нелинейные регрессионные
модели
Напомним:
Мы говорили о том, что помимо собственно линейных
моделей есть модели нелинейные относительно
включенных в анализ объясняющих переменных, но
линейные по оцениваемым параметрам. Например,
(a) полиномы разных степеней
y= α + β1x1 + β2 x22 + β3 x33 + β4 x44 + ε
(b) равносторонняя гипербола (обратная дробь)
y= α + β1 (1/x1)+ ε
(с) логарифмические (линейные в логарифмах) модели
Lny= α + β1Lnx1 + ε
Параметры (α, β1, β2, …) этих моделей также можно
оценить методом МНК.
• Зачем нужны такие модели (нелинейные в
переменных, но линейные по параметрам)?
Порой между экономическими показателями
существует
нелинейная
зависимость.
Потому, для выявления/оценки этой
зависимости
удобно
работать
с
нелинейными моделями.
Например,
рассмотрим
1. Полулогарифмическую модель
Log-Lin
2.
Логарифмическую
(линейную
логарифмах) модель
в
Полулогарифмическая модель
Часто экономисты, бизнес и пр. заинтересованы в
нахождении темпов прироста определенных
экономических переменных (ВВП, безработица,
производительность, численность населения и
пр.).
Пример 1.
Нам даны значения ВВП за период 1972 – 1991 гг.
И мы хотим определить средний ежегодный темп
прироста ВВП за этот период.
Обозначим
Yt = ВВП в период времени t,
Yo = ВВП в начальный период времени (1972).
Зная из финансов формулу «сompound»/сложных
процентов можно записать:
Yt = Yo × (1+r)t
(1+ r) – среднегодовой коэффициент роста.
Возьмем натуральных логарифм обеих частей:
LnYt = LnYo + t × Ln(1+r)
Обозначим:
βo = LnYо
β1 = Ln(1+r)
Перепишем в виде:
LnYt = βo +β1 × t
И добавим случайный член (ошибки) ui
LnYt = βo +β1 × t + ui
Мы получили полулогарифмическую модель
(Log-Lin) в которой коэффициент β1 - годовой
темп прироста (пояснение ниже).
для ежегодного прироста dt = 1.
Таким образом,
модели вида LnYt = βo +β1 × t + ui
удобно использовать для анализа темпов прироста во
времени какой-либо переменной
т.к. темп прироста за единицу времени
оказывается равным параметру β1 данной модели.
Пример:
t-статистика (700,54) (25,8643)
рассматриваемый интервал времени 1972 – 1991.
Тогда можно сказать, что за рассматриваемый период
ежегодный (среднегодовой) темп прироста ВВП
составил 2,469% (т.е. при росте t на 1 ед. ВВП
возрастает на β1 ×100%).
Логарифмическая (линейная в
логарифмах модель)
Вспомним понятие эластичность.
Коэффициент эластичности Y по X
Коэффициент эластичности
Вычислим коэффициент эластичности для
линейной модели : Y X
1
dY dX
elasticity
Y X
2
2
( 1 2 X ) / X
2
( 1 / X ) 2
Получаем, что для линейной функции (в нашем случае вида
Y 1 2 X ) коэффициент эластичности Y по X зависит от Х.
Рассмотрим модель вида:
Y 1 X
2
Покажем, что для приведенного типа зависимости коэффициент
эластичности не зависит от Х, т.е. является постоянной
величиной.
Коэффициент эластичности для модели
Y 1 X
2
dY
2 1
1 2 X
dX
Y 1 X
1
1 X
2
2
X
X
2 1
dY dX 1 2 X
elasticity
2
2 1
Y X
1 X
Для приведенного типа зависимости коэффициент
эластичности равен 2 , не зависит от x!
Заметим, что данную модель можно переписать в
следующем виде (предварительно прологарифмировав):
Y 1 X 2
log Y log 1 X 2
log 1 log X 2
log 1 2 log X
LnY = Lnβ1 + β2LnX =
(или введя замену переменных Lnβ1 = α) =
LnY = Lnβ1 + β2LnX = α + β2LnX
Такие модели называют логарифмическими (или линейными в
логарифмах моделями) т.к. модель можно привести к линейной форме
взятием логарифмов.
Их удобно использовать когда необходимо оценить эластичность
одной переменной по другой.
,
Пример.
Пусть у нас есть данные Xi – количество чашек
кофе выпиваемых в день на душу населения в
США, Yi – стоимость 1 фунта кофе в $.
Нам нужно оценить коэффициент эластичности
спроса на кофе от его цены.
Для этого мы оценим модель вида:
LnYi = α + β1LnXi + ui
Пусть мы получили
параметров модели:
p-value
R-squared
(0,000 )
следующую
оценку
(0,001)
= 0.7448
Коэффициент эластичность спроса на кофе от его
цены (= –0,2530461), говорит нам о том, что если
цена 1 фунта кофе повысится на 1%, спрос на
кофе
(измеряемый
количеством
чашек
потребляемых в день) в среднем снизится на
0,2530461% ≈ 0,25%.
Основные типы преобразований
/«линеаризации» нелинейных
моделей
• логарифмирование
Интерпретация множественной логарифмической
модели регрессии
Модель множественной линейной регрессии имеет вид:
Lnyi = Lnα + β1Lnx1i + β2Lnx2i + ...+ βmLnxmi + ui,
i = 1,…, n
Интерпретация: коэффициент регрессии β1 при
переменной Lnx1 выражает эластичность
зависимой переменной y по переменной x1, при
условии постоянства других переменных.
Аналогично, коэффициент регрессии β2 при
переменной Lnx2 выражает эластичность
зависимой переменной y по переменной x2, при
условии постоянства других переменных, и. т.д.
Интерпретация логарифмической модели регрессии
Пусть модель множественной линейной регрессии имеет вид:
Lnyi = α + β1Lnx1i + β2Lnx2i + ui
А ее оценка:
Ln^yi = 2,82 + 0,64LnX1i – 0,48LnX2i
X1 – располагаемый личный доход (в млрд. долл. в год)
X2 – цены продуктов питания (индекс цен, годовой показатель)
y – расходы на питание (в млрд. долл. в год) – аналог спроса на продукты питания.
Интерпретация:
• В среднем эластичность расходов на питание по располагаемому личному доходу составляет
0,64 (при прочих равных);
или так
при росте располагаемого личного дохода на 1% расходы на питание в среднем возрастут на
0,64% (при прочих равных).
•
В среднем эластичность расходов на питание по цене составляет – 0,48 (при прочих
равных);
или так
при росте цен на продукты питания на 1% расходы на питание в среднем снизятся на
0,48%, при прочих равных (т.е. покупатели откажутся от каких-то видов дорогих
продуктов/«переключатся» на более экономную продуктовую корзину).
Показатели качества уравнения
регрессии в целом
или
Как выбрать лучшую модель из
нескольких моделей с одинаковой
зависимой переменной.
Источники
1. Доугерти, К. Введение в эконометрику : учеб. для экон. специальностей вузов
/ К. Доугерти; пер. с англ. Е. Н. Лукаш [и др.]. – М. : ИНФРА-М, 1997. [Глава
5, п.5.6].
2. Магнус, Я. Р. Эконометрика. Начальный курс : учеб. / Я. Р. Магнус,
П. К. Катышев, А. А. Пересецкий. – 3-е изд., перераб. и доп. – М. : Дело, 2000.
[Глава 3, разделы 3.4]
3. Вербик М., Путеводитель по современной эконометрике. – М.: Научная
книга, 2008. [Глава 2, раздел 2.4].
4. Практикум по эконометрике. Под редакцией Елисеевой И.И. - М.: Финансы и
статистика, 2002. [стр. 6, 11-12]
Коэффициент детерминации R2 (вспомним)
Рассмотрели вариацию (разброс) зависимой переменной yi вокруг ее среднего , т.е.
Которую можно разложить на
.
Обозначили
общую/всю вариацию
= TSS (total sum of squares)
не объясненную регрессией вариацию
= ESS (error sum of squares)
сумма квадратов остатков,
объясненную регрессией вариацию
= RSS (regression sum of squares).
Получили выражение для R2
коэффициента детерминации, или доли
объясненной дисперсии:
Показатели качества
уравнения регрессии в целом
Показатели качества уравнения в целом
• Показатель R2 (коэффициент детерминации)
• Скорректированный R2 ̶>
• Сумма квадратов остатков (ESS)
• Стандартная ошибка регрессии (SEE)
• Средняя ошибка аппроксимации А
Коэффициент детерминации
R2 – R-квадрат – R-squared
Показывает долю объясненной дисперсии зависимой переменной
относительно ее среднего значения.
R2 всегда увеличивается с включением новой объясняющей переменной
(даже несущественной / незначимой).
Если взять число регрессоров равным числу наблюдений, всегда можно
добиться того, что R2 = 1, но это вовсе не будет означать наличие
содержательной (имеющей экономический смысл) зависимости у от
всех регрессоров (x1, x2, x3, …).
Низкое значение R2 не свидетельствует о низком качестве модели, и
может объясняться наличием существенных факторов, не включенных
в модель.
Скорректированный коэффициент
детерминации
(Нормированный R-квадрат или R-squared bar)
Попыткой устранить эффект, связанный с ростом R2 при возрастании числа
регрессоров, является коррекция R2 на число регрессоров.
по сравнению с R2 накладывает «штраф» за увеличение числа
объясняющих переменных
k – количество оцененных в регрессии параметров (включает константу), т.е.
это число объясняющих переменных;
По мере роста k возрастает отношение (k-1)/(n-k) и следовательно возрастает
размер корректировки коэффициента R2 в сторону уменьшения.
Но
возрастает при включении в регрессию объясняющей переменной с
t-статистикой больше 1 (или меньше -1), т.е. переменной которая не
обязательно значимо отличается от нуля.
Потому рост
не обязательно означает улучшение спецификации модели.
Сумма квадратов остатков (ESS)
• Измеряет необъясненную часть вариации зависимой
переменной относительно ее среднего значения
• Используется как основная минимизируемая величина в
методе наименьших квадратов (МНК), и для расчета
других показателей.
Чем плох данный показатель (ESS) в качестве выявления
наилучшей модели?
• Показатели ESS в разных моделях с разным числом
наблюдений и (или переменных) несравнимы.
Стандартная ошибка уравнения регрессии
Стандартная ошибка регрессии (SEE) – «Стандартная ошибка»
• Используется в качестве основной величины для измерения
качества оценивания модели (чем она меньше, тем лучше).
Показатели SEE в однотипных моделях с разным числом
наблюдений (и переменных) сравнимы!
ВЫВОД ИТОГОВ в Excel
Регрессионная статистика
Множественный R
0,9699
R-квадрат
Нормированный
R-квадрат
=|rxy|
=коэффициент детерминации
0,9407
0,9237
=Скорректированный
коэффициент детерминации
169,8699
= Стандартная ошибка уравнения
регрессии (SEE)
Стандартная ошибка
Наблюдения
10
df
Сумма
квадратов
остатков (ESS)
SS
2
7
9
3203259,59
201990,41
3405250,00
Дисперсионный
анализ
Регрессия
Остаток
Итого
Y-пересечение
Переменная X 1
Переменная X 2
MS
1601629,79571
28855,77265
Стандартная
ошибка
Коэффициенты
t-статистика
819,40387
341,58327
2,39884
72,30277
9,11302
7,93400
-165,12424
26,78907
-6,16387
F-тест на
качество
оценивания
F
Значимость F
55,50466
0,00005
P-Значение Нижние 95% Верхние 95%
0,04755
11,68777
1627,11996
0,00010
50,75389
93,85165
0,00046
-228,47032 -101,77817
Средняя ошибка аппроксимации А
Оценку качества модели также дает средняя ошибка
аппроксимации – среднее отклонение расчетных
значений
зависимой переменной от фактических
значений yi.
Допустимый предел значений А – не более 10%. Чем
меньше значение А, тем лучше.
Значения А в моделях с разным числом наблюдений и
одинаковым количеством переменных сравнимы.
Выбор между линейной и логарифмической
(или полулогарифмической) моделями
(Тест Бокса – Кокса и Тест Пола Зарембки
(Zarembka)
Рассмотрим случай выбора лучшей модели
когда зависимые переменные отличаются
(у против lny).
В этом случае выбор модели с наименьшим
значением стандартной ошибки регрессии (SEE)
не поможет определить лучшую модель.
Для выбора модели между линейной и
логарифмической (или полулогарифмической)
моделями применяют тест Бокса – Кокса и тест
Пола Зарембки (Zarembka*).
*Метод Зарембки и Бокса-Кокса применим для выбора из двух форм моделей
(несравнимых непосредственно), в одной из которых зависимая переменная входит с
логарифмом, а в другой – нет.
Источники:
1. Доугерти, К. Введение в эконометрику : учеб. для экон.
специальностей вузов / К. Доугерти; пер. с англ. Е. Н. Лукаш [и
др.]. – М. : ИНФРА-М, 1997. [Глава 4].
Выбор между линейной и логарифмической/
полулогарифмической моделями.
Путь у нас есть оценка двух типов моделей (с зависимой переменной
и
):
(1)
(2)
или
Нам необходимо проверить какая из моделей лучше описывает взаимосвязь
переменных.
Качество оценки двух моделей с одной и той же зависимой переменной (с
одинаковым числом наблюдений, переменных и спецификацией модели) мы
можем сравнивать с помощью показателя R2
с одной и той же зависимой переменной (с
разным числом наблюдений (и переменных)) мы можем сравнивать с
помощью показатели SEE.
Для моделей с разными зависимыми переменными (
невозможно.
и
) это
Алгоритм метода Зарембки
Путь у нас есть оценка двух моделей:
Нам необходимо проверить какая из моделей лучше описывает взаимосвязь
переменных.
1.
Вычисляем среднее геометрической значений y в выборке из n наблюдений.
(функция в Excel для нахождения ср. геометрического «=СРГЕОМ(E1:E7)»)
Замечание:
Среднее геометрическое
y совпадает с экспонентой среднего арифметического Lny
Алгоритм метода Зарембки
2. Пересчитываем все наблюдения y по формуле:
3. Рассчитываются линейная (y*) и логарифмическая (Lny*) регрессии и
сравниваются значения их сумм квадратов остатков (ESS). Модель с меньшей
суммой квадратов обеспечивает лучшее соответствие.
4. Для оценки значимости различий вычисляем χ2-статистику
Замечание: в числитель идет большая сумма квадратов остатков (т.е. показатель регрессии,
что обеспечивает худшее соответствие).
5. Сравниваем полученную χ2 статистику с критическим значением χ2критич с
одной степенью свободы (для выбранного уровня значимости), если χ2 > χ2критич.,
то различия значимы, и модель с ESS2 обеспечивает значимо лучшее соответствие.
Иначе обе модели хороши и можно выбрать любую для дальнейшего анализа.
Путь после трансформации данных y (y*) у нас есть оценка двух моделей:
n =19
Дисперсионный анализ
df
Регрессия
Остаток
Итого
1
17
18
Дисперсионный анализ
df
Регрессия
1
Остаток
17
Итого
18
SS
0,255964
0,003974
0,259938
SS
0,258184
0,002066
0,26025
Логарифмическая модель обеспечивает лучшее соответствие, так как сумма
квадратов логарифмической модели меньше (0002066 < 0.003974).
Для оценки значимости различий (на 5% уровне значимости) вычисляем χ2-статистику:
Так как χ2 =6,216 > χ2критич.(α = 0,05) =3,841 то различия значимы и
логарифмическая модель обеспечивает значимо (на 5% уровне значимости)
лучшее соответствие.
Алгоритм метода Зарембки
Т.е. из двух исходных моделей:
значимо лучшей является модель логарифмическая:
Ее мы и интерпретируем (исходную модель! с зависимой переменной Lny).
Выбор между линейной и
логарифмической (или
полулогарифмической) моделями.
Тест Бокса – Кокса*.
*Как и метод Зарембки тест Бокса-Кокса применим для выбора из двух
форм моделей (несравнимых непосредственно), в одной из которых
зависимая переменная входит с логарифмом, а в другой – нет.
*Пример с данными можно посмотреть у Доугерти, стр. 132
Алгоритм метода Бокса - Кокса
Дж. Бокс и Д. Кокс заметили, что
у и lnу — это специальные случаи функции
из которой получается функция y (те. y -1),
и функция Lnу ,
( напоминание
)
Нет оснований предполагать, что одно из этих значений λ является оптимальным, а
есть смысл попробовать целый ряд значений λ с тем, чтобы определить, какое из них
дает минимальное значение суммы квадратов остатков (ESS), после выполнения
пересчета по методу Зарембки.
Плавно изменяя λ, можно постепенно перейти
логарифмической, все время сравнивая качество.
от
линейной
регрессии
к
При λ = 1 преобразование Бокса – Кокса сводится к линейному, а при λ = 0,
к логарифмическому.
Алгоритм метода Бокса - Кокса
1.
Вычисляем среднее геометрической значений y в выборке из n наблюдений.
(функция в Excel для нахождения ср. геометрического «=СРГЕОМ(E1:E7)»)
Замечание:
Среднее геометрическое y совпадает с экспонентой среднего арифметического Lny
2. Преобразуем зависимую переменную
y по методу Зарембки
Алгоритм метода Бокса - Кокса
3. Рассчитываем новые переменные (преобразование Бокса-Кокса) при значениях
λ от 1 до 0.
(т.е. рассчитываем столбцы переменных yi(A-B) и xi(A-B) для каждого значения λ из
интервала от 0 до 1. Шаг, и соответственно количество значений λ, и как
результат количество оцениваемых регрессий, задаем произвольно).
4. Рассчитываем регрессии для новых переменных при значениях λ от 1 до 0:
5. Выбираем минимальное значение суммы квадратов остатков (ESS), а затем
выбираем одну из крайних регрессий ( т.е. λ = 1 или λ = 0), к которой ближе
точка минимума квадратов остатков .
Алгоритм метода Бокса - Кокса
Замечание:
• Преобразование Бокса-Кокса может иметь вид:
В данном случае преобразования коснуться только зависимой переменной, x
остается неизменным.
• Также преобразование Бокса-Кокса может иметь вид:
Т.е. λ для y и x могут отличаться.
Алгоритм метода в обоих случаях не меняется, соответствует описанному на двух
предыдущих слайдах.