«Множественная регрессия»

Конспект лекции по дисциплине «Множественная регрессия», Word формат

Множественная регрессия Источники 1. Доугерти, К. Введение в эконометрику : учеб. для экон. специальностей вузов / К. Доугерти; пер. с англ. Е. Н. Лукаш [и др.]. – М. : ИНФРА-М, 1997. [Глава 5]. 2. Магнус, Я. Р. Эконометрика. Начальный курс : учеб. / Я. Р. Магнус, П. К. Катышев, А. А. Пересецкий. – 3-е изд., перераб. и доп. – М. : Дело, 2000. [Глава 2, разделы 2.3-2.4] 3. Вербик М., Путеводитель по современной эконометрике. – М.: Научная книга, 2008. [Глава 2, раздел 2.2 – до конца главы]. Эконометрика. Осень 2020. Кеткина О.С. 2 • • • • • • • • Содержание Понятие множественной регрессии …………………………………………7 Интерпретация коэффициентов множественной регрессии ..14 Вывод коэффициентов множественной регрессии методом наименьших квадратов (МНК) ………………………………………………..21 Показатели качества коэффициентов регрессии …………………...29 Качество оценки множественной регрессии …………………….……33 Мультиколлинеарность …………………………………………………………..38 Примеры (интерпретации) множественной линейной регрессии…………………………………………………………………18, 20, 49-50 Проверка гипотез о наличии линейных соотношений между коэффициентами регрессии (F – тест) ….................................... 51 Эконометрика. Осень 2020. Кеткина О.С. 3 При изучении парной линейной регрессии мы рассматривали зависимость расходов на питание - y i от дохода семьи – xi. В этом случае xi - уровень дохода семьи, неслучайная (детерминированная) величина, объясняющая поведение yi yi - уровень расходов на питание, случайная величина. yi – уровень расходов .P 4 .P 2 .P 1 . P3 xi - уровень дохода семьи Т.е. мы брали несколько семей с одинаковым уровнем дохода x1 = 80 тыс. руб. в год и случайным образом выбирали из них одну семью и выясняли сколько в ней тратят средств на питание, т.е. значение y1 => получали пару значений т.P1 =(x1, y1). Аналогично, брали несколько семей с одинаковым уровнем дохода x2 = 140 тыс. руб. в год и случайным образом выбирали из них одну семью и выясняли сколько в ней тратят средств на питание y2 => получали пару значений т.P2 =(x2, y2). … и т.д. 4 Эконометрика. Осень 2020. Кеткина О.С. В результате мы получали парную линейную регрессию: yi = α + βxi + ui где i = 1,…,n xi - неслучайная (детерминированная)величина, yi и ui - случайные величины. yi – зависимая переменная, состоит из (1) неслучайной составляющей α + βxi, где xi – объясняющая (независимая) переменная, а постоянные α и β параметры уравнения; и (2) случайного члена ui (ошибки; расстояние между соответствующими Q и Р; Q – точки на теоретической функции, P – наблюдаемые значения/собранные данные). xi и yi это фактические значения (реально собранные данные/наблюдения, иными словами наблюдаемые значения). yi – уровень расходов u4 u1 u2 u3 xi - уровень дохода семьи Эконометрика. Осень 2020. Кеткина О.С. 5 Конечно это было некоторое упрощение, т.к. yi уровень расходов на питание помимо уровня дохода (xi) также зависит от уровня цен на продукты питания и пр. характеристик. Потому, в экономической теории / жизни чаще встречаются зависимости с более, чем одной объясняющей переменной. Рассмотрим более сложную модель состоящую из трех переменных (как пример множественной регрессионной модели). Эконометрика. Осень 2020. Кеткина О.С. 6 Множественная линейная регрессия yi = α + β1x1i + β2x2i + ui где i = 1,…,n (для временных рядов t=1,…,n ) x1i , x2i - две объясняющие переменные, неслучайные (детерминированные) величины; yi и ui - случайные величины. yi – зависимая переменная, состоит из (1) неслучайной составляющей α + β1x1i + β2x2i , где постоянные α и β1 β2 параметры уравнения; и (2) случайного члена ui (ошибок; расстояние между соответствующими Q и Р; Q – точки на теоретической функции, P – наблюдаемые значения / собранные данные). x1i , x2i и yi это фактические значения (реально собранные данные / наблюдения, иными словами наблюдаемые значения). Эконометрика. Осень 2020. Кеткина О.С. 7 Множественная линейная регрессия yi = α + β1x1i + β2x2i + ui Также как и в парной линейной регрессии α - константа, и ее «техническая» интерпретация (которая не всегда имеет смысл) - это среднее значение y когда x1i и x2i равны нулю. β1 и β2 это частные коэффициенты регрессии (поясним суть «частные» чуть ниже, см. слайд 15). Эконометрика. Осень 2020. Кеткина О.С. 8 Также как и для парной линейной регрессии для случая множественной линейной регрессии должны выполняться условия Гаусса-Маркова Модель множественной линейной регрессии yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n 1) Должна быть правильно специфицирована (т.е. выбрана правильная функциональная форма, включены необходимые объясняющие переменные и нет лишних); 2) Не должно существовать линейной связи между регрессорами /объясняющими переменными (т.е. нет проблемы коллинеарности / строгой мультиколлинеарности); 3) Случайный член должен иметь нулевое математическое ожидание E(ui) = 0; 4) Случайный член должен иметь постоянную дисперсию для всех наблюдений, Var(ui)=D(ui)= σu2 , i= 1,…,n (гомоскедастичность); 5) Случайные члены с разными номерами не должны коррелировать друг с другом, Cov(ui, uj) = 0 (для i ǂ j) => отсутствие автокорреляциии; Если эти условия выполняются, тогда оценки МНК являются наиболее эффективными и несмещенными оценками коэффициентов регрессии [BLUE (Best Linear Unbiased Estimator)]. Эконометрика. Осень 2020. Кеткина О.С. 9 Кратко о коллинеарности / совершенной мультиколлинеарности yi = α + β1x1i + β2x2i + ui (1) Если существует линейная связь между регрессорами/объясняющими переменными x1i и x2i (допустим x2i = 2x1i ), тогда (1) можно записать в виде: yi = α + β1x1i + β2x2i + ui = α + β1x1i + β22x1i + ui = = α + (β1+ 2β2) x1i + ui = (заменим β1+ 2β2 = θ) = = α + θ x1i + ui Оценив полученное уравнение регрессии мы получим оценки для параметров α и θ, но оценить отдельно параметры β1 и β2 мы не сможем. Эконометрика. Осень 2020. Кеткина О.С. 10 Т.е. если мы записываем уравнение yi = α + β1x1i + β2x2i + ui То мы предполагаем, что каждая из переменных x1i и x2i имеет свое независимое от другой переменной влияние на yi Эконометрика. Осень 2020. Кеткина О.С. 11 Подробней о гомоскедастичности Y b1 X1 X2 X3 X4 X5 X Одно из условий теоремы Гаусса – Маркова состоит в том, что случайный член/ошибки ui имеет нулевое математическое ожидание и одинаковую дисперсию (условие 3 и 4). Свойство одинаковой дисперсии случайного члена/ошибки называется гомоскедастичностью (слайд 9, условие 4). Эконометрика. Осень 2020. Кеткина О.С. 12 Гетероскедастичность Y b1 X1 X2 X3 X4 X5 X Если дисперсии случайного члена/ошибки ui различны для разных наблюдений/разных Xi , то это явление называется гетероскедастичностью. Эконометрика. Осень 2020. Кеткина О.С. 13 Интерпретация множественной регрессии Модель множественной линейной регрессии имеет вид: yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n Интерпретация: коэффициент регрессии при переменной x1 выражает предельный прирост (если β1>0 ) / предельное снижение (если β1<0 ) на β1 зависимой переменной y (в единицах измерения y) при изменении переменной x1 на 1 ед. (в единицах измерения x1) при условии постоянства других переменных. Эконометрика. Осень 2020. Кеткина О.С. 14 Понятие частные коэффициенты регрессии. Что означает эффект одной переменной при условии постоянства других переменных? Как нам удается их фиксировать? Рассмотрим случай 2х объясняющих переменных (**) yi = α + β1x1i + β2x2i + ui Пусть yi – объем производства, x1i – труд, x2i – капитал. Рассмотрим как мы контролируем влияние x2i чтобы оценить влияние на yi только переменной x1i Эконометрика. Осень 2020. Кеткина О.С. 15 1 шаг. Оцениваем регрессию yi на x2i (а) yi = b1 + b2 x2i + u1i => получаем оценку регрессии (y^i) и остатки e1i : e1i = yi – y^i , где y^i – оценка yi из регрессии (а) остатки e1i – значения yi после учета влияния на них переменной x2i (т.е. после исключения объясняющего эффекта на yi переменной x2i ) 2 шаг. Оцениваем регрессию x1i на x2i (б) x1i = a1 + a2 x2i + u2i => получаем оценку регрессии (x^1i) и остатки e2i : e2i = x1i – x^1i , где x^1i – оценка x1i из регрессии (б) остатки e2i – это значения x1i после учета влияния на них переменной x2i (т.е. после исключения объясняющего эффекта на x1i переменной x2i ) Эконометрика. Осень 2020. Кеткина О.С. 16 Т.е. e1i и e2i это «чистые» (очищенные от взаимосвязей с x2i ) переменные yi и x1i 3 шаг. Оценим регрессию e1i на e2i (т.е. «чистые» yi на x1i ) (с) e1i = с1 + с2 e2i + u3i тогда с2 и будет являться оценкой параметра β1 в исходной регрессии (**) yi = α + β1x1i + β2x2i + ui коэффициент с2 выражает предельный прирост (если с2 >0 ) / предельное снижение (если с2 <0 ) на величину с2 зависимой переменной y (в единицах измерения y) при изменении переменной x1 на 1 ед. (в единицах измерения x1 ) при условии постоянства других переменных. Эконометрика. Осень 2020. Кеткина О.С. 17 Пример интерпретации множественной регрессии Оценка модели множественной линейной регрессии имеет вид: y^ = 117 + 0,112x1 – 0.739x2 y^ - расходы на питание (в млрд долл. в год) в целом по стране; X1 - располагаемый личный доход (в млрд долл. в год) в целом по стране; X2 – цены продуктов питания (индекс цен (в %), годовой показатель) Интерпретация: При увеличении располагаемого личного дохода (X1) на 1 млрд долл. (при неизменных ценах продуктов питания, т.е. неизменном X2 ) расходы на питание (т.е. y) в среднем увеличатся на 112 млн долл.; При увеличении индекса цен на продукты питания (X2) на 1% (при неизменных располагаемых личных доходах (X1 )) расходы на питание в среднем уменьшатся на 739 млн долл. Эконометрика. Осень 2020. Кеткина О.С. 18 Интерпретация логарифмической модели множественной регрессии Модель множественной линейной логарифмической регрессии имеет вид: Lnyi = Lnα + β1Lnx1i + β2Lnx2i + ...+ βmLnxmi + ui, i = 1,…, n Интерпретация: коэффициент (β1) регрессии при переменной Lnx1 выражает эластичность зависимой переменной y по переменной x1, при условии постоянства других переменных. Эконометрика. Осень 2020. Кеткина О.С. 19 Пример интерпретации логарифмической модели регрессии Модель множественной линейной регрессии имеет вид: Lnyi = α + β1Lnx1i + β2Lnx2i + ui Ее оценка: Ln^yi = 2,82 + 0,64Lnx1i - 0,48Lnx2i y - расходы на питание (в млрд. долл. в год) – аналог спроса на продукты питания X1 - располагаемый личный доход (в млрд. долл. в год) X2 – цены продуктов питания (индекс цен (в %), годовой показатель) Интерпретация: • В среднем эластичность расходов на питание (y) по доходу (X1) составляет 0,64 (при прочих равных); или так при росте располагаемого личного дохода (X1) на 1% расходы на питание (y) в среднем возрастут на 0,64%. • В среднем эластичность расходов на питание (y) по цене (X2) составляет -0,48 (при прочих равных); или так при росте цен на продукты питания (X2) на 1% расходы на питание (y) в среднем снизятся на 0,48%. (т.е. покупатели откажутся от каких-то видов дорогих продуктов / «переключатся» на более экономную продуктовую корзину). 20 Эконометрика. Осень 2020. Кеткина О.С. Вывод коэффициентов множественной регрессии методом наименьших квадратов (МНК) Рассмотрим на примере 2х объясняющих переменных (модель регрессии): yi = α + β1x1i + β2x2i + ui Оценки параметров α, β1 и β2 регрессии это a, b1 и b2: Идея метода наименьших квадратов заключается в минимизации S (суммы квадратов остатков), где S = Σei2= e12 + e22 + e32 + …+ en2 Эконометрика. Осень 2020. Кеткина О.С. 21 Выразим квадрат i-того остатка (ei2) через оценки параметров регрессии - a, b1 и b2 и наблюдаемые значения переменных x1i и x2i и yi. Получим, (суммируем по i = 1,…, n) Возьмем частные производные по трем неизвестным параметрам a и b1 и b2 и приравняем их к нулю (т.к. мы ищем минимум данной функции по этим параметрам): Эконометрика. Осень 2020. Кеткина О.С. 22 Поучаем, Преобразуем и получим: Эконометрика. Осень 2020. Кеткина О.С. 23 Модель множественной линейной регрессии имеет вид (для случая двух объясняющих переменных): y = α + β1x1i + β2x2i + ui, i = 1,…, n Оценка коэффициента регрессии β1: Аналогичное выражение можно получить для оценки коэфф. β2 путем перестановки x1i и x2i. Величина оценки коэффициента регрессии формируется под влиянием не только связи изучаемого фактора с зависимой переменной, но и структуры связей между независимыми переменными (в данном случае x1i и x2i). Эконометрика. Осень 2020. Кеткина О.С. 24 Более детально вывод коэффициентов множественной регрессии можно посмотреть на стр. 137 – 138 Доугерти, К. Введение в эконометрику : учеб. для экон. специальностей вузов / К. Доугерти; пер. с англ. Е. Н. Лукаш [и др.]. – М. : ИНФРА-М, 1997. [Глава 5] Эконометрика. Осень 2020. Кеткина О.С. 25 Сложности множественной модели 1) Спецификация модели (тип модели, какие переменные включать в модель, а какие нет), ошибка спецификации модели 2) Мультиколлинеарность Эконометрика. Осень 2020. Кеткина О.С. 26 Структура связей в множественной регрессии Проявление множественных связей в парной регрессии если переменную x2 не включили в уравнение регрессии. Эконометрика. Осень 2020. Кеткина О.С. 27 Система показателей качества множественной регрессии • Показатели качества коэффициентов регрессии • Показатели качества уравнения регрессии в целом Эконометрика. Осень 2020. Кеткина О.С. 28 Показатели качества коэффициентов регрессии (аналогичны парной регрессии) 1) Стандартные ошибки коэффициентов (S.e.) 2) Значения t-статистик 3) Вспомогательные показатели (P-значение) Эконометрика. Осень 2020. Кеткина О.С. 29 Стандартные ошибки коэффициентов регрессии Расчет стандартной ошибки коэффициента β1 (для β2 формула аналогична) для случая двух объясняющих переменных: yi = α + β1x1i + β2x2i + ui, i = 1,…, n rx1x2 - частный коэффициент корреляции между объясняющими переменными x2 и x1. σu2 - теоретическая дисперсия случайного члена ui (см. слайд 31). Чем теснее связь между переменными x1 и x2 (т.е. чем ближе rx1x2 к +/- единице, тем больше значение стандартной ошибки SE коэффициента регрессии). В случае когда rx1x2 = +/-1 связь между переменными x1 и x2 линейная и мы имеем строгую мультиколлинеарность, и SE коэффициента регрессии -->∞, т.е. оценить точность коэффициента регрессии мы не можем. Эконометрика. Осень 2020. Кеткина О.С. 30 σu2 - теоретическая дисперсия случайного члена ui Замечание: величина σu неизвестна (основана на данных генеральной совокупности), одна из задач регрессионного анализа состоит в том чтобы оценить σu (найти оценку для этого параметра). Оценкой для дисперсии случайного члена (σu2 )является величина: Т.е. оценкой для дисперсии случайного члена/ошибок ui является сумма квадратов остатков деленная на (n-2). Эконометрика. Осень 2020. Кеткина О.С. 31 t-статистики • t-тесты обеспечивают проверку значимости предельного вклада каждой переменной при допущении, что все остальные переменные уже включены в модель. • Незначимость коэффициента регрессии не всегда может служить основанием для исключения соответствующей переменной из модели. Эконометрика. Осень 2020. Кеткина О.С. 32 Показатели качества уравнения регрессии в целом, аналогично парной регрессии • Показатель R2 (коэффициент детерминации) - всегда увеличивается с включением новой переменной; • Скорректированный R2 --> - возрастает при включении в регрессию объясняющей переменной с t-статистикой больше 1 (или меньше -1), т.е. переменной которая не обязательно значимо отличается от нуля; • Сумма квадратов остатков (ESS) - Показатели ESS в разных моделях с разным числом наблюдений и (или переменных) несравнимы; • Средняя ошибка аппроксимации (А) - значения А в моделях с разным количеством переменных не сравнимы; • Стандартная ошибка регрессии (SEE); Эконометрика. Осень 2020. Кеткина О.С. 33 Стандартная ошибка уравнения регрессии Стандартная ошибка регрессии (SEE) – «Стандартная ошибка» • Используется в качестве основной величины для измерения качества оценивания модели (чем она меньше, тем лучше). n – количество наблюдений, по которым оценена регрессия; k – количество параметров в оцененной регрессии; Σei2 – сумма квадратов остатков оцененной регрессии. Показатели SEE в однотипных моделях (с одинаковой зависимой переменной) с разным числом наблюдений (и переменных) сравнимы. Эконометрика. Осень 2020. Кеткина О.С. 34 ВЫВОД ИТОГОВ в Excel Регрессионная статистика Множественный R 0,9699 R-квадрат 0,9407 Нормированный Rквадрат 0,9237 Стандартная ошибка Наблюдения =|rxy| =коэффициент детерминации =Скорректированный коэффициент детерминации =Стандартная ошибка уравнения регрессии (SEE) 169,8699 10 Сумма квадратов остатков (ESS) Дисперсионный анализ df SS Регрессия 2 3203259,59 Остаток Итого 7 9 201990,41 3405250,00 Y-пересечение Переменная X 1 Переменная X 2 Коэффициент ы 819,40387 72,30277 -165,12424 Стандартная ошибка 341,58327 9,11302 26,78907 MS 1601629,7 9571 28855,772 65 tстатисти ка 2,39884 7,93400 -6,16387 Эконометрика. Осень 2020. Кеткина О.С. F-тест на качество оценивания F Значимость F 55,50466 0,00005 P-Значение 0,04755 0,00010 0,00046 Нижние 95% Верхние 95% 11,68777 1627,11996 50,75389 93,85165 -228,47032 -101,77817 35 F-тест на качество оценивания • Модель множественной линейной регрессии имеет вид: yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n (4) F-тест на качество оценивания сводится к проверке гипотезы H0: β1 = β2 = ..=βm =0 (все коэффициенты при объясняющих переменных одновременно = 0) H1: не все коэффициенты при объясняющих переменных одновременно =0 (хотя бы один не равен нулю) Проверка проводится с помощью F-статистики Фишера с числом степеней свободы (k-1, n-k), где k – количество оцененных в регрессии (4) параметров (вкл. константу, т.е. α, β1, β2, ... βm), n – число наблюдений. ESS – сумма квадратов остатков; RSS = – объясненная регрессией вариация уi относительно (regression sum of squares). Эконометрика. Осень 2020. Кеткина О.С. 36 F-тест на качество оценивания Затем рассчитанная F статистика сравнивается с табличным критическим значением при выбранном уровне значимости α (обычно 1% или 5%), и степенями свободы числителя df =k-1 и знаменателя df= n-k т.е. с • При этом , если рассчитанное значение F- статистики превышает критическое (табличное) тогда гипотеза H0: β1 = β2 = ...= βm = 0 отклоняется в пользу альтернативной (H1) при выбранном уровне значимости α, и мы заключаем, что регрессия (4) является значимой (или адекватной). • Если рассчитанное значение F- статистики оказывается меньше критического тогда гипотеза H0: β1 = β2 = ...= βm =0 не отклоняется при выбранном уровне значимости α, и мы заключаем, что регрессия (4) является незначимой (или неадекватной). Эконометрика. Осень 2020. Кеткина О.С. 37 Мультиколлинеарность Эконометрика. Осень 2020. Кеткина О.С. 38 Смысл мультиколлинеарности Для множественной регрессии yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n имеет место проблема мультиколлинеарности, если между факторами Х1,…,Хm существует линейная или близкая к линейной зависимость. Эконометрика. Осень 2020. Кеткина О.С. 39 Смысл мультиколлинеарности • Слово “коллинеарность” описывает линейную связь между двумя независимыми переменными, тогда как “мультиколлинеарность” – между более, чем двумя переменными. • В эконометрике на практике всегда используется один термин – мультиколлинеарность. Термин «мультиколлинеарность» введен Рагнаром Фришем Эконометрика. Осень 2020. Кеткина О.С. 40 Виды мультиколлинеарности 1. Строгая (perfect) мультиколлинеарность наличие линейной функциональной связи между независимыми переменными (иногда также и зависимой). 2. Нестрогая (imperfect) мультиколлинеарность наличие сильной линейной корреляционной связи между независимыми переменными (иногда также и зависимой). Эконометрика. Осень 2020. Кеткина О.С. 41 Признаки мультиколлинеарности: • Адекватность регрессии в целом (т.е. F-тест , слайды 36-37, говорит о значимости / адекватности регрессии в целом) при незначимости коэффициентов при многих факторах; • неадекватные знаки и величина коэффициентов; • неустойчивость оценок коэффициентов по отношению к увеличению объема выборки или добавлению новых регрессоров / объясняющих переменных. Эконометрика. Осень 2020. Кеткина О.С. 42 Механизм действия мультиколлинеарности Мультиколлинеарность проявляется в совместном действии факторов 1. Построить модель - означает определить вклад каждого фактора 2. Если два или более факторов изменяются только совместно, различить их вклад по отдельности становится невозможно. 3. Чем более сильно коррелированы переменные (т.е. чем ближе к +/- единице rx1x2), тем труднее различить их вклад по отдельности Эконометрика. Осень 2020. Кеткина О.С. 43 Влияние мультиколлинеарности на стандартные ошибки • Для уравнения с объясняющими переменными X1 и X2 σu2 - теоретическая дисперсия случайного члена ui Т.е. стандартные ошибки коэффициентов увеличиваются с ростом частных коэффициентов корреляции между объясняющими переменными (rx1x2), что ведет к снижению t-статистик коэффициентов (t(b1) = b1/ S.e.(b1)) И получаем, что для коэффициентов, которые являются (по сути) значимыми из-за мультиколлинеарности их t-статистики так малы, что мы заключаем, что коэффициент незначим (см. пример на слайде 63, переменная SM. Больше примеров мультиколлинеарности рассмотрим на семинарах). Эконометрика. Осень 2020. Кеткина О.С. 44 Последствия мультиколлинеарности: • высокие стандартные ошибки оценок коэффициентов регрессии (и следовательно низкие t-статистики коэффициентов); • как результат, возможная незначимость коэффициентов регрессии; • и невозможность оценить влияние регрессоров по отдельности. Эконометрика. Осень 2020. Кеткина О.С. 45 Некоторые способы устранения мультиколлинеарности: • добавление новых наблюдений; • исключение некоторых регрессоров; • или можно, например, учесть в модели (ввести в модель) существующую и известную взаимосвязь между переменными; • выбор другой функциональной формы модели (например, Ln). Эконометрика. Осень 2020. Кеткина О.С. 46 Пример (интерпретация) множественной линейной регрессии . reg EARNINGS S EXP Source | SS df MS -------------+-----------------------------Model | 22513.6473 2 11256.8237 Residual | 89496.5838 537 166.660305 -------------+-----------------------------Total | 112010.231 539 207.811189 Number of obs F( 2, 537) Prob > F R-squared Adj R-squared Root MSE = = = = = = 540 67.54 0.0000 0.2010 0.1980 12.91 -----------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213 ------------------------------------------------------------------------------ Пример оцененной множественной регрессии в STATA. Описание переменных: EARNINGS – почасовая заработная плата (в $), S – количество лет обучения (в годах), EXP – трудовой стаж (в годах). * Здесь P означает Probit; 47 Пример множественной линейной регрессии . reg EARNINGS S EXP Source | SS df MS -------------+-----------------------------Model | 22513.6473 2 11256.8237 Residual | 89496.5838 537 166.660305 -------------+-----------------------------Total | 112010.231 539 207.811189 Number of obs F( 2, 537) Prob > F R-squared Adj R-squared Root MSE = = = = = = 540 67.54 0.0000 0.2010 0.1980 12.91 -----------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213 ------------------------------------------------------------------------------ Так как P>|t| (P-значение, она же Probit) каждого из коэффициентов регрессии < α =0,01 = 1% => каждый из коэффициентов значим на α =0,01 =1% уровне значимости. Так как «Prob>F=0.0000» (P-значение, она же Probit ) для нашего теста на значимость уравнения в целом / F-тест на качество оценивания (слайд 36-37) < α = 0,01 => наша регрессия в целом значима/адекватна => имеет смысл ее интерпретировать. 48 Множественная линейная регрессия . reg EARNINGS S EXP Source | SS df MS -------------+-----------------------------Model | 22513.6473 2 11256.8237 Residual | 89496.5838 537 166.660305 -------------+-----------------------------Total | 112010.231 539 207.811189 Number of obs F( 2, 537) Prob > F R-squared Adj R-squared Root MSE = = = = = = 540 67.54 0.0000 0.2010 0.1980 12.91 -----------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213 ------------------------------------------------------------------------------ Интерпретация: Каждый дополнительный год обучения (S) в среднем увеличивает почасовую з/п (EARNING) на $2.68 (при неизменных прочих факторах), а каждый дополнительный год трудового стажа (EXP) увеличивает почасовую з/п (EARNING) в среднем на $0.56 (при неизменных 49 прочих факторах). Множественная линейная регрессия . reg EARNINGS S EXP Source | SS df MS -------------+-----------------------------Model | 22513.6473 2 11256.8237 Residual | 89496.5838 537 166.660305 -------------+-----------------------------Total | 112010.231 539 207.811189 Number of obs F( 2, 537) Prob > F R-squared Adj R-squared Root MSE = = = = = = 540 67.54 0.0000 0.2010 0.1980 12.91 -----------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213 ------------------------------------------------------------------------------ В данном случае константа не имеет содержательной экономической интерпретации (иначе бы мы сказали, для сотрудников без стажа работы {EXP} и без образования {S} уровень почасовой з/п составит -26,49 $. Что абсурдно. Кто станет доплачивать чтоб работать?) 50 Проверка линейных гипотез о наличии линейных соотношений между коэффициентами регрессии. F – тест Эконометрика. Осень 2020. Кеткина О.С. 51 Проверка линейных ограничений в общем случае Модель множественной линейной регрессии имеет вид: yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n H0: Имеют место q конкретных линейных ограничений на коэффициенты регрессии (например, β1 = β2 => β1 - β2 = 0. Или β3 + β4 = 2) H1: Эти ограничения не имеют места Чтобы проверить выполнение линейных ограничений, необходимо 1)Оценить регрессию без ограничений и найти ESSUR (ESSUR сумма квадратов остатков исходной регрессии); 1) Оценить регрессию с ограничениями и найти ESSR ; 2) Вычислить соответствующую F – статистику. Эконометрика. Осень 2020. Кеткина О.С. 52 F – тест для проверки линейных ограничений в общем случае Модель множественной линейной регрессии имеет вид: yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n H0: Имеют место q конкретных линейных ограничений на коэффициенты регрессии H1: Эти ограничения не имеют места Тестовая статистика: k – количество параметров оцененных в исходной модели (в модели без ограничений) Если значение тестовой F - статистики > критической Fcr(q,n-k) для заданного уровня значимости α, то гипотеза H0 отклоняется в пользу альтернативной гипотезы H1 и мы заключаем, что протестированные нами q ограничений не имеют место . Эконометрика. Осень 2020. Кеткина О.С. 53 F – тест для проверки линейных ограничений в общем случае Модель множественной линейной регрессии имеет вид: yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n H0: Имеют место q конкретных линейных ограничений на коэффициенты регрессии H1: Это ограничения не имеют места Тестовая статистика может быть вычислена следующим образом: k – количество параметров оцененных в исходной модели (в модели без ограничений). Если значение тестовой F - статистики < критической Fcr(q,n-k) для заданного уровня значимости α, то гипотеза H0 НЕ отклоняется и мы заключаем, что протестированные нами q ограничений имеют место. Эконометрика. Осень 2020. Кеткина О.С. 54 Проверка линейных гипотез Пример зависимости длительности обучения S от способностей индивида, характеризуемых обобщенной переменной Abil (abilities) и длительности обучения мамы индивида SM и папы SF. yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n S = α + β1Abil + β2SM + β3SF + ui, (UR) 55 Проверка линейных гипотез S = α + β1Abil + β2SM + β3SF + ui (UR) β3 = β2 (β2 – β3 = 0) H0 : β3 = β2 , H1 : β3 ǂ β2 Проверим гипотезу об одинаковом влиянии обоих родителей на длительность обучения детей, т.е. о равенстве коэффициентов при переменных SM и SF (т.е. b 3 = b 2). 56 Проверка линейных гипотез S = α + β1Abil + β2SM + β3SF + ui, β3 = β2 (β2 – β3 = 0) H0 : β3 = β2 , H1 : β3 ǂ β2 S = α + β1Abil + β2SM + β3SF + ui = = α + β1Abil + β2(SM + SF) + ui = = α + β1Abil + β2SP + ui (R) Для этого инкорпорируем ограничение (b3 = b 2) в уравнение регрессии, введя дополнительную переменную SP = SM + SF. 57 Проверка линейных гипотез . generate SP = SM + SF . reg S Abil SP Source | SS df MS -------------+-----------------------------Model | 1177.98338 2 588.991689 Residual | 2026.99996 537 3.77467403 -------------+-----------------------------Total | 3204.98333 539 5.94616574 Number of obs F( 2, 537) Prob > F R-squared Adj R-squared Root MSE = = = = = = 540 156.04 0.0000 0.3675 0.3652 1.9429 -----------------------------------------------------------------------------S | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Abil | .1253106 .0098434 12.73 0.000 .1059743 .1446469 SP | .0828368 .0164247 5.04 0.000 .0505722 .1151014 _cons | 5.29617 .4817972 10.99 0.000 4.349731 6.242608 ------------------------------------------------------------------------------ Оцениваем вспомогательную регрессию (регрессию с ограничением, т.е. R – restricted regression). Сумма квадратов остатков данной регрессии с ограничением получилась равной ESSR = 2026,99996 ≈ 2027,00. 58 Проверка линейных гипотез (в STATA) . reg S Abil SM SF Source | SS df MS -------------+-----------------------------Model | 1181.36981 3 393.789935 Residual | 2023.61353 536 3.77539837 -------------+-----------------------------Total | 3204.98333 539 5.94616574 Number of obs F( 3, 536) Prob > F R-squared Adj R-squared Root MSE = 540 = 104.30 = 0.0000 = 0.3686 = 0.3651 = 1.943 -----------------------------------------------------------------------------S | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Abil| .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681 ------------------------------------------------------------------------------ Оценим основную регрессию (без ограничений, UR – unrestricted regression) Сумма квадратов остатков данной регрессии без ограничений получилась равной ESSUR =2023,61353 ≈ 2023,61. 59 Проверка линейных гипотез . reg S Abil SM SF Source | SS df MS -------------+-----------------------------Model | 1181.36981 3 393.789935 Residual | 2023.61353 536 3.77539837 -------------+-----------------------------Total | 3204.98333 539 5.94616574 Number of obs F( 3, 536) Prob > F R-squared Adj R-squared Root MSE = = = = = = 540 104.30 0.0000 0.3686 0.3651 1.943 Number of obs F( 2, 537) Prob > F R-squared Adj R-squared Root MSE = = = = = = 540 156.04 0.0000 0.3675 0.3652 1.9429 . reg S Abil SP Source | SS df MS -------------+-----------------------------Model | 1177.98338 2 588.991689 Residual | 2026.99996 537 3.77467403 -------------+-----------------------------Total | 3204.98333 539 5.94616574 Сравним результаты оценивания двух регрессий. Если проверяемое ограничение имеет место, то сумма квадратов остатков ESS должна увеличиться незначительно. 60 Проверка линейных гипотез S = α + β1Abil + β2SM + β3SF + ui, (UR) H0 : β3 = β2 S = α + β1Abil + β2SM + β3SF + ui = = α + β1Abil + β2(SM + SF) + ui = = α + β1Abil + β2SP + ui (R) H0 : β3 = β2 (q=1, одно ограничение), H1 : β3 ǂ β2 Рассчитаем значение тестовой F- статистики. В нашем случае количество ограничений равно 1, мы тестируем 61 только одно ограничение β3 = β2. Значит q = 1. Проверка линейных гипотез S = α + β1Abil + β2SM + β3SF + ui, (UR) H0 : β3 = β2 S = α + β1Abil + β2SM + β3SF + ui = α + β1Abil + β2(SM + SF) + ui = α + β1Abil + β2SP + ui (R) H0 : β3 = β2 , H1 : β3 ǂ β2 Полученное значение F – статистики равно 0.90, что меньше критического (табличного) значения Fcr для уровня значимости α =0,05=5% Fcr(q,n-k)= Fcr(1, 536) = 3,84. (F =0,9 < Fcr=3,84) следовательно, нулевая гипотеза не отклоняется и значит β3 = β2 и оба родителя одинаково влияют на наш выбор продолжительности обучения. k = 4 (количество параметров оцененных в регрессии UR, а именно α, β1, β2, и β3). 62 Заметим . reg S Abil SM SF Source | SS df MS -------------+-----------------------------Model | 1181.36981 3 393.789935 Residual | 2023.61353 536 3.77539837 -------------+-----------------------------Total | 3204.98333 539 5.94616574 Number of obs F( 3, 536) Prob > F R-squared Adj R-squared Root MSE = 540 = 104.30 = 0.0000 = 0.3686 = 0.3651 = 1.943 -----------------------------------------------------------------------------S | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Abil| .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681 ------------------------------------------------------------------------------ Коэффициент при переменной SM незначим. Но это может быть следствием мультиколлинеарности. Подробней поговорим об этом на семинарах. 63

Множественная регрессия

Тебе могут подойти лекции