Классическая линейная регрессия

⌛ 2018 год
👀 534 просмотра
📌 512 загрузок
🏢️ ВШБИ

Выбери формат для чтения

Конспект лекции по дисциплине «Классическая линейная регрессия», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Классическая линейная регрессия», Word формат

Классическая линейная регрессия План лекции        Понятие регрессии Классическая линейная регрессионная модель Метод наименьших квадратов (МНК) Критерии качества подгонки регрессии Свойства оценок МНК Статистический анализ результатов Прогнозирование по регрессионной модели. 2 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Происхождение термина «регрессия» По смысловой нагрузке слово «регрессия» не имеет отношения к существу стохастических связей, для описания которых оно используется.  Термин был введён Фрэнсисом Гальтоном в конце 19-го века.  3 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Происхождение термина «регрессия»  Френсис Гальтон  (16 февраля 1822 — 17 января 1911)  4 английский исследователь, географ, антрополог и психолог; основатель дифференциальной психологии и психометрики, статистик. Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Происхождение термина «регрессия»    Занимаясь антропологическими исследованиями, Гальтон обнаружил, что сыновья отцов с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен "регрессия к посредственности". Сначала этот термин использовался исключительно в биологическом смысле. После работ ученика Гальтона, Карла Пирсона, этот термин стали использовать и в статистике. 5 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Возможности регрессионного подхода Он позволяет  выявить, влияют ли управляемые показатели, факторы внешней среды, статусные факторы (теперь для удобства мы будем обозначать совокупность этих показателей буквой Х) на результирующий показатель Y  построить приближенную функциональную зависимость Y от Х, которую можно использовать для прогнозирования поведения Y при известных значениях Х 6 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Постановка задачи подгонки зависимости Пусть нас интересует некоторое экономическое явление, например, потребление домохозяйствами продуктов питания. Y f(X) εi Yi Xi 7 X У нас есть данные о расходах на продукты (У) и доходах (Х) домохозяйств. Мы хотим построить по этим данным зависимость У= f(X), например, линейную: f(X) = β0 + β1 X. Наша задача: подобрать параметры β0 и β1 так, чтобы линия, изображающая эту зависимость прошла через основную массу точек Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Какими способами можно это осуществить? Нужно найти такой способ подбора параметров функции f(X), при котором различия между фактически наблюдаемыми значениями Yi и значениями функции f(Xi) были как можно меньше  i  Yi  f  X i   Yi  0  1 X i (эту разницу называют невязкой или ошибкой) 8 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Наилучший прогноз    Задача подбора параметров функции f(Xi) – задача поиска наилучшего прогноза Yi по Xi Это оптимизационная задача Для ее решения надо определить целевую функцию – «функцию потерь»    ;    min  i i 9 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Метод наименьших квадратов (МНК) 2     ,     i  i  min i  2 i  i   Yi   0  1 X i   i 2 i   Yi  f  X i   nE Y  f  X   min 2 i Теорема. 2 E Y  f  X   E Y  EY | X  2 2 Таким образом , решение будет соответствовать оценке условного по X i среднего значения Yi fˆ  X   ˆ  ˆ X  Eˆ Y | X  i 10 1 i i Эконометрика Ратникова Т.А. ВШБИ i 22.05.2018 Метод наименьших квадратов (МНК)  Достоинства:     Недостатки:  11 дифференцируемость функции потерь, вычислительная простота, единственность решения неробастность Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Неробастность МНК Нетипичные значения (выбросы) приводят к существенному ухудшению прогностических свойств функции f(X) = β0 + β1 X. Y f(X) εi Yi Xi 12 X Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Робастные методы подгонки зависимости (М-оценки)    ;    min  i i   функция ρ(.) растет по ε медленнее, чем само ε. Например:   ,  |  | Полученная регрессия называется медианной, поскольку соответствует условной медиане Yi   fˆ  X i   ˆ0  ˆ1 X i  med Yi | X i  ^ 13 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Медианная регрессия  Достоинства:   Недостатки:    14 робастность недифференцируемость функции потерь, вычислительная сложность (симплексметод, методы линейного программирования) неединственность решения Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Квантильная регрессия  Используется, когда предметом исследования служат не средние значения зависимой переменной при фиксированных объясняющих, а определенные квантили распределения PrY  f  X  | X   q   При q=0.5 превращается в медианную регрессию Хорошо работает для асимметричных распределений, например, при исследованиях    финансового рынка (доли аутсайдеров среди акционеров), доли расходов на питание домохозяйств, данных о предприятиях, сильно различающихся размером 15 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Непараметрическая регрессия  Является интуитивной формализацией идеи сглаживания «на глаз», когда линия проводится с учетом локальных особенностей поведения У вблизи интересующих исследователя Х  2 1 Wni  X i  Yi  f  X i   min  f X  n    Ее можно интерпретировать, как локально взвешенный МНК с весами Wni  X   K h  X  X i  / K h  X  n n K hn  X   16 1 K hn  X  X i   n i 1 K hn u   K u / hn , г де hn  K u du  1 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Непараметрическая регрессия  hn – окно сглаживания  K(u) – ядерная функция, может быть выбрана в виде плотности стандартного нормального распределения Достоинства: нет необходимости в строгой спецификации модели Недостатки: одномерность Полезна для проверки точности подгонки    17 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Графическое представление данных – диаграмма рассеяния Определим понятие теоретической регрессии величины Y на величину Х. Это будет означать, что линия регрессии строится по всей генеральной совокупности (в нашем примере – по всем домохозяйствам России). Терминология: Y 63 64 18 65 Х Х – независимая, объясняющая, экзогенная переменная, регрессор, У – зависимая, объясняемая, эндогенная величина, регрессант. Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Уравнение теоретической регрессии     Расходы на продукты (Y) в разных домохозяйствах при одном и том же доходе (X) могут различаться (на рисунке показано, что при одном и том же значении Х могут быть разные Y) Из Y можно выделить некоторую часть, определяемую Х – ожидаемое значение расходов при данном доходе: f(X) = E(Y | X) Ту часть Y, что не укладывается в f(X), обозначают i и называют случайной ошибкой Уравнением теоретической регрессии называют зависимость вида: Yi = E(Yi | Xi) + i 19 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Эконометрическая модель Эконометрическая модель – это совокупность уравнения теоретической регрессии Yi = E(Yi | Xi) + i и предположений о природе i. Какова природа i, причина появления?     Пропуск в модели ряда существенных переменных, влияющих на поведение Y Врожденная неопределенность поведения экономических агентов Использование в уравнении тех величин, которые можно измерить, а не тех, которые хотелось бы иметь теоретически Наличие ошибок измерения 20 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Линейность модели  Уравнение теоретической регрессии Yi=f(Xi)+i в зависимости от f(Xi) может быть линейным, квадратичным, логарифмическим и т.п.  Мы будем рассматривать (для начала) полностью линейную модель: f(x)=a+b*x – линейна по Х и по параметрам  Впоследствии станет ясно, что важна лишь линейность по параметрам (модели f(x)=a+b*ln(x), f(x)=a+b*(1/x) – линейны по параметрам a и b) 21 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Выборочная регрессия     Как правило, теоретическую регрессию построить невозможно из-за недоступности полной информации о генеральной совокупности. Обычно нам бывает доступна только выборка. Пусть теперь в нашем примере выборка из 100 домохозяйств. При использовании выборки, мы не можем построить условное ожидание – теоретическую регрессию, но мы можем оценить ее. Выборочной оценкой теоретической регрессии (ТР) Yi    X i   i   является выборочная регрессия (ВР) Yˆi  ˆ  ˆX i Разницу ˆi  Yi  Yˆi называют остатком. 22 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Выборочная регрессия Графическая интерпретация ТР Q(Y) ˆi  ВР Р(Х) 23 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Метод наименьших квадратов (МНК) Как оценить выборочную линию регрессии? Естественно потребовать, чтобы остатки ˆi min.  min  ˆi - плохо т.к. разные знаки i компенсируют друг друга, и сумма равна 0  min  | ˆi | - тоже плохо, т.к. эта функция i не дифференцируема 2 2  min  ˆ i  min  (Yi  Yˆi ) - лучший вариант i i В этом и заключается МНК (OLS – ordinary least squares). 24 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Как найти min  ˆi2  min  (Yi ˆ  ˆX i ) 2  ,   2  (Yi   X i )  S Обозначим Чтобы найти минимум этой функции необходимо приравнять к нулю частные производные  S  2 (Y i     Xi)  0      S  2 (Y i     Xi) Xi  0    25 Эконометрика   (Y i     Xi)  0    (Y i     Xi) Xi  0 Ратникова Т.А. ВШБИ 22.05.2018 Система нормальных уравнений  Y i   1    X i  0  i i i   Y i X i    X i    X i X i  0 i i  i  Yi    n    X i  0  i i  2     X Y X Xi    i i i 0 i i  i 26 Эконометрика Y      X   Y X  X   X 2  0 i   i i i  i i i Ратникова Т.А. ВШБИ 22.05.2018 Решение системы:  xi y i   2  xi   X Y  nXY X nX i    Y  X n 1 где – Y   Yi n i 1 i 2 i 2 1 n X   Xi n i 1 xi  X i  X , yi  Y i  Y  xi2  0 27 не все Х равны между собой Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка соответствия решения системы условию минимума  2S  2   H  2   S      2S      2n  2  S   2 X i 2    2 X i   2 2 X i  главные угловые миноры должны быть >0 – тогда это будет минимум. Это так: 28 2n>0; 2n xi2  4( xi ) 2  0 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Множественная регрессия Обозначения Yi  0  1 X i1   2 X i 2     k X ik   i  X ij - i-ое выборочное значение объясняющей переменной X j Yi - i-ое выборочное значение объясняемой переменной Y   j значение коэффициента при регрессоре X j   i - случайная ошибка  29 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Множественная регрессия Теоретическая регрессия E (Yi | X i )  0  1 X i1   k X ik Дисперсия теоретической регрессии V (Yi | X i )  V ( i )   2 30 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Регрессия в матричных обозначениях Y  X   где  Y1    Y    , Y   n 31 1 X 11  X 1k    X      , 1 X   X n1 nk   Эконометрика Ратникова Т.А.  0        ,    k ВШБИ  1           n 22.05.2018 Метод наименьших квадратов Позволяет найти минимум функции n n f (  0, 1 ,,  k )      (Yi   0  1 X i1     k X ik ) 2 i 1 2 i i 1 В матричных обозначениях эта задача может быть записать так n 2   i    (Y  X )(Y  X )  min i 1 32 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 МНК Условие 1-го порядка    2 X Y  2 X X  система нормальных уравнений X Y  X X вектор оценок коэффициентов регрессии ̂  ( X X ) 1 X Y вектор оцененных (предсказанных моделью)  значений Y Y  X̂  вектор остатков    Y Y 33 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Алгоритм МНК Рассмотрим конкретный численный пример:  3 1    Y  8     3 5 1 1  X  1  1 1 3 5 1 4  5 6  2 4 4 6  2    Задача поиска min  i  min      min Y  X   Y  X      i приводит к системе нормальных уравнений X X   X Y 34 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Алгоритм МНК В системе нормальных уравнений используются следующие конструкты:  5 15 25   n  X X  15 55 81     X 1  25 81 129  X 2 X X X X X X X X 1 2 1 2   1 2 2  2  2 1  20    Y    X Y   76     X 1Y  109  X 2Y  35 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Алгоритм МНК Конкретный вид системы нормальных уравнений  5 15 25    0   20  15 55 81       76    1    25 81 129    2  109 Решение системы нормальных уравнений – оценки МНК для коэффициентов регрессии Y  X    1 ˆ     X X  X Y 36 Эконометрика  ˆ0   4       ˆ1    2.5   ˆ   1.5    2   Ратникова Т.А. ВШБИ 22.05.2018 Геометрическая суть МНК для регрессии со свободным членом (  0) Имеется плоскость   (i, X ) , образованная единичным вектором i и векторами регрессоров Х. Имеется вектор значений зависимой переменной Y. Мы ищем проекцию Y на  так, чтобы расстояние от конца Y до плоскости было минимальным. Такое возможно, если    37         X  X   0, i   0      Y  Y   0 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Геометрическая суть МНК для регрессии со свободным членом Y ˆ X π Yˆ i 38 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Дисперсионный анализ результатов регрессии n n TSS   (Yi  Y )   y  yy 2 i 1 i 1 2 i n  2   2 ESS   (Yi  Y )   yi  yy n i 1 i 1 n  2 2   RSS   (Yi  Y )    i    n i 1 39 i 1 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Дисперсионный анализ результатов регрессии    TSS – общая сумма квадратов отклонения наблюдаемых значений Y от среднего значения ESS – сумма квадратов отклонения от среднего значения объясненных с помощью регрессии значений RSS – остаточная сумма квадратов отклонения наблюдаемых значений Y от объясненных с помощью регрессии значений 40  TSS – total sum of squares  ESS – explained sum of squares  RSS – residual sum of squares Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Критерии качества подгонки регрессии Очевидно, что регрессия тем лучше, чем меньше RSS и чем больше ESS. Однако более удобным критерием качества является относительный показатель коэффициент детерминации: ESS R  TSS 2 - доля объясненного разброса наблюдений Y 0  R 1 2 41 R r Эконометрика 2 2  YY Ратникова Т.А. ВШБИ 22.05.2018 Модифицированный коэффициент детерминации регрессии 2 R Чем ближе к 1, тем лучше качество подгонки, хотя надо помнить, что этот показатель всегда механически увеличивается при добавлении нового регрессора, даже если он никак не связан с Y. Более чувствителен к качеству регрессии модифицированный R 2 , нормированный на степени свободы : 2 adj R . 42 n 1  1  (1  R ) n  k 1 2 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Свойства оценок МНК, обязанные наличию в регрессии свободного члена 1. 2. 3. 4. 5.    Сумма остатков равна 0:   i  i   0 i Среднее значение наблюдаемых Y равно среднему  значению оцененных Y:Y  Y Точка  X , Y  лежит на линии регрессии Выполняется теорема Пифагора TSS=ESS+RSS Эквивалентны два определения коэффициента детерминации ESS RSS R   1 TSS TSS 2 43 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Регрессия без свободного члена 1. 2. 3. 4. 5. Сумма остатков не равна 0 Среднее значение наблюдаемых Y не равно среднему значению оцененных Y Точка  X , Y  не лежит на линии регрессии Не выполняется теорема Пифагора TSS≠ESS+RSS Не эквивалентны два определения коэффициента детерминации R2  44 ESS RSS  1 TSS TSS Ратникова Т.А. Эконометрика-2 НИУ ВШЭ Статистические свойства оценок      Оценки считаются «хорошими», если они обладают определенными свойствами: несмещенностью (в этом случае математическое ожидание оценки совпадает с оцениваемым теоретическим параметром); состоятельностью (это означает, что для больших выборок вероятность значимых отклонений величины оценки от значения оцениваемого теоретического параметра равна нулю); эффективностью (чем меньше дисперсия оценки, тем она считается эффективнее). Исследование свойств оценок – это важная теоретическая задача. 45 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Теорема Гаусса-Маркова Иога́нн Карл Фри́дрих Га́усс (1777- 1855) — немецкий математик, механик, физик, астроном, геодезист Иностранный член Шведской (1821) и Российской (1824) Академий наук, английского Королевского общества. Создатель МНК 46 Эконометрика Андре́й Андре́евич Ма́рков (1856 -1922) — русский математик, академик. Создатель теории стохастических процессов, цепей Маркова Ратникова Т.А. ВШБИ 22.05.2018 Свойства оценок МНК (теорема Гаусса-Маркова) Если выполнены следующие условия: 1. 2. 3. Модель Y  X   верно специфицирована Матрица Х – детерминирована и имеет ранг k+1 Ошибка – случайный вектор с математическим ожиданием и ковариационной матрицей E( )  0, V ( )  E(  E( ))(  E( ))    2 I 47 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Свойства оценок МНК (теорема Гаусса-Маркова) тогда оценка МНК ̂  ( X X ) 1 X Y является наилучшей (наиболее эффективной) в классе линейных несмещенных оценок, т.е. она линейна по Y и по ε, E ( ˆ )   и обладает наименьшей дисперсией в классе линейных несмещенных оценок. 48 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Асимптотические свойства оценок МНК Для больших выборок для оценок МНК выполняется свойство состоятельности. Слишком жесткое требование детерминированности матрицы регрессоров X заменяется на условие:  X   lim P    0 n   n  X  p lim 0 n  n тогда lim P  ˆ       0   n  1  X X 1 X   1 X    p lim     p lim        p lim X X   p lim  n  n n  n   n  n   n n   49 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Статистический анализ результатов      Следующий вопрос: насколько достоверны полученные оценки, ведь есть проблема выборочного смещения? Кроме того, у нас могут иметься различные гипотезы о влиянии тех или иных показателей на Y, и мы хотели бы их проверить, пользуясь построенной моделью. Для этого надо знать, каким вероятностным распределениям подчиняются полученные оценки Распределение оценок зависит от распределения ошибок В КЛРМ делается следующее предположение:  ~ N (0,   I ) 2 - это предположение о нормальности случайной ошибки. 50 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Статистический анализ результатов Для построения необходимых тестовых статистик важно знать, как распределены показатели теоретической и выборочной регрессии. В силу линейности модели линейные комбинации нормальных случайных векторов будут тоже нормальными векторами:  Y ~ N ( X ,   I ), Y ~ N ( X ,  2 X ( X X ) 1 X   2 P),   2 1 2  a ~ N (  ,   ( X X ) ),  ~ N (0,   ( I  P)) 2 51 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Статистический анализ результатов А что можно сказать о нелинейных комбинациях? 2 (n  k  1)   2 ESS  2  RSS  2  ~  (k ), 2     2 ~  2 (n  k  1) TSS  2 ~  2 (n  1) 2 ˆ Можно показать, что оценки  и   статистически независимы, и тогда 52   ˆ j ( X X )  ~ t (n  k  1) 1 Эконометрика jj Ратникова Т.А. ВШБИ 22.05.2018 Проверка гипотез Статистический анализ оценок сводится в стандартном случае к проверке следующих статистических гипотез: 1) H 0 :  j  0 - проверка значимости отдельного коэффициента регрессии, при альтернативной гипотезе H A :  j  0 ; осуществляется на основании t-статистики, ˆ j t ˆ      ˆ   j j 53 ˆ j H 0 :  j 0 ( X X )  Эконометрика ~ t (n  k  1) 1 jj Ратникова Т.А. ВШБИ 22.05.2018 Пример 1. Оценивание множественной регрессии для анализа капитализации банковской системы РФ за период 2004-2009 г.г. Source | SS df MS Number of obs = 64 -------------+-----------------------------F( 7, 56) = 621.86 Model | 3.3375e+18 7 4.7678e+17 Prob > F = 0.0000 Residual | 4.2935e+16 56 7.6670e+14 R-squared = 0.9873 -------------+-----------------------------Adj R-squared = 0.9857 Total | 3.3804e+18 63 5.3657e+16 Root MSE = 2.8e+07 -----------------------------------------------------------------------------a | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------nf | -.0899685 .2113737 -0.43 0.672 -.5134008 .3334639 na | .0844604 .0227928 3.71 0.000 .0388009 .1301199 nh | -.185508 .1047839 -1.77 0.082 -.3954154 .0243994 db | .0414967 .0641912 0.65 0.521 -.0870938 .1700871 df | .1308707 .0248723 5.26 0.000 .0810455 .1806958 da | -.0087314 .0393488 -0.22 0.825 -.0875565 .0700938 dh | .0277084 .0299776 0.92 0.359 -.0323439 .0877608 _cons | 1.07e+08 2.79e+07 3.84 0.000 5.13e+07 1.63e+08 54 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Пример 1 В примере с моделированием капитализации значимость влияния, скажем, депозитов фирм (da) можно проверить так: ˆda  0.0087 t ˆ     0.22 P(t | 0.22 |)  0.825  ˆ 0.0394 поскольку вероятность оказалась велика – 82.5% (например, по сравнению с 5%-ым уровнем значимости), нет оснований отбрасывать основную гипотезу . Это означает, что объем депозитов фирм не оказывает значимого влияния на капитализацию банковской системы РФ в анализируемом периоде. 55 da da Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Пример 2. Оценивание множественной регрессии для анализа детерминант заработной платы жителей Москвы в 2000 году. Source | SS df MS Number of obs = 157 -------------+-----------------------------F( 6, 150) = 8.86 Model | 37.0211059 6 6.17018432 Prob > F = 0.0000 Residual | 104.515396 150 .696769304 R-squared = 0.2616 -------------+-----------------------------Adj R-squared = 0.2320 Total | 141.536502 156 .907285266 -----------------------------------------------------------------------------logrealwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------sex | -.6079527 .1378764 -4.41 0.000 -.8803834 -.3355219 age | .1590116 .0309307 5.14 0.000 .0978954 .2201277 age2 | -.0018494 .0003508 -5.27 0.000 -.0025425 -.0011562 education | -.1191102 .0380372 -3.13 0.002 -.1942681 -.0439524 stagna | -.3624113 .1892399 -1.92 0.057 -.7363315 .0115089 stagna2 | .0496421 .0267672 1.85 0.066 -.0032472 .1025315 _cons | 2.627421 .6371025 4.12 0.000 1.368566 3.886275 ------------------------------------------------------------------------------ 56 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Пример 2 В примере с уравнением заработной платы значимость влияния, скажем, возраста (age) можно проверить так: t ˆ age ˆage 0.159     5.14  ˆ 0.031 P(t | 5.14 |)  0.000 agej поскольку вероятность оказалась мала (например, по сравнению с 5%-ым уровнем значимости), основную гипотезу следует отбросить. Это означает, что возраст оказывает значимое влияние на заработную плату. 57 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка гипотез 2) проверка адекватности регрессии H 0 : 1   2     k  0 (при этом R 2  0) при альтернативной гипотезе H A : a  a  ...  a  0 (при этом R  0 ) 2 1 58 2 2 2 k 2 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка гипотезы об адекватности регрессии осуществляется на основании F-статистики, которая в условиях справедливости основной гипотезы, т.е. гипотезы о неадекватности регрессии, подчиняется F-распределению с k и n-k-1 степенями свободы: ESS / k F  RSS /( n  k  1) H0: R2 / k  (1  R 2 ) /( n  k  1) 59 Эконометрика 1   2   k  0 ~ Ратникова Т.А. ВШБИ F (k , n  k  1) 22.05.2018 Пример 1 В примере с капитализацией адекватность регрессии в целом можно проверить так: 3.34 *1018 / 7 P( F  621.86)  0.000 F  621.86 16 4.29 *10 / 56 поскольку вероятность оказалась мала (например, по сравнению с 5%-ым уровнем значимости), основную гипотезу следует отбросить. Это означает, что оцененная регрессия оказалась адекватна данным. Об этом же свидетельствует величина коэффициента детерминации R 2 =0.9873 и его модифицированного с учетом 2 степеней свободы аналога =0.9857. Radj Однако для регрессии на основе временных рядов высокие показатели коэффициентов детерминации – явление типичное, связанное с наличием общих временных тенденций в анализируемых показателях. 60 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Пример 2 В примере с уравнением заработной платы адекватность регрессии в целом можно проверить так: 37.021 / 6 F  8.86 P( F  8.86)  0.000 104.515 / 150 поскольку вероятность тоже оказалась мала (например, по сравнению с 5%-ым уровнем значимости), основную гипотезу следует отбросить. Это означает, что оцененная регрессия оказалась адекватна данным, несмотря на то, что коэффициент детерминации 2 R =0.26, а его модифицированный с учетом степеней 2 =0.23. свободы аналог Radj Следует отметить, что такие маленькие значения коэффициентов детерминации - довольно типичное явление для данных опросов домохозяйств из-за сильной неоднородности объектов выборки. 61 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка гипотез 3) H 0 : Q  q - проверка линейного ограничения на коэффициенты, при альтернативной гипотезе H A : Q  q 62 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка линейного ограничения   Можно проверить гипотезу о не значимости группы переменных. В нашем примере с капитализацией есть целый ряд показателей, которые по отдельности не оказывают значимого влияния на капитализацию. Это - расчетные счета нерезидентов (nf), МБК (db), депозиты фирм (da), срочные депозиты населения (dh). Можно проверить гипотезу о том, что они не оказывают влияния и в совокупности: H 0 : 1   4  6  7  0 H A : 12   42  62  72  0 63 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка линейного ограничения   В таких случаях необходимо строить дополнительную регрессию, в которую не будут включены соответствующие регрессоры. Для каждой регрессии вычисляется сумма квадратов остатков: RSS (RSSд для исходной регрессии и RSSк для дополнительной). Затем, с помощью F-статистики производится их сравнение ( RSS к  RSS Д ) / r ~ Fr ,( nk 1) F RSS Д / n  k  1 64 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка линейного ограничения Для наших данных оценка короткой регрессии выглядит следующим образом:  Source | SS df MS Number of obs = 64 -------------+-----------------------------F( 3, 60) = 1499.02 Model | 3.3359e+18 3 1.1120e+18 Prob > F = 0.0000 Residual | 4.4508e+16 60 7.4179e+14 R-squared = 0.9868 -------------+-----------------------------Adj R-squared = 0.9862 Total | 3.3804e+18 63 5.3657e+16 Root MSE = 2.7e+07 -----------------------------------------------------------------------------a | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------na | .083186 .0166485 5.00 0.000 .049884 .116488 nh | -.1715743 .0828866 -2.07 0.043 -.3373722 -.0057765 df | .153684 .0140171 10.96 0.000 .1256457 .1817224 _cons | 1.32e+08 1.40e+07 9.46 0.000 1.04e+08 1.60e+08  ------------------------------------------------------------------------------             (4.4508 *1016  4.2935 *1016 ) / 4 F  0.51 16 4.2935 *10 / 56 65 Эконометрика Ратникова Т.А. ВШБИ P( F  0.51)  0.73 22.05.2018 Проверка линейного ограничения   Этот результат интерпретируется следующим образом: при любом разумном уровне значимости основная гипотеза не может быть отвергнута, т.е. можно исключить из регрессии группу незначимых показателей. Об этом так же свидетельствует несколько возросшее в короткой регрессии значение 2 Radj = 0.9862 66 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка линейного ограничения В примере с заработной платой есть 2 переменные, stagna и stagna2 – стаж работы на данном предприятии и его квадрат, которые по отдельности не оказывают значимого влияния на заработную плату. Проверим гипотезу о том, что и в совокупности эти переменные не значимы: H 0 : 5   6  0 H A : 52  62  0 67 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Проверка линейного ограничения Для наших данных оценка короткой регрессии выглядит следующим образом:               Source | SS df MS Number of obs = 158 -------------+-----------------------------F( 4, 153) = 12.23 Model | 34.8600216 4 8.7150054 Prob > F = 0.0000 Residual | 109.023637 153 .71257279 R-squared = 0.2423 -------------+-----------------------------Adj R-squared = 0.2225 Total | 143.883659 157 .916456424 Root MSE = .84414 -----------------------------------------------------------------------------logrealwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------sex | -.6106794 .1378193 -4.43 0.000 -.8829538 -.338405 age | .1463342 .0299831 4.88 0.000 .0870999 .2055684 age2 | -.0017299 .0003461 -5.00 0.000 -.0024136 -.0010462 education | -.1071937 .0381301 -2.81 0.006 -.1825232 -.0318642 _cons | 2.385354 .6251253 3.82 0.000 1.150363 3.620346 (109.024  104.515) / 2 F  3.24 104.515 / 150 68 Эконометрика P( F  8.86)  0,0419 Ратникова Т.А. ВШБИ 22.05.2018 Проверка линейного ограничения   Этот результат интерпретируется следующим образом: при уровне значимости 5% основная гипотеза должна быть отвергнута, т.е. нежелательно исключать из регрессии переменные, отвечающие за стаж. Об этом же свидетельствует упавшее в короткой регрессии 2 значение Radj =0.22. Аналогичным образом могут быть проверены любые линейные гипотезы относительно регрессионных коэффициентов. 69 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Доверительные интервалы для коэффициентов В последних двух столбцах таблицы результатов оценивания регрессии в некоторых статистических пакетах выдаются интервальные оценки доверительные интервалы - для коэффициентов.  Они строятся на основании t-статистик для указанной (обычно 95%) доверительной вероятности:   ˆ ˆ  j  t2.5% (n  k  1)   ˆ   j   j  t2.5% (n  k  1)   ˆ  j 70 Эконометрика j Ратникова Т.А. ВШБИ 22.05.2018 Прогнозирование по регрессионной модели Более интересно и целесообразно строить интервальные оценки для прогноза зависимой переменной:  ˆ X 0   t / 2 (n  k  1)   1  X 0 ( X X ) 1 X 0  Y0   ˆ  X 0   t / 2 (n  k  1)   1  X 0 ( X X ) 1 X 0 здесь X 0 - набор значений регрессоров, для которого мы намереваемся вычислить прогноз Y0 . 71 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Прогнозирование по регрессионной модели Пусть в нашем примере мы хотим оценить заработную плату жителя Москвы в 2000 году, при условии, что это 30-ти летний мужчина с аспирантурой и 2-х летним стажем работы на некоем предприятии. Согласно оцененному уравнению регрессии:  Y0  ˆ0  ˆ1sex  ˆ2 age  ˆ3age2  ˆ4education  ˆ5 stagna  ˆ6 stagna2 = 2.63 – 0.61*0 + 0.16*30 – 0.002*900 – – 0.12*2 – 0.36*2 + 0.05*4 = 5.088 72 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Прогнозирование по регрессионной модели Мы предсказали логарифм заработной платы Это соответствует оценке величины самой заработной платы 162 условных единиц Можно вычислить доверительный интервал для логарифма заработной платы  s.e.(Y0 )   1  X 0 ( X X ) 1 X 0  0.847 t / 2 (n  k  1)  1.645, 3.695 < Y0 < 6.481. Это означает, что в 2000 году сама заработная плата такого индивида могла лежать в интервале от 40 до 653-х условных единиц. 73 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018 Спасибо за внимание! 74 Эконометрика Ратникова Т.А. ВШБИ 22.05.2018

ЭКОНОМЕТРИКА

#Лекция

Классическая линейная регрессия

Тебе могут подойти лекции

Базовая модель линейной регрессии. Классические критерии проверки гипотез

Эконометрика

Парная регрессия. Точечные оценки параметров в условиях классической нормальной модели

Модель множественной линейной регрессии

Метод максимального правдоподобия. Оценка линейной регрессии ММП

Эконометрика как наука. Проблемы эконометрического моделирования

Обобщенная линейная модель множественной регрессии; гетероскедастичность

Нарушение гипотез в основной линейной модели

Множественная регрессия

Практические и методические рекомендации, пример выполнения практического задания

Классическая линейная регрессия

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ