«Свойства коэффициентов регрессии проверка гипотез»

Конспект лекции по дисциплине «Свойства коэффициентов регрессии проверка гипотез», Word формат

Условия Гаусса-Маркова Свойства коэффициентов регрессии проверка гипотез Источники 1. Доугерти, К. Введение в эконометрику : учеб. для экон. специальностей вузов / К. Доугерти; пер. с англ. Е. Н. Лукаш [и др.]. – М. : ИНФРА-М, 1997. [Глава 3]. 2. Магнус, Я. Р. Эконометрика. Начальный курс : учеб. / Я. Р. Магнус, П. К. Катышев, А. А. Пересецкий. – 3-е изд., перераб. и доп. – М. : Дело, 2000. [Глава 2, разделы 2.3-2.4] Теоретическая регрессия u4 u1 u2 u3 случайного члена yi = α + βxi + ui где i=1,…,n ; xi - неслучайная (детерминированная) величина, yi и ui - случайные величины. yi – зависимая переменная, состоит из (1) неслучайной составляющей α + βxi, где xi – объясняющая (независимая) переменная, а постоянные α и β параметры уравнения; (2) случайного члена (ошибки) ui . xi и yi - координаты точек Р1 , Р2 , Р3, Р4, это фактические значения (реально собранные данные/наблюдения). Используя метод МНК получаем ^ расчетную регрессию (y = a + b x ) i i где a и b – оценки параметров теоретической регрессии, т.е. α и β. Обращаем внимание, что a и b зависят от исходных значений y! А y зависит от случайного члена/ошибок, yi = α + βxi + ui значит и оценки a и b зависят от случайного члена/ошибок ui Основная наша задача определить значения истинных параметров α и β. Методом МНК мы находим их оценки – a и b, и они оказываются зависимы от случайной составляющей - от случайного члена/ошибок ui . Для того чтобы судить насколько a и b являются точными/хорошими оценками истинных параметров α и β нам необходимо знать свойства случайной составляющей - ui . => Пришлось ввести предположения о случайном члене ui Предположения о случайном члене ui (Условия Гаусса-Маркова) Пусть у нас есть модель парной линейной регрессии yi = α + βxi + ui I. Регрессионная модель линейна по параметрам (коэффициентам), корректно специфицирована (т.е. выбрана правильная функциональная форма, включены необходимые факторы и нет лишних), и содержит аддитивный случайный член (ui); II. Случайный член имеет нулевое математическое ожидание E(ui) = 0; III. Случайный член имеет постоянную дисперсию для всех наблюдений, Var(ui)=D(ui)= σu2 , i= 1,…,n (гомоскедастичность) Замечание: величина σu неизвестна (основана на данных генеральной совокупности), одна из задач регрессионного анализа состоит в том чтобы оценить σu (найти оценку для этого параметра). IV. Случайные члены с разными номерами не коррелируют друг с другом, Cov(ui, uj) = 0 (для i ǂ j); V. Объясняющая переменная не коррелированна со случайным членом, Cov(ui, xi ) = 0 ; Тогда оценки МНК (а и b) являются наиболее эффективными и несмещенными оценками коэффициентов регрессии [BLUE (Best Linear Unbiased Estimator)]. Классическая линейная регрессия VI. Предположение о нормальности распределения случайного члена/ошибок/возмущений ui ~ N (0,  ), 2 u тог да коэффициенты регресии также будут иметь нормальное распределение: Что дает нам возможность проверять гипотезы о значимости коэффициента регресии и строить доверительные интервалы 7 Несмещенные оценки коэффициентов регрессии Есть теоретическая модель парной линейной регрессии yi = α + βxi + ui ^ Есть расчетная регрессия yi = a + b xi где a и b это оценки истинных значений α и β Тогда несмещенность означает следующее Мат. ожидание E(a) = α Мат. ожидание E(b) = β Эффективные оценки коэффициентов регрессии Т.е. среди всех несмещенных оценок оценки a и b обладают наименьшей дисперсией Одно из предположений о случайном члене ui (условие Гаусса-Маркова) III. Случайный член имеет постоянную дисперсию для всех наблюдений, Var(ui)=D(ui)= σu2 , i= 1,…,n (гомоскедастичность) Замечание: величина σu неизвестна (основана на данных генеральной совокупности), одна из задач регрессионного анализа состоит в том чтобы оценить σu (найти оценку для этого параметра). Оценкой для дисперсии случайного члена (σu2 )является величина: Т.е. оценкой для дисперсии случайного члена/ошибок ui является сумма квадратов остатков / на (n-2). Остатки (ei) Упростили обозначения, опускаем в обозначениях индекс «i». a и b – оценки параметров теоретической регрессии (методом МНК), т.е. оценки параметров α и β. Расчетные значения это ординаты точек R1, R2, R3, R4 ,лежащих на линии регрессии = a + bx. т.е. каждое получаем подставив в уравнение регрессии для каждого x значения а и b. Вспомним, что для каждой выборки своя ^ расчетная регрессия (yi = a + b xi ) Пусть первая выборка включает наблюдения P1, P2, P4 ^ Pасcчетная регрессия (yi = a + b xi ) для выборки (P1, P2, P4) Пусть первая выборка включает наблюдения P1, P2, P4 ^ Расcчетная регрессия (yi = a + b xi ) для выборки (P1, P3, P4) А вторая выборка включает наблюдения P1, P3, P4 Для каждой выборки своя ^ расчетная регрессия (yi = a + b xi ) Для каждой выборки получили свою линии расчетной регрессии; как результат, для каждой выборки оценки параметров (a, b) будут отличатся => a, b – оценки регрессии это случайные величины! • Так как оценки a, b –это случайные величины и они изменяются от выборки к выборке, то нам необходимо задаться мерой «надежности» нашей оценки. Для этих целей используют стандартные ошибки. Вспомним, что наши оценки – нормально распределенные величины Тогда стандартные ошибки для оценок a, b принимают вид: - оценкой для дисперсии (σu2 )случайного члена ui . Значимость коэффициентов регрессии На прошлой лекции мы рассмотрели как проверить значимость коэффициентов по P-значению (P-value), в данной лекции посмотрим как проверить значимость коэффициентов по их стандартным ошибкам. Сравнивая значение коэффициента с его стандартной ошибкой, можно судить о значимости коэффициента; Коэффициент называется значимым, если есть достаточно высокая вероятность того, что его истинное значение отлично от нуля; Для стандартных ошибок нет таблиц критических уровней – для точного суждения о значимости коэффициентов используется t-статистика. t-статистика для проверки значимости коэффициентов регрессии t-статистика соизмеряет значения коэффициента с его стандартной ошибкой (s.e., еще используется обозначение c.o.) См. word/pdf файл Коэффициент детерминации R2 Напомним Рассмотрели вариацию (разброс) зависимой переменной yi вокруг ее среднего , т.е. Которую можно разложить на . Обозначили общую/всю вариацию = TSS (total sum of squares) не объясненную регрессией вариацию = ESS (error sum of squares), объясненную регрессией вариацию = RSS (regression sum of squares). Получили выражение для R2 коэффициента детерминации, или доли объясненной дисперсии: F тест на качество оценивания/значимости уравнения регрессии в целом Для парной регрессии F-тест, нулевая и альтернативная гипотезы примут вид: yi = α + βxi + ui Ho: β = 0, H1: β ǂ 0 к – количество оцененных в регрессии параметров n – количество наблюдений Заметим, что для парной линейной регрессии нулевая и альтернативная гипотеза F-теста соответствуют двухстороннему t-тесту (тестирование гипотезы о значимости коэффициента регрессии при объясняющей переменной). Может ли так случиться, что F-тест и t-тест приведут к различным выводам? 20 F тест на качество оценивания/значимости уравнения регрессии в целом Для парной регрессии F-тест, нулевая и альтернативная гипотезы примут вид: yi = α + βxi + ui Ho: β = 0, H1: β ǂ 0 к – количество оцененных в регрессии параметров n – количество наблюдений Ответ: конечно нет. И мы продемонстрируем, что F-тест (на качество оценивания/значимости уравнения регрессии в целом), в случае парной линейной регрессии равен квадрату t- статистики соответствующего коэффициента при объясняющей переменной. 20 F тест на качество оценивания/значимости уравнения регрессии в целом Начнем с того, что запишем формулу F-теста для случая k=2 (т.е. парной линейной регрессии) и запишем ESS и RSS через yi и ei . 22 F тест на качество оценивания/значимости уравнения регрессии в целом - оценка дисперсии случайного члена ui В знаменателе у нас «оценка дисперсии случайного члена» (см. слайд 10). Числитель распишем через оценки коэффициентов регрессии (т.е. a и b). 22 F тест на качество оценивания/значимости уравнения регрессии в целом В знаменателе у нас «оценка дисперсии случайного члена». Числитель распишем через оценки регрессии (т.е. a и b). 23 F тест на качество оценивания/значимости уравнения регрессии в целом Упростим, сократив в числителе a и вынеся за скобку b. 24 F тест на качество оценивания/значимости уравнения регрессии в целом Вынесем b2 из под знака суммы. 25 F тест на качество оценивания/значимости уравнения регрессии в целом Преобразуем выражение. 26 F тест на качество оценивания/значимости уравнения регрессии в целом Вспомним выражение стандартной ошибки коэффициента при объясняющей переменной (т.е. коэффициента b) (см. слайд 17). F тест на качество оценивания/значимости уравнения регрессии в целом Т. е. в знаменателе у нас квадрат стандартной ошибки b. 27 F тест на качество оценивания/значимости уравнения регрессии в целом Вспомним выражение t-статистики для коэффициента регрессии. F тест на качество оценивания/значимости уравнения регрессии в целом Таким образом мы получили t-статистику в квадрате (t2 ). 28 F тест на качество оценивания/значимости уравнения регрессии в целом Так как F-тест эквивалентен двухстороннему t-тесту, то в случае парной регрессии нет необходимости проводить оба теста (т.е. тестировать значимость уравнения в целом, если уже протестировали значимость коэффициента при объясняющей переменной). 30 F тест на качество оценивания/значимости уравнения регрессии в целом В случае множественной регрессии F-тест тестирует гипотезу о значимости /отличия от нуля нескольких коэффициентов при объясняющих переменных; в этом случае t-тест и F-тест не эквивалентны. 30 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Дана оценка регрессионного уравнения зависимости «y -цена квартиры, тыс. руб.» от «x - размера жилой площади». Количество наблюдений = 10. Необходимо поверить гипотезу о значимости уравнения в целом; 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Значение RSS = 2106934,736 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Значение ESS = 1298315,264 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Запишем формулу для расчета F-статистики 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Запишем формулу для расчета F-статистики, проверим степени свободы. 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Наш результат F-статистики = 12,982577 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 -1770,37 1605,72 -1770,37 1605,72 (или) Рассчитаем F-статистику через R2 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Сравним наш результат с расчетом Excel F-статистики = 12,982577 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Проверим также, что F-статистика = t2 32 F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 -1770,37 1605,72 -1770,37 1605,72 Проверим также, что F-статистика = t2 12,982577 = 3,6031343312 = 12,982577 Все верно. 32 F тест на качество оценивания Теоретическая модель множественной линейной регрессии имеет вид: yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n где n – число наблюдений, x1i,…, xmi – объясняющие переменные, yi – зависимая переменная, ui – случайный член, α, β1, β2, ...βm - параметры теоретической модели. И расчетная регрессия: a+ b1x1i + b2x2i + ...+ bmxmi , где a, b 1, b2, ...bm - оценки параметров α, β1, β2, ...βm теоретической модели. F тест на качество оценивания Проверка гипотезы о значимости уравнения в целом сводится к проверке гипотезы H0: β1 = β2 = ..= βm = 0 (все параметры при объясняющих переменных одновременно = 0) против альтернативной HА: не все коэффициенты при объясняющих переменных одновременно = 0 (или формализовано, F тест на качество оценивания Вычисляется расчетная статистика: Затем рассчитанная статистика F (т.е. сравнивается с табличным критическим значением при выбранном уровне значимости α, т.е. Если Fрасчетн. превышает критическое ( ) то гипотеза H0: β1 = β2 = ..=βm =0 отклоняется в пользу альтернативной (HА) при выбранном уровне значимости α, и мы заключаем, что регрессия является значимой (или адекватной). Иначе, регрессия считается незначимой (неадекватной). F тест на качество оценивания Данные/анализ данных/регрессия Регрессионная статистика Множественный R 0,7865947 R-квадрат 0,6187313 Нормированный R-квадрат 0,5710727 Стандартная ошибка 402,8516 Наблюдения 10 В случае парной регрессии Ho: β = 0, HА: β ǂ 0 Дисперсионный анализ df 1 8 9 Регрессия Остаток Итого SS 2106934,736 1298315,264 3405250 MS 2106934,736 162289,408 F 12,982577 Значимость F 0,006950592 Коэффициен Стандартная tНижние Верхние Нижние Верхние P-Значение ты ошибка статистика 95% 95% 95,0% 95,0% Y-пересечение -82,32524964 732,0218651 -0,112462829 0,9132272 -1770,37 1605,72 -1770,37 1605,72 Переменная X 1 77,532097 21,51795906 3,603134331 0,0069506 27,91159 127,1526 27,91159 127,1526 Вывод! Наша уравнение статистически значимо на 5%-ом уровне значимости т.к. (1) Это парная регрессия и значим коэффициент при единственной объясняющей переменной X1, t_расчетное = 3,60313 > t_крит (α = 0.05, n – k = 10 – 2) = 2,306. (2) Или по результатам F-теста F_расчетное = 12,983 > F_критическое (α = 0.05; k-1, n – k = 1;8) = 5,32 47

Свойства коэффициентов регрессии проверка гипотез

Тебе могут подойти лекции

Парная линейная регрессия

Классическая линейная регрессия

Анализ парной линейной статистической зависимости

Эконометрика

Эконометрика как самостоятельное знание

Эконометрика

Математическая статистика. Применение в профессиональной деятельности

Эконометрика как наука. Проблемы эконометрического моделирования

Парная регрессия

Эконометрика

Свойства коэффициентов регрессии проверка гипотез

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ