Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Условия Гаусса-Маркова
Свойства коэффициентов регрессии
проверка гипотез
Источники
1. Доугерти, К. Введение в эконометрику : учеб. для экон.
специальностей вузов / К. Доугерти; пер. с англ. Е. Н. Лукаш
[и др.]. – М. : ИНФРА-М, 1997. [Глава 3].
2. Магнус, Я. Р. Эконометрика. Начальный курс : учеб. /
Я. Р. Магнус, П. К. Катышев, А. А. Пересецкий. – 3-е изд.,
перераб. и доп. – М. : Дело, 2000. [Глава 2, разделы 2.3-2.4]
Теоретическая регрессия
u4
u1
u2
u3
случайного члена
yi = α + βxi + ui
где i=1,…,n ;
xi - неслучайная (детерминированная) величина, yi и ui - случайные величины.
yi – зависимая переменная, состоит из (1) неслучайной составляющей α + βxi,
где xi – объясняющая (независимая) переменная, а постоянные α и β
параметры уравнения;
(2) случайного члена (ошибки) ui .
xi и yi - координаты точек Р1 , Р2 , Р3, Р4, это фактические значения (реально
собранные данные/наблюдения).
Используя метод МНК получаем
^
расчетную регрессию (y = a + b x )
i
i
где a и b – оценки параметров теоретической регрессии, т.е. α и β.
Обращаем внимание, что a и b зависят от исходных значений y!
А y зависит от случайного члена/ошибок, yi = α + βxi + ui
значит и оценки a и b зависят от случайного члена/ошибок ui
Основная наша задача определить значения истинных
параметров α и β.
Методом МНК мы находим их оценки – a и b,
и они оказываются зависимы от случайной
составляющей - от случайного члена/ошибок ui .
Для того чтобы судить насколько a и b являются
точными/хорошими оценками истинных
параметров α и β нам необходимо знать свойства
случайной составляющей - ui .
=> Пришлось ввести предположения о случайном
члене ui
Предположения о случайном члене ui
(Условия Гаусса-Маркова)
Пусть у нас есть модель парной линейной регрессии yi = α + βxi + ui
I. Регрессионная модель линейна по параметрам (коэффициентам), корректно
специфицирована (т.е. выбрана правильная функциональная форма, включены
необходимые факторы и нет лишних), и содержит аддитивный случайный член (ui);
II. Случайный член имеет нулевое математическое ожидание E(ui) = 0;
III. Случайный член имеет постоянную дисперсию для всех наблюдений,
Var(ui)=D(ui)= σu2 , i= 1,…,n (гомоскедастичность)
Замечание: величина σu неизвестна (основана на данных генеральной совокупности),
одна из задач регрессионного анализа состоит в том чтобы оценить σu (найти оценку
для этого параметра).
IV. Случайные члены с разными номерами не коррелируют друг с другом,
Cov(ui, uj) = 0 (для i ǂ j);
V. Объясняющая переменная не коррелированна со случайным членом, Cov(ui,
xi ) = 0 ;
Тогда оценки МНК (а и b) являются наиболее эффективными и несмещенными
оценками коэффициентов регрессии [BLUE (Best Linear Unbiased Estimator)].
Классическая линейная регрессия
VI. Предположение о нормальности распределения случайного
члена/ошибок/возмущений
ui ~ N (0, ),
2
u
тог да
коэффициенты регресии также будут иметь нормальное распределение:
Что дает нам возможность проверять гипотезы о значимости коэффициента
регресии и строить доверительные интервалы
7
Несмещенные оценки коэффициентов регрессии
Есть теоретическая модель парной линейной регрессии
yi = α + βxi + ui
^
Есть расчетная регрессия yi = a + b xi
где a и b это оценки истинных значений α и β
Тогда несмещенность означает следующее
Мат. ожидание E(a) = α
Мат. ожидание E(b) = β
Эффективные оценки коэффициентов регрессии
Т.е. среди всех несмещенных оценок оценки a и b обладают
наименьшей дисперсией
Одно из предположений о случайном члене ui
(условие Гаусса-Маркова)
III. Случайный член имеет постоянную дисперсию
для всех наблюдений, Var(ui)=D(ui)= σu2 , i= 1,…,n
(гомоскедастичность)
Замечание: величина σu неизвестна (основана на данных
генеральной совокупности), одна из задач регрессионного
анализа состоит в том чтобы оценить σu (найти оценку для
этого параметра).
Оценкой для дисперсии случайного члена (σu2 )является
величина:
Т.е. оценкой для дисперсии случайного члена/ошибок ui
является сумма квадратов остатков / на (n-2).
Остатки (ei)
Упростили обозначения, опускаем в обозначениях индекс «i».
a и b – оценки параметров теоретической регрессии (методом МНК),
т.е. оценки параметров α и β.
Расчетные значения
это ординаты точек R1, R2, R3, R4 ,лежащих на
линии регрессии = a + bx.
т.е. каждое получаем подставив в уравнение регрессии для
каждого x значения а и b.
Вспомним, что
для каждой выборки своя
^
расчетная регрессия (yi = a + b xi )
Пусть первая выборка включает наблюдения P1, P2, P4
^
Pасcчетная регрессия (yi = a + b xi ) для выборки (P1, P2, P4)
Пусть первая выборка включает наблюдения P1, P2, P4
^
Расcчетная регрессия (yi = a + b xi ) для выборки (P1, P3, P4)
А вторая выборка включает наблюдения P1, P3, P4
Для каждой выборки своя
^
расчетная регрессия (yi = a + b xi )
Для каждой выборки получили свою линии расчетной регрессии;
как результат, для каждой выборки оценки параметров (a, b) будут
отличатся => a, b – оценки регрессии это случайные величины!
• Так как оценки a, b –это случайные
величины и они изменяются от выборки к
выборке, то нам необходимо задаться
мерой «надежности» нашей оценки.
Для этих целей используют стандартные
ошибки.
Вспомним, что наши оценки – нормально
распределенные величины
Тогда стандартные ошибки для оценок a, b
принимают вид:
- оценкой для дисперсии (σu2 )случайного члена ui .
Значимость коэффициентов регрессии
На прошлой лекции мы рассмотрели как проверить
значимость коэффициентов по P-значению (P-value), в
данной лекции посмотрим как проверить значимость
коэффициентов по их стандартным ошибкам.
Сравнивая значение коэффициента с его стандартной
ошибкой, можно судить о значимости коэффициента;
Коэффициент называется значимым, если есть
достаточно высокая вероятность того, что его
истинное значение отлично от нуля;
Для стандартных ошибок нет таблиц критических
уровней – для точного суждения о значимости
коэффициентов используется t-статистика.
t-статистика для проверки значимости
коэффициентов регрессии
t-статистика соизмеряет значения
коэффициента с его стандартной ошибкой
(s.e., еще используется обозначение c.o.)
См. word/pdf файл
Коэффициент детерминации R2
Напомним
Рассмотрели вариацию (разброс) зависимой переменной yi вокруг ее среднего , т.е.
Которую можно разложить на
.
Обозначили
общую/всю вариацию
= TSS (total sum of squares)
не объясненную регрессией вариацию
= ESS (error sum of squares),
объясненную регрессией вариацию
= RSS (regression sum of squares).
Получили выражение для R2
коэффициента детерминации, или доли
объясненной дисперсии:
F тест на качество оценивания/значимости
уравнения регрессии в целом
Для парной регрессии F-тест, нулевая и альтернативная
гипотезы примут вид:
yi = α + βxi + ui
Ho: β = 0, H1: β ǂ 0
к – количество оцененных
в регрессии параметров
n – количество
наблюдений
Заметим, что для парной линейной регрессии нулевая и альтернативная
гипотеза F-теста соответствуют двухстороннему t-тесту (тестирование гипотезы о
значимости коэффициента регрессии при объясняющей переменной).
Может ли так случиться, что F-тест и t-тест приведут к различным выводам?
20
F тест на качество оценивания/значимости
уравнения регрессии в целом
Для парной регрессии F-тест, нулевая и альтернативная
гипотезы примут вид:
yi = α + βxi + ui
Ho: β = 0, H1: β ǂ 0
к – количество оцененных
в регрессии параметров
n – количество
наблюдений
Ответ: конечно нет.
И мы продемонстрируем, что F-тест (на качество оценивания/значимости
уравнения регрессии в целом), в случае парной линейной регрессии равен
квадрату t- статистики соответствующего коэффициента при объясняющей
переменной.
20
F тест на качество оценивания/значимости уравнения регрессии в целом
Начнем с того, что запишем формулу F-теста для случая
k=2 (т.е. парной линейной регрессии) и запишем ESS и RSS
через yi и ei .
22
F тест на качество оценивания/значимости уравнения регрессии в целом
- оценка дисперсии случайного члена ui
В знаменателе у нас «оценка дисперсии случайного члена» (см.
слайд 10). Числитель распишем через оценки коэффициентов
регрессии (т.е. a и b).
22
F тест на качество оценивания/значимости уравнения регрессии в целом
В знаменателе у нас «оценка дисперсии случайного члена».
Числитель распишем через оценки регрессии (т.е. a и b).
23
F тест на качество оценивания/значимости уравнения регрессии в целом
Упростим, сократив в числителе a и вынеся за скобку b.
24
F тест на качество оценивания/значимости уравнения регрессии в целом
Вынесем b2 из под знака суммы.
25
F тест на качество оценивания/значимости уравнения регрессии в целом
Преобразуем выражение.
26
F тест на качество оценивания/значимости уравнения регрессии в целом
Вспомним выражение стандартной ошибки коэффициента
при объясняющей переменной (т.е. коэффициента b) (см.
слайд 17).
F тест на качество оценивания/значимости уравнения регрессии в целом
Т. е. в знаменателе у нас квадрат стандартной ошибки b.
27
F тест на качество оценивания/значимости уравнения регрессии в целом
Вспомним выражение t-статистики для коэффициента
регрессии.
F тест на качество оценивания/значимости уравнения регрессии в целом
Таким образом мы получили t-статистику в квадрате (t2 ).
28
F тест на качество оценивания/значимости уравнения регрессии в целом
Так как F-тест эквивалентен двухстороннему t-тесту, то в случае парной
регрессии нет необходимости проводить оба теста (т.е. тестировать
значимость уравнения в целом, если уже протестировали значимость
коэффициента при объясняющей переменной).
30
F тест на качество оценивания/значимости уравнения регрессии в целом
В случае множественной регрессии F-тест тестирует гипотезу о значимости
/отличия от нуля нескольких коэффициентов при объясняющих переменных;
в этом случае t-тест и F-тест не эквивалентны.
30
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Дана оценка регрессионного уравнения зависимости «y -цена
квартиры, тыс. руб.» от «x - размера жилой площади». Количество
наблюдений = 10.
Необходимо поверить гипотезу о значимости уравнения в целом;
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Значение RSS = 2106934,736
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Значение ESS = 1298315,264
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Запишем формулу для расчета F-статистики
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Запишем формулу для расчета F-статистики, проверим степени
свободы.
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Наш результат F-статистики = 12,982577
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
-1770,37 1605,72 -1770,37 1605,72
(или) Рассчитаем F-статистику через R2
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Сравним наш результат с расчетом Excel F-статистики = 12,982577
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Проверим также, что F-статистика = t2
32
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
-1770,37 1605,72 -1770,37 1605,72
Проверим также, что F-статистика = t2
12,982577 = 3,6031343312 = 12,982577
Все верно.
32
F тест на качество оценивания
Теоретическая модель множественной линейной
регрессии имеет вид:
yi = α + β1x1i + β2x2i + ...+ βmxmi + ui, i = 1,…, n
где n – число наблюдений, x1i,…, xmi – объясняющие
переменные, yi – зависимая переменная, ui –
случайный член, α, β1, β2, ...βm - параметры
теоретической модели.
И расчетная регрессия:
a+ b1x1i + b2x2i + ...+ bmxmi , где a, b 1, b2, ...bm
- оценки параметров α, β1, β2, ...βm
теоретической модели.
F тест на качество оценивания
Проверка гипотезы о значимости уравнения в
целом сводится к проверке гипотезы
H0: β1 = β2 = ..= βm = 0 (все параметры при
объясняющих переменных одновременно = 0)
против альтернативной
HА: не все коэффициенты при объясняющих
переменных одновременно = 0
(или формализовано,
F тест на качество оценивания
Вычисляется расчетная статистика:
Затем рассчитанная статистика F (т.е. сравнивается с
табличным критическим значением при выбранном
уровне значимости α, т.е.
Если Fрасчетн. превышает критическое (
)
то гипотеза H0: β1 = β2 = ..=βm =0 отклоняется в пользу
альтернативной (HА) при выбранном уровне значимости
α, и мы заключаем, что регрессия является значимой (или
адекватной).
Иначе, регрессия считается незначимой (неадекватной).
F тест на качество оценивания
Данные/анализ данных/регрессия
Регрессионная статистика
Множественный R
0,7865947
R-квадрат
0,6187313
Нормированный R-квадрат
0,5710727
Стандартная ошибка
402,8516
Наблюдения
10
В случае парной регрессии
Ho: β = 0,
HА: β ǂ 0
Дисперсионный анализ
df
1
8
9
Регрессия
Остаток
Итого
SS
2106934,736
1298315,264
3405250
MS
2106934,736
162289,408
F
12,982577
Значимость F
0,006950592
Коэффициен Стандартная
tНижние Верхние Нижние Верхние
P-Значение
ты
ошибка
статистика
95%
95%
95,0% 95,0%
Y-пересечение
-82,32524964
732,0218651
-0,112462829
0,9132272 -1770,37 1605,72 -1770,37 1605,72
Переменная X 1
77,532097
21,51795906
3,603134331
0,0069506 27,91159 127,1526 27,91159 127,1526
Вывод!
Наша уравнение статистически значимо на 5%-ом уровне значимости т.к.
(1) Это парная регрессия и значим коэффициент при единственной объясняющей переменной X1,
t_расчетное = 3,60313 > t_крит (α = 0.05, n – k = 10 – 2) = 2,306.
(2) Или по результатам F-теста
F_расчетное = 12,983 > F_критическое (α = 0.05; k-1, n – k = 1;8) = 5,32
47