Линейные модели парной регрессии
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 2
09.09.2020 г.
• Линейные модели парной регрессии.
●
Метод наименьших квадратов (МНК).
Проверка значимости оценок параметров
теоретической регрессии.
●
●
Коэффициент детерминации.
Источники
1. Доугерти, К. Введение в эконометрику : учеб. для экон. специальностей
вузов / К. Доугерти; пер. с англ. Е. Н. Лукаш [и др.]. – М. : ИНФРА-М, 1997.
[Глава 2], раздел 1.8, частично раздел 3.7 про уровень значимости (α).
2. Магнус, Я. Р. Эконометрика. Начальный курс : учеб. / Я. Р. Магнус,
П. К. Катышев, А. А. Пересецкий. – 3-е изд., перераб. и доп. – М. : Дело,
2000. [Глава 2, разделы 2.1-2.3 и 2.6].
Линейные модели парной регрессии.
Выдвижение рабочей гипотезы
Теоретическая регрессия/ Математическая модель
Начинаем с выдвижения рабочей гипотезы о форме и
характере зависимости между переменными xi и yi
Пример 1. Мы решили оценить зависимость расходов на
питание – yi от дохода семьи – xi. В этом случае
xi - неслучайная (детерминированная) величина,
yi - случайная величина.
yi – уровень расходов
.
.
Q4
Q3
.Q
2
.Q
1
xi - уровень дохода семьи
xi - уровень дохода семьи
yi – уровень расходов семьи
Теоретически значения точек с координатами (xi , yi) – Q1, Q2, Q3, Q4
должны принадлежать нашей теоретической модели (т.е. должны
лежать на прямой).
Пример 1. Мы решили оценить зависимость расходов на
питание – yi от дохода семьи – xi
xi - неслучайная (детерминированная) величина,
yi - случайная величина
yi – уровень расходов
.P
4
.P
1
.P
2
.
P3
xi - уровень дохода семьи
На практике наблюдаемые значения точек с координатами (xi , yi)
могут не принадлежать теоретической прямой (чаще всего так и
бывает) - P1, P2, P3, P4
Влияние случайного члена ui
yi – уровень расходов
u4
u1
u2
u3
xi - уровень дохода семьи
yi = α + βxi + ui
где i=1,…,n
xi - неслучайная (детерминированная) величина, yi и ui - случайные величины.
yi – зависимая переменная, состоит из
(1) неслучайной составляющей α + βxi , где xi – объясняющая (независимая)
переменная, а постоянные α и β параметры уравнения;
и (2) случайного члена ui (расстояние между соответствующими Q и Р; Q – точки
на теоретической функции, P – наблюдаемые значения/собранные данные).
xi и yi это фактические значения (реально собранные данные/наблюдения,
иными словами наблюдаемые значения).
Причины существования случайного члена ui :
1. Ошибки измерения данных. Например, при оценке зависимости
расходов на питание – yi от дохода семьи – xi возможны неточности
данных по переменной расходы yi . Так как данные составляются на
основании записей домохозяйств, и сложно в течение определенного
периода (например, месяца) вести учет расходов на питание с
точностью до копейки. Разумеется возможны ошибки измерения yi .
2. Наша модель является упрощением действительности
(возможно мы не учли в модели какие-то переменные или слишком
упростили модель предположив линейную зависимость между
переменными). Например, в случае оценки зависимости расходов на
питание – yi от дохода семьи – xi можно предположить, что расходы
на питание также зависят и от места проживания респондентов
(удаленности от крупных торговых центров с более низкими ценами,
чем в центре города или наличия подсобного хозяйства, что
обеспечивает домохозяйство бесплатными овощами и пр.)
Доугерти, К. [стр. 54-55], Магнус, Я. Р. [cтр. 38]
Построение регрессионной модели
Наблюдаемые значения
На практике мы можем наблюдать только точки P (точки Q
мы не наблюдаем), а именно пары значений xi и yi для
каждой точки Рi
Например, точка Р2 имеет координаты x2 и y2. Это и есть
выборочные/фактические/наблюдаемые значения.
Теоретическая и расчетная регрессии
i
Упростили обозначения, опускаем в обозначениях индекс « ».
По этим точкам (наблюдаемым) строим регрессию –
расчетная регрессия
= a + bxi
yi = α + βxi
a и b – оценки параметров теоретической регрессии
(оцененных методом МНК), т.е. оценки параметров α и β.
Теоретическая регрессия/ Математическая модель
Остатки (ei)
Расчетные значения
это ординаты точек R1, R2, R3, R4 , точек, лежащих
на линии регрессии = a + bx.
т.е. каждое
получаем подставив в уравнение регрессии для каждого
xi значения а и b (оценки параметров регрессии/коэффициенты
регрессии).
Остатки (ei)
Разницу между фактическими значениями
значениями
и называют остатки ei = yi –
yi
и расчетными
Расхождение теоретической (yi = α
+ βxi )
^
и расчетной регрессий (yi = a + b xi )
Теоретическая и расчетная линии регрессии не совпадают =>
остатки (ei) не совпадают со значениями случайного члена (ui).
Для каждой выборки своя
^
расчетная регрессия (yi = a + b xi )
Пусть первая выборка включает наблюдения P1, P2, P4
^
Pасcчетная регрессия (yi = a + b xi ) для выборки (P1, P2, P4)
имеет вид:
Пусть первая выборка включает наблюдения P1, P2, P4
^
А расcчетная регрессия (yi = a + b xi ) для выборки (P1, P3, P4)
имеет вид:
Вторая выборка включает наблюдения P1, P3, P4
Для каждой выборки своя
^
расчетная регрессия (yi = a + b xi )
Для каждой выборки получили свою линию расчетной регрессии;
как результат, для каждой выборки оценки параметров (α, β) будут
отличатся => a, b – оценки регрессии это случайные величины!
Замечание
С самого начала необходимо понимать, тот
факт, что мы никогда не сможем рассчитать
истинные значения α и β (параметры
теоретической регрессии), мы можем
получить только их оценки a и b (расчетные
величины, полученные на основании
наблюдаемых значений / на основании
некоторой выборки / набора данных).
* Оценки a и b варьируются от выборки к
выборке, т.е. a и b – случайные величины.
Доугерти, стр. 56.
Метод наименьших квадратов (МНК)
У нас есть пары наблюдаемых значений (xi, yi).
Нам необходимо оценить параметры α и β
теоретической регрессии, а для этого нужно оценить
параметры a и b расчетной регрессии:
Метод наименьших квадратов(МНК)
Для расчета параметров a и b нам нужно построить
регрессию = a + bx. При этом мы стараемся «вписать»
уравнение регрессии в массив данных (xi, yi) наиболее
точно, т.е. минимизируем отклонения фактических
значений yi от расчетных .
Остатки (ei)
При этом мы стараемся «вписать» уравнение регрессии в массив
данных (xi, yi) наиболее точно, т.е. минимизируем отклонения
фактических значений yi от расчетных
Т.е. минимизируем остатки ei = yi –
; вернее их квадраты.
Метод наименьших квадратов (МНК)
Идея метода наименьших квадратов – минимизировать
S (сумму квадратов остатков), где
S = Σei2= e12 + e22 + e32 + …+ en2
min
(возникает вопрос по каким
параметрам минимизировать?)
Напомним:
Расчетное значение
Остатки
ei = yi –
= a + bxi
Вид суммы квадратов остатков
Выразим квадрат i-того остатка (ei2) через оценки a и
b и наблюдения переменных xi и yi. Получим,
где суммирование (Σ) ведется от 1 до n (n – количество наблюдений в
выборке, количество значений xi и yi).
Вывод формул для оценки коэффициентов (1/5)
S=
Нам необходимо минимизировать эту функцию.
Мы можем влиять на величину S, только изменяя значения a и b
(xi и yi это исходные данные, после того как мы взяли
определенную выборку, мы их изменить не можем).
Условия первого порядка для нахождения минимума:
Вывод формул для оценки коэффициентов (2/5)
Взяв производные получаем:
Эти уравнения известны как нормальные уравнения для
коэффициентов регрессии.
Вывод формул для оценки коэффициентов (3/5)
Из первого уравнения получаем:
откуда (разделив на n) имеем:
где
это средние значения (xi и yi ), т.е.
(1)
Вывод формул для оценки коэффициентов (4/5)
Из второго уравнения получаем:
подставим вместо a выражение из (1):
из определения средних,
Откуда получаем
Перегруппируем и
разделим на n,
получаем
Вывод формул для оценки коэффициентов (5/5)
Используя формулы для ковариации и вариации (дисперсии),
Из
Получаем следующее
выражение для b:
(2)
Расчетные формулы для
коэффициентов парной линейной
регрессии
Свойства оцененных уравнений и
остатков
Три полезных предварительных результата:
Эти результаты легко доказываются, исходя из свойств
средних и ковариации, а также могут быть проверены
на примерах.
Коэффициент детерминации R2 (1/4)
Рассмотрим вариацию (разброс) зависимой переменной yi вокруг ее среднего , т.е.
.
Разобьем эту вариацию на две части: объясненную регрессионным уравнением
и не объясненную
, где
это расчетное уравнение
регрессии, - предсказанное регрессией значение yi.
Тогда вариация (разброс) зависимой переменной yi вокруг ее среднего
имеет вид:
последнее слагаемое
(см. слайда 32).
Коэффициент детерминации R2 (2/4)
*Вместо «(1) слайд 20» смотри слайд 22, формула расчетного значения;
вместо «из (2) слайд 22» смотри второе уравнение слайда 27.
Коэффициент детерминации R2 (3/4)
Тогда вариация (разброс) зависимой переменной yi вокруг ее среднего имеет вид:
Коэффициент детерминации R2 (4/4)
Обозначим общую/всю вариацию
не объясненную регрессией вариацию
= TSS (total sum of squares),
= ESS (error sum of squares),
объясненную регрессией вариацию
= RSS (regression sum of squares).
Определение.
Коэффициентом детерминации, или долей объясненной дисперсии, называется
•
Данная формула верна только для регрессий, включающих константу (в нашем
случае параметр a);
• Коэффициент детерминации R-squared (или R2) дает предварительную оценку
качества модели, показывает долю объясненной вариации зависимой переменной,
(R2 принимает значения от 0 до 1);
• Если R2 = 0 означает, что регрессия ничего не дает, т. е. xi не улучшает качество
предсказания yi по сравнению с тривиальным предсказанием
.
• Другой крайний случай R2 = 1 означает точную подгонку: все точки наблюдений
лежат на регрессионной прямой (все
= 0).
Теснота связи переменных yi и xi
• Тесноту связи между переменными оценивает
коэффициент парной корреляции:
В отличие от регрессионного анализа где есть зависимая (yi) и объясняющая
переменные (xi), при оценке парной корреляции обе переменные yi и xi являются
равнозначными.
r
Пример: xy между оценками студентов по статистике (yi ) и мат. анализу (xi) равен 0,97.
Т.е. между оценками по этим двум предметам есть тесная положительная связь, но
мы не знаем, что на что влияет (хорошее знание статистики способствует хорошим
результат по мат. анализу, или наоборот).
Пример регрессионного анализа: как количество часов занятий по эконометрике (xi)
влияет на результат экзамена в баллах (yi ).
Например результат таков:
^
yi = - 2 + 0,05 xi
Т.е. каждый дополнительный час занятий увеличивает итоговую оценку по
«Эконометрике» на 0,05 балла.
К. Доугерти, раздел 1.8, Var(x) – дисперсия x.
Связь между rxy , R2 и коэффициентом
регрессии при xi
Для ФЭПО* по данной теме:
2. Метод наименьших квадратов (МНК)
Оценка параметров
линейных уравнений
регрессии
знать:
понятие «отклонение выборочного (фактического)
значения от расчетного» (Слайды 7-9),
y- = e (остатки)
суть МНК, (Слайд 9 и 16)
систему нормальных уравнений МНК (Слайд 18-19)
*Если вдруг будет ФЭПО, что практически невероятно.
P-значение
Использование параметра «P-значение» для оценки
статистической значимости коэффициента регрессии
• Если P-значение меньше α *, то коэффициент
является значимым на уровне α (значимым = коэффициент
не равен нулю).
*Чем меньше P-value/значение, тем лучше;
*Никаких таблиц для P-value/значение не нужно,
достаточно сравнить P-значение со стандартными
уровнями значимости α = 0,05 или 0,01.
•
•
•
Вероятность совершить ошибку первого рода принято обозначать α и
называть уровень значимости α.
Ошибка I рода имеет место в том случае, когда вы отвергаете истинную
нулевую гипотезу.
В нашем случае нулевая гипотеза Но: коэффициент = 0.
Порядок работы при проверке значимости
коэффициента регрессии по его P-значению
Если P-value/значение меньше α (уровнь значимости), то коэффициент является
значимым при выбранном уровне значимости α . В противном случае коэффициент
незначим (на данном уровне α ).
Пример.
Коэффициенты
(оценка
Стандартная
t-статистика P-Значение
ошибка
теоретических
параметров регрессии)
Y-пересечение (a)
-82,3252
732,02187
-0,112462829
0,9132272
Переменная X1 (b)
77,5321
21,517959
3,603134331
0,0069506
Зададимся уровнем значимости α = 5% (=0,05)
Коэфф. a незначим на 5% уровне значимости, так как
P-Значение (a) = 0,9132272 > α = 0,05.
Коэфф. b значим на 5% уровне значимости, так как
P-Значение (b) = 0,0069506 < α = 0,05.
Коэффициент детерминации
R-squared или R2
Коэффициент детерминации показывает долю объясненной вариации (разброса)
зависимой переменной (yi ).
Используется для предварительной оценки качества модели и как основа для расчета
других показателей (например, F-теста для проверки качества уравнения регрессии).
Обычно приводится в стандартной записи уравнения регрессии.
Показатели R2 в разных моделях с разным числом наблюдений (и переменных)
несравнимы.
Пример.
Регрессионная статистика
Множественный R
R-квадрат
Нормированный R-квадрат
Стандартная ошибка
Наблюдения
0,79
0,62
0,57
402,85
10
yi -цена квартиры, тыс. руб.
xi - размер жилой площади (м2)
R2 = 0,62
Означает, что 62% вариации (разброса) yi -цены квартиры
объясняется xi - размером жилой площади.
Представление результатов регрессии
Пример.
Регрессионная статистика
Множественный R
R-квадрат
Нормированный R-квадрат
Стандартная ошибка
Наблюдения
0,79
0,62
0,57
402,85
10
Коэффициенты
yi -цена квартиры, тыс. руб.
xi - размер жилой площади (м2)
Стандартная
ошибка
t-статистика P-Значение
Y-пересечение (a)
-82,3252
732,02187
-0,112462829
0,9132272
Переменная X 1 (b)
77,5321
21,517959
3,603134331
0,0069506
Представление результатов:
^
yi =
- 82,33 + 77,53 xi
P-значение
(0,913)
R2 = 0,62
(0,007)
Коэфф. b = 77,53 значим на 5% уровне значимости, так как P-Значение (b) = 0,0069506 < α = 0,05 =>
т.е. его имеет смысл интерпретировать.
Увеличение жилой площади на 1 м2 ведет к росту стоимости квартиры в среднем на 77,53 тыс.
руб.
R2 = 0,62 Означает, что 62% дисперсии y i -цены квартиры объясняется xi - размером жилой
площади.
Важно при интерпретации результатов
*Помнить, что оцененные регрессией параметры – a и b это только оценки для
истинных значений α и β (т.е. некоторое приближение /оценка
действительности).
* Уравнение регрессии отражает общую тенденцию для выборки. При этом каждое
отдельное наблюдение подвержено воздействию случайностей. Потому, корректно
при интерпретации говорить «в среднем», т.е. при изменении xi на 1 единицу (в
единицах измерения xi) yi «в среднем» изменяется на β единиц (в единицах
измерения yi).
* Верность интерпретации зависит от правильности спецификации модели.
•Важно понимать, что результаты регрессии получены на основании выборки
(некоторого набора значений xi ) и потому экстраполяция наших результатов влево и
вправо (т.е. для значений xi меньше и больше, чем те, что есть в выборке) не
корректна, порой может просто не иметь смысла.
(Например, мы оценивали уравнение регрессии yi – расходы (тыс. руб.) от
xi – доходов (тыс. руб.) для уровней доходов [10 до 250 тыс. в мес.] неверно будет
экстраполировать результаты нашего анализа на группы лиц с доходом значительно
выше или ниже, чем [10 до 250 тыс. в мес.].