Парная линейная регрессия

👀 196 просмотров
📌 152 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Парная линейная регрессия», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Парная линейная регрессия», Word формат

ПРИКЛАДНАЯ ТЕОРИЯ ВЕРОЯТНОСТЕЙ Фаттахова Мария Владимировна [email protected] Доцент, к.ф.-м.н., доцент кафедры № 43 1 ЛЕКЦИЯ 2. ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 2 Постановка проблемы Переменные 𝑋, 𝑌 – случайные величины 𝒙𝒊 𝒚𝒋 𝒙𝟏 𝒚𝟏 𝒙𝟐 𝒚𝟐 … … 𝒙𝒏 𝒚𝒏 1. Существует ли связь между двумя или более переменными? 2. Какой тип имеет эта связь? 3. Насколько она сильна? 4. Какой прогноз можно сделать, основываясь на этой связи? 3 Примеры исследования зависимостей • Зависит ли объем продаж от количества рекламы в определенном периоде? • Есть ли зависимость между количеством часов, потраченных студентом на занятия, и результатами экзамена? • Какова связь между уровнем преступности и уровнем безработицы в регионе? • Связаны ли доход от профессиональной деятельности и уровень образования? 4 Математическая модель зависимости y  f ( X)   Наблюдаемое значение зависимой переменной Объясненная часть, зависящая от значений объясняющих переменных Случайная составляющая X   x1 , x2 ,..., xn  5 Причины появления случайного слагаемого  Воздействие случайных факторов;  Невключение в модель всех объясняющих переменных;  Неправильная форма зависимости;  Ошибки измерений;  Ограниченность эмпирических данных;  … 6 Модель парной зависимости y  f ( x)   yi  f ( xi )   i , i  1, n xi  R 7 Типы функциональных зависимостей f ( x)     x — линейная, f ( x)    1 x   2 x — параболическая,  f ( x)    — гиперболическая, 2 x f ( x)   e — показательная,  f ( x)   x — степенная, x 8 Пример выборки Y доходность акции, $ X индекс рынка, % 2,2 2,1 1,1 1,5 3,2 2,8 1,9 3,9 4 3 4,4 4,5 4,5 6,5 2,9 6,5 4,5 8 4,4 11 5,5 9 9 Поле корреляции (диаграмма рассеяния) 6 5 Y 4 3 2 rXY  0,72 1 1 2 3 4 5 6 X 7 8 9 10 11 12 10 Линейная зависимость 6 5 Y 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 12 X 11 Квадратическая зависимость 6 5 Y 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 12 X 12 Выбор вида зависимости: графический способ 6 5 Y 4 3 2 1 1 2 3 4 5 6 X 7 8 9 10 11 12 13 Модель парной линейной зависимости y    x  yi     xi   i i  1,2, , n 14 Пример Получены выборочные данные о времени, потраченном студентами на подготовку к экзамену по статистике, и оценку (в баллах от 0 до 100), полученную ими на экзамене: Студент Дни (𝑋) Оценка (𝑌) A 6 82 B 2 63 C 1 57 D 5 88 E 2 68 F 3 75 15 Подбор вида зависимости Диаграмма рассеяния Студент Дни (X) Оценка (Y) A 6 82 B 2 63 C 1 57 D 5 88 E 2 68 F 3 75 100 90 80 70 60 50 40 30 20 10 y   0  1 x rXY  0,95 1 2 3 4 5 6 7 В среднем зависимость близка к линейной: yi   0  1 xi , i  1,...,6. 16 Условия Гаусса – Маркова 1. Ошибки наблюдения являются случайными величинами, распределенными по нормальному закону 2. Математическое ожидание всех случайных величин ошибок равно нулю: E[ i ]  0, i  1,..., n 3. Все ошибки наблюдения имеют одинаковую (но неизвестную!) дисперсию (условие 2 гомоскедастичности): V [ i ]   , i  1,..., n 4. Все пары случайных величин ошибок независимы друг от друга. 17 yi   0  1 xi   i , i  1,2, , n Рассмотрим случайные величины 𝑦𝑖 , 𝑖 = 1, … , 𝑛. Они распределены по нормальному закону. Определим параметры распределения. 𝐸 𝑦𝑖 = 𝐸 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑉 𝑦𝑖 = 𝑉 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 = 𝑉 𝜀𝑖 = 𝜎 2 Следовательно, случайные величины зависимых переменных распределены по нормальному закону с одинаковыми дисперсиями 𝜎 2 и с математическим ожиданием: E  yi    0  1 xi 18 Модель парной линейной регрессии Математическое ожидание с.в. 𝑦𝑖 будет зависеть от значения 𝑥𝑖 и является условным математическим ожиданием yx   0  1 x – теоретическая (парная линейная) регрессия 19 y xi   0  1 xi , y x   0  1 x 100 90 80 70 60 50 40 30 20 10 i  1,..., n yx  0  1 x 2 4 6 8 yi   0  1 xi   i  y xi   i , i  1,..., n yx y  yx   20 Эмпирическая регрессия Эмпирическая функция регрессии – функция регрессии, служащая статистической оценкой модельной (теоретической) функции регрессии. ˆ0  b0 ˆ1  b1 yˆ x  b0  b1 x 21 Идея метода наименьших квадратов (МНК) y   0  1 x   Идея МНК: минимизация суммы квадратов ошибок.  i  yi  y x , i  1,..., n i n L(  0 ,1 )    i2 y xi i 1 n L(  0 , 1 )   ( yi   0  1 xi ) 2  min i 1 22 Система нормальных уравнений  L(  0 ,1 ) 0      L(  0 ,1 )  0   1 n n   0 n  1  xi   yi  i 1 i 1  n n n  2  x   x 1  i   xi yi  0 i i 1 i 1  i 1 Поскольку сумма квадратов ошибок 𝐿 𝛽0 , 𝛽1 – выпуклая функция, то решив систему, найдем стационарную точку, которая и будет искомой точкой минимума. 23 Уравнение эмпирической регрессии Пусть решение системы – 𝑏0 и 𝑏1, тогда yˆ xi  b0  b1 xi , i  1,..., n yˆ x  b0  b1 x – уравнение эмпирической регрессии Функция, найденная при помощи МНК, не совпадает с искомой (теоретической регрессии), но наиболее близка к ней в смысле минимума функции суммы 24 квадратов ошибок. Показатели качества уравнения регрессии 2 R Коэффициент детерминации Показывает, какая доля дисперсии зависимой переменной определяется дисперсией объясняющей переменной 𝑋. ESS 2 ˆ Rxy  TSS n TSS   ( yi  y ) 2 n n RSS   ( yi  yˆ xi )   ei 2 i 1 i 1 2 i 1 n ESS   ( yˆ xi  y ) 2 i 1 25 Коэффициент детерминации R R 2  0,5;1 R 2  0,1;0,49 R 2  0;0,09  2 использование модели статистически обосновано. использование модели возможно, но необходим многосторонний статистический анализ использование модели статистически необоснованно. 26 Показатели качества уравнения регрессии Проверка значимости регрессии в целом (F-тест, тест Фишера) Статистическая значимость уравнения регрессии – его «неслучайность». 𝐻0 : 𝑅2 = 0 (в генеральной совокупности отсутствует зависимость между переменными) 𝐻1 : 𝑅2 ≠ 0 (в генеральной совокупности есть зависимость между переменными) 27 Критерий значимости уравнения регрессии в целом (F-критерий) 2 R F  n  2 2 1 R F-cтатистика F-cтатистика – сл.в., распределенная по закону Фишера F  Fтабл модель является статистически значимой в целом. 28 Средняя ошибка аппроксимации Оценка точности прогноза – средняя ошибка аппроксимации 1 n yi  yˆ i A   100 % n i 1 yi А  15 % 29 Эксперимент Монте-Карло y*  4 x  7 yi*  4 xi  7, i  1,30 ei   (0,  ), i  1,30 y  y*  e  xi , yi  , i  1,30 yi  4 xi  7  ei , i  1,30 Исходная линейная зависимость – ? 30 Эксперимент Монте-Карло. Исходные данные x 1 2 3 4 5 6 7 8 9 10 11 y*=4x-7 -3 1 5 9 13 17 21 25 29 33 37 e 3,726564 -2,81221 1,924417 -12,6299 -16,8434 -5,86078 -10,577 8,29333 -29,2765 20,63375 -12,2768 y=y*+x 0,726564 -1,81221 6,924417 -3,62988 -3,84341 11,13922 10,423 33,29333 -0,2765 53,63375 24,72322 ei   (0,15), i  1,30 31 Эксперимент Монте-Карло yi*  4 xi  7, i  1,...,30 32 Эксперимент Монте-Карло Поле корреляции 180 160 140 120 100 80 yi  4 xi  7 у*=4х-7 ei , i  1,...,30 у=у*+е 60 ei  N (0,15), i  1,...,30 40 20 5 10 15 20 25 30 35 -20 -40 33 Эксперимент Монте-Карло xi , yi , i  1,...,30 Поле корреляции 180 160 140 120 100 80 у=у*+е 60 40 20 5 10 15 20 25 30 35 -20 -40 34 Эксперимент Монте-Карло yˆ  4,52 x  18,14 35 Эксперимент Монте-Карло yˆ  4,52 x  18,14 y*  4 x  7 36 Лабораторная работа 1 Провести эксперимент Монте – Карло для заданной линейной зависимости. Материалы ЛК: 1. Задание к ЛР 1 2. Образец оформления титульного листа 37

Авторы лекции