Линейная модель парной регрессии

👀 853 просмотра
📌 817 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Линейная модель парной регрессии», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Линейная модель парной регрессии», Word формат

Лекция 5(2ч) 1.1.5. Линейная модель парной регрессии 1. Пример построения модели парной регрессии и корреляции. 2. Анализ результатов расчетов и обоснование полученных выводов. Пример построения модели парной линейной регрессии Пример Были получены следующие данные (условные) о расходах на рекламу x (сот тыс. руб.) и объеме реализации продукции y (млн. руб.) по семи предприятиям за один год (таблица 3): Таблица 3 № предприятия 1 2 3 4 5 6 7 Расходы на рекламу x (сот тыс. руб.) 3 5 7 8 9 10 12 Объем реализации продукции y (млн. руб.) 15 21 28 30 34 38 40 Предположим, что связь между расходами предприятий на рекламу x и объемом реализации продукции y линейная. Для подтверждения нашего предположения построим поле корреляции (рис.5). Рис. 5. Поле корреляции По полю корреляции видно, что точки выстраиваются в некоторую прямую линию. Поэтому будем строить модель парной линейной регрессии 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥. Для удобства дальнейших вычислений составим расчетную таблицу 4. 1) Заполним столбцы 2-6 таблицы 4. Рассчитаем параметры линейного уравнения парной регрессии 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥. Для этого воспользуемся формулами (3.5): 𝑏= 𝑐𝑜𝑣(𝑥,𝑦) 𝜎𝑥2 = 𝑦∙𝑥 ̅̅̅̅̅−𝑦̅∙𝑥̅ ̅̅̅̅2−𝑥̅ 2 𝑥 = 250,29−29.43∙7,71 67,43−(7,71)2 = 23,3847 7,9859 = 2,93; (𝜎𝑥2 = 7,9859 ≅ 7,99, 𝜎𝑥 = 2,83 − заполним во 2 − ом столбце две последние ячейки); 𝑎 = 𝑦̅ − 𝑏 ∙ 𝑥̅ = 29,43 − 2,93 ∙ 7,71 = 6,84. Получим следующее линейное уравнение парной регрессии: 𝑦 ̂𝑥 = 6,84 + 2,93 ∙ 𝑥. Т.е. с увеличением затрат на рекламу на 1 единицу, то есть на 100 000 руб. реализации продукции возрастает на 2,93 млн. руб. объем 3,13 1,32 -0,01 29,44 935,71 67,4 3 7,99 𝜎2 69,59 2,83 𝜎 8,34 250,29 7,71 Среднее значение 29,43 21,9 9,22 -0,1 206,1 6550 472 1752 54 Итого 206 5 4 -2 42 1600 144 480 12 7 40 4,9 3,46 1,86 36,14 1444 100 380 10 6 38 2,3 0,62 0,79 33,21 1156 81 306 9 5 34 0,9 0,08 -0,28 30,28 900 64 240 30 8 7 3 4 2,3 0,42 0,65 27,35 784 49 5 2 21 196 -0,49 21,49 441 25 105 9 45 15 3 1 28 2,3 0,24 4,2 0,4 -0,63 15,63 225 10 9 8 4 3 2 1 x y 𝑥∙𝑦 5 𝑥2 6 𝑦2 7 ̂ 𝑦𝑥 𝑦−̂ 𝑦𝑥 (𝑦 − 𝑦̂𝑥 )2 𝐴𝑖 , % Таблица 4 2) Уравнение линейной регрессии всегда дополняется показателем тесноты связи – линейным коэффициентом корреляции 𝑟𝑥𝑦 . Рассчитаем сначала общую дисперсию результативного признака 𝜎𝑦2 : 𝜎𝑦2 = ̅̅̅ 𝑦 2 − 𝑦̅ 2 = 935,71 − (29,43)2 = 69,59 и, следовательно, 𝜎𝑦 = 8,34 (заполним в 3-ем столбце две последние ячейки); 𝜎 2,83 𝑟𝑥𝑦 = 𝑏 ∙ 𝜎𝑥 = 2,93 ∙ 8,34 = 0,994. 𝑦 Близость линейного коэффициента корреляции 𝑟𝑥𝑦 к 1 указывает на очень высокую линейную связь между признаками (см. таблицу 1). 2 Коэффициент детерминации 𝑟𝑥𝑦 = 0,988 показывает, что уравнением регрессии объясняется 98,8% дисперсии (вариации) результативного признака y, а на долю прочих факторов приходится лишь 1,2%. 2 Другими словами, коэффициент детерминации 𝑟𝑥𝑦 = 0,988 показывает, что на 98,8% изменение объема реализации продукции объясняется расходами на рекламу, а на долю прочих факторов, влияющих на объем реализации продукции, приходится 1,2%. 3) Оценим качество уравнения регрессии в целом с помощью F-критерия Фишера. Сосчитаем фактическое значение F-критерия по формуле (3.14): 2 𝑟𝑥𝑦 0,988 𝐹 = 1−𝑟2 ∙ (𝑛 − 2) = 1−0,988 ∙ (7 − 2) = 411,67. 𝑥𝑦 Табличное значение 𝐹табл = 6,61 (см. приложение, таблица 10) (число степеней свободы 𝑘1 = 1, 𝑘2 = 𝑛 − 2 = 5; уровень значимости критерия 𝛼 = 0,05). Так как 𝐹 > 𝐹табл , то с вероятностью 1-0,05=0,95 признается статистическая значимость уравнения в целом . 4) Заполним 7 ,8,9,10 столбцы таблицы 4. Например, так как уравнение линейной регрессии: наблюдения (𝑥1 , 𝑦1 ) получим: 𝑦 ̂𝑥 = 6,84 + 2,93 ∙ 𝑥, то для первого 𝑦̂ 𝑥1 = 6,84 + 2,93 ∙ 𝑥1 = 6,84 + 2,93 ∙ 3 = 15,63; 𝑦1 − 𝑦̂ 𝑥1 = 15 − 15,63 = −0,63; 2 2 (𝑦1 − 𝑦̂ 𝑥1 ) = (−0,63) = 0,4; 𝐴1 = | 𝑦1−𝑦̂ 𝑥1 𝑦1 | ∙ 100% = | −0,63 15 | ∙ 100% = 4,2%. Аналогично выполним процедуру расчета для оставшихся наблюдений. 5) Среднюю ошибку аппроксимации находим с помощью формулы (3.12): 10 столбца таблицы 4 и 𝑦𝑖−𝑦̂ 1 𝑥 𝐴̅ = 𝑛 ∑𝑛𝑖=1 | 𝑦 𝑖 | ∙ 100%. 𝑖 𝐴̅ = 3,13%. Значит, качество модели оценивается, как хорошее, так как не превышает 10%. 6) Для оценки статистической значимости параметров линейной регрессии и коэффициента корреляции рассчитаем t-критерий Стьюдента и доверительные интервалы каждого из показателей. Рассчитаем случайные ошибки параметров линейной регрессии и коэффициента корреляции: 2 𝑆ост = ̂2 ∑𝑛 𝑖=1(𝑦𝑖 −𝑦𝑥𝑖 ) 𝑛−2 𝑆 9,22 = 7−2 = 1,844; 𝑆ост = 1,36; 1,36 𝑚𝑏 =𝜎 ост = 2,83∙√7 = 0,182; ∙√𝑛 𝑥 √∑𝑛𝑖=1 𝑥𝑖 2 √1,844 ∙ 472 𝑚𝑎 = 𝑆ост ∙ = = 1,49; 𝜎𝑥 ∙ 𝑛 2,83 ∙ 7 2 1 − 𝑟𝑥𝑦 1 − 0,988 𝑚𝑟 = √ =√ = 0,049. 𝑛−2 5 Фактические значения t-статистик: 𝑏 2,93 𝑎 6,84 𝑡𝑏 = 𝑚 = 0,182 = 16,01; 𝑡𝑎 = 𝑚 = 1,49 = 4,59; 𝑏 𝑡𝑟 = 𝑟 𝑚𝑟 𝑎 = 0,994 0,049 = 20,286. Табличное значение t-критерия Стьюдента при 𝛼 = 0,05 (уровень значимости критерия) 𝑘 = 𝑛 − 2 = 5 (число степеней свободы) есть 𝑡табл = 2,5706 (см. приложение, таблица 11). Так как |𝑡𝑏 | > 𝑡табл , |𝑡𝑎 | > 𝑡табл , |𝑡𝑟 | > 𝑡табл , то с вероятностью 1-0,05=0,95 признаем статистическую значимость параметров регрессии и коэффициента корреляции. Рассчитаем доверительные интервалы для параметров регрессии a и b: (𝑏 − 𝑡табл ∙ 𝑚𝑏 ; 𝑏 + 𝑡табл ∙ 𝑚𝑏 ); (𝑎 − 𝑡табл ∙ 𝑚𝑎 ; 𝑎 + 𝑡табл ∙ 𝑚𝑎 ). Получим, что 𝑎 ∈ (6,84 − 2,5706 ∙ 1,49; 6,84 + 2,5706 ∙ 1,49); 𝑎 ∈ (3,01; 10,67); 𝑏 ∈ (2,93 − 2,5706 ∙ 0,182; 2,93 + 2,5706 ∙ 0,182); 𝑏 ∈ (2,462; 3,398). 7) Найдем прогнозное значение результативного фактора 𝑦 ̂0 при значении признака фактора, составляющем 120% от среднего уровня 𝑥0 = 1,2 ∙ 𝑥̅ = 1,2 ∙ 7,71 = 9,252, то есть найдем объем реализации продукции предприятием при расходах на рекламу 9,252 сот тыс. руб. 𝑦 ̂0 = 6,84 + 2,93 ∙ 9,252 = 33,94. Значит, если расходы на рекламу составят 925 200 руб., то объем реализации продукции будет 33, 94 млн. руб. Найдем доверительный интервал прогноза. Вычислим сначала ошибку прогноза: 𝑚𝑦̂0 = 𝑆ост ∙ √1 + 1 (𝑥0 + 𝑥̅ )2 1 (9,252 − 7,71)2 √ + == 1,844 ∙ (1 + + ) = 1,48, 𝑛 7 7 ∙ 7,99 𝑛 ∙ 𝜎𝑥2 а доверительный интервал ̂ 𝑦0 − 𝑚𝑦̂0 ∙ 𝑡табл ≤ 𝑦 ̂0 ≤ 𝑦 ̂0 + 𝑚𝑦̂0 ∙ 𝑡табл ; 33,94 − 1,48 ∙ 2,5706 ≤ 𝑦 ̂0 ≤ 33,94 + 1,48 ∙ 2,5706; 30,136 ≤ 𝑦 ̂0 ≤ 37,744. Т.е. прогноз является статистически надежным Теперь в одной системе координат отложим исходные данные и построим линию регрессии (рис.6). Рис.6. Исходные данные примера 5 и график функции 3. 6 Пример решения типовой задачи в MS Excel 𝑦 ̂𝑥 = 6,84 + 2,93 ∙ 𝑥. С помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии. Если в меню Данные еще нет команды Анализ данных, то необходимо сделать следующее. В параметрах Excel выбираем Надстройки → Пакет анализа→ОК. (рис.7) Рис.7. Установка команды Анализ данных Далее следуем по плану: 1. Вносим исходные данные (рис.8). Рис. 8. Внесение исходных данных 2. Выбираем Данные→Анализ данных→Регрессия. 3. Заполняем диалоговое окно ввода данных и параметров вывода (рис. 9). Рис.9. Заполнение диалогового окна ввода данных и параметров вывода. Входной интервал Y здесь - диапазон, содержащий данные результативного признака; Входной интервал X здесь - диапазон, содержащий данные признак - фактора; Метки - «флажок», который указывает, содержит ли первая строка названия столбцов; Константа-ноль - «флажок», указывающий на наличие или отсутствие свободного члена в уравнении Новый рабочий лист – можно указать произвольное имя нового листа (или не указывать, тогда результаты выводятся на новый рабочий лист). Получаем следующие результаты для примера 5 рассмотренного выше (таблица 5): Таблица 5 ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,990506273 R-квадрат 0,981102676 Нормированный R-квадрат 0,977323211 Стандартная ошибка 1,357681468 Наблюдения 7 Дисперсионный анализ df SS MS F Регрессия 1 478,498 478,498 Остаток 5 9,21649 1,8433 Итого 6 487,714 Коэффициенты 259,59 Стандартная ошибка t-статистика Y-пересечение 6,8 1,49745 4,51626 Переменная X 1 2,9 0,18236 16,1117 Нижние 95% Верхние 95% 2,913562657 10,61221054 2,469371447 3,406917213 ВЫВОД ОСТАТКА Предсказанное Y Остатки Наблюдение 1 16 -0,5773 2 21 -0,4536 3 27 0,6701 4 30 -0,268 5 33 0,79381 6 36 1,85567 7 42 -2,0206 Y Переменная X 1 График подбора 60 40 20 Y 3 5 7 8 9 10 12 Предсказанное Y Переменная X 1 Сравним результаты, полученные самостоятельно в примере 5 и с помощью MS Excel (таблица 6). Таблица 6 Результаты, полученные самостоятельно Уравнение регрессии Коэффициент корреляции Результаты, полученные с помощью MS Excel. 𝑦 ̂𝑥 = 6,84 + 2,93 ∙ 𝑥 𝑦 ̂𝑥 = 6,8 + 2,9 ∙ 𝑥 𝑟𝑥𝑦 = 0,994 𝑟𝑥𝑦 = 0,991 Коэффициент детерминации 2 𝑟𝑥𝑦 = 0,988 2 𝑟𝑥𝑦 = 0,981 Фактическое значение F – критерия Фишера 𝐹 = 411,67 𝐹 = 259,59 Остаточная дисперсия на одну 2 𝑆ост = 1,844 2 𝑆ост = 1,843 степень свободы Корень квадратный из остаточной дисперсии (стандартная ошибка) 𝑆ост = 1,36 𝑆ост = 1,358 Стандартные ошибки параметров регрессии 𝑚𝑏 = 0,182; 𝑚𝑏 = 0,182; 𝑚𝑎 = 1,49 𝑚𝑎 = 1,497 для Фактическое значение t-критерия Стьюдента Доверительные интервалы параметров регрессии 𝑡𝑏 = 16,01; 𝑡𝑎 = 4,59 𝑡𝑏 = 16,112; 𝑡𝑎 = 4,516 𝑎 ∈ (3,01; 10,67); 𝑎 ∈ (2,914; 10,612); 𝑏 ∈ (2,462; 3,398). 𝑏 ∈ (2,469; 3,407).