Линейная модель парной регрессии
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 5(2ч)
1.1.5. Линейная модель парной регрессии
1. Пример построения модели парной регрессии и корреляции.
2. Анализ результатов расчетов и обоснование полученных выводов.
Пример построения модели парной линейной регрессии
Пример Были получены следующие данные (условные) о расходах на рекламу x (сот
тыс. руб.) и объеме реализации продукции y (млн. руб.) по семи предприятиям за один год
(таблица 3):
Таблица 3
№ предприятия
1
2
3
4
5
6
7
Расходы на рекламу x (сот тыс. руб.)
3
5
7
8
9
10
12
Объем реализации продукции y (млн.
руб.)
15
21
28
30
34
38
40
Предположим, что связь между расходами предприятий на рекламу
x и объемом
реализации продукции y линейная. Для подтверждения нашего предположения построим поле
корреляции (рис.5).
Рис. 5. Поле корреляции
По полю корреляции видно, что точки выстраиваются в некоторую прямую линию.
Поэтому будем строить модель парной линейной регрессии 𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥.
Для удобства дальнейших вычислений составим расчетную таблицу 4.
1) Заполним столбцы 2-6 таблицы 4.
Рассчитаем параметры линейного уравнения парной регрессии 𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥. Для этого
воспользуемся формулами (3.5):
𝑏=
𝑐𝑜𝑣(𝑥,𝑦)
𝜎𝑥2
=
𝑦∙𝑥
̅̅̅̅̅−𝑦̅∙𝑥̅
̅̅̅̅2−𝑥̅ 2
𝑥
=
250,29−29.43∙7,71
67,43−(7,71)2
=
23,3847
7,9859
= 2,93;
(𝜎𝑥2 = 7,9859 ≅ 7,99, 𝜎𝑥 = 2,83 − заполним во 2 −
ом столбце две последние ячейки);
𝑎 = 𝑦̅ − 𝑏 ∙ 𝑥̅ = 29,43 − 2,93 ∙ 7,71 = 6,84.
Получим следующее линейное уравнение парной регрессии: 𝑦
̂𝑥 = 6,84 + 2,93 ∙ 𝑥.
Т.е. с увеличением затрат на рекламу на 1 единицу, то есть на 100 000 руб.
реализации продукции возрастает на 2,93 млн. руб.
объем
3,13
1,32
-0,01
29,44
935,71
67,4
3
7,99
𝜎2
69,59
2,83
𝜎
8,34
250,29
7,71
Среднее
значение
29,43
21,9
9,22
-0,1
206,1
6550
472
1752
54
Итого
206
5
4
-2
42
1600
144
480
12
7
40
4,9
3,46
1,86
36,14
1444
100
380
10
6
38
2,3
0,62
0,79
33,21
1156
81
306
9
5
34
0,9
0,08
-0,28
30,28
900
64
240
30
8
7
3
4
2,3
0,42
0,65
27,35
784
49
5
2
21
196
-0,49
21,49
441
25
105
9
45
15
3
1
28
2,3
0,24
4,2
0,4
-0,63
15,63
225
10
9
8
4
3
2
1
x
y
𝑥∙𝑦
5
𝑥2
6
𝑦2
7
̂
𝑦𝑥
𝑦−̂
𝑦𝑥
(𝑦 − 𝑦̂𝑥 )2
𝐴𝑖 , %
Таблица 4
2) Уравнение линейной регрессии всегда дополняется показателем тесноты связи –
линейным коэффициентом корреляции 𝑟𝑥𝑦 . Рассчитаем сначала общую дисперсию
результативного признака 𝜎𝑦2 :
𝜎𝑦2 = ̅̅̅
𝑦 2 − 𝑦̅ 2 = 935,71 − (29,43)2 = 69,59 и, следовательно, 𝜎𝑦 = 8,34 (заполним в 3-ем
столбце две последние ячейки);
𝜎
2,83
𝑟𝑥𝑦 = 𝑏 ∙ 𝜎𝑥 = 2,93 ∙ 8,34 = 0,994.
𝑦
Близость линейного коэффициента корреляции 𝑟𝑥𝑦 к 1 указывает на очень высокую
линейную связь между признаками (см. таблицу 1).
2
Коэффициент детерминации 𝑟𝑥𝑦
= 0,988 показывает, что уравнением регрессии
объясняется 98,8% дисперсии (вариации) результативного признака y, а на долю прочих факторов
приходится лишь 1,2%.
2
Другими словами, коэффициент детерминации 𝑟𝑥𝑦
= 0,988 показывает, что на 98,8%
изменение объема реализации продукции объясняется расходами на рекламу, а на долю прочих
факторов, влияющих на объем реализации продукции, приходится 1,2%.
3) Оценим качество уравнения регрессии в целом с помощью F-критерия Фишера.
Сосчитаем фактическое значение F-критерия по формуле (3.14):
2
𝑟𝑥𝑦
0,988
𝐹 = 1−𝑟2 ∙ (𝑛 − 2) = 1−0,988 ∙ (7 − 2) = 411,67.
𝑥𝑦
Табличное значение 𝐹табл = 6,61 (см. приложение, таблица 10) (число степеней свободы
𝑘1 = 1, 𝑘2 = 𝑛 − 2 = 5; уровень значимости критерия 𝛼 = 0,05).
Так как 𝐹 > 𝐹табл , то с вероятностью 1-0,05=0,95 признается статистическая значимость
уравнения в целом .
4) Заполним 7 ,8,9,10 столбцы таблицы 4.
Например, так как уравнение линейной регрессии:
наблюдения (𝑥1 , 𝑦1 ) получим:
𝑦
̂𝑥 = 6,84 + 2,93 ∙ 𝑥, то для первого
𝑦̂
𝑥1 = 6,84 + 2,93 ∙ 𝑥1 = 6,84 + 2,93 ∙ 3 = 15,63;
𝑦1 − 𝑦̂
𝑥1 = 15 − 15,63 = −0,63;
2
2
(𝑦1 − 𝑦̂
𝑥1 ) = (−0,63) = 0,4;
𝐴1 = |
𝑦1−𝑦̂
𝑥1
𝑦1
| ∙ 100% = |
−0,63
15
| ∙ 100% = 4,2%.
Аналогично выполним процедуру расчета для оставшихся наблюдений.
5) Среднюю ошибку аппроксимации находим с помощью
формулы (3.12):
10 столбца таблицы 4
и
𝑦𝑖−𝑦̂
1
𝑥
𝐴̅ = 𝑛 ∑𝑛𝑖=1 | 𝑦 𝑖 | ∙ 100%.
𝑖
𝐴̅ = 3,13%. Значит, качество модели оценивается, как хорошее, так как не превышает 10%.
6) Для оценки статистической значимости параметров линейной регрессии
и
коэффициента корреляции рассчитаем t-критерий Стьюдента и доверительные интервалы каждого
из показателей. Рассчитаем случайные ошибки параметров линейной регрессии и коэффициента
корреляции:
2
𝑆ост
=
̂2
∑𝑛
𝑖=1(𝑦𝑖 −𝑦𝑥𝑖 )
𝑛−2
𝑆
9,22
= 7−2 = 1,844; 𝑆ост = 1,36;
1,36
𝑚𝑏 =𝜎 ост
= 2,83∙√7 = 0,182;
∙√𝑛
𝑥
√∑𝑛𝑖=1 𝑥𝑖 2 √1,844 ∙ 472
𝑚𝑎 = 𝑆ост ∙
=
= 1,49;
𝜎𝑥 ∙ 𝑛
2,83 ∙ 7
2
1 − 𝑟𝑥𝑦
1 − 0,988
𝑚𝑟 = √
=√
= 0,049.
𝑛−2
5
Фактические значения t-статистик:
𝑏
2,93
𝑎
6,84
𝑡𝑏 = 𝑚 = 0,182 = 16,01; 𝑡𝑎 = 𝑚 = 1,49 = 4,59;
𝑏
𝑡𝑟 =
𝑟
𝑚𝑟
𝑎
=
0,994
0,049
= 20,286.
Табличное значение t-критерия Стьюдента при
𝛼 = 0,05 (уровень значимости
критерия) 𝑘 = 𝑛 − 2 = 5 (число степеней свободы) есть 𝑡табл = 2,5706 (см. приложение, таблица
11).
Так как |𝑡𝑏 | > 𝑡табл , |𝑡𝑎 | > 𝑡табл , |𝑡𝑟 | > 𝑡табл , то с вероятностью 1-0,05=0,95 признаем
статистическую значимость параметров регрессии и коэффициента корреляции.
Рассчитаем доверительные интервалы для параметров регрессии a и b:
(𝑏 − 𝑡табл ∙ 𝑚𝑏 ; 𝑏 + 𝑡табл ∙ 𝑚𝑏 ); (𝑎 − 𝑡табл ∙ 𝑚𝑎 ; 𝑎 + 𝑡табл ∙ 𝑚𝑎 ).
Получим, что
𝑎 ∈ (6,84 − 2,5706 ∙ 1,49; 6,84 + 2,5706 ∙ 1,49);
𝑎 ∈ (3,01; 10,67);
𝑏 ∈ (2,93 − 2,5706 ∙ 0,182; 2,93 + 2,5706 ∙ 0,182);
𝑏 ∈ (2,462; 3,398).
7) Найдем прогнозное значение результативного фактора 𝑦
̂0 при значении признака фактора, составляющем 120% от среднего уровня 𝑥0 = 1,2 ∙ 𝑥̅ = 1,2 ∙ 7,71 = 9,252, то есть найдем
объем реализации продукции предприятием при расходах на рекламу 9,252 сот тыс. руб.
𝑦
̂0 = 6,84 + 2,93 ∙ 9,252 = 33,94.
Значит, если расходы на рекламу составят 925 200 руб., то объем реализации продукции
будет 33, 94 млн. руб.
Найдем доверительный интервал прогноза.
Вычислим сначала ошибку прогноза:
𝑚𝑦̂0 = 𝑆ост ∙ √1 +
1 (𝑥0 + 𝑥̅ )2
1 (9,252 − 7,71)2
√
+
==
1,844
∙
(1
+
+
) = 1,48,
𝑛
7
7 ∙ 7,99
𝑛 ∙ 𝜎𝑥2
а доверительный интервал
̂
𝑦0 − 𝑚𝑦̂0 ∙ 𝑡табл ≤ 𝑦
̂0 ≤ 𝑦
̂0 + 𝑚𝑦̂0 ∙ 𝑡табл ;
33,94 − 1,48 ∙ 2,5706 ≤ 𝑦
̂0 ≤ 33,94 + 1,48 ∙ 2,5706;
30,136 ≤ 𝑦
̂0 ≤ 37,744.
Т.е. прогноз является статистически надежным
Теперь в одной системе координат отложим исходные данные и построим линию
регрессии (рис.6).
Рис.6. Исходные данные примера 5 и график функции
3. 6 Пример решения типовой задачи в MS Excel
𝑦
̂𝑥 = 6,84 + 2,93 ∙ 𝑥.
С помощью инструмента анализа данных Регрессия можно получить результаты
регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и
графики подбора линии регрессии.
Если в меню Данные еще нет команды Анализ данных, то необходимо сделать
следующее. В параметрах Excel выбираем
Надстройки → Пакет анализа→ОК. (рис.7)
Рис.7. Установка команды Анализ данных
Далее следуем по плану:
1. Вносим исходные данные (рис.8).
Рис. 8. Внесение исходных данных
2. Выбираем Данные→Анализ данных→Регрессия.
3. Заполняем диалоговое окно ввода данных и параметров вывода (рис. 9).
Рис.9. Заполнение диалогового окна ввода данных и параметров вывода.
Входной интервал Y здесь - диапазон, содержащий данные результативного признака;
Входной интервал X здесь - диапазон, содержащий данные признак - фактора;
Метки - «флажок», который указывает, содержит ли первая строка названия столбцов;
Константа-ноль - «флажок», указывающий на наличие или отсутствие свободного члена в
уравнении
Новый рабочий лист – можно указать произвольное имя нового листа (или не указывать,
тогда результаты выводятся на новый рабочий лист).
Получаем следующие результаты для примера 5 рассмотренного выше (таблица 5):
Таблица 5
ВЫВОД
ИТОГОВ
Регрессионная статистика
Множественный R
0,990506273
R-квадрат
0,981102676
Нормированный R-квадрат
0,977323211
Стандартная ошибка
1,357681468
Наблюдения
7
Дисперсионный анализ
df
SS
MS
F
Регрессия
1
478,498
478,498
Остаток
5
9,21649
1,8433
Итого
6
487,714
Коэффициенты
259,59
Стандартная
ошибка
t-статистика
Y-пересечение
6,8
1,49745
4,51626
Переменная X 1
2,9
0,18236
16,1117
Нижние 95%
Верхние 95%
2,913562657
10,61221054
2,469371447
3,406917213
ВЫВОД ОСТАТКА
Предсказанное
Y
Остатки
Наблюдение
1
16
-0,5773
2
21
-0,4536
3
27
0,6701
4
30
-0,268
5
33
0,79381
6
36
1,85567
7
42
-2,0206
Y
Переменная X 1 График
подбора
60
40
20
Y
3
5
7
8
9 10 12
Предсказанное Y
Переменная X 1
Сравним результаты, полученные самостоятельно в примере 5 и с помощью MS Excel
(таблица 6).
Таблица 6
Результаты,
полученные
самостоятельно
Уравнение
регрессии
Коэффициент
корреляции
Результаты,
полученные
с
помощью MS Excel.
𝑦
̂𝑥 = 6,84 + 2,93 ∙ 𝑥
𝑦
̂𝑥 = 6,8 + 2,9 ∙ 𝑥
𝑟𝑥𝑦 = 0,994
𝑟𝑥𝑦 = 0,991
Коэффициент
детерминации
2
𝑟𝑥𝑦
= 0,988
2
𝑟𝑥𝑦
= 0,981
Фактическое
значение
F
–
критерия Фишера
𝐹 = 411,67
𝐹 = 259,59
Остаточная
дисперсия на одну
2
𝑆ост
= 1,844
2
𝑆ост
= 1,843
степень свободы
Корень квадратный
из
остаточной
дисперсии
(стандартная
ошибка)
𝑆ост = 1,36
𝑆ост = 1,358
Стандартные
ошибки
параметров
регрессии
𝑚𝑏 = 0,182;
𝑚𝑏 = 0,182;
𝑚𝑎 = 1,49
𝑚𝑎 = 1,497
для
Фактическое
значение t-критерия
Стьюдента
Доверительные
интервалы
параметров
регрессии
𝑡𝑏 = 16,01;
𝑡𝑎 = 4,59
𝑡𝑏 = 16,112;
𝑡𝑎 = 4,516
𝑎 ∈ (3,01; 10,67);
𝑎 ∈ (2,914; 10,612);
𝑏 ∈ (2,462; 3,398).
𝑏 ∈ (2,469; 3,407).