Линейная модель парной регрессии
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Линейная модель парной
регрессии
Регрессионный анализ
Основная задача регрессионного анализа заключается в исследовании
зависимости изучаемой переменной Y от различных факторов X1, X2, ..., Хk и
отображении их взаимосвязи в форме регрессионной модели:
Y = f(X1, X2, ..., Хk).
Y ‒ зависимая (объясняемая) переменная;
X1, X2, ..., Хk ‒ независимые (объясняющие) переменные, или факторы;
Y = f(X1, X2, ..., Хk) ‒ функция регрессии ‒ показывает, каково будет в среднем
значение переменной Y, если переменные Xi примут конкретные значения.
2
Парная регрессия
Имеются n наблюдений переменных Y = (y1, y2, ..., yn) и X = (x1, x2, ..., xn). Пусть между
X и Y теоретически существует линейная зависимость, тогда «истинное»
уравнением регрессии:
Y = f(X) = f(x1, x2, ..., xn) = α + βx.
В действительности отдельные наблюдения уi будут отклоняться от линейной
зависимости в силу воздействия следующих причин:
• влияние неизвестных факторов;
• случайные возмущения и помехи;
• ошибки измерения;
• ошибки спецификации (неправильный выбор вида уравнения регрессии).
3
Парная регрессия
Учитывая возможные отклонения парную регрессию можно представить в виде:
уi = α + βxi + ɛi (i = 1, …, n)
α – постоянная величина (свободный член уравнения);
β – коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны
данные наблюдений; характеризует изменение переменной при изменении
значения xi на единицу:
β > 0 – xi и yi положительно коррелированны;
β < 0 – xi и yi отрицательно коррелированны.
ɛi – случайная переменная (случайная составляющая, остаток, или возмущение).
Таким образом, значение каждого наблюдения yi представимо как сумма двух
частей – систематической (ŷi = α + βxi) и случайной (ɛi):
уi = ŷi + ɛi (i = 1, …, n)
4
Условия Гаусса – Маркова
1. Математическое ожидание случайной составляющей в любом наблюдении
должно быть равно нулю: M(ɛi) = 0 (i = 1, …, n)
2. Возмущение ɛi (или зависимая переменная yi) есть величина случайная, а
объясняющая переменная xi – величина неслучайная.
3. В любых двух наблюдениях отсутствует систематическая связь между
значениями случайной составляющей: M(ɛi, ɛj) = 0 (i ≠ j).
4. Дисперсия случайной составляющей должна быть постоянна для всех
наблюдений (условие гомоскедастичности): D(ɛi) = М(ɛi2) = σɛ2 (i = 1, …, n).
Наряду с условиями 1 – 4 обычно предполагается, что случайный член распределен
нормально, т.е. ɛi ~ N(0; σ2).
При выполнении условий 1 – 4 модель называется классической нормальной
линейной регрессионной моделью.
5
Свойства МНК-оценок
Когда условия Гаусса-Маркова выполняются, оценки, полученные по МНК, будут
обладать свойствами несмещенности, эффективности и состоятельности.
Пусть (a, b) – оценки параметров (α, β) уравнения регрессии.
• Несмещенность оценки означает, что математическое ожидание остатков
равно нулю: M(а) = α, M(b) = β.
• Оценки считаются эффективными, если они характеризуются наименьшей
дисперсией:
x 2σ 2
σ2
D(a ) =
, D(b) =
.
n var( x)
n var( x)
• Состоятельность оценок характеризует увеличение точности оценок с
увеличением объема выборки.
lim D(a) = 0, lim D(b) = 0.
n→∞
n→∞
6
Оценка параметров регрессионного уравнения
Классический подход к оцениванию параметров основан на методе наименьших
квадратов (МНК). МНК минимизирует сумму квадратов отклонений наблюдаемых
значений yi от модельных значений ŷi.
n
n
i =1
i =1
Q(α , β ) = ∑ ( yi − yˆ i ) 2 = ∑ ( yi − α − β xi ) 2 → min .
Точка минимума находится путем приравнивания к нулю частных производных
функции z = Q(α, β) по переменным α и β. Это приводит к системе нормальных
уравнений решением которой и является пара a, b.
∂Q(α , β )
= 0,
∂α
∂Q(α , β ) = 0,
∂β
7
Оценки наименьших квадратов
n
∂Q(α , β )
= 2∑ ( yi − α − βxi )(−1),
∂α
i =1
n
α
β
Q
(
,
)
∂
= 2∑ ( yi − α − βxi )(− xi ),
∂β
i =1
n
∑ ( yi − a − bxi ) = 0,
i =1
n
( y − a − bx )x = 0.
i
i
i
∑
i =1
n
n
na + ∑ xi b = ∑ yi ,
i =1
i =1
n
n
n
x a + x 2 b =
xi yi .
∑
∑
i
i
∑
i =1
i =1 i =1
8
Оценки наименьших квадратов
n
b=
∑(y
i =1
i
− y )( xi − x )
n
∑ (x
i
i =1
,
− x)2
a = y − bx.
1 n
( xi − x )( yi − y )
∑
Cov ( X , Y ) n − 1 i =1
b=
=
=
2
Var ( X )
Sx
n
∑ ( x − x )( y
i
i =1
n
i
− y)
2
(
)
x
−
x
∑ i
i =1
n
= ry , x
Sy
Sx
=
yx − yx
x −x
2
2
=
∑ y x − ny x
i =1
n
i i
2
2
x
−
n
x
∑ i
i =1
9
.
Оценка качества уравнения регрессии
Проверка адекватности (или соответствия) модели регрессии наблюдаемым
данным проводится на основе анализа остатков ei.
После построения уравнения регрессии мы можем разбить значение yi в каждом
наблюдении на две составляющие – ŷi и еi:
yi = ŷi + еi.
Остаток еi – отклонение yi от ŷi : еi = yi – ŷi (i = 1, …, n). Если ei = 0 (i = 1, …, n), то для
всех наблюдений фактические значения зависимой переменной совпадают с
расчетными (теоретическими) значениями.
10
Основное положение дисперсионного анализа
Сумма квадратов отклонений зависимой переменной y от среднего значения ӯ
может быть разложена на две составляющие – объясненную и необъясненную
уравнением регрессии:
n
n
n
2
ˆ
ˆ
(
y
−
y
)
=
(
y
−
y
)
+
(
y
−
y
)
∑ i
∑ i
∑ i i
2
i =1
2
i =1
i =1
где ŷi – значения у, вычисленные по модели ŷi = a + bxi.
n
2
(
y
−
y
)
Разделив правую и левую часть уравнения на ∑ i
получим
i =1
n
1=
∑ ( yˆ i − y )
i =1
n
n
2
(
y
−
y
)
∑ i
i =1
∑ ei
2
+
2
i =1
n
2
(
y
−
y
)
∑ i
i =1
.
11
Основное положение дисперсионного анализа
12
Коэффициент детерминации
n
ESS
RSS
R =
=1−
=
TSS
TSS
2
∑ ( yˆ i − y ) 2
i =1
n
∑(y
i =1
i
− y)2
n
=1−
∑ ei
2
i =1
n
∑(y
i =1
i
.
− y)2
Коэффициент показывает долю вариации результативного признака,
находящегося под воздействием изучаемых факторов, т.е. определяет, какая
доля вариации признака Y учтена в модели и обусловлена влиянием на него
факторов.
Чем ближе R2 к единице, тем выше качество модели.
13
Коэффициент множественной корреляции
(индекс корреляции)
n
R = 1−
∑ ei
i =1
n
n
2
2
(
y
y
)
−
∑ i
=
i =1
2
ˆ
(
y
y
)
−
∑ i
i =1
n
2
(
y
y
)
−
∑ i
.
i =1
Коэффициент универсален, так как отражает тесноту связи и точность
модели, и может использоваться при любой форме связи переменных.
Для парной модели регрессии индекс корреляции равен коэффициенту парной
корреляции:
R = |ry,x|.
14
Средняя относительная ошибка
аппроксимации
Eотн
1 n yi − yˆ i
1 n ei
= ∑
⋅ 100% = ∑ ⋅ 100%.
n i =1
yi
n i =1 yi
Eотн < 7% свидетельствует о хорошем качестве модели.
15
Проверка значимости уравнения в целом
и отдельных его параметров
• Необходимо оценить значимость уравнения регрессии, – установить,
соответствует ли математическая модель, выражающая зависимость между Y и X,
фактическим данным и достаточно ли включенных в уравнение объясняющих
переменных. Сводится к проверке гипотез:
• Основная гипотеза (H0) – гипотеза о незначимости уравнения в целом
(сводится к гипотезе о том, что α = 0, β = 0, или о том, что R2 = 0).
• Альтернативная гипотеза (H1) – гипотеза о значимости уравнения в
целом (сводится к гипотезе о том, что α ≠ 0, β ≠ 0, или о том, что R2 ≠ 0).
• Необходим анализ статистической значимости параметров модели парной
регрессии уi = α + βxi + ɛi.
16
F-критерий Фишера
ry2, x
R2
F=
(n − 2) =
(n − 2).
2
2
1− R
1 − ry , x
Проверку значимости можно выполнить двумя способами:
1. Путем сравнения значений Fрасч и Fтабл :
если Fрасч < Fтабл = FPACПОБР (α; ν1; ν2), то уравнение незначимо;
если Fрасч > Fтабл = FPACПОБР (α; ν1; ν2), то уравнение значимо.
2. Путем сравнения значимости Fрасч с заданным стандартным уровнем
значимости α (обычно α = 0,025 ÷ 0,05):
• если значимость F = FРАСП (Fрасч; ν1; ν2) > α, то уравнение незначимо;
• если значимость F = FРАСП (Fрасч; ν1; ν2) < α, то уравнение значимо.
17
Стандартная ошибка
В качестве меры точности применяют несмещенную оценку дисперсии остаточной
компоненты Se2
n
1
2
S e2 =
e
∑i
n − k − 1 i =1
Стандартная ошибка Se
Se =
n
1
2
e
∑
i .
n − k − 1 i =1
Для модели парной регрессии
Se =
1 n 2
ei .
∑
n − 2 i =1
18
Проверка значимости отдельных коэффициентов
регрессии
В расчетах используются отклонения уi от ŷi: ei = yi – a – bxi.
Так как ei нормально распределены, то для измерения вариации используется Se.
Стандартные ошибки коэффициентов:
n
∑x
Se
Sα =
i =1
n
2
n∑ xi − ∑ xi
i =1
i =1
n
Sβ =
n
2
2
n
n∑ x − ∑ xi
i =1
i =1
2
i
=
i =1
,
n
n ∑ ( xi − x ) 2
x – среднее значение x
Se – стандартная ошибка.
i =1
Se n
n
S e ∑ xi2
2
i
2
=
S e2
n
∑ (x
i =1
i
,
− x )2
19
t-критерий Стьюдента
1. Определяем расчетные значений t-критерия (t-статистики) для соответствующих
коэффициентов регрессии:
tα расч =
a
Sα
;
t β расч =
b
Sβ
,
2. Расчетные значения tрасч сравниваются с табличными tтабл:
если tрасч > tтабл, то соответствующий коэффициент значим;
если tрасч < tтабл, то соответствующий коэффициент незначим.
Интервальная оценка параметров модели выполняется для значимого уравнения
по формулам
a ± tкрSα; b ± tкрSβ,
где Sα, Sβ – стандартные ошибки параметров модели.
20
Прогнозирование с применением уравнения
регрессии
Точечный прогноз: ŷпрогн = a + bxпрогн.
Средняя ошибка (доверительный интервал):
( xпрогн − x ) 2
( xпрогн − x ) 2
1
1
.
y прогн ∈ yˆ прогн − S e tα 1 + + n
; yˆ прогн + S e tα 1 + + n
n
n
(x
−
x
)
(x
x
)
−
∑
∑
i
i
i =1
i =1
Доверительные интервалы зависят от следующих параметров:
• стандартная ошибка;
• удаление xпрогн от своего среднего значения ;
• количество наблюдений n;
• уровень значимости прогноза α (для прогноза ŷпрогн будущие значения
yпрогн с вероятностью (1 – α) попадут в доверительный интервал)
21
Пример 2.
В табл. 1 приведена информация о среднедушевых месячных доходах и
расходах по Центральному федеральному округу в 2002 г.
Требуется:
1) построить однофакторную модель регрессии зависимости расходов от
доходов;
2) проверить значимость параметров модели регрессии (α = 0,1);
3) построить доверительный интервал для полученной модели регрессии (α =
0,05). Отобразить на графике исходные данные, результаты моделирования и
прогнозирования;
4) оценить расходы, если доход составит 3 600 руб.
22
Пример 2.
Таблица 1
23
Пример 2. Таблица 2.
24
Пример 2. Расчет п.1.
Для вычисления параметров модели воспользуемся формулами оценки
наименьших квадратов. Промежуточные расчеты приведены в табл. 2.
n
b=
∑(y
i =1
i
n
− y )( xi − x )
2
(
)
−
x
x
∑ i
2 544 843,76
=
= 0,85;
2 993 601,06
i =1
a = y − bx = 2329,06 + 0,85 ⋅ 2539,24 = 170,47.
Построена модель зависимости расходов от дохода:
ŷпрогн = a + bxi = 170,47 + 0,85xi.
При увеличении дохода на 1 руб. расходы увеличиваются в среднем на 0,85 руб.
25
Пример 2. Расчет п.2.
Se =
Sβ =
1 n 2
ei =
∑
n − 2 i =1
S e2
n
2
(
−
)
x
x
∑ i
282 327,28
= 137,19;
15
=
137,19
= 0,079;
2 993 601,06
i =1
t β расч
b
0,85
=
=
= 10,72.
S β 0,079
tβ табл (α = 0,1; ν = n – 2 = 15) = 1,75. Так как |tрасч| > tтабл, то коэффициент β значим.
26
Пример 2. Расчет п.3.
Доверительный интервал для прогнозов индивидуальных значений yi определяется
из соотношения:
( xi − x ) 2
1
y i ∈ [ yˆ i ± U i ] = yˆ i ± S e tα 1 + + n
n
2
(
x
x
)
−
∑
i
i =1
.
tα табл (α = 0,1; ν = n – 2 = 15) = 2,13.
U ( xi ; n =17;α =0, 05)
1 ( xi − 2539,24) 2
.
= 137,19 ⋅ 2,13 ⋅ 1 + +
17
2 993 601,06
27
Пример 2. Таблица 3
28
Пример 2. График 1
Исходные данные (-♦-), результаты моделирования (-●-)и
доверительные интервалы (-▲-)
29
Пример 2. Расчет п.4.
Для того чтобы определить расходы при доходе 3 600 руб., необходимо подставить
значение xпрогн, равное 3 600, в полученную модель:
ŷпрогн = 170,47 + 0,85·3 600 ≈ 3 230,81.
U ( x =3 600; n =17;α =0,1)
1 (3 600 − 2 539,24) 2
= 137,19 ⋅1,75 ⋅ 1 + +
= 265,49.
17
2 993 601,06
y прогн ∈ [3 230,81 ± 265,49] = [2 965,32; 3 496,30].
Таким образом, прогнозное значение ŷпрогн = 3 230,81 с вероятностью 90% будет
находиться между верхней границей, равной 3 230,81 + 265,49 = 3 496,30, и
нижней границей, равной 3 230,81 – 265,49 = 2 965,32.
30
Пример 2. График 2.
Модель парной регрессии при х = 3 600 руб.
31