Линейная модель парной регрессии

👀 500 просмотров
📌 422 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Линейная модель парной регрессии», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Линейная модель парной регрессии», Word формат

Линейная модель парной регрессии Регрессионный анализ Основная задача регрессионного анализа заключается в исследовании зависимости изучаемой переменной Y от различных факторов X1, X2, ..., Хk и отображении их взаимосвязи в форме регрессионной модели: Y = f(X1, X2, ..., Хk). Y ‒ зависимая (объясняемая) переменная; X1, X2, ..., Хk ‒ независимые (объясняющие) переменные, или факторы; Y = f(X1, X2, ..., Хk) ‒ функция регрессии ‒ показывает, каково будет в среднем значение переменной Y, если переменные Xi примут конкретные значения. 2 Парная регрессия Имеются n наблюдений переменных Y = (y1, y2, ..., yn) и X = (x1, x2, ..., xn). Пусть между X и Y теоретически существует линейная зависимость, тогда «истинное» уравнением регрессии: Y = f(X) = f(x1, x2, ..., xn) = α + βx. В действительности отдельные наблюдения уi будут отклоняться от линейной зависимости в силу воздействия следующих причин: • влияние неизвестных факторов; • случайные возмущения и помехи; • ошибки измерения; • ошибки спецификации (неправильный выбор вида уравнения регрессии). 3 Парная регрессия Учитывая возможные отклонения парную регрессию можно представить в виде: уi = α + βxi + ɛi (i = 1, …, n) α – постоянная величина (свободный член уравнения); β – коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений; характеризует изменение переменной при изменении значения xi на единицу: β > 0 – xi и yi положительно коррелированны; β < 0 – xi и yi отрицательно коррелированны. ɛi – случайная переменная (случайная составляющая, остаток, или возмущение). Таким образом, значение каждого наблюдения yi представимо как сумма двух частей – систематической (ŷi = α + βxi) и случайной (ɛi): уi = ŷi + ɛi (i = 1, …, n) 4 Условия Гаусса – Маркова 1. Математическое ожидание случайной составляющей в любом наблюдении должно быть равно нулю: M(ɛi) = 0 (i = 1, …, n) 2. Возмущение ɛi (или зависимая переменная yi) есть величина случайная, а объясняющая переменная xi – величина неслучайная. 3. В любых двух наблюдениях отсутствует систематическая связь между значениями случайной составляющей: M(ɛi, ɛj) = 0 (i ≠ j). 4. Дисперсия случайной составляющей должна быть постоянна для всех наблюдений (условие гомоскедастичности): D(ɛi) = М(ɛi2) = σɛ2 (i = 1, …, n). Наряду с условиями 1 – 4 обычно предполагается, что случайный член распределен нормально, т.е. ɛi ~ N(0; σ2). При выполнении условий 1 – 4 модель называется классической нормальной линейной регрессионной моделью. 5 Свойства МНК-оценок Когда условия Гаусса-Маркова выполняются, оценки, полученные по МНК, будут обладать свойствами несмещенности, эффективности и состоятельности. Пусть (a, b) – оценки параметров (α, β) уравнения регрессии. • Несмещенность оценки означает, что математическое ожидание остатков равно нулю: M(а) = α, M(b) = β. • Оценки считаются эффективными, если они характеризуются наименьшей дисперсией: x 2σ 2 σ2 D(a ) = , D(b) = . n var( x) n var( x) • Состоятельность оценок характеризует увеличение точности оценок с увеличением объема выборки. lim D(a) = 0, lim D(b) = 0. n→∞ n→∞ 6 Оценка параметров регрессионного уравнения Классический подход к оцениванию параметров основан на методе наименьших квадратов (МНК). МНК минимизирует сумму квадратов отклонений наблюдаемых значений yi от модельных значений ŷi. n n i =1 i =1 Q(α , β ) = ∑ ( yi − yˆ i ) 2 = ∑ ( yi − α − β xi ) 2 → min . Точка минимума находится путем приравнивания к нулю частных производных функции z = Q(α, β) по переменным α и β. Это приводит к системе нормальных уравнений решением которой и является пара a, b.  ∂Q(α , β ) = 0,  ∂α   ∂Q(α , β ) = 0,  ∂β 7 Оценки наименьших квадратов n  ∂Q(α , β ) = 2∑ ( yi − α − βxi )(−1),  ∂α  i =1  n α β Q ( , ) ∂  = 2∑ ( yi − α − βxi )(− xi ),  ∂β i =1 n ∑ ( yi − a − bxi ) = 0,  i =1 n  ( y − a − bx )x = 0. i i i ∑ i =1 n   n  na +  ∑ xi b = ∑ yi , i =1   i =1   n n n  x a +  x 2 b = xi yi . ∑ ∑ i i  ∑ i =1  i =1   i =1  8 Оценки наименьших квадратов n b= ∑(y i =1 i − y )( xi − x ) n ∑ (x i i =1 , − x)2 a = y − bx. 1 n ( xi − x )( yi − y ) ∑ Cov ( X , Y ) n − 1 i =1 b= = = 2 Var ( X ) Sx n ∑ ( x − x )( y i i =1 n i − y) 2 ( ) x − x ∑ i i =1 n = ry , x Sy Sx = yx − yx x −x 2 2 = ∑ y x − ny x i =1 n i i 2 2 x − n x ∑ i i =1 9 . Оценка качества уравнения регрессии Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков ei. После построения уравнения регрессии мы можем разбить значение yi в каждом наблюдении на две составляющие – ŷi и еi: yi = ŷi + еi. Остаток еi – отклонение yi от ŷi : еi = yi – ŷi (i = 1, …, n). Если ei = 0 (i = 1, …, n), то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. 10 Основное положение дисперсионного анализа Сумма квадратов отклонений зависимой переменной y от среднего значения ӯ может быть разложена на две составляющие – объясненную и необъясненную уравнением регрессии: n n n 2 ˆ ˆ ( y − y ) = ( y − y ) + ( y − y ) ∑ i ∑ i ∑ i i 2 i =1 2 i =1 i =1 где ŷi – значения у, вычисленные по модели ŷi = a + bxi. n 2 ( y − y ) Разделив правую и левую часть уравнения на ∑ i получим i =1 n 1= ∑ ( yˆ i − y ) i =1 n n 2 ( y − y ) ∑ i i =1 ∑ ei 2 + 2 i =1 n 2 ( y − y ) ∑ i i =1 . 11 Основное положение дисперсионного анализа 12 Коэффициент детерминации n ESS RSS R = =1− = TSS TSS 2 ∑ ( yˆ i − y ) 2 i =1 n ∑(y i =1 i − y)2 n =1− ∑ ei 2 i =1 n ∑(y i =1 i . − y)2 Коэффициент показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т.е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов. Чем ближе R2 к единице, тем выше качество модели. 13 Коэффициент множественной корреляции (индекс корреляции) n R = 1− ∑ ei i =1 n n 2 2 ( y y ) − ∑ i = i =1 2 ˆ ( y y ) − ∑ i i =1 n 2 ( y y ) − ∑ i . i =1 Коэффициент универсален, так как отражает тесноту связи и точность модели, и может использоваться при любой форме связи переменных. Для парной модели регрессии индекс корреляции равен коэффициенту парной корреляции: R = |ry,x|. 14 Средняя относительная ошибка аппроксимации Eотн 1 n yi − yˆ i 1 n ei = ∑ ⋅ 100% = ∑ ⋅ 100%. n i =1 yi n i =1 yi Eотн < 7% свидетельствует о хорошем качестве модели. 15 Проверка значимости уравнения в целом и отдельных его параметров • Необходимо оценить значимость уравнения регрессии, – установить, соответствует ли математическая модель, выражающая зависимость между Y и X, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных. Сводится к проверке гипотез: • Основная гипотеза (H0) – гипотеза о незначимости уравнения в целом (сводится к гипотезе о том, что α = 0, β = 0, или о том, что R2 = 0). • Альтернативная гипотеза (H1) – гипотеза о значимости уравнения в целом (сводится к гипотезе о том, что α ≠ 0, β ≠ 0, или о том, что R2 ≠ 0). • Необходим анализ статистической значимости параметров модели парной регрессии уi = α + βxi + ɛi. 16 F-критерий Фишера ry2, x R2 F= (n − 2) = (n − 2). 2 2 1− R 1 − ry , x Проверку значимости можно выполнить двумя способами: 1. Путем сравнения значений Fрасч и Fтабл : если Fрасч < Fтабл = FPACПОБР (α; ν1; ν2), то уравнение незначимо; если Fрасч > Fтабл = FPACПОБР (α; ν1; ν2), то уравнение значимо. 2. Путем сравнения значимости Fрасч с заданным стандартным уровнем значимости α (обычно α = 0,025 ÷ 0,05): • если значимость F = FРАСП (Fрасч; ν1; ν2) > α, то уравнение незначимо; • если значимость F = FРАСП (Fрасч; ν1; ν2) < α, то уравнение значимо. 17 Стандартная ошибка В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты Se2 n 1 2 S e2 = e ∑i n − k − 1 i =1 Стандартная ошибка Se Se = n 1 2 e ∑ i . n − k − 1 i =1 Для модели парной регрессии Se = 1 n 2 ei . ∑ n − 2 i =1 18 Проверка значимости отдельных коэффициентов регрессии В расчетах используются отклонения уi от ŷi: ei = yi – a – bxi. Так как ei нормально распределены, то для измерения вариации используется Se. Стандартные ошибки коэффициентов: n ∑x Se Sα = i =1  n  2 n∑ xi −  ∑ xi  i =1  i =1  n Sβ = n 2 2   n n∑ x −  ∑ xi  i =1  i =1  2 i = i =1 , n n ∑ ( xi − x ) 2 x – среднее значение x Se – стандартная ошибка. i =1 Se n n S e ∑ xi2 2 i 2 = S e2 n ∑ (x i =1 i , − x )2 19 t-критерий Стьюдента 1. Определяем расчетные значений t-критерия (t-статистики) для соответствующих коэффициентов регрессии: tα расч = a Sα ; t β расч = b Sβ , 2. Расчетные значения tрасч сравниваются с табличными tтабл: если tрасч > tтабл, то соответствующий коэффициент значим; если tрасч < tтабл, то соответствующий коэффициент незначим. Интервальная оценка параметров модели выполняется для значимого уравнения по формулам a ± tкрSα; b ± tкрSβ, где Sα, Sβ – стандартные ошибки параметров модели. 20 Прогнозирование с применением уравнения регрессии Точечный прогноз: ŷпрогн = a + bxпрогн. Средняя ошибка (доверительный интервал):    ( xпрогн − x ) 2  ( xпрогн − x ) 2 1 1 . y прогн ∈  yˆ прогн − S e tα 1 + + n ; yˆ прогн + S e tα 1 + + n n n   (x − x ) (x x ) − ∑ ∑ i i   i =1 i =1   Доверительные интервалы зависят от следующих параметров: • стандартная ошибка; • удаление xпрогн от своего среднего значения ; • количество наблюдений n; • уровень значимости прогноза α (для прогноза ŷпрогн будущие значения yпрогн с вероятностью (1 – α) попадут в доверительный интервал) 21 Пример 2. В табл. 1 приведена информация о среднедушевых месячных доходах и расходах по Центральному федеральному округу в 2002 г. Требуется: 1) построить однофакторную модель регрессии зависимости расходов от доходов; 2) проверить значимость параметров модели регрессии (α = 0,1); 3) построить доверительный интервал для полученной модели регрессии (α = 0,05). Отобразить на графике исходные данные, результаты моделирования и прогнозирования; 4) оценить расходы, если доход составит 3 600 руб. 22 Пример 2. Таблица 1 23 Пример 2. Таблица 2. 24 Пример 2. Расчет п.1. Для вычисления параметров модели воспользуемся формулами оценки наименьших квадратов. Промежуточные расчеты приведены в табл. 2. n b= ∑(y i =1 i n − y )( xi − x ) 2 ( ) − x x ∑ i 2 544 843,76 = = 0,85; 2 993 601,06 i =1 a = y − bx = 2329,06 + 0,85 ⋅ 2539,24 = 170,47. Построена модель зависимости расходов от дохода: ŷпрогн = a + bxi = 170,47 + 0,85xi. При увеличении дохода на 1 руб. расходы увеличиваются в среднем на 0,85 руб. 25 Пример 2. Расчет п.2. Se = Sβ = 1 n 2 ei = ∑ n − 2 i =1 S e2 n 2 ( − ) x x ∑ i 282 327,28 = 137,19; 15 = 137,19 = 0,079; 2 993 601,06 i =1 t β расч b 0,85 = = = 10,72. S β 0,079 tβ табл (α = 0,1; ν = n – 2 = 15) = 1,75. Так как |tрасч| > tтабл, то коэффициент β значим. 26 Пример 2. Расчет п.3. Доверительный интервал для прогнозов индивидуальных значений yi определяется из соотношения:   ( xi − x ) 2 1 y i ∈ [ yˆ i ± U i ] =  yˆ i ± S e tα 1 + + n n  2 ( x x ) − ∑ i  i =1    .    tα табл (α = 0,1; ν = n – 2 = 15) = 2,13. U ( xi ; n =17;α =0, 05) 1 ( xi − 2539,24) 2 . = 137,19 ⋅ 2,13 ⋅ 1 + + 17 2 993 601,06 27 Пример 2. Таблица 3 28 Пример 2. График 1 Исходные данные (-♦-), результаты моделирования (-●-)и доверительные интервалы (-▲-) 29 Пример 2. Расчет п.4. Для того чтобы определить расходы при доходе 3 600 руб., необходимо подставить значение xпрогн, равное 3 600, в полученную модель: ŷпрогн = 170,47 + 0,85·3 600 ≈ 3 230,81. U ( x =3 600; n =17;α =0,1) 1 (3 600 − 2 539,24) 2 = 137,19 ⋅1,75 ⋅ 1 + + = 265,49. 17 2 993 601,06 y прогн ∈ [3 230,81 ± 265,49] = [2 965,32; 3 496,30]. Таким образом, прогнозное значение ŷпрогн = 3 230,81 с вероятностью 90% будет находиться между верхней границей, равной 3 230,81 + 265,49 = 3 496,30, и нижней границей, равной 3 230,81 – 265,49 = 2 965,32. 30 Пример 2. График 2. Модель парной регрессии при х = 3 600 руб. 31