Оценка параметров парной линейной регрессии. Метод наименьших квадратов (МНК).
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
1.2. Оценка параметров парной линейной регрессии. Метод наименьших квадратов
(МНК).
1.2.1. МНК для парной линейной регрессии
Для оценки параметров a, b обычно применяют метод наименьших квадратов (МНК).
Существуют и другие методы оценки параметров, например, метод моментов, метод
наименьших
модулей,
метод
максимального
правдоподобия.
Рассмотрим
метод
наименьших квадратов.
Если имеется n наблюдений, уравнение (1.1) можно представить в следующем виде:
yi = a + bxi + εi ,
i = 1, 2, 3, … , n.
Случайное отклонение ε можно рассматривать как последовательность n случайных
величин εi , i = 1, 2, 3, … , n.
Метод наименьших квадратов позволяет получить такие оценки параметров a и b, при
которых сумма квадратов отклонений фактических значений признака yi от расчетных
(теоретических) yxi является минимальной:
2
𝑄(𝑎, 𝑏) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑥𝑖 ) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2 = ∑𝑛𝑖=1 𝜀𝑖 2 → 𝑚𝑖𝑛.
(1.2)
Необходимым условием существования минимума функции двух переменных Q(a,b)
(1.2) является равенство нулю ее частных производных по неизвестным параметрам a и b:
𝑑𝑄
𝑑𝑎
{𝑑𝑄
𝑑𝑏
𝑑𝑄
𝑑𝑎
{𝑑𝑄
𝑑𝑏
= −2 ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0
= −2 ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )𝑥𝑖 = 0
= − ∑ 𝑦𝑖 + 𝑛𝑎 + 𝑏 ∑ 𝑥𝑖 = 0
= − ∑ 𝑦𝑖 𝑥𝑖 + 𝑎 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥𝑖 2 = 0
(1.3)
После преобразований получаем систему уравнений:
{
𝑎𝑛 + 𝑏 ∑ 𝑥𝑖 = ∑ 𝑦𝑖
𝑎 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥𝑖 2 = ∑ 𝑥𝑖 𝑦𝑖
(1.4)
Система уравнений (1.4) представляет собой систему нормальных уравнений МНК.
Разделив оба уравнения системы (1.4) на n, получим:
{
𝑎 + 𝑏𝑥̅ = 𝑦̅
̅̅̅2 = 𝑥𝑦
𝑎𝑥̅ + 𝑏𝑥
̅̅̅
Отсюда находим a и b:
𝑎 = 𝑦̅ − 𝑏𝑥̅
̅̅̅ − 𝑥̅ 𝑦̅
𝑥𝑦
{
𝑏= 2
̅̅̅
𝑥 − 𝑥̅ 2
В этих уравнениях 𝑥̅ и 𝑦̅ - это средние значения переменных x и y.
(1.5)
Коэффициент b при x называется коэффициентом регрессии. Если переменную x
изменить на единицу, т.е. взять за x величину x+1, то новое значение yx(x+1) будет равно
yx(x)+b. Следовательно, коэффициент регрессии показывает среднее изменение результата
y при изменении фактора x на единицу.
Коэффициент a – свободный член уравнения регрессии - указывает на значение
результативного признака при нулевом значении фактора. Это важный индикатор для
выбора вида уравнения регрессии. Например, если в результате вычислений коэффициент
a оказался отрицательным, а экономический смысл задачи диктует положительность или
равенство нулю показателя a , значит, выбор вида уравнения был неудачен.
1.2.2. Условия Гаусса-Маркова (предпосылки МНК)
Свойства оценок коэффициентов регрессии, а следовательно, и качество построенной
регрессии существенно зависят от свойств случайного отклонения ε. Доказано, что для
получения по МНК наилучших результатов необходимо, чтобы выполнялся ряд
предпосылок относительно случайного отклонения:
1. Математическое ожидание случайного отклонения εi равно нулю:
М(εi) = 0, i = 1, 2, … , n.
2. Дисперсии случайных отклонений εi для всех наблюдений равны:
D(εi) = D(εj) = σ2=const, i, j = 1, 2, … , n.
Выполнимость данной предпосылки называется гомоскедастичностью
(постоянством дисперсий отклонений).
Невыполнимость данной предпосылки называется гетероскедастичностью
(непостоянством дисперсий отклонений).
3. Случайные отклонения εi при разных наблюдениях являются независимы друг от
друга, т.е. корреляционный момент, или ковариация, между εi и εj при i≠j равна 0:
cov(εi,εj) = 0 для i≠j, i, j = 1, 2, … , n.
Выполнимость данной предпосылки означает отсутствие автокорреляции.
Невыполнимость данной предпосылки говорит о наличии автокорреляции
случайных отклонений.
4. Случайное отклонение εi должно быть независимо от объясняющих переменных:
cov(εi,xi) = 0, i = 1, 2, … , n.
5. Модель является линейной относительно параметров.
Теорема Гаусса-Маркова.
Если предпосылки 1-5 выполнены, то оценки, полученные по МНК, обладают
следующими свойствами:
1.
Оценки являются несмещенными, т.е. математическое ожидание оценки
параметра равно самому параметру. Это вытекает из условия, что М(εi)=0, и говорит об
отсутствии систематической ошибки в определении положения линии регрессии.
2.
Оценки состоятельны, т.к. дисперсия оценок параметров при возрастании числа
наблюдений n стремится к нулю. Другими словами, при увеличении объема выборки
надежность оценок увеличивается.
3.
Оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с
любыми другими оценками данных параметров, линейными относительно величин yi.
Такие оценки называются наилучшими линейными несмещенными оценками.
1.2.3. Коэффициенты корреляции и детерминации
Уравнение регрессии всегда дополняется показателем тесноты связи. При
использовании линейной регрессии таким показателем является линейный коэффициент
корреляции. Существует несколько видов формулы линейного коэффициента корреляции,
основные из них представлены ниже:
𝑟𝑥𝑦 =
𝑏𝜎𝑥
=
𝜎𝑦
̅̅̅ − 𝑥̅ 𝑦̅
𝑥𝑦
,
√̅̅̅
𝑥 2 − 𝑥̅ 2 √̅̅̅
𝑦 2 − 𝑦̅ 2
где 𝜎𝑥 и 𝜎𝑦 - среднее квадратическое отклонение x и y соответственно.
Линейный коэффициент корреляции, как известно, всегда находится в следующих
пределах: -1≤ rxy ≤1 . Знак коэффициента регрессии определяет знак коэффициента
корреляции. Если b < 0, тогда -1≤ rxy ≤0, и наоборот, если b > 0, тогда 0≤ rxy ≤1. Чем ближе
значение коэффициента корреляции по модулю |rxy | к единице, тем теснее связь между
признаками в линейной форме. Однако, если абсолютная величина коэффициента
корреляции близка к нулю, то это означает, что между рассматриваемыми признаками
отсутствует линейная связь. При другом виде уравнения регрессии связь может оказаться
достаточно тесной.
Для оценки качества подбора линейного уравнения регрессии находят также квадрат
коэффициента корреляции, называемый коэффициентом детерминации R2 = (rxy)2 . Он
отражает долю вариации результативного признака, объясненную с помощью уравнения
регрессии, или, иными словами, долю дисперсии результата, объясненную регрессией, в
общей дисперсии y:
𝑣𝑎𝑟(𝑦𝑥 ) ∑(𝑦𝑥 − 𝑦̅)2
𝑅 =
=
∑(𝑦 − 𝑦̅)2
𝑣𝑎𝑟(𝑦)
2
Следовательно, величина (1-R2) характеризует долю вариации, или долю дисперсии
результата у, вызванную влиянием всех остальных, не учтенных в модели факторов.
Значения коэффициента детерминации могут изменяться от нуля до единицы (0 ≤ R2 ≤ 1).
Например, R2=0,94 означает, что уравнением регрессии объясняется 94% дисперсии
результативного признака, а прочими, не учтенными в модели факторами - 6%. Чем ближе
коэффициент детерминации к единице, тем меньше роль других факторов и линейное
уравнение регрессии описывает лучше исходные данные.
1.3. Оценка существенности уравнения регрессии и его параметров.
Прогнозирование в линейной регрессии
1.3.1. Оценка значимости по критериям Фишера и Стьюдента
После выбора уравнения линейной регрессии и оценки его параметров проводится
оценка статистической значимости как уравнения в целом, так и отдельных его параметров.
Оценка значимости уравнения регрессии в целом осуществляется с помощью
критерия Фишера, который называют также F-критерием. При этом выдвигается нулевая
гипотеза (Н0): коэффициент регрессии равен нулю (b = 0), следовательно, фактор х не
оказывает влияния на результат у и линия регрессии параллельна оси абсцисс.
Перед тем как приступить к расчету критерия Фишера, проведем анализ дисперсии.
Общую сумму квадратов отклонений у от 𝑦̅ можно разложить на сумму квадратов
отклонений, объясненную регрессией и сумму квадратов отклонений, не объясненную
регрессией:
∑(𝑦 − 𝑦̅)2 = ∑(𝑦𝑥 − 𝑦̅)2 + ∑(𝑦 − 𝑦𝑥 )2 ,
где Σ(y - 𝑦̅)2 - общая сумма квадратов отклонений значений результата от среднего по
выборке; Σ(yx - 𝑦̅)2 - сумма квадратов отклонений, объясненная регрессией; Σ(y - ух)2 - сумма
квадратов отклонений, не объясненная регрессией, или остаточная сумма квадратов
отклонений.
Общая сумма квадратов отклонений результативного признака у от среднего значения
𝑦̅ определяется влиянием различных причин. Условно всю совокупность причин можно
разделить на две группы: изучаемый фактор х и прочие, случайные и не включаемые в
модель факторы. Если фактор х не оказывает влияния на результат, то линия регрессии на
графике параллельна оси абсцисс и 𝑦̅ = yх. Тогда вся дисперсия результативного признака
обусловлена воздействием прочих факторов и общая сумма квадратов отклонений
совпадает с остаточной:
Σ(y - 𝑦̅)2 = Σ(y - ух)2,
Если же прочие факторы не влияют на результат, то у связан с х функционально и
остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений,
объясненная регрессией, совпадает с общей суммой квадратов:
Σ(y - 𝑦̅)2 = Σ(yx - 𝑦̅)2
Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет
место их разброс, обусловленный как влиянием фактора х, (регрессией у по х), так и
действием прочих причин (необъясненная вариация). Пригодность линии регрессии для
прогноза зависит от того, какая часть общей вариации признака у приходится на
объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная
регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии
статистически значимо и фактор х оказывает существенное воздействие на результат у. Это
равносильно тому, что коэффициент детерминации R2 будет приближаться к единице.
Любая сумма квадратов отклонений связана с числом степеней свободы df, т.е. с
числом свободы независимого варьирования признака.
Для общей суммы квадратов Σ(y - 𝑦̅)2 требуется (п-1) независимых отклонений, ибо в
совокупности из п единиц после расчета среднего уровня свободно варьируют лишь (п-1)
число отклонений.
При заданном наборе переменных у и х расчетное значение ух является в линейной
регрессии функцией только одного параметра - коэффициента регрессии b. Таким образом,
факторная сумма квадратов отклонений имеет число степеней свободы, равное единице.
Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет
(п-2).
Существует равенство между числами степеней свободы общей, факторной и
остаточной сумм квадратов. Запишем два равенства:
Σ(y - 𝑦̅)2 = Σ(yx - 𝑦̅)2 + Σ(y - ух)2,
n – 1 = 1 + (n – 2)
Разделив каждую сумму квадратов на соответствующее ей число степеней свободы,
получим дисперсии на одну степень свободы:
𝐷общ =
∑(𝑦 − 𝑦̅)2
𝑛−1
∑(𝑦𝑥 − 𝑦̅)2
1
∑(𝑦 − 𝑦𝑥 )2
=
𝑛−2
𝐷факт =
𝐷ост
Так как эти дисперсии рассчитаны на одну степень свободы, их можно сравнивать
между собой. Критерий Фишера позволяет проверить нулевую гипотезу Н0 о том, что
факторная и остаточная дисперсии на одну степень свободы равны между собой
(Dфакт=Dост). Критерий Фишера рассчитывается по следующей формуле:
𝐹=
𝐷факт
𝐷ост
Если гипотеза Н0 подтверждается, то факторная и остаточная дисперсии одинаковы,
и уравнение регрессии незначимо. Чтобы отвергнуть нулевую гипотезу и подтвердить
значимость уравнения регрессии в целом, факторная дисперсия на одну степень свободы
должна превышать остаточную дисперсию на одну степень свободы в несколько раз.
Существуют специальные таблицы критических значений Фишера при различных уровнях
надежности и степенях свободы. В них содержатся максимальные значения отношений
дисперсий, при которых нулевая гипотеза подтверждается. Значение критерия Фишера для
конкретного случая сравнивается с табличным, и на основе этого гипотеза Н0 принимается
или отвергается.
Если Fфакт > Fтабл , тогда гипотеза Н0 отклоняется и делается вывод, что связь между
у и х существенна и уравнение регрессии статистически значимо. Если Fфакт ≤ Fтабл , тогда
гипотеза Н0 принимается и делается вывод, что уравнение регрессии статистически
незначимо, так как существует риск (при заданном уровне надежности) сделать
неправильный вывод о наличии связи между х и у.
Между критерием Фишера и коэффициентом детерминации существует связь,
которая выражается следующей формулой для парной линейной регрессии:
𝐹=
𝑅2
(𝑛 − 2)
1 − 𝑅2
В линейной регрессии часто оценивается не только значимость уравнения регрессии
в целом, но и значимость его отдельных параметров, а также коэффициента корреляции.
Для того чтобы осуществить такую оценку, необходимо для всех параметров
рассчитывать стандартные ошибки (та , тb , тr):
𝑚𝑎 = √
∑(𝑦 − 𝑦𝑥 )2
∑ 𝑥2
∙
𝑛−2
𝑛 ∑(𝑥 − 𝑥̅ )2
𝑚𝑏 = √
∑(𝑦 − 𝑦𝑥 )2 /(𝑛 − 2)
∑(𝑥 − 𝑥̅ )2
𝑚𝑟 = √
1 − 𝑟2
𝑛−2
Теперь нужно рассчитать критерии Стьюдента ta, tb, tr·. Для параметров а, b и
коэффициента корреляции r критерий Стьюдента определяет соотношение между самим
параметром и его ошибкой:
𝑡𝑎 =
𝑡𝑏 =
𝑡𝑟 =
𝑎
𝑚𝑎
𝑏
𝑚𝑏
𝑟
𝑟
=
√𝑛 − 2
𝑚𝑟 √1 − 𝑟 2
Фактические значения критерия Стьюдента сравниваются с табличными при
определенном уровне надежности α и числе степеней свободы df= (п-2). По результатам
этого сравнения принимаются или отвергаются нулевые гипотезы о несущественности
параметров или коэффициента корреляции. Если фактическое значение критерия
Стьюдента по модулю больше табличного, тогда гипотеза о несущественности отвергается.
Подтверждение существенности коэффициента регрессии равнозначно подтверждению
существенности уравнения регрессии в целом.
В парной линейной регрессии между критерием Фишера, критериями Стьюдента
коэффициентов регрессии и корреляции существует связь.
F = tb2 = tr2
На основании полученной связи можно сделать вывод, что статистическая
незначимость коэффициента регрессии или коэффициента корреляции влечет за собой
незначимость уравнения регрессии в целом, либо, наоборот, незначимость уравнения
регрессии подразумевает несущественность указанных коэффициентов.
На основе стандартных ошибок параметров и табличных значений критерия
Стьюдента можно рассчитать доверительные интервалы:
γa = a ± Δa
γb = b ± Δb
где Δa = tтабл·та - предельная ошибка параметра а; Δb = tтабл·тb - предельная ошибка
коэффициента регрессии b.
Поскольку коэффициент регрессии имеет четкую экономическую интерпретацию, то
доверительные границы интервала для него не должны содержать противоречивых
результатов. Например, такая запись, как -5≤ b ≤ 10, указывает, что истинное значение
коэффициента регрессии одновременно содержит положительные и отрицательные
величины и даже нуль, а этого не может быть. Следовательно, связь между данными нельзя
выразить такой моделью (в частности, парной линейной регрессией), должна подбираться
другая модель.
1.3.2. Прогнозирование в линейной регрессии
После построения уравнения регрессии, и проверки его значимости можно применять
это уравнение для прогнозирования. Однако при этом существуют свои особенности.
Используя уравнение регрессии, можно получить предсказываемое значение
результата ( yр ) с помощью точечного прогноза при заданном значении фактора хр, т.е. надо
просто подставить в уравнение уx = а + bх соответствующее значение х. Однако точечный
прогноз не дает требуемых представлений, поэтому дополнительно строится его
интервальная оценка, а для этого осуществляться определение стандартной ошибки
предсказываемого значения тур .
2
𝑚𝑦𝑝
∑(𝑦 − 𝑦𝑥 )2
1 (𝑥𝑝 − 𝑥̅ )
=√
∙ √1 + +
𝑛−2
𝑛 ∑(𝑥 − 𝑥̅ )2
Доверительный интервал для прогнозируемого значения рассчитывается следующим
образом:
𝛾𝑦𝑝 = 𝑦𝑝 ± ∆𝑦𝑝 ,
где ∆𝑦𝑝 = 𝑡табл ∙ 𝑚𝑦𝑝 - предельная ошибка прогноза.
При прогнозировании на основе уравнения регрессии следует помнить, что величина
прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от
точности прогноза фактора х. Его величина может задаваться на основе исследования
других моделей в зависимости от конкретной ситуации, а также по результатам анализа
динамики данного фактора.
1.3.3. Ошибки аппроксимации
Практически всегда фактические значения результативного признака отличаются от
теоретических, рассчитанных по уравнению регрессии. Чем меньше это отличие, тем ближе
будут теоретические значения подходить к эмпирическим, следовательно, тем лучше
подобрано уравнение регрессии. Величина отклонений фактических значений от расчетных
результативного признака (у - yх) по каждому наблюдению представляет собой абсолютную
ошибку аппроксимации. Число ошибок соответствует размеру совокупности. В отдельных
случаях ошибка аппроксимации может оказаться равной нулю (когда в одном наблюдении
фактическое и теоретическое значения результата совпадают). Отклонения (у- yх)
несравнимы между собой за исключением величины, равной нулю.
Для сравнения отклонений относительно фактических значений используются их
величины, выраженные в процентах. Поскольку (у - yх) может быть как положительной, так
отрицательной величиной, то ошибки аппроксимации для каждого наблюдения принято
определять в процентах по модулю
𝑦 − 𝑦𝑥
𝐴𝑖 = |
| ∙ 100%.
𝑦
Эти ошибки уже поддаются сравнению, но они оценивают каждое наблюдение в
отдельности. Такую ошибку принято называть относительной ошибкой аппроксимации.
Чтобы оценить качество модели в целом, можно определить среднюю ошибку
аппроксимации, представляющую собой среднее арифметическое относительных ошибок
аппроксимации по всем наблюдениям, включаемым в модель:
𝐴̅ =
1
𝑦 − 𝑦𝑥
∑|
| ∙ 100%.
𝑛
𝑦
Модель считается подобранной достаточно хорошо, если средняя ошибка
аппроксимации не превышает 8-10%.