Множественная линейная регрессия
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛЕКЦИЯ 1. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ
РЕГРЕССИЯ
1. Спецификация модели множественной регрессии
На любой экономический показатель чаще всего оказывает
влияние не один, а несколько факторов.
y f ( x1 , x2 ,, xm )
(1)
где y – зависимая переменная (результативный признак),
xi – независимые, или объясняющие, переменные (признакифакторы).
Множественная регрессия широко используется в решении
проблем спроса, доходности акций, при изучении функции издержек
производства, в макроэкономических расчетах и целом ряде других
вопросов эконометрики. В настоящее время множественная регрессия
– один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим
числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Рассмотрим самую употребляемую и наиболее простую из
моделей множественной регрессии – модель множественной линейной регрессии:
y b0 b1 x1 b2 x2 ... bm xm
(2)
где bi – коэффициенты при неизвестных, которые характеризуют чувствительность величины y к изменению величины xi , при
условии, что все другие объясняющие переменные модели остаются
постоянными. b0 – свободный член, определяющий y в случае, когда
все объясняющие переменные xi равны нулю.
Построение уравнения множественной регрессии начинается с
решения вопроса о спецификации модели. Он включает в себя два
круга вопросов: отбор факторов и выбор вида уравнения регрессии.
Включение в уравнение множественной регрессии того или
иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.
1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий коли-
чественного измерения, то ему нужно придать количественную определенность.
2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.
Включение в модель факторов с высокой интеркорреляцией,
может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за
собой неустойчивость и ненадежность оценок коэффициентов регрессии.
Если между факторами существует высокая корреляция, то
нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.
Включаемые во множественную регрессию факторы должны
объяснить вариацию независимой переменной. Если строится модель
с набором m факторов, то для нее рассчитывается показатель детерминации R 2 , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии m факторов. Влияние других, не учтенных в модели факторов, оценивается
как 1 R 2 .
Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны,
т.е. находятся между собой в линейной зависимости, если rxi x j 0,7 .
Если факторы явно коллинеарны, то они дублируют друг друга и
один из них рекомендуется исключить из регрессии. Предпочтение
при этом отдается не фактору, более тесно связанному с результатом,
а тому фактору, который при достаточно тесной связи с результатом
имеет наименьшую тесноту связи с другими факторами.
По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в
использовании аппарата множественной регрессии возникают при
наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место
совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут
всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности.
Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:
1. Затрудняется интерпретация параметров множественной
регрессии как характеристик действия факторов в «чистом» виде, ибо
факторы коррелированы; параметры линейной регрессии теряют экономический смысл.
2. Оценки параметров ненадежны, обнаруживают большие
стандартные ошибки и меняются с изменением объема наблюдений
(не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции
между факторами.
Если бы факторы не коррелировали между собой, то матрица
парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы rxi x j
i j были бы равны нулю.
Если же, наоборот, между факторами существовала полная
линейная зависимость, то и все коэффициенты корреляции были бы
равны единице, а определитель такой матрицы равен нулю.
Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее
результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше
мультиколлинеарность факторов.
Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.
Отбор факторов, включаемых в регрессию, является одним из
важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции
могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения регрессии
принята, меняется алгоритм ее решения на ЭВМ.
Наиболее широкое применение получили следующие методы
построения уравнения множественной регрессии:
1.
Метод исключения – отсев факторов из полного его набо-
ра.
2. Метод включения – дополнительное введение фактора.
3. Шаговый регрессионный анализ – исключение ранее введенного фактора.
2. Определение параметров уравнения регрессии
Пусть имеется n наблюдений объясняющих переменных
X x1 , x2 ,, xn и зависимой переменной Y y1 , y2 ,, yn .
Для того чтобы однозначно можно было решить задачу
нахождения параметров b1 , b2 ,...,bm , должно выполняться неравенство
n m 1 . Если это неравенство не будет выполняться, то существует
бесконечно много различных векторов параметров, при которых линейная формула связи между X и Y будет абсолютно точно соответствовать имеющимся наблюдениям.
Число v n m 1 называется числом степеней свободы. Если
число степеней свободы невелико, то статистическая надежность
оцениваемой формулы невысока. Например, вероятность верного вывода (получения более точных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической
надежности требуется, чтобы число наблюдений по крайней мере в
три раза превосходило число оцениваемых параметров.
Самым распространенным методом оценки параметров уравнения множественной регрессии является метод наименьших квадратов (МНК).
Для оценки параметров уравнения линейной множественной
регрессии
y b0 b1 x1 b2 x2 ... bm xm
(3)
применяют метод наименьших квадратов – строится система
нормальных уравнений, решение которой позволяет получить оценки
параметров регрессии:
y nb0 b1 x1 b2 x2 ... bm xm ,
2
yx1 b0 x1 b1 x1 b2 x2 x1 ... bm xm x1 ,
(4)
..........
..........
..........
..........
..........
..........
..........
.......
yx p b0 x p b1 x1 x p b2 x2 x p ... bm xm2 .
Другой вид уравнения множественной регрессии – уравнение
регрессии в стандартизированном масштабе:
t y 1t x 2t x ... mt x
1
где t y
y y
2
(5)
m
xi xi
, t xi
– стандартизированные переменные;
y
xi
i – стандартизированные коэффициенты регрессии.
К уравнению множественной регрессии в стандартизированном масштабе применим МНК, что приводит к решению системы
уравнений:
ryx 1 2 rx x 3 rx x ... m rx x ,
ryx 1rx x 2 3 rx x ... m rx x ,
.....................................................
ryx 1rx x 2 rx x 3 rx x ... m .
1
2 1
2
1 2
m
1 m
3 1
m 1
3 2
m 2
2 m
(6)
3 m
Для
двухфакторной
модели
линейной
регрессии
t y 1t x1 2t x2 расчет β-коэффициентов можно выполнить по формулам (следуют из решения системы (2.6)):
ryx ryx2 rx1 x2
ryx2 ryx1 rx1 x2
1 1
,
(7)
2
1 rx21 x2
1 rx21 x2
Связь коэффициентов множественной регрессии bi со стандартизированными коэффициентами i описывается соотношением:
x
y
, i bi i
(8)
bi i
xi
y
При этом: b0 y b1 x1 b2 x2 .
3. Анализ качества модели множественной линейной
регрессии
Тесноту совместного влияния факторов на результат оценивает коэффициент множественной корреляции, который можно определить по формуле:
(9)
R yx x ... x i ryx
1 2
m
i
где i – стандартизированные коэффициенты регрессии,
ryxi – парные коэффициенты корреляции между переменными
y и xi .
Качество построенной модели в целом оценивает коэффициент
(индекс) детерминации. Коэффициент множественной детерминации рассчитывается как квадрат индекса множественной корреляции:
2
R yx
(10)
1 x 2 ... x p
Частные коэффициенты корреляции характеризуют тесноту
связи между результатом и соответствующим фактором при устранении влияния (при закреплении их влияния на постоянном уровне)
других факторов, включенных в уравнение регрессии. Для двухфакторной модели их можно определить по формулам:
ryx1 ryx2 rx1x2
ryx2 ryx1 rx1 x2
ryx1 x2
; ryx2 x1
;
2
2
2
2
(1 ryx2 )(1 rx1x2 )
(1 ryx1 )(1 rx1 x2 )
rx1 x2 ryx1 ryx2
rx1x2 y
(1 ryx2 1 )(1 ryx2 2
(11)
)
При построении уравнения множественной регрессии может
возникнуть проблема мультиколлениарности факторов (тесная линейная зависимость более двух факторов). Считается, что две переменные явно коллинеарны, если rxi x j 0,7 .
Статистическая значимость уравнения множественной регрессии в целом оценивается с помощью общего F-критерия Фишера:
Ryx2 x ... x
n m 1
F
(12)
2
1 Ryx x ... x
m
где m – число факторов в линейном уравнении регрессии;
n – число наблюдений.
Вывод о статистической значимости уравнения множественной регрессии в целом и коэффициента множественной детерминации можно сделать, если наблюдаемое значение критерия больше
табличного, найденного для заданного уровня значимости (например,
= 0,05) и степенях свободы k1 m , k 2 n m 1.
Частный F-критерий оценивает статистическую значимость
присутствия каждого из факторов в уравнении множественной регрессии. Для двухфакторной модели Fx1 оценивает целесообразность
включения в уравнение фактора x1 после того, как в него был включен фактор x2 ; Fx2 оценивает целесообразность включения в уравнение фактора x2 после того, как в него был включен фактор x1 :
1 2
m
1 2
m
2
2
R yx
ryx2 2 n m 1
R yx
ryx2 1 n m 1
1 x2
1 x2
Fx1
, Fx2
2
2
1
1
1 R yx
1
R
yx1 x2
1 x2
(13)
где m – число факторов в линейном уравнении регрессии;
n – число наблюдений.
Фактическое значение частного F-критерия сравнивается с
табличным при 5%-ном или 1%-ном уровне значимости и числе степеней свободы: k1 1 , k 2 n m 1. Если фактическое значение превышает табличное, то дополнительное включение соответствующего
фактора в модель статистически оправдано, в противном случае фактор в модель включать нецелесообразно.