Модель множественной линейной регрессии

👀 556 просмотров
📌 494 загрузки
🏢️ МГТУ "СТАНКИН"

Выбери формат для чтения

Конспект лекции по дисциплине «Модель множественной линейной регрессии», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Модель множественной линейной регрессии», Word формат

Лекции 7-8. МОДЕЛЬ МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ к.э.н., доцент Просвирина Мария Евгеньевна  Классическая линейная модель множественной регрессии  Оценивание параметров модели множественной линейной регрессии методом наименьших квадратов  Интерпретация параметров уравнения множественной линейной регрессии  Анализ относительного влияния факторов на результат  Анализ взаимосвязи переменных модели множественной линейной регрессии  Анализ соответствия модели эмпирическим данным  Анализ качества оценок структурных параметров 2 Пусть имеются данные, полученные в m переменными (Xki,Yi), i=1,…,n, k=1,…,m результате n выборочных наблюдений над Модель, представляющую зависимость переменной Y от переменных X1,X2,…,Xm, можно записать в общем виде как Y = f(X1,X2,…,Xm) +  где Y – объясняемая (зависимая) переменная X1,X2,…,Xm – объясняющие (независимые) переменные (факторы) f – вид аналитической формы функции f(X1,X2,…,Xm) – часть результативного показателя, сформировавшаяся под влиянием учтенных в модели факторов, находящихся в статистической зависимости с переменной Y  – случайная компонента Модель, представляющая линейную зависимость переменной Y от переменных X1,X2,…,Xm, называют классической линейной моделью множественной регрессии: где Y – объясняемая (зависимая) переменная X1,X2,…,Xm – объясняющие (независимые) переменные (факторы) bk ,k=0,…,m – параметры уравнения регрессии  – случайная компонента 3 Построение модели множественной линейной регрессии сводится к нахождению (оценке) параметров bk, k=0,…,m и оценке качества построенной модели Относительно переменных модели множественной основные гипотезы (условия Гаусса-Маркова) рассмотрены для модели парной линейной регрессии линейной регрессии принимаются аналогичные тем, которые были Рассмотрим задачу множественной линейной регрессии: Будем предполагать, что условия Гаусса-Маркова выполняются Пусть имеется выборка значений переменных X1,X2,…,Xm и переменной Y: (Xik,Yi), i=1,…,n, , k=1,…,m. Требуется найти такие значения , k=0,…,m, при которых построенное эмпирическое уравнение регрессии будет «наилучшим» образом аппроксимировать имеющиеся выборочные данные 4 Принцип метода наименьших квадратов заключается в выборе таких коэффициентов , k=0,…,m, для которых сумма квадратов отклонений фактических значений Yi от расчетных теоретических (т.е. сумма квадратов остатков регрессии) для всех точек становится минимальной Для определения значений коэффициентов уравнений , k=0,…,m, составляют систему нормальных 5 Сложность решения системы нормальных уравнений с (m+1) неизвестными увеличивается с ростом m, т.е. с ростом числа факторов включенных в уравнение. Для поиска неизвестных значений применяются различные численные методы решения системы линейных алгебраических уравнений В частности, решение системы может быть выполнено методом определителей. В этом случае значения коэффициентов , k=0,…,m определяются по следующим формулам: где Δ – определитель системы а Δb0, Δb1, …, Δbm - частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы 6 Оцененные параметры уравнения регрессии показывают:  коэффициент регрессии , k=1,…,m - среднее изменение зависимой переменной при изменении значения фактора Xk на одну единицу при неизменном значении остальных факторов  коэффициент - прогнозное значение Y при X1=0, X2=0, … , Xm =0 (это может иметь или не иметь экономического смысла в зависимости от конкретной ситуации, например, если какой-либо фактор Xk не может принимать значение ноль, то вышеуказанная трактовка коэффициента не имеет смысла) Интерпретация оцененных параметров уравнения регрессии:  коэффициент регрессии , k=1,…,m: при увеличении значения переменной Xk на одну единицу (в единицах измерения переменной Xk) значение переменной Y увеличится/уменьшится (в зависимости от знака коэффициента регрессии ) в среднем на единиц (в единицах измерения переменной Y) при фиксированном (неизменном) значении остальных факторов коэффициент : при X1=0, X2=0, … , Xm =0 прогнозное значение переменной Y составит (в единицах измерения переменной Y); если все или отдельные переменные Xk не могут принимать значение ноль и/или переменная Y не может принимать значение по экономическому смыслу, то говорят, что коэффициент не имеет экономического смысла в силу указанных причин  7 Поскольку не все объясняющие переменные Х1,Х2, … ,Хm одинаково влияют на объясняемую переменную Y, необходимо оценивать относительное влияние каждой из этих переменных в эконометрической модели с позиций их воздействия на формирование объясняемой переменной В качестве меры относительного влияния объясняющей переменной Xk на объясняемую переменную Y используется коэффициент эластичности Коэффициент эластичности показывает на сколько процентов в среднем изменяется значение переменной Y при изменении значения переменной Xk на 1% от его среднего уровня при неизменном значении других факторов Интерпретация коэффициента эластичности: при увеличении значения переменной Xk на 1% (от ее среднего значения) значение переменной Y увеличится/ уменьшится (в зависимости от знака коэффициента эластичности) в среднем на Эk% при неизменном значении других факторов Чем больше значение модуля коэффициента эластичности Эk , тем больше относительное влияние объясняющей переменной Хk на объясняемую переменную Y 8 Теснота взаимосвязи между факторами, включенными в уравнение, и сила взаимного влияния отдельных факторов на результат определяются на основе расчета коэффициентов парной корреляции Рассмотрим двухфакторное линейное уравнение регрессии Для данного уравнения определяются три коэффициента парной корреляции: Коэффициенты корреляции и характеризуют тесноту линейной взаимосвязи между зависимой переменной и соответствующим фактором Коэффициент корреляции характеризует тесноту линейной взаимосвязи между факторами, включенными в уравнение Замечание: Нежелательным является высокое значение коэффициента , т.к. это означает сильную взаимосвязь между факторами, т.е. их коллинеарность, что нарушает условие независимости действия факторов. Если факторы явно коллинеарны (значение коэффициента межфакторной корреляции больше 0,7), то они дублируют друг друга, и один из них рекомендуется исключить из регрессии. При этом предпочтение отдается фактору, который наиболее тесно связан с результатом 9 Коэффициент множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с зависимой переменной, или, иначе, оценивает тесноту совместного влияния факторов на результат Коэффициент множественной корреляции принимает значения в интервале от 0 до 1: Чем ближе значение индекса корреляции к единице, тем теснее совместное влияние факторов на зависимую переменную Для двухфакторного уравнения линейной регрессии коэффициент множественной корреляции может быть выражен через соответствующие коэффициенты парной корреляции: 10 Показателем качества модели детерминации: множественной линейной регрессии является коэффициент который показывает долю общей вариации зависимой переменной, объясненную изменением функции регрессии f(X1,X2,…,Xm) Для множественной линейной регрессии коэффициент детерминации равен квадрату коэффициента множественной корреляции: 11 Для определения статистической значимости коэффициента детерминации R2 для модели множественной линейной регрессии выполняется проверка гипотезы H0: R2=0 относительно альтернативной гипотезы H1: R2≠0. Для проверки этой гипотезы используется статистика, рассчитываемая по формуле: Эта статистика имеет распределение Фишера с k1=m, k2=n-m-1 степенями свободы (где m – число факторов включенных в уравнение множественной линейной регрессии). Из таблиц распределения Фишера для заданного уровня значимости α и для k1 и k2 степеней свободы определяется критическое значение Fкр Вычисленное по выборочным данным значение статистики Fнабл сравнивается с критическим значением Fкр. Если F < Fкр, то гипотеза H0 принимается, т.е. R2 незначим (несущественно отличается от нуля), следовательно, модель слабо адаптирована к эмпирическим данным и ее нельзя использовать для прогнозирования Если F > Fкр, то гипотеза H0 отклоняется, т.е. R2 значим (существенно отличается от нуля), следовательно, модель достаточно хорошо адаптирована к эмпирическим данным и ее можно использовать для прогнозирования 12 Рассмотрим модель множественной линейной регрессии с m факторами Пусть на основе выборочных данных была выполнена оценка параметров данной модели и был рассчитан коэффициент детерминации, значение которого составило Затем в регрессию были добавлены еще р объясняющих переменных : Пусть на основе ранее использованных выборочных данных, а также данных по вновь добавленным p переменным, была выполнена оценка параметров данной модели и был рассчитан коэффициент детерминации, значение которого составило Разность показывает на сколько возросла доля объясненной вариации зависимой переменной Y за счет дополнительного включения в модель p переменных 13 Для проверки того, насколько существенно улучшилось качество построенной модели за счет включения дополнительных р факторов, выдвигается гипотеза против гипотезы Для проверки этой гипотезы используется статистика (частный критерий Фишера), рассчитываемая по формуле: Эта статистика имеет распределение Фишера с k1=m, k2=n-m-p-1 степенями свободы (где m – исходное число факторов включенных в уравнение множественной линейной регрессии, р – количество факторов, дополнительно включенных в модель). Из таблиц распределения Фишера для заданного уровня значимости α и для k1 и k2 степеней свободы определяется критическое значение Fкр Вычисленное по выборочным данным значение статистики Fнабл сравнивается с критическим значением Fкр. Если F < Fкр, то гипотеза H0 принимается, следовательно, дополнительное включение в модель р факторов нецелесообразно, т.к. доля объясненной вариации зависимой переменной Y существенно не увеличивается Если F > Fкр, то гипотеза H0 отклоняется, следовательно, дополнительное включение в модель р факторов оправдано, т.к. доля объясненной вариации зависимой переменной Y существенно увеличивается 14 Анализ качества оценок структурных параметров предполагает статистической значимости коэффициентов регрессионной модели выполнение оценки Для оценки статистической значимости коэффициентов регрессионной модели необходимо рассчитать стандартную ошибку регрессии и стандартные ошибки коэффициентов регрессии Стандартная ошибка регрессии (SEE – Standard error of estimate) измеряет степень изменчивости (вариабельности) фактического значения Y относительно оцененного значения, полученного по уравнению регрессии. Стандартная ошибка регрессии измеряет точность аппроксимации линии регрессии. Чем меньше стандартная ошибка регрессии, тем лучше аппроксимация Значение стандартной ошибки регрессии также связано с имеющейся взаимосвязью между переменными в модели. Чем сильнее взаимосвязь между переменными, тем ниже (относительно общей вариабельности) будет значение стандартной ошибки регрессии Стандартная ошибка регрессии определяется по формуле: 15 Для определения статистической значимости коэффициентов регрессии bk, k=1,…,m для линейной модели множественной регрессии выполняется проверка гипотезы H0: bk=0, относительно альтернативной гипотезы H1: bk ≠0, k=1,…,m Для проверки значимости коэффициентов регрессии гипотезы используется статистика, рассчитываемая по формуле: где - стандартная ошибка коэффициента регрессии bk Эта статистика имеет распределение Стьюдента с (n-m-1) степенями свободы Вычисленная статистика t сравнивается с критическим значением tкр Если , то нулевая гипотеза принимается, следовательно, параметр bk не значимо отличается от нуля, а объясняющая переменная Хk не оказывает существенного влияния на объясняемую переменную Y Если , то нулевая гипотеза отклоняется, следовательно, параметр b значимо отличается от нуля, а объясняющая переменная Хk оказывает существенное влияние на объясняемую переменную Y Замечание: по коэффициентам регрессии нельзя определить, какой из факторов оказывает наибольшее влияние на зависимую переменную, т.к. коэффициенты регрессии между собой несопоставимы из-за того, что они измерены разными единицами 16 Доверительный интервал для коэффициента регрессии bk : где tкр - критическое значение распределения Стьюдента с (n-m-1) степенями свободы для принятого уровня значимости α - стандартная ошибка коэффициента регрессии bk Доверительный интервал покрывает значение коэффициента регрессии bk с заданной вероятностью 1- α 17 Запишите общий вид модели множественной регрессии. Дайте пояснения обозначений. Запишите общий вид классической модели множественной линейной регрессии. Дайте пояснения обозначений. 3. Запишите оцененное уравнение множественной линейной регрессии. Дайте пояснения обозначений. 4. Сформулируйте и запишите математическое выражение принципа метода наименьших квадратов для модели множественной линейной регрессии. 5. Что представляет собой система нормальных уравнений? Чему равно число уравнений в системе? 6. Запишите формулу для расчета коэффициентов модели множественной линейной регрессии. 7. Дайте содержательную интерпретацию оцененных параметров модели множественной линейной регрессии. 8. Запишите формулу для расчета коэффициента эластичности для модели множественной линейной регрессии. 9. Дайте содержательную интерпретацию коэффициента эластичности для модели множественной линейной регрессии. 10. Дайте содержательную характеристику коэффициента парной корреляции. 11. Запишите формулы для расчета коэффициентов парной корреляции для двухфакторной модели. 1. 2. 18 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. Дайте содержательную характеристику коэффициента множественной корреляции. Запишите формулу для расчета коэффициента множественной корреляции. Дайте содержательную характеристику коэффициента детерминации. Запишите формулу для расчета коэффициента детерминации. Дайте пояснение обозначений. Сформулируйте гипотезу для проверки статистической значимости коэффициента детерминации. Какие выводы могут быть сделаны по результатам проверки гипотезы? Сформулируйте гипотезу для проверки статистической гипотезы о целесообразности дополнительного включения факторов в модель. Что включает в себя анализ качества оценок структурных параметров? Дайте содержательную характеристику стандартной ошибки регрессии. Запишите формулу для расчета стандартной ошибки регрессии. Дайте пояснения обозначений. Сформулируйте гипотезу для проверки статистической значимости коэффициента регрессии. Какие выводы могут быть сделаны по результатам проверки гипотезы? Запишите в общем виде доверительный интервал для коэффициентов регрессии модели множественной линейной регрессии. Дайте пояснение обозначений. Дайте содержательную характеристику выражения для доверительного интервала. 19