Множественная линейная регрессия

👀 583 просмотра
📌 546 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Множественная линейная регрессия», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Множественная линейная регрессия», Word формат

Лекция: «Множественная линейная регрессия» Регрессионный анализ – это метод изучения статистической взаимосвязи между одной зависимой количественной зависимой переменной от одной или нескольких независимых количественных переменных. Зависимая переменная в регрессионном анализе называется результирующей, а переменные факторы – предикторами или объясняющими переменными. Взаимосвязь между средним значением результирующей переменной и средними значениями предикторов выражается в виде уравнения регрессии. Уравнение регрессии – математическая функция, которая подбирается на основе исходных статистических данных зависимой и объясняющих переменных. Чаще всего используется линейная функция. В этом случае говорят о линейном регрессионном анализе. Регрессионный анализ очень тесно связан с корреляционным анализом. В корреляционном анализе исследуется направление и теснота связи между количественными переменными. В регрессионном анализе исследуется форма зависимости между количественными переменными. Т.е. фактически оба метода изучают одну и ту же взаимосвязь, но с разных сторон, и дополняют друг друга. На практике корреляционный анализ выполняется перед регрессионным анализом. После доказательства наличия взаимосвязи методом корреляционного анализа можно выразить форму этой связи с помощью регрессионного анализа. Цель регрессионного анализа – с помощью уравнения регрессии предсказать ожидаемое среднее значение результирующей переменной. Основные задачи регрессионного анализа следующие:        определения вида и формы зависимости; оценка параметров уравнения регрессии; проверка значимости уравнения регрессии; проверка значимости отдельных коэффициентов уравнения; построение интервальных оценок коэффициентов; исследование характеристик точности модели; построение точечных и интервальных прогнозов результирующей переменной. Для применения метода линейного регрессионного анализа необходимо соблюдать следующие условия:  сравниваемые переменные X и Y должны быть измерены в шкале интервалов или равных отношений;  предполагается, что переменные X и Y имеют нормальный закон распределения;  число варьирующих признаков в сравниваемых переменных должно быть одинаковым. Техника многофакторного регрессионного анализа в MS Excel практически не отличается от техники двухфакторного – используется тот же самый инструмент – Регрессия из пакета анализа. При этом предполагается, что в исходной таблице, описывающей случайные данные, каждый следующий столбец содержит выборку значений следующей по порядку случайной переменной; в соответствующем окошке указывается сплошная область значений влияющих переменных (факторов) многофакторной линейной модели. Что касается сути самого анализа, в многофакторной регрессионной модели дополнительно учитываются и анализируются следующие характерные аспекты: - коэффициент многофакторной детерминации (определение аналогично двухфакторной модели); с учетом сокращения степеней свободы, вызванным многофакторностью, применяется скорректированный коэффициент многофакторной детерминации; - тест общей значимости качества регрессии; производится на основе статистики Фишера ( - распределение); Специальным приемом в многофакторном регрессионном анализе явлений и процессов с наличием в них резких изменений (шоков) является использование грубых (шоковых) переменных. Присутствие шоков в модельных данных часто можно определить визуально (например, по виду диаграммы рассеяния). Шоковые переменные обычно задаются как бинарные, т.е. могут принимать только два различных значения – чаще всего 0 и 1. С их помощью моделируются резкие изменения в модели, вызванные психологическими, социальными, экономическими и т.п. стрессами. Дополнительная шоковая переменная D = (0,1) используется в технике регрессионного анализа наравне с другими переменными. С использованием техники многофакторного регрессионного анализа проводится также статистический анализ распределенных лаговых моделей. Лаговые (с задержками) модели часто возникают в практике анализа случайных временных рядов; в моделях такого сорта предполагается, что на зависимую переменную оказывают влияние значения некоторой однородной объясняющей переменной, но в различные моменты (периоды) времени T. Общая форма такой модели выглядит следующим образом: Приведение к стандартному виду такой «многофакторной» модели очевидно – «смещенные во времени» переменные рассматриваются как «независимые». Принципиальное отличие лаговой модели от «чистой» многофакторной – наличие сильных корреляций между «соседними» факторами. Регрессионный анализ является основой для предсказания поведения случайного явления (процесса) за пределами данных. Уже в самом простом случае – линейной регрессии – продолжение регрессионной прямой за пределы интервала данных (аргумента) является простейшей формой предсказания. Пример решения задачи Изучается линейная зависимость между средними значениями результативного признака 𝑦 – ожидаемая продолжительность жизни мужчины (лет) от пяти факторных признаков – регрессоров: 𝑥 – численность населения (тыс.чел.); 𝑥 – рождаемость (на 1000 чел.); 𝑥 – смертность (на 1000 чел.); 𝑥 – ВВП на душу населения (долл.США по покупательной способности валют); 𝑥 – плотность населения (кол-во чел. на км ), собранным на 𝑛 = 52 объектах. Модель множественной линейной регрессии признака 𝑦 имеет вид: 𝑦 = 𝑎 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝜀 ; 𝑖 = 1,52 , где 𝜀 – случайные величины (случайные эффекты влияния на результативный признак неконтролируемых факторов), независимые и имеющие нормальное ): распределение 𝜀 = 𝑁(0; 𝜎 𝑦 = 𝑁 𝑀𝑦 = 𝑎 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 ; 𝜎 = 𝜎 Функция 𝑦 = 𝑀(𝑦|𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 ) = 𝑎 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 называется линейной функцией множественной регрессии С помощью программы «Корреляция» можно получить матрицу 6 × 6 оценок коэффициентов парной корреляции между признаками и сделать вывод о силе линейной связи результативного признака с каждым из регрессоров и о силе линейной связи каждой пары регрессоров. Введём в рабочий лист Microsoft Excel исходные данные и воспользуемся надстройкой АНАЛИЗ ДПАННЫХ – Корреляция (рисунок 1). Рисунок 1 – Результат выполнения программы Корреляция В матрице размещены оценки коэффициентов парной корреляции. Ни один из элементов этой матрицы 𝑟 не превосходит 0,7. Наиболее тесная связь наблюдается между результативным признаком y и переменными 𝑥 ( смертность на 1000 чел.) и 𝑥 (ВВП на душу населения, долл.США по покупательной способности валют): 𝑟 = −0,6 ; 𝑟 , = 0,69 , (значения t - статистик для этих коэффициентов превосходят критическое значение t кр (α = 0,05; ν = 51 − 5 − 1) = 2,0129 ) Между y и регрессорами 𝑥 и 𝑥 Наблюдается связь средней тесноты. и Слабая связь наблюдается между регрессорами 𝑥 (численность населения, тыс.чел.) 𝑥 , поскольку 𝑟 = −0,19 и между 𝑥 (рождаемость населения, тыс.чел.) и 𝑥 , , поскольку 𝑟 = −0,23. Но указанные оценки регрессионных коэффициентов не , превосходят критических значений, коэффициенты статистически незначимы, что указывает на слабую линейную связь между ними и отсутствие мультиколлинеарности факторов. Вычислим оценки 𝑎 , 𝑎 , 𝑎 , 𝑎 , 𝑎 , 𝑎 и 𝑠 параметров множественной линейной ) с регрессии 𝑦 = 𝑎 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝜀 (где 𝜀 = 𝑁(0; 𝜎 помощью программы «Регрессия» с «Выводом остатка», приняв уровень надёжности равным 95%; записать уравнение регрессии и его стандартную ошибку (𝑠 ); используя «Остатки», вычислить среднюю относительную ошибку аппроксимации 𝛿; привести формулы расчёта показателей «Регрессионной статистики», пояснив их смысл. Воспользуемся надстройкой АНАЛИЗ ДАННЫХ – Регрессия (рисунок 2). Рисунок 2 – Результат выполнения программы Регрессия Оценки параметров равны: 𝑎 =76,755; 𝑎 =-6,8E-07; 𝑎 =-0,089; 𝑎 =-1,415; 𝑎 =0,001; 𝑎 =-0,001 Оценка линейной функции регрессии имеет вид: 𝑦 =𝑎 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 +𝑎 𝑥 𝑦 = 76,76 − 6,8 ∙ 10 𝑥 − 0,098𝑥 − 1,415𝑥 + 0,001𝑥 − 0,001𝑥 , , , , , , Зная остатки 𝜀 = 𝑦 − 𝑦 , несложно вычислить среднюю ошибку аппроксимации 𝛿= 1 𝑛 |𝑦 − 𝑦 | ≈ 3,912% < 12% 𝑦 Поскольку 𝛿 < 12% качество модели удовлетворительное. Оценка коэффициента множественной линейной детерминации 𝑅 (𝑦|𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 ) = 0,83 83% вариации продолжительности жизни мужчины обусловлено линейным влиянием на неё численностью населения, рождаемостью, смертностью, ВВП на душу населения и плотностью населения. Оценка коэффициента множественной линейной корреляции: 𝑅 (𝑦|𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 ) = 0,91 Что указывает на тесную линейную зависимостью между продолжительности жизни мужчины и численностью населения, рождаемостью, смертностью, ВВП на душу населения и плотностью населения. Оценка нормированного коэффициента множественной линейной детерминации (учитывающего количество факторов модели множественной регрессии): 𝑅 (𝑦|𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 ) = 0,81 𝑅 > 𝑅 , что указывает на адекватность уравнения регрессии. Стандартная ошибка регрессии 𝑠 =3,55 Предположив выполнение условий линейного регрессионного анализа, оценим статистическую значимость уравнения регрессии (используя для проверки на 5% уровне значимости гипотезы 𝐻 : 𝑎 = 𝑎 = 𝑎 = 𝑎 = 𝑎 = 0, значения F – статистики, размещённые в таблице «Дисперсионный анализ»). В таблице Дисперсионный анализ указаны (столбец SS) значения случайных величин 𝑆𝑆регр = ∑ 𝑆𝑆ост = ∑ 𝑆𝑆итог = ∑ (𝑦 − 𝑦) = 𝑛𝜎 𝑅 = 2821,71 – факторная сумма квадратов (𝑦 − 𝑦 ) == 𝑛𝜎 1 − 𝑅 = 581,28 – остаточная сумма квадратов (𝑦 − 𝑦) = 3402,98 – общая сумма квадратов и соответствующие количества степеней свободы df: 𝑚 = 5, 𝑛 − 𝑚 − 1 = 46, 𝑛 − 1 = 51 В столбце MS указаны значения соответствующих дисперсий 𝑀𝑆регр = 𝑀𝑆ост = 𝑆𝑆регр = 564,34 𝑚 𝑆𝑆ост = 12,64 𝑛−𝑚−1 Проверка гипотезы 𝐻 : 𝑎 = 𝑎 = 𝑎 = 𝑎 = 𝑎 = 0 производится на основе анализа статистики 𝐹 ; : 𝐹 ; = 𝑆𝑆регр 𝑅 𝑀𝑆регр 𝑚 𝑚 = = 𝑆𝑆 𝑀𝑆ост ост (1 − 𝑅 ) 𝑛−𝑚−1 𝑛−𝑚−1 имеющей (в предположении справедливости 𝐻 ) распределение Фишера-Снедекора с числом степеней свободы 𝑚 и 𝑛 − 𝑚 − 1. Критическую точку 𝑓 , ; ; = 2,4174 находим с помощью функции FРАСПОБР. На 5% уровне значимости наблюдаемое значение статистики 𝐹 ; = 44,66 превосходит критическое 𝑓 , ; ; = 2,4174, что означает: гипотеза 𝐻 : 𝑎 = 𝑎 = 𝑎 = 𝑎 = 𝑎 = 0 отвергается при 𝛼 = 0,05 уравнение регрессии статистически значимо (адекватно). В противном случае нет оснований отвергать 𝐻 на уровне значимости 𝛼 = 0,05 уравнение статистически регрессии незначимо (не адекватно) Проверим на 5% уровне значимости гипотезы 𝐻 альтернативных 𝐻 ( ) ( ) : 𝑎 = 0, 𝑗 = 1,2,3,8,9 при : 𝑎 ≠ 0, 𝑗 = 1,2,3,8,9 В столбце «t – статистика» приводятся значения статистики 𝑇 выполнение гипотезы 𝐻 ( ) 𝑡 которая при = имеет распределение Стьюдента с 𝑛 − 𝑚 − 1 степенями свободы. Область принятия гипотезы 𝐻 Критическую точку СТЬЮДРАСПОБР. ( ) , ( ) на уровне значимости 𝛼: 𝑇 = 2,0129 ; находим с ( ) >𝑡 помощью , ; функции Коэффициенты 𝑎 =76,755; 𝑎 =-0,089; 𝑎 =-1,415; 𝑎 =0,001 – статистически значимы Коэффициенты 𝑎 =-6,8E-07; 𝑎 =-0,001 – статистически незначимы (рисунки 3,4). Рисунок 3 – Результат проверки гипотез 𝐻 ( ) : 𝑎 = 0, 𝑗 = 1,2,3,8,9 В столбце «P – значения» приводятся рассчитанные уровни значимости гипотез 𝐻 – вероятности 𝑝 = 2𝑃 𝑇 𝐻 ( ) ( ) если 𝑝 < 𝛼 (рисунок 4). >𝑡 , ; . Гипотезу 𝐻 ( ) ( ) отвергают при альтернативе Рисунок 4 - Результат проверки гипотез 𝐻 ( ) : 𝑎 = 0, 𝑗 = 1,2,3,8,9 Эти же гипотезы можно проверить при помощи интервальных оценок параметров уравнений регрессии. В столбцах «Нижние 95%» и «Верхние 95%» приводятся нижние и верхние границы интервальных оценок параметров: 𝑎 = 76,755 ∈ [73,142; 80,369 ] - в интервал не попадает 0 - 𝐻 𝑎 = −6,8 ∙ 10 ∈ [−5,7 ∙ 10 ; 4,3 ∙ 10 ( ) отвергается ] - в интервал попадает 0 - 𝐻 𝑎 = −0,098 ∈ [−0,151; −0,028]- в интервал не попадает 0 - 𝐻 𝑎 = −0,001 ∈ [−0,002 ; 0,001]- в интервал попадает 0 - 𝐻 ( ) не отвергается ( ) отвергается ( ) отвергается 𝑎 = −1,415 ∈ [−1,724 ; −1,106]- в интервал не попадает 0 - 𝐻 𝑎 = 0,001 ∈ [0,0005; 0,0008]- в интервал не попадает 0 - 𝐻 ( ) ( ) отвергается не отвергается При наличии в уравнении регрессии хотя бы одного незначимого коэффициента исключить тот регрессор, при котором коэффициент незначим, а соответствующая этому коэффициенту величина P – значения является наибольшей (значение соответствующей t – статистики является наименьшим). Выполнить п.п.3-4 с оставшимися регрессорами. Процедуру пошагового исключения регрессоров продолжать до тех пор, пока не будет получено значимое уравнение регрессии со значимыми коэффициентами. Если после исключения регрессора уравнение становится статистически незначимым или остаётся значимым, но его нормированный R – квадрат значительно уменьшается, то этот регрессор, коэффициент при котором незначим (при наличии такого регрессора). Для каждого шага полезно записать: - уравнение множественной регрессии; - коэффициент линейной детерминации 𝑅 , нормированный 𝑅 , стандартную ошибку 𝑠 , ошибку аппроксимации 𝛿, значение F – статистики и критическую точку 𝑓 , ; ; найденную с помощью функции FРАСПОБР; - под оценками 𝑎 параметров 𝑎 - 95%-ные доверительные интервалы для этих параметров; - под доверительными интервалами – числовые значения t – статистик и критическую точку 𝑡 , ; , найденную с помощью функции СТЬЮДРАСПОБР; - под значениями t – статистик – соответствующее P – значения. В построенном уравнении регрессии 𝑦 = 76,76 − 6,8 ∙ 10 𝑥 − 0,098𝑥 − 1,415𝑥 + 0,001𝑥 − 0,001𝑥 имеются статистически незначимые коэффициенты, такое уравнение нельзя считать приемлемым. ( ) Для коэффициента 𝑎 = −6,8 ∙ 10 значение 𝑇 = 0,277 наименьшее, а вероятность 𝑝 = 0,783 – наибольшая. Переменную 𝑥 следует исключить из модели. Оценка линейной регрессии (модель 1) примет вид: 𝑦 =𝑎 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 +𝑎 𝑥 𝑦 = 76,65 − 0,09𝑥 − 1,41𝑥 + 0,0007𝑥 − 0,0006𝑥 , , , , , 𝑎 = 76,65 ∈ [73,15; 80,15 ]; 𝑝 =6,87192E-40 𝑎 = −0,09 ∈ [−0,15; −0,03]; 𝑝 =0,01 𝑎 = −1,41 ∈ [−1,72 ; −1,11]; 𝑝 =3,12696E-12 𝑎 = 0,0007 ∈ [0,0005; 0,0008]; 𝑝 =2,77035E-13 𝑎 = −0,0006 ∈ [−0,0016 ; 0,0005]; 𝑝 =0,2969 В построенном уравнении регрессии имеются статистически незначимые коэффициенты, такое уравнение нельзя считать приемлемым. Для коэффициента 𝑎 = −0,0006 значение 𝑇 ( ) = 1,05 наименьшее, а вероятность 𝑝 = 0,297 – наибольшая. Переменную 𝑥 следует исключить из модели. Оценка линейной регрессии (модель 2) примет вид: 𝑦 =𝑎 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 𝑦 = 76,32 − 0,09𝑥 − 1,39𝑥 + 0,0007𝑥 , , , , 𝑎 = 76,32 ∈ [72,88; 79,76 ]; 𝑝 =1,0078E-40 𝑎 = −0,09 ∈ [−0,15; −0,03]; 𝑝 =0,0056 𝑎 = −1,415 ∈ [−1,724 ; −1,106]; 𝑝 =3,1475E-12 𝑎 = 0,0007 ∈ [0,0005; 0,0008]; 𝑝 =2,6448E-13 ( ) На последнем шаге можно исключить переменную 𝑥 для которой 𝑇 = 2,90 превосходит критическое значение, но 𝑝 = 0,01 > 𝛼 = 0,05. Оценка линейной регрессии (модель 3) примет вид: 𝑦 =𝑎 + 𝑎 𝑥 + 𝑎 𝑥 𝑦 = 74,13 − 1,42𝑥 + 0,0007𝑥 , , , 𝑎 = 74,13 ∈ [70,82; 77,45 ]; 𝑝 = 1,7E − 41 𝑎 = −1,42 ∈ [−1,74 ; −1,09]; 𝑝 = 1,16E − 11 𝑎 = 0,0007 ∈ [0,0006; 0,0008]; 𝑝 = 1,01E − 13 Результаты исследования представлены в таблице (таблица 1). Таблица 1 Модель 1 2 3 𝑅 0,829 0,825 0,794 𝑅 0,814 0,814 0,786 𝑠 3,520 3,524 3,781 𝛿 3,836% 4,009% 4,538% 𝐹набл 56,92 75,35 94,52 𝑓табл 2,5695 2,7981 3,1866 𝑡табл 2,0117 2,0106 2,0106 Наилучшей, по результатам исследования, является 3-хфакторная модель линейной регрессии (модель 2): 𝑦 = 76,32 − 0,09𝑥 − 1,39𝑥 + 0,0007𝑥 , , , , Поскольку и уравнение, и все его регрессионные коэффициенты статистически значимы. 6. Выбрать лучшее уравнение и, используя его, ответить на вопросы: а какой процент выборочной дисперсии признака 𝑦 обусловлен линейным влиянием включённых в уравнение регрессоров? б каковы точечная и 95%-ная интервальная оценка генерального среднего значения признака 𝑦 при значениях регрессоров на первом объекте? в увеличение какого регрессора на единицу его измерения (при неизменных значениях других регрессоров) ведёт к наибольшему изменению среднего значения результативного признака; увеличение какого регрессора на единицу его измерения (при неизменных значениях других регрессоров) ведёт к наибольшему максимально возможному с 95%-ной вероятностью изменению среднего значения результативного признака? Увеличение среднего значения какого регрессора на 1% (по отношению к его среднему значению) при неизменных значениях других регрессоров ведёт к наибольшему процентному изменению среднего значения результативного признака (по отношению к его среднему значению); Увеличение среднего значения какого регрессора на 1% (по отношению к его среднему значению) при неизменных значениях других регрессоров ведёт к наибольшему максимально возможному с 95%-ной вероятностью процентному изменению среднего значения результативного признака? Согласно полученному уравнению 𝑅 (𝑦|𝑥 , 𝑥 , 𝑥 ) = 0,83, 83% вариации продолжительности жизни мужчины обусловлено линейным влиянием на неё рождаемостью, смертностью и ВВП на душу населения. Рассчитанное по уравнению число 𝑦 – это точечная оценка генерального среднего значения продолжительности жизни мужчины при условии, что значения факторных признаков зафиксированы на некоторых уровнях. Например, для Австрии: 𝑦 = 76,32 − 0,09 ∙ 12 − 1,39 ∙ 11 + 0,0007 ∙ 16848 = 72,13 Реальная продолжительность жизни мужчины в Австрии составляет 73 года. Таким образом 𝜀 = 73 − 72,13 = 0,87 > 0 реальное значение признака 𝑦 выше среднего уровня. Если увеличить количество родившихся детей на единицу (переменная 𝑥 ), то продолжительность жизни уменьшится на 0,09; при увеличении на единицу переменной 𝑥 , продолжительность жизни уменьшится на 1,39. Увеличение на единицу ВВП на душу населения (переменной 𝑥 ), продолжительность жизни увеличится на 0,0007. Если все факторные переменные принимают нулевые значения, то 𝑦 = 76,32. Вычислим коэффициенты эластичности: Э =𝑎 ∙ ̅ = −0,03; Э =𝑎 ∙ ̅ = −0,18; Э =𝑎 ∙ ̅ = 0,08 Если увеличить количество родившихся детей на 1% (переменная 𝑥 ), то продолжительность жизни уменьшится на 0,03%; при увеличении на 1% переменной 𝑥 , продолжительность жизни уменьшится на 0,18%. Увеличение на 1% ВВП на душу населения (переменной 𝑥 ), продолжительность жизни увеличится на 0,08%. Рекомендуемая литература 1. Колемаев В.А., Калинина В.Н., Теория вероятностей и математическая статистика: Учебник. – М., ЮНИТИ-ДАНА, 2003 2. Калинина В.Н., Соловьёв В.И., введение в многомерный статистический анализ: Учебное пособие / ГУУ.-М., 2003. 3. Айвазян С.А., Мхитарян В.С., Прикладная статистика. Основы эконометрики: в 2-х т.: Учебник. – М., ЮНИТИ-ДАНА, 2001 4. Айвазян С.А., Мхитарян В.С., Прикладная статистика в задачах и упражнениях: Учебник. - М., ЮНИТИ-ДАНА, 2001 Добавлено примечание ([П1]): Добавлено примечание ([П2R1]):

ЭКОНОМЕТРИКА

#Лекция

Множественная линейная регрессия

Тебе могут подойти лекции