«Многомерная регрессионная модель»

Конспект лекции по дисциплине «Многомерная регрессионная модель», Word формат

Многомерная регрессионная модель Рассмотрим общую линейную модель с k переменными. Пусть существует линейное соотношение между объясняемой переменной y , k объясняющими переменными-регрессорами x1 , x2 , xk , и случайным возмущением (ошибкой)  . Если мы имеем выборку n наблюдений над этими переменными, то можно записать (1) yi  b0  b1 xi1    bk xik   i . Коэффициенты bi и параметры распределения случайной величины  i неизвестны. Наша задача состоит в получении наилучших их оценок. Сформулируем основные гипотезы, лежащие в основе многомерной регрессионной модели: 1. yi  b0  b1 xi1    bk xik   i , i  1, , n, n  k , – спецификация модели, или (2) yi  b1 xi1  b2 xi 2    bk xik   i (то есть можно различать модели со свободным членом или без него). 2. xi1 ,, xik – детерминированные величины, т.е. векторы x1  1,,1T , x2  x21 ,, x2n T ,  , xk  xk1,, xkn T – линейно независимы в Rn . 3. Величины 1, ,  n – случайные компоненты, для которых выполняется:  M i  0 , M  i2  D i    2 для всех i  1,, n , (условие гомоскедастичности);  M  i j   0 при i  j – статистическая независимость (некоррелированность) ошибок для разных наблюдений;   i  N 0, 2 , т. е.  i – нормально распределенная случайная ве-     личина со средним 0 и дисперсией  2 . В дальнейшем, для компактности изложения, будем использовать матричные обозначения. Обозначим через Y   y1,, yn T ( n  1 ) вектор-столбец наблюдений над объясняемой переменной y , B  b1,, bk T – ( k  1 ) вектор коэффициентов;   1,,  n T – ( n  1 ) вектор ошибок;  x11  x1k  X     – ( n  k ) матрица значений объясняющих переменных.    xn1  xnk  В случае выполнения предпосылок 1 – 3 имеем нормальную линейную модель множественной регрессии. Оценивание неизвестных параметров модели Одной из основных задач эконометрического исследования в регрессионном анализе является определение оценок неизвестных параметров изучаемой модели, а также определение их статистической значимости. Оценки неизвестных параметров b̂i модели (2) находятся по методу наименьших квадратов из условия минимизации суммы квадратов ошибок наблюдений: 2 k   R    i2    yi   b j xij   min . i 1 i 1 j 1  В матричных обозначениях: R  Y  XB T Y  XB   min . (3) Необходимые условия экстремума дают систему нормальных уравнеn n ний: n  R  2   yi  br i 1  b x  j ij xir  0 , r  1,, k . j 1  Или в матричных обозначениях: X T Y  X T XB  0 . k   1 Откуда, учитывая существование матрицы X T X в силу предпосылки 2 ( det X T X  0 ), находят МНК-оценку для вектора неизвестных параметров 1 (4) Bˆ  X T X X T Y .     Полученные оценки обладают тремя свойствами точечных оценок - состоятельность, несмещенность и эффективность, что позволяет им наиболее точно описывать истинные неизвестные значения параметров. Для определения статистической значимости полученных оценок, понадобится матрица вариации оценок B̂ : T V Bˆ  M  Bˆ  B Bˆ  B  .   Учитывая значение Bˆ  B , получается 1 1 V Bˆ  M  X T X X T  T X X T X      1  1 1 (5)  X T X  X T M  T X X T X    2 X T X  . Реально величина  2 , характеризующая дисперсию ошибок наблюдений, неизвестна. Найдем ее несмещенную оценку ˆ 2  S 2 . Минимальное значение величины R в (5) получится тогда, когда вместо B подставляется его МНК-оценка: T T Rmin  Y  XBˆ Y  XBˆ  Y  Yˆ Y  Yˆ  eT e . (6)                Здесь Yˆ  XBˆ – вектор прогнозных значений, e  Y  Yˆ – вектор остатков регрессии. Учитывая значение B̂ из (4) и Y  XB   , получим     Y  XBˆ  XB    X X T X Отсюда, так как  X X T X  1 1  X T  XB      I n  X X T X   T  Rmin   T  I n  X X T X   Матрица A  I n  X X T X Поэтому:  1  XT, 1 2 X   X XT X  T  1  1 X T  .  X T   .  X T является идемпотентной, т.е. A2  A .   1 Rmin   T  I n  X X T X X T  .   Теперь можно указать несмещенную оценку для величины  2 : R 1 T ˆ 2  S 2  min  e e. nk nk Формула (7) позволяет записать оценку матрицы вариаций (5) и самым оценку дисперсий МНК-оценок неизвестных параметров модели: 1 Rmin Vˆ Bˆ  X T X ; nk 1 R Dˆ bˆi  Vˆii  X T X ii min . nk Для Rmin можно также получить выражение Rmin  eT e  Y T Y  Bˆ T X T Y .   (7) тем      (8) (9) МНК-оценки (4) обладают также наименьшей дисперсией в классе линейных несмещенных оценок, т. е. являются наиболее эффективными (теорема Гаусса-Маркова). Доверительные интервалы и проверка статистических гипотез Статистический анализ значимости коэффициентов регрессии для нормальной модели проводят с помощью построения доверительных интервалов и проверок гипотез. Доверительные интервалы определяются следующим образом: bˆ  t Dˆ bˆ  b  bˆ  t Dˆ bˆ , i   i i i   i где b̂i - точечная оценка неизвестного параметра, t  t ( ; n  k ) - статистика критерия Стьюдента, для которой учитывается число степеней свободы и объем выборки, n – число наблюдений, k – число оцененных параметров модели. Dˆ (bˆi ) - исправленное стандартное отклонение полученных оценок, используя (8). Данная интервальная оценка покроет истинное неизвестное значение параметра bi с доверительной вероятностью или надежностью  1   , близкой к 100%. Параметр считается статистически значимым, если соответствующий доверительный интервал не содержит нулевое значение. Важным подходом при исследовании значимости являются проверки гипотез H 0 : bi  bi 0 , где также используется критерий Стьюдента. Сравниbˆi  bi 0 ваются две точки: наблюдаемая t  и критическая t  t (1   ; n  k ) . Dˆ bˆi Очевидно гипотеза H 0 : bi  bi 0 будет принята с уровнем значимости  , если соответствующий доверительный интервал содержит гипотетическое значение bi 0 . Отметим, что проверка значимости коэффициентов регрессии или значимости влияния регрессоров – это проверка гипотез H 0 : bi  0 , т.е. параметр bi - несущественный, не значимый.   Верификация модели и ее качество Качество оценивания многомерной регрессии и ее верификацию можно определить дисперсионным анализом в модели, с использованием коэффициента детерминации R 2 . Общая сумма квадратов TSS    yi  y  разбивается здесь на две чаn 2 i 1 сти: объясненную регрессионным уравнением и не объясненную (т. е. связанную с ошибками  i ): TSS  ESS  RSS , где ESS    yˆ i  y  , RSS    yi  yˆ i  . n i 1 2 n 2 i 1 Гипотеза об отсутствии линейной функциональной связи между объясняемой переменной y и регрессорами x1 ,, xk может быть записана как H 0 : b1    bk  0 , т. е. нулевая гипотеза состоит в том, что коэффициенты при всех регрессорах равны нулю. Для проверки этой гипотезы используется критерий Фишера с заданным уровнем значимости  . Статистика этого критерия Fкр  , k  1, n  k  2  yˆ i  y  k  1  сравнивается с наблюдаемой точкой F0  , n – число 2 ˆ     y  y n  k  i i наблюдений, k – число оцененных параметров модели. Если F0  Fкр.  ; k  1, n  k , гипотеза H 0 отвергается на уровне значимости  ; уравнение в целом значимо и оцененная линейная множественная регрессия yˆ  bˆ0  bˆ1 x1    bˆk xk пригодна для описания зависимости между y и x1 ,, xk в рамках имеющихся данных. Определим коэффициент детерминации RSS ESS . (10) R2  1   TSS TSS Коэффициент R 2  0; 1 показывает качество подгонки регрессионной модели к наблюдаемым значениям yi . Если R 2  0 , то регрессия не улучшает качество предсказания yi по сравнению с тривиальным предсказанием yˆ i  y . Другой крайний случай R 2  1 означает точную подгонку: все точки наблюдений лежат на регрессионной плоскости. Определенная ранее F - статистика с учетом коэффициента детерминации R 2 определится как R2 n  k . F  1  R2 k  1 Заметим, что при добавлении еще одного регрессора или еще одной объясняющей переменной к уравнению регрессии коэффициент R 2 , вообще говоря, возрастает. Если взять число регрессоров, равным числу наблюдений, всегда можно добиться того, что R 2  1, но это вовсе не будет означать, что существует содержательная, имеющая экономический смысл зависимость y от регрессоров. Для того чтобы устранить эффект, связанный с ростом R 2 при возрастании числа регрессоров, вводится скорректированный коэффициент детерминации R 2 : RSS n  k  . (11) R 2  1 TSS n  1 Корректировка R 2 на число регрессоров оправдана тем, что числитель дроби в (11) есть несмещенная оценка дисперсии ошибок, а знаменатель – несмещенная оценка дисперсии y . Использование скорректированного коэффициента детерминации R 2 более корректно для сравнения регрессий при изменении числа регрессоров. Однако следует иметь в виду, что иногда даже плохо определенная модель регрессии может дать высокий коэффициент детерминации R 2 , и признание этого факта привело к снижению значимости R 2 . Теперь он рассматривается лишь как один из показателей, который должен быть проверен при построении модели регрессии. Следовательно, и корректировка этого коэффициента мало что дает. Интерпретация коэффициентов регрессии и прогнозирование на ее основе Множественный регрессионный анализ позволяет разграничить влияние независимых переменных, допуская при этом возможность их коррелированности. Коэффициент регрессии при каждой переменной xi дает оценку ее влияния на величину y в случае неизменности влияния на нее всех остальных переменных. Так, например, в оцененной линейной регрессии yˆ  bˆ0  bˆ1 x1  bˆ2 x2 коэффициенты b̂1 и b̂2 являются показателями силы связи, характеризующими абсолютное (в натуральных единицах измерения) изменение объясняемой переменной y при изменении каждого из x1 и x 2 соответственно на единицу своего измерения при фиксированном влиянии второй переменной. Относительными показателями силы связи в уравнении множественной регрессии являются частные коэффициенты эластичности: xj E yx j  bˆ j , y где x j и y – выборочные средние величины объясняющей переменной x j и результирующего показателя y соответственно, значения которых подсчитаны в ходе статистического анализа рассматриваемой регрессионной модели. Эластичность E yx j показателя y по переменной x j приблизительно определяет на сколько процентов изменится значение y от своего среднего уровня при изменении объясняющей переменной x j на 1% от ее среднего уровня. Прогноз на основе линейной модели множественной регрессии может быть точечным и интервальным. Если задан дополнительный набор объясняющих переменных – вектор x0  x10 , x20 , , xk0 , то точечный прогноз полу-   чается подстановкой прогнозных значений регрессоров в уравнение модели. Для получения интервального прогноза вначале рассчитывается оценка дисперсии оценки прогнозируемой величины 1 T R Dˆ  yˆ0   ˆ 2 1  x0 X T X x 0  , где ˆ 2  S 2  min .   nk С надежностью  можно утверждать, что истинное значение прогнозируемой величины y0 покрывается интервалом   yˆ 0  t Dˆ  yˆ 0   y0  yˆ 0  t Dˆ  yˆ 0  . 1   Здесь t  t  , n  k  – квантиль распределения Стьюдента.  2  Пример 1. На предприятиях Российской Федерации изучалась зависимость объема производства  y  от капитальных вложений x1  и выполнения нормы выработки  x2  . Исходные данные для 14 предприятий приведены в табл. 2.1. Требуется построить линейную модель, оценить статистическую значимость коэффициентов и модели в целом. Дать интерпретацию полученным данным и построить точечный и интервальный прогнозы. В данном примере мы располагаем пространственной выборкой объема n  14 ; число объясняющих переменных k  2 . Специальный анализ технологий сбора исходных статистических данных показал, что гипотеза о взаимной некоррелированности и гомоскедастичности ошибок наблюдений может быть принята. Поэтому мы можем записать уравнения статистической связи между yi и xi1 , xi 2 в виде yi  b0  b1 xi1  b2 xi 2   i, i  1,,14 с выполнением условий предпосылок для линейной модели. Матрица X будет составлена из трех столбцов размерности 14 каждый; в качестве первого столбца используется вектор, состоящий из единиц, а столбцы 2 и 3 представлены соответственно 3 и 4 столбцами табл. 2.1. Вектор-столбец Y определяется 2-м столбцом табл. 2.1. Таблица 2.1 Данные об объеме производства ( y – млн. руб.) от капитальных вложений ( x1 – млн. руб.) и выполнений нормы выработки ( x 2 – %) Номер предyi x1 x2 приятия 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Итог Средний итог 2 52,8 48,4 52,4 50,0 54,9 53,9 53,8 53,1 52,4 53,0 52,9 53,1 60,1 60,0 750,8 53,63 3 16,3 16,8 18,5 16,3 17,9 17,4 17,5 16,1 16,2 17,0 16,7 17,5 19,1 19,0 242,3 17,31 4 99,5 98,9 99,2 99,3 99,8 99,6 99,5 99,8 99,7 99,8 99,9 100,0 100,2 100,1 1395,3 99,66 Применение формулы (4) (лекция №1) к исходным данным позволяет получить следующие МНК-оценки для параметров модели: bˆ0  499 ,47 , bˆ1  1,65 , bˆ2  5,26 . Таким образом, оценка множественной регрессии в данном случае имеет вид yˆ  499,47  1,65x1  5,26x2 . Сумма квадратов остатков, вычисленная по формуле (6) (лекция №1), равна Rmin  15,82 . Отсюда несмещенная оценка дисперсии ошибок наблюдений получится равной ˆ 2  Rmin 14  3  1,438. С учетом этого можно записать оценку матрицы вариаций МНК-оценок коэффициентов регрессии: 9404,60 10,98  96,27 Vˆ   10,98 0,12  0,13      96,27  0,13 0,99  (диагональные элементы этой матрицы равны оценкам дисперсий МНК-оценок bˆ0 , bˆ1 , bˆ2 ; внедиагональные – их ковариациям). Стандартная форма компьютерной выдачи результатов счета, объединяющая информацию о значениях оценок регрессии b̂i и их средних квадратических ошибках si , как правило, имеет следующий вид: yˆ  499,47  1,65x1  5,26x2 . 96,98 0,35 0,99 В скобках под значениями оцененных коэффициентов регрессии b̂i указаны оценки их средних квадратических отклонений si . Соответствующие t -статистики для проверки гипотез H 0i : bi  0, i  0,1,2, равны  5,15; 4,66 и 5,29 соответственно. Критическая точка tkp  t  0,975;14  3  t  0,975;11  2,201 (см. прил. 1). Сравнение полученных значений t -статистик с критической точкой показывает, что нулевые гипотезы о статистической незначимости коэффициентов регрессии должны быть отвергнуты. Построение доверительных интервалов также доказывает факт значимости полученных коэффициентов (доверительная вероятность   0,95 ):  712,914  b0  286,022 ; 0,868  b1  2,425 ; 3,075  b2  7,452 . Значимость коэффициентов регрессии позволяет их интерпретировать, например, при увеличении капитальных вложений ( x1 ) на 1 млн.руб., объем производства (y) вырастет в среднем на 1,65 млн.руб. при фиксированной норме выработки ( x2 ). Качество всей модели в целом определим дисперсионным анализом модели. В результате вычислений, получим: общая сумма квадратов TSS    yi  y   129,89 ; n 2 i 1 сумма квадратов, объясненная регрессией ESS    yˆ i  y   114,07 n i 1 2 и остаточная сумма квадратов RSS    yi  yˆ i   15,82 . n 2 i 1 Зададим уровень значимости 5%, т.е.   0,05, и проверим основную гипотезу о статистической незначимости модели в целом с помощью критерия Фишера. Наблюдаемое значение критерия F0  39,664 , критическое Fкр (0,05; 2, 11)  3,98 (см. прил. 2). Так как значение F – статистики, найденное по модели, больше критической точки, то гипотеза об отсутствии линейной функциональной связи между объемом производства  y  , капитальными вложениями x1  и выполнением нормы выработки x2  отвергается. Коэффициент детерминации R 2  0,878 . Зависимость y от x1 и x2 характеризуется как тесная, так как почти 88% вариации объема производства определяются вариацией учтенных в модели факторов. Для характеристики силы влияния x1 на y и x 2 на y рассчитываем частные коэффициенты эластичности: 17,31 99,66 E yx  1,65   0,533%; E yx  5,26   9,775%. 53,63 53,63 С увеличением капитальных вложений x1  на 1% от их среднего уровня объем производства  y  возрастает на 0,533% от своего среднего уровня; при увеличении выполнения нормы выработки x2  на 1% от своего среднего уровня объем производства  y  возрастает на 9,775%. Очевидно, что сила влияния выполнения нормы выработки x 2 на объем производства оказалась больше, чем сила влияния капитальных вложений x1 . На этот же факт указывает и сравнение оценок коэффициентов регрессии: bˆ  bˆ . 1 2 2 1 Предположим, что капитальные вложения x1  прогнозируются равными 17,3 млн.руб. при норме выработки x2  100,5%. Требуется при этом спрогнозировать объем производства  y  . Точечный прогноз: при имеющихся предположениях получим yˆ прогноз  499,47  1,65 17,3  5,26 100,5  57,7 млн.руб. Интервальный прогноз: Dˆ ( yˆ прогноз )  1,438 1  0,5528  2,233, tkp  t  0,975;14  3  t  0,975;11  2,201 , тогда на 95% можно утверждать, что объем производства будет в пределах от 54,411 до 60,989 млн.руб.

Многомерная регрессионная модель

Тебе могут подойти лекции

Многомерные методы и модели. Множественный регрессионный анализ. Факторный анализ

Многомерный регрессионный анализ

Математические методы в психологии

Информационные аналитические системы

Data Mining

Прикладная эконометрика

Статистические методы анализа и прогнозирования

Анализ стохастических ВР

Эконометрика.Продвинутый уровень.

Некоторые особенности при изучении многомерной регрессии; мультиколлинеарность

Многомерная регрессионная модель

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ