Многомерная регрессионная модель
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Многомерная регрессионная модель
Рассмотрим общую линейную модель с k переменными. Пусть существует линейное соотношение между объясняемой переменной y , k объясняющими переменными-регрессорами x1 , x2 , xk , и случайным возмущением (ошибкой) . Если мы имеем выборку n наблюдений над этими переменными, то можно записать
(1)
yi b0 b1 xi1 bk xik i .
Коэффициенты bi и параметры распределения случайной величины i
неизвестны. Наша задача состоит в получении наилучших их оценок.
Сформулируем основные гипотезы, лежащие в основе многомерной регрессионной модели:
1.
yi b0 b1 xi1 bk xik i , i 1, , n, n k , – спецификация
модели,
или
(2)
yi b1 xi1 b2 xi 2 bk xik i
(то есть можно различать модели со свободным членом или без него).
2.
xi1 ,, xik – детерминированные величины, т.е. векторы
x1 1,,1T , x2 x21 ,, x2n T , , xk xk1,, xkn T – линейно независимы
в Rn .
3.
Величины 1, , n – случайные компоненты, для которых выполняется:
M i 0 , M i2 D i 2 для всех i 1,, n , (условие гомоскедастичности);
M i j 0 при i j – статистическая независимость (некоррелированность) ошибок для разных наблюдений;
i N 0, 2 , т. е. i – нормально распределенная случайная ве-
личина со средним 0 и дисперсией 2 .
В дальнейшем, для компактности изложения, будем использовать матричные обозначения.
Обозначим через Y y1,, yn T ( n 1 ) вектор-столбец наблюдений
над объясняемой переменной y , B b1,, bk T – ( k 1 ) вектор коэффициентов; 1,, n T – ( n 1 ) вектор ошибок;
x11 x1k
X – ( n k ) матрица значений объясняющих переменных.
xn1 xnk
В случае выполнения предпосылок 1 – 3 имеем нормальную линейную
модель множественной регрессии.
Оценивание неизвестных параметров модели
Одной из основных задач эконометрического исследования в регрессионном анализе является определение оценок неизвестных параметров изучаемой модели, а также определение их статистической значимости. Оценки
неизвестных параметров b̂i модели (2) находятся по методу наименьших
квадратов из условия минимизации суммы квадратов ошибок наблюдений:
2
k
R i2 yi b j xij min .
i 1
i 1
j 1
В матричных обозначениях: R Y XB T Y XB min .
(3)
Необходимые условия экстремума дают систему нормальных уравнеn
n
ний:
n
R
2 yi
br
i 1
b
x
j ij xir 0 , r 1,, k .
j 1
Или в матричных обозначениях:
X T Y X T XB 0 .
k
1
Откуда, учитывая существование матрицы X T X
в силу предпосылки 2 ( det X T X 0 ), находят МНК-оценку для вектора неизвестных параметров
1
(4)
Bˆ X T X X T Y .
Полученные оценки обладают тремя свойствами точечных оценок - состоятельность, несмещенность и эффективность, что позволяет им наиболее
точно описывать истинные неизвестные значения параметров.
Для определения статистической значимости полученных оценок, понадобится матрица вариации оценок B̂ :
T
V Bˆ M Bˆ B Bˆ B .
Учитывая значение Bˆ B , получается
1
1
V Bˆ M X T X X T T X X T X
1
1
1
(5)
X T X X T M T X X T X 2 X T X .
Реально величина 2 , характеризующая дисперсию ошибок наблюдений, неизвестна. Найдем ее несмещенную оценку ˆ 2 S 2 .
Минимальное значение величины R в (5) получится тогда, когда вместо B подставляется его МНК-оценка:
T
T
Rmin Y XBˆ Y XBˆ Y Yˆ Y Yˆ eT e .
(6)
Здесь Yˆ XBˆ – вектор прогнозных значений, e Y Yˆ – вектор остатков регрессии.
Учитывая значение B̂ из (4) и Y XB , получим
Y XBˆ XB X X T X
Отсюда, так как X X T X
1
1
X T XB I n X X T X
T
Rmin T I n X X T X
Матрица A I n X X T X
Поэтому:
1
XT,
1
2
X X XT X
T
1
1
X T .
X T .
X T является идемпотентной, т.е. A2 A .
1
Rmin T I n X X T X X T .
Теперь можно указать несмещенную оценку для величины 2 :
R
1 T
ˆ 2 S 2 min
e e.
nk nk
Формула (7) позволяет записать оценку матрицы вариаций (5) и
самым оценку дисперсий МНК-оценок неизвестных параметров модели:
1 Rmin
Vˆ Bˆ X T X
;
nk
1 R
Dˆ bˆi Vˆii X T X ii min .
nk
Для Rmin можно также получить выражение
Rmin eT e Y T Y Bˆ T X T Y .
(7)
тем
(8)
(9)
МНК-оценки (4) обладают также наименьшей дисперсией в классе линейных несмещенных оценок, т. е. являются наиболее эффективными (теорема Гаусса-Маркова).
Доверительные интервалы и проверка
статистических гипотез
Статистический анализ значимости коэффициентов регрессии для нормальной модели проводят с помощью построения доверительных интервалов
и проверок гипотез.
Доверительные интервалы определяются следующим образом:
bˆ t Dˆ bˆ b bˆ t Dˆ bˆ ,
i
i
i
i
i
где b̂i - точечная оценка неизвестного параметра, t t ( ; n k ) - статистика критерия Стьюдента, для которой учитывается число степеней свободы
и объем выборки, n – число наблюдений, k – число оцененных параметров
модели.
Dˆ (bˆi ) - исправленное стандартное отклонение полученных оценок,
используя (8).
Данная интервальная оценка покроет истинное неизвестное значение
параметра bi с доверительной вероятностью или надежностью 1 ,
близкой к 100%. Параметр считается статистически значимым, если соответствующий доверительный интервал не содержит нулевое значение.
Важным подходом при исследовании значимости являются проверки
гипотез H 0 : bi bi 0 , где также используется критерий Стьюдента. Сравниbˆi bi 0
ваются две точки: наблюдаемая t
и критическая t t (1 ; n k ) .
Dˆ bˆi
Очевидно гипотеза H 0 : bi bi 0 будет принята с уровнем значимости ,
если соответствующий доверительный интервал содержит гипотетическое
значение bi 0 .
Отметим, что проверка значимости коэффициентов регрессии или значимости влияния регрессоров – это проверка гипотез H 0 : bi 0 , т.е. параметр bi - несущественный, не значимый.
Верификация модели и ее качество
Качество оценивания многомерной регрессии и ее верификацию можно
определить дисперсионным анализом в модели, с использованием коэффициента детерминации R 2 .
Общая сумма квадратов TSS yi y разбивается здесь на две чаn
2
i 1
сти: объясненную регрессионным уравнением и не объясненную (т. е. связанную с ошибками i ):
TSS ESS RSS ,
где ESS yˆ i y , RSS yi yˆ i .
n
i 1
2
n
2
i 1
Гипотеза об отсутствии линейной функциональной связи между объясняемой переменной y и регрессорами x1 ,, xk может быть записана как
H 0 : b1 bk 0 , т. е. нулевая гипотеза состоит в том, что коэффициенты
при всех регрессорах равны нулю.
Для проверки этой гипотезы используется критерий Фишера с заданным уровнем значимости . Статистика этого критерия Fкр , k 1, n k
2
yˆ i y k 1
сравнивается с наблюдаемой точкой F0
, n – число
2
ˆ
y
y
n
k
i i
наблюдений, k – число оцененных параметров модели.
Если F0 Fкр. ; k 1, n k , гипотеза H 0 отвергается на уровне значимости ; уравнение в целом значимо и оцененная линейная множественная
регрессия
yˆ bˆ0 bˆ1 x1 bˆk xk
пригодна для описания зависимости между y и x1 ,, xk в рамках имеющихся данных.
Определим коэффициент детерминации
RSS ESS
.
(10)
R2 1
TSS TSS
Коэффициент R 2 0; 1 показывает качество подгонки регрессионной
модели к наблюдаемым значениям yi .
Если R 2 0 , то регрессия не улучшает качество предсказания yi по
сравнению с тривиальным предсказанием yˆ i y . Другой крайний случай
R 2 1 означает точную подгонку: все точки наблюдений лежат на регрессионной плоскости.
Определенная ранее F - статистика с учетом коэффициента детерминации R 2 определится как
R2 n k
.
F
1 R2 k 1
Заметим, что при добавлении еще одного регрессора или еще одной
объясняющей переменной к уравнению регрессии коэффициент R 2 , вообще
говоря, возрастает. Если взять число регрессоров, равным числу наблюдений,
всегда можно добиться того, что R 2 1, но это вовсе не будет означать, что
существует содержательная, имеющая экономический смысл зависимость y
от регрессоров. Для того чтобы устранить эффект, связанный с ростом R 2
при возрастании числа регрессоров, вводится скорректированный коэффициент детерминации R 2 :
RSS n k
.
(11)
R 2 1
TSS n 1
Корректировка R 2 на число регрессоров оправдана тем, что числитель
дроби в (11) есть несмещенная оценка дисперсии ошибок, а знаменатель –
несмещенная оценка дисперсии y .
Использование скорректированного коэффициента детерминации R 2
более корректно для сравнения регрессий при изменении числа регрессоров.
Однако следует иметь в виду, что иногда даже плохо определенная модель
регрессии может дать высокий коэффициент детерминации R 2 , и признание
этого факта привело к снижению значимости R 2 . Теперь он рассматривается
лишь как один из показателей, который должен быть проверен при построении модели регрессии. Следовательно, и корректировка этого коэффициента
мало что дает.
Интерпретация коэффициентов регрессии
и прогнозирование на ее основе
Множественный регрессионный анализ позволяет разграничить влияние независимых переменных, допуская при этом возможность их коррелированности. Коэффициент регрессии при каждой переменной xi дает оценку
ее влияния на величину y в случае неизменности влияния на нее всех
остальных переменных. Так, например, в оцененной линейной регрессии
yˆ bˆ0 bˆ1 x1 bˆ2 x2
коэффициенты b̂1 и b̂2 являются показателями силы связи, характеризующими абсолютное (в натуральных единицах измерения) изменение объясняемой переменной y при изменении каждого из x1 и x 2 соответственно
на единицу своего измерения при фиксированном влиянии второй переменной.
Относительными показателями силы связи в уравнении множественной
регрессии являются частные коэффициенты эластичности:
xj
E yx j bˆ j ,
y
где x j и y – выборочные средние величины объясняющей переменной
x j и результирующего показателя y соответственно, значения которых подсчитаны в ходе статистического анализа рассматриваемой регрессионной
модели.
Эластичность E yx j показателя y по переменной x j приблизительно
определяет на сколько процентов изменится значение y от своего среднего
уровня при изменении объясняющей переменной x j на 1% от ее среднего
уровня.
Прогноз на основе линейной модели множественной регрессии может
быть точечным и интервальным. Если задан дополнительный набор объясняющих переменных – вектор x0 x10 , x20 , , xk0 , то точечный прогноз полу-
чается подстановкой прогнозных значений регрессоров в уравнение модели.
Для получения интервального прогноза вначале рассчитывается оценка дисперсии оценки прогнозируемой величины
1
T
R
Dˆ yˆ0 ˆ 2 1 x0 X T X x 0 , где ˆ 2 S 2 min .
nk
С надежностью можно утверждать, что истинное значение прогнозируемой величины y0 покрывается интервалом
yˆ 0 t Dˆ yˆ 0 y0 yˆ 0 t Dˆ yˆ 0 .
1
Здесь t t
, n k – квантиль распределения Стьюдента.
2
Пример 1. На предприятиях Российской Федерации изучалась зависимость объема производства y от капитальных вложений x1 и выполнения
нормы выработки x2 . Исходные данные для 14 предприятий приведены в
табл. 2.1. Требуется построить линейную модель, оценить статистическую
значимость коэффициентов и модели в целом. Дать интерпретацию полученным данным и построить точечный и интервальный прогнозы.
В данном примере мы располагаем пространственной выборкой объема
n 14 ; число объясняющих переменных k 2 . Специальный анализ технологий сбора исходных статистических данных показал, что гипотеза о взаимной некоррелированности и гомоскедастичности ошибок наблюдений может
быть принята. Поэтому мы можем записать уравнения статистической связи
между yi и xi1 , xi 2 в виде
yi b0 b1 xi1 b2 xi 2 i, i 1,,14
с выполнением условий предпосылок для линейной модели.
Матрица X будет составлена из трех столбцов размерности 14 каждый; в качестве первого столбца используется вектор, состоящий из единиц,
а столбцы 2 и 3 представлены соответственно 3 и 4 столбцами табл. 2.1. Вектор-столбец Y определяется 2-м столбцом табл. 2.1.
Таблица 2.1
Данные об объеме производства ( y – млн. руб.) от капитальных
вложений ( x1 – млн. руб.) и выполнений нормы выработки ( x 2 – %)
Номер предyi
x1
x2
приятия
1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Итог
Средний итог
2
52,8
48,4
52,4
50,0
54,9
53,9
53,8
53,1
52,4
53,0
52,9
53,1
60,1
60,0
750,8
53,63
3
16,3
16,8
18,5
16,3
17,9
17,4
17,5
16,1
16,2
17,0
16,7
17,5
19,1
19,0
242,3
17,31
4
99,5
98,9
99,2
99,3
99,8
99,6
99,5
99,8
99,7
99,8
99,9
100,0
100,2
100,1
1395,3
99,66
Применение формулы (4) (лекция №1) к исходным данным позволяет
получить следующие МНК-оценки для параметров модели:
bˆ0 499 ,47 , bˆ1 1,65 , bˆ2 5,26 .
Таким образом, оценка множественной регрессии в данном случае имеет вид
yˆ 499,47 1,65x1 5,26x2 .
Сумма квадратов остатков, вычисленная по формуле (6) (лекция №1),
равна Rmin 15,82 . Отсюда несмещенная оценка дисперсии ошибок наблюдений получится равной ˆ 2 Rmin 14 3 1,438. С учетом этого можно записать оценку матрицы вариаций МНК-оценок коэффициентов регрессии:
9404,60 10,98 96,27
Vˆ 10,98
0,12
0,13
96,27 0,13 0,99
(диагональные элементы этой матрицы равны оценкам дисперсий
МНК-оценок bˆ0 , bˆ1 , bˆ2 ; внедиагональные – их ковариациям).
Стандартная форма компьютерной выдачи результатов счета, объединяющая информацию о значениях оценок регрессии b̂i и их средних квадратических ошибках si , как правило, имеет следующий вид:
yˆ 499,47 1,65x1 5,26x2 .
96,98 0,35 0,99
В скобках под значениями оцененных коэффициентов регрессии b̂i
указаны оценки их средних квадратических отклонений si .
Соответствующие t -статистики для проверки гипотез H 0i : bi 0,
i 0,1,2, равны 5,15; 4,66 и 5,29 соответственно. Критическая точка
tkp t 0,975;14 3 t 0,975;11 2,201 (см. прил. 1). Сравнение полученных
значений t -статистик с критической точкой показывает, что нулевые гипотезы о статистической незначимости коэффициентов регрессии должны быть
отвергнуты.
Построение доверительных интервалов также доказывает факт значимости полученных коэффициентов (доверительная вероятность 0,95 ):
712,914 b0 286,022 ;
0,868 b1 2,425 ;
3,075 b2 7,452 .
Значимость коэффициентов регрессии позволяет их интерпретировать,
например, при увеличении капитальных вложений ( x1 ) на 1 млн.руб., объем
производства (y) вырастет в среднем на 1,65 млн.руб. при фиксированной
норме выработки ( x2 ).
Качество всей модели в целом определим дисперсионным анализом
модели. В результате вычислений, получим:
общая сумма квадратов TSS yi y 129,89 ;
n
2
i 1
сумма квадратов, объясненная регрессией ESS yˆ i y 114,07
n
i 1
2
и остаточная сумма квадратов RSS yi yˆ i 15,82 .
n
2
i 1
Зададим уровень значимости 5%, т.е. 0,05, и проверим основную
гипотезу о статистической незначимости модели в целом с помощью критерия Фишера. Наблюдаемое значение критерия F0 39,664 , критическое Fкр (0,05; 2, 11) 3,98 (см. прил. 2).
Так как значение F – статистики, найденное по модели, больше критической точки, то гипотеза об отсутствии линейной функциональной связи
между объемом производства y , капитальными вложениями x1 и выполнением нормы выработки x2 отвергается. Коэффициент детерминации
R 2 0,878 .
Зависимость y от x1 и x2 характеризуется как тесная, так как почти
88% вариации объема производства определяются вариацией учтенных в модели факторов.
Для характеристики силы влияния x1 на y и x 2 на y рассчитываем
частные коэффициенты эластичности:
17,31
99,66
E yx 1,65
0,533%; E yx 5,26
9,775%.
53,63
53,63
С увеличением капитальных вложений x1 на 1% от их среднего уровня объем производства y возрастает на 0,533% от своего среднего уровня;
при увеличении выполнения нормы выработки x2 на 1% от своего среднего
уровня объем производства y возрастает на 9,775%.
Очевидно, что сила влияния выполнения нормы выработки x 2 на объем производства оказалась больше, чем сила влияния капитальных вложений
x1 . На этот же факт указывает и сравнение оценок коэффициентов регрессии:
bˆ bˆ .
1
2
2
1
Предположим, что капитальные вложения x1 прогнозируются равными 17,3 млн.руб. при норме выработки x2 100,5%. Требуется при этом
спрогнозировать объем производства y .
Точечный прогноз: при имеющихся предположениях получим
yˆ прогноз 499,47 1,65 17,3 5,26 100,5 57,7 млн.руб.
Интервальный прогноз:
Dˆ ( yˆ прогноз ) 1,438 1 0,5528 2,233, tkp t 0,975;14 3 t 0,975;11 2,201 ,
тогда на 95% можно утверждать, что объем производства будет в пределах от 54,411 до 60,989 млн.руб.