Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Федеральное агентство по образованию
ПСКОВСКИЙ ГОСУДАРСТВЕННЫЙ
ПОЛИТЕХНИЧЕСКИЙ ИНСТИТУТ
В.К. Кошмак
Эконометрика
Учебное пособие
Псков
Издательство ППИ
2010
УДК 330
ББК 65
К 76
Рекомендовано к изданию научно-методическим советом
Псковского государственного политехнического института
К 76 Кошмак В.К. Эконометрика: Учебное пособие / Кошмак В.К. – Псков: Издательство ППИ, 2010. – 80 с.: ил.
Библиография:
Рецензенты:
Дегтярев В.Г., д.т.н., профессор, Санкт-Петербургский государственный университет путей сообщения.
Мельник В.Н., к.ф-м.н., доцент, Псковский государственный педагогический университет.
Учебное пособие разработано в соответствии с образовательным стандартом по дисциплине «Эконометрика» по направлению 521600 – Экономика. В учебном пособии представлен теоретический материал по темам: парная регрессия; множественная регрессия; временные ряды; системы эконометрических уравнений. Излагаемый материал сопровождается доказательствами. Приводятся примеры, опирающиеся на статистические данные по РФ. Предлагаются упражнения по теории и практические задания. Ряд разделов учебного пособия содержит материал и задания повышенного уровня сложности для магистратуры. Приложения включают таблицы критических точек распределения Стьюдента и Фишера, выборочные распределения, многомерное нормальное распределение, частные корреляции, метод наибольшего правдоподобия.
Учебное пособие адресовано студентам экономических специальностей вузов различных форм обучения. Упражнения могут использоваться для составления тестов, контрольных работ и типовых расчетов по эконометрике.
УДК 330
ББК 65
К 76
Псковский государственный политехнический институт, 2010
Кошмак В.К., 2010
Список обозначений
начало доказательства
конец доказательства
среднее арифметическое наблюдений хt
оценка параметра а
частная производная функции f по аргументу х
математическое ожидание случайной величины Х.
дисперсия случайной величины Х
стандартное отклонение случайной величины Х
выборочная дисперсия наблюдений хt
ковариация случайных величин Х и Y
K[X] ковариационная матрица вектора Х
корреляция случайных величин Х и Y
выборочная корреляция наблюдений хt и yt
квантор всеобщности (для всех, всякий, любой)
квантор существования (существует)
сходится по вероятности при к а
случайная величина Х подчиняется нормальному
распределению с параметрами a и
случайная величина Х подчиняется распределению 2 с n числом степеней свободы.
случайная величина Х подчиняется распределению Стьюдента с m и n числом степеней свободы
случайная величина Х подчиняется распределению Фишера с m и n числом степеней свободы
(a,b) скалярное произведение векторов а и b
Список сокращений
РФ Российская Федерация
СЗ Северо-Западный федеральный округ
ЛРМ линейная регрессионная модель
МЛРМ множественная линейная регрессионная модель
КЛРМ классическая линейная регрессионная модель
КМЛРМ классическая множественная линейная регрессионная модель
МНК метод наименьших квадратов
ОМНК обобщенный МНК
ДМНК двухшаговый МНК
ВРП валовой региональный продукт
ОФ основные фонды
ESS сумма квадратов ошибок (Error Sum of Squares)
RSS сумма квадратов регрессии (Regression Sum of Squares)
TSS общая сумма квадратов (Total Sum of Squares)
СОДЕРЖАНИЕ
Введение 7
1. Парная регрессия 8
1.1. Линейная регрессионная модель. Оценка параметров методом наименьших квадратов 8
1.2. Классическая линейная регрессионная модель. Несмещенность, состоятельность и эффективность оценок параметров 12
1.3. Статистические свойства оценок параметров в нормальной КЛРМ. Доверительные интервалы. Проверка гипотез 15
1.4. Дисперсионный анализ в нормальной КЛРМ. Коэффициент детерминации. Отношение Фишера. Связь между ними 17
1.5. Нелинейные модели. Линеаризация. Проблемы, связанные с линеаризацией. Эластичность 24
1.6. Прогнозирование в КЛРМ. Ошибка прогноза. Доверительный интервал для прогноза 29
1.7. Векторное, матричное представление ЛРМ. Геометрическая интерпретация. 31
2. Множественная регрессия 33
2.1. Множественная линейная регрессионная модель. Оценка параметров МНК 33
2.2. Классическая МЛРМ. Несмещенность, состоятельность и эффективность оценок параметров 35
2.3. Статистические свойства оценок параметров в нормальной КМЛРМ 36
2.4. Оценка качества КМЛРМ. Коэффициент детерминации. Отношение Фишера. Значимость модели 40
2.5. Прогнозирование в КМЛРМ. Ошибка прогноза. Доверительный интервал для прогноза 43
2.6. Стандартизованная регрессия. Коэффициент детерминации в стандартизованной регрессии 45
2.7. Частные коэффициенты корреляции. Геометрическая интерпретация частной корреляции 47
2.8. Обобщенный МНК. Теорема Айткена 49
2.9. Гетероскедастичность. «Взвешенный» МНК Тестирование гетероскедастичности 50
2.10. Мультиколлинеарность. Метод главных компонент 51
2.11. Ошибки спецификации модели. Лишние и пропущенные регрессоры 55
2.12. Корреляция регрессоров с остатками. Инструментальные переменные. Двухшаговый МНК 56
3. Временные ряды 58
3.1. Выделение нестационарных составляющих временного ряда. Тренд, сезонность 58
3.2. Авторегрессия первого порядка 59
3.3. Оценка параметров в модели с авторегрессией. Процедуры Кохрейна-Оркатта, Хилдрета-Лу и Дарбина 60
3.4. Автокорреляция остатков. Отношение Дарбина-Уотсона и его статистические свойства 61
3.5. Модель распределенных лагов. Методы Алмон и Койка 63
4. Системы эконометрических уравнений 66
4.1. Системы внешне не связанных эконометрических уравнений 66
4.2. Системы одновременных эконометрических уравнений 67
Приложение 1 70
Приложение 2 71
Приложение 3 72
Приложение 4 73
Приложение 5 76
Введение
В экономической теории устанавливаются зависимости между субъектами экономических взаимоотношений. Необходимо это для правильной оценки текущего момента, понимания перспективы, принятия взвешенных решений. Эконометрика поддерживает положения экономической теории количественно. Например, объем производства товаров и услуг зависит от факторов, которые расходуются на это производство. Данная зависимость называется производственной функцией. В экономической теории предлагаются и обосновываются различные модели производственных функций. Средствами эконометрики данные модели верифицируются.
Предлагаемый курс состоит из четырех глав. В первой главе рассматривается парная регрессия. Оцениваются качественные показатели классической модели, дается геометрическая интерпретация регрессии. Изучаются нелинейные модели. Во второй главе представлены многофакторные модели - классическая и обобщенная. Рассматриваются различные аспекты множественной регрессии. В их числе мультиколлинеарность, лишние и пропущенные регрессоры, инструментальные переменные, гетероскедастичность. В третьей главе временные ряды представлены авторегрессией и распределенными лагами. В четвертой главе получены оценки параметров системы внешне не связанных эконометрических уравнений и одновременных уравнений.
Курсивом выделяются формулировки и теоремы, которые требуют доказательства и доказываются в данном пособии. Доказательства начинаются с символа и заканчиваются символом .
Все вычисления производятся в табличном редакторе EXEL. При их проверке вручную на калькуляторе возможны расхождения из-за ошибок округления.
Ссылки на примеры, рисунки и таблицы внутри данного раздела являются сквозными. Ссылки между разделами включают номер раздела. Ссылки на формулы внутри данного подраздела являются сквозными. Перекрестные ссылки включают номер подраздела. Подчеркнуты определения и темы подраздела.
Парная регрессия
В разделе изучаются зависимости, между одним фактором и одним результатом. Взаимодействует пара переменных. Логично предложить на начальном этапе линейную зависимость между фактором и результатом. Часто погрешность, возникающая из-за линейного приближения (аппроксимации), не превышает погрешности представления данных.
Оценка параметра – это его приближенное значение. Необходимо определить качество оценки. В статистике оптимальной считается несмещенная, состоятельная и эффективная оценка. Устанавливаются требования к данным, позволяющие получить оптимальные оценки параметров.
Устанавливаются критерии качества модели в целом. Для этого производится дисперсионный анализ данных наблюдений. Также определяется качество оценок параметров.
Экономическая теория предлагает широкий класс нелинейных моделей. В связи с этим приводится техника оценки параметров в этом классе.
Осуществляется прогнозирование для линейной и нелинейной модели. Качество прогноза оценивается с помощью дисперсии ошибки и доверительного интервала.
Линейная регрессионная модель.
Оценка параметров методом наименьших квадратов
Линейной регрессионной называется модель
, (1)
где а, b – параметры модели; xt – наблюдения фактора (регрессора); yt – наблюдения результата воздействия фактора; - случайные отклонения, результат воздействия неучтенных факторов; – номер наблюдения; n – число наблюдений.
Параметры a и b в модели (1) как правило, неизвестны. Возникает задача их оценки (приближенного вычисления). Параметры можно оценить методом наименьших квадратов (МНК). Суть метода: найти такие оценки параметров a и b (числа и ), при которых сумма квадратов отклонений наблюдений yt от прогноза будет наименьшей.
Это классическая задача на экстремум функции двух переменных:
. (2)
Ее решение
(3)
где , , , - соответствующие средние арифметические.
Необходимые условие экстремума функции (2) имеют вид:
(4)
Система (4) преобразуется к виду
(5)
Оценки параметров (3) являются решениями системы (5). Чтобы установить характер экстремума, определим матрицу Гессе:
. (6)
Угловые миноры матрицы . В соответствии с теоремой Сильвестра, решение (3) точка, где наблюдается минимум функции (2).
Пример 1
В табл.1 приводятся данные Госкомстата РФ по основным фондам (ОФ) и валовому региональному продукту (ВРП) Северо-Западного федерального округа за 2007 год.
Таблица 1
ОФ и ВРП СЗ РФ,
2007 год
t
Регион
ОФ,
млрд.
руб.
ВРП,
млрд.
руб.
1
Республика Карелия
297
105
2
Республика Коми
843
242
3
Архангельская область
684
287
4
Вологодская область
675
244
5
Калининградская область
251
146
6
Ленинградская область
804
312
7
Мурманская область
538
192
8
Новгородская область
223
88
9
Псковская область
189
63
10
г. Санкт-Петербург
1740
1109
На рис.1 приводится диаграмма рассеяния наблюдений, соответствующая табл.1.
Рис.1. Зависимость ВРП (млрд. руб.) СЗ РФ от ОФ (млрд. руб.) за 2007 год. Наблюдения и прогноз
Обозначим: xt – ОФ; yt – ВРП. Составим табл.2, для вычисления оценок параметров a и b в соответствии с формулами (3).
С помощью табл.2 находим оценки:
;
.
Получаем уравнение прогноза:
. (7)
С помощью уравнения (7) рассчитываем прогнозные значения ВРП, помещаем их в табл.2 и представляем сплошной линией на графике рис.1.
Примечание: здесь и далее расчеты производятся в табличном редакторе EXEL с максимальной точностью. Поэтому при их проверке на обычном калькуляторе, как правило, наблюдаются незначительные расхождения из-за ошибок округления. Например, в (7) получается равным .
Таблица 2
Модель ОФ - ВРП
Вычисление оценок параметров
и прогноза
t
xt
yt
xtyt
1
297
105
88209
31185
74,570
2
843
242
710649
204006
415,162
3
684
287
467856
196308
315,978
4
675
244
455625
164700
310,364
5
251
146
63001
36646
45,875
6
804
312
646416
250848
390,834
7
538
192
289444
103296
224,904
8
223
88
49729
19624
28,409
9
189
63
35721
11907
7,200
10
1740
1109
3027600
1929660
974,706
6244
2788
5834250
2948180
2788
/n
624,4
278,8
583425
160861,2
278,8
Упражнения
1. Докажите: при .
2. Что значит для инвестора величина ? На сколько увеличится ВРП, при увеличении фондов на 1 млрд. руб.?
3. Определите оценки параметров и составьте уравнение прогноза, исключив из табл.1 данные по С-Пб. Как изменился предельный продукт ОФ по СЗ РФ? Можно ли считать обоснованным исключение из наблюдений данных по С-Пб?
4. При отсутствии ОФ ВРП равен нулю. Поэтому для примера 1 предлагается модель без константы . Найдите МНК оценку параметра b в данной модели. Сравните с оценкой, полученной в п.3.
Классическая линейная регрессионная модель.
Несмещенность, состоятельность и эффективность
оценок параметров
Пример 1 показывает, что практически для любых двух столбцов цифр можно определить оценки параметров (1.3) и построить уравнение прогноза. Возникает вопрос: насколько точны данные оценки и прогноз и можно ли их улучшить? Оказывается, что существуют требования к данным, их называют классическими, при которых оценки (1.3) являются в определенном смысле оптимальными.
Классической линейной регрессионной называется модель
, (1)
обладающая следующими свойствами:
1) наблюдения регрессора xt – детерминированы (неслучайны);
2) математическое ожидание (остатки не смещены);
3) дисперсия , данные однородны (гомоскедастичны);
4) ковариация , случайные отклонения у различных наблюдений независимы (остатки не коррелируют);
5) классическая модель (1) называется нормальной (П3.1), если случайные отклонения подчиняются нормальному распределению ().
В КЛРМ оценки параметров а и b, полученные МНК являются несмещенными:
. (2)
Обозначим выборочную дисперсию наблюдений регрессора:
. (3)
Подставим (3) в (1.3). Вычислим математическое ожидание:
(4)
Доказательство (4) опирается на свойства 1) и 2) модели (1).
В КЛРМ оценки параметров а и b, полученные МНК являются состоятельными:
или ,
(5)
или .
В соответствии с неравенством Чебышева
. (6)
Вычислим дисперсию
(7)
Аналогично можно определить (см. упр.5), что дисперсия
(8)
и ковариация
. (9)
Подставляя (7) в (6) и вычисляя предел при , получим:
.
Доказательство (7) опирается на свойства 1) – 4) модели (1). Также предполагается, что справедливо (2).
Теорема Гаусса-Маркова. В КЛРМ, среди линейных несмещенных оценок, оценки параметров а и b, полученные МНК, являются эффективными (обладают наименьшей дисперсией).
Представим оценки (1.3) в виде
(10)
Из (10) следует, что оценки (1.3) принадлежат классу линейных. Весь класс линейных несмещенных оценок параметров можно представить как
(11)
где rt и pt – произвольные числа, не равные одновременно нулю.
Найдем из (11)
(12)
В (12) , поскольку линейные оценки (11) являются несмещенными. Действительно, из их несмещенности следует
(13)
и
. (14)
Равенство (14) справедливо при всех а и b. Подставляя в (14) , находим . Подставляя в (14) , находим . Сумма
.
Упражнения
1. Какие свойства математического ожидания используются в доказательстве (4)?
2. Какие свойства дисперсии используются в доказательстве (7)?
3. Докажите: .
4. Докажите: .
5. Докажите, что .
6. Докажите, что в модели величина .
7. Докажите теорему Гаусса-Маркова для оценки а.
8. Является ли несмещенной оценка в регрессии (1). Найдите , сравните с .
Статистические свойства оценок параметров
в нормальной КЛРМ.
Доверительные интервалы. Проверка гипотез
Оценка параметра – это его приближенное значение. Когда мы используем на практике полученную оценку, нам необходимо предвидеть возможную ошибку. В 1.2 мы определили и . Если известна , можно вычислить стандартные отклонения и . Они и будут средними ошибками при вычислении параметров. Но в действительности дисперсия остатков 2 неизвестна.
Несмещенная оценка дисперсии остатков в КЛРМ равна
, (1)
где - сумма квадратов ошибок. Доказательство (1) приводится в 2.3.
Оценки параметров – случайные величины. Каждая новая реализация процесса, производящего данные, предоставляет их новые значения. Для построения доверительных интервалов необходимо знать вероятностное распределение оценок.
В нормальной КЛРМ
(2)
где - распределение Стьюдента с числом степеней свободы (П3.3). Доказательство (2) приводится в 2.3.
Формулы (2) позволяют определить вероятность
, (3)
где - доверительная вероятность (обычно ); - критические точки распределения Стьюдента (см. Приложение 1).
Доверительным интервалом для параметра а с надежностью называется интервал, в который с вероятностью попадает неизвестное значение параметра а. Из (3) следует, что доверительный интервал для параметра а находится из неравенства
и имеет вид:
. (4)
Аналогично строится доверительный интервал для параметра b:
. (5)
Проверка гипотез. Определим статистику Стьюдента . Если неизвестное значение параметра , тогда и . Гипотеза принимается с уровнем значимости , если . Если же , тогда гипотеза отвергается.
Аналогично проверяется гипотеза . Определяется статистика . Если принимается . В противном случае гипотеза отвергается.
Упражнения
1. Решите неравенство относительно а.
2. По графику плотности вероятности распределения Стьюдента определите графически . При увеличении значение увеличивается или уменьшается?
3. К какому значению стремится при и ? Почему это происходит?
4. Чем отличаются двусторонний и односторонний критерии Стьюдента? В каких случаях при проверке нулевых гипотез следует применять односторонний критерий Стьюдента?
Дисперсионный анализ в нормальной КЛРМ.
Коэффициент детерминации. Отношение Фишера.
Связь между ними
В (1.3) определены показатели качества оценок параметров. Необходимо установить характеристики качества всей модели. К таким характеристикам относится коэффициент детерминации:
, (1)
где - сумма квадратов регрессии; - общая сумма квадратов.
В парной регрессии
, (2)
где - выборочный коэффициент корреляции между x и y .
Общая сумма квадратов равна
. (3)
Сумма квадратов регрессии равна
(4)
Подставляя (3) и (4) в (1) получим (2). Выборочная корреляция между х и у равна
. (5)
Из (5) следует (2) и .
Коэффициент детерминации показывает, какая часть вариации (дисперсии) результата y в модели (1.1) объясняется влиянием фактора x.
Если для оценок параметров используется МНК, тогда
. (6)
Действительно
(7)
поскольку второе слагаемое с учетом (1.4) равно
Разделим левую и правую части (6) на TSS. Получим
. (8)
Первое слагаемое в (8) – необъясненная часть вариации результата, которая определяется влиянием неучтенных факторов. Второе слагаемое R2 – объясненная часть, она определяется влиянием регрессора. Чем больше R2, тем лучше фактор объясняет поведение результата и тем лучше регрессия.
Еще одной характеристикой качества модели является отношение Фишера
. (9)
В нормальной КЛРМ
(10)
при условии, что , где - распределение Фишера с 1 (одной) и числом степеней свободы (П3.4). Доказательство (10) приводится в (2.4).
На основе (10) устанавливается значимость модели (2.1). Если , тогда , модель не значима (фактор не влияет на результат). Если , тогда и модель значима. Значение определяется по таблице критических точек распределения Фишера (см. Приложение 2).
Отношение Фишера и коэффициент детерминации связаны между собой:
. (11)
Доказательство предлагается провести самостоятельно в упр.1.
Пример 2
На основе табл. 2 составим табл.3 для оценки качества модели ОФ – ВРП. В табл.3 определяются остатки модели
, (12)
и их квадраты, также определяются значения .
Таблица 3
Модель ОФ - ВРП
Вычисление показателей качества
t
xt
yt
xtyt
1
297
105
88209
11025
31185
74,570
30,430
926,012
2
843
242
710649
58564
204006
415,162
-173,162
29984,928
3
684
287
467856
82369
196308
315,978
-28,978
839,735
4
675
244
455625
59536
164700
310,364
-66,364
4404,183
5
251
146
63001
21316
36646
45,875
100,125
10025,019
6
804
312
646416
97344
250848
390,834
-78,834
6214,731
7
538
192
289444
36864
103296
224,904
-32,904
1082,681
8
223
88
49729
7744
19624
28,409
59,591
3551,120
9
189
63
35721
3969
11907
7,200
55,800
3113,674
10
1740
1109
3027600
1229881
1929660
974,706
134,294
18034,986
6244
2788
5834250
1608612
2948180
2788
0,000
78177,070
/n
624,4
278,8
583425
160861,2
294818
Сумма квадратов ошибок
.
Оценка дисперсии остатков
.
Оценка дисперсии параметра а
. (13)
Стандартное отклонение
.
Оценка дисперсии параметра b
. (14)
Стандартное отклонение
.
Проверим гипотезу . В соответствии с (3.2) определяем статистику Стьюдента
.
По таблице критических точек распределения Стьюдента (Приложение 1) находим (, число степеней свободы ). Поскольку , принимается гипотеза . Полученный результат означает, что при отсутствии ОФ ВРП равен нулю, что не противоречит свойствам производственной функции.
Проверим гипотезу . Для этого определим статистику Стьюдента
.
Величина остается неизменной. Поскольку , принимается гипотеза . Полученный результат означает, что ОФ влияют на ВРП. Вывод этот, как и предыдущий, не противоречит практике.
Определим показатели качества модели в целом. Сумма квадратов регрессии
.
Общая сумма квадратов равна
.
Коэффициент детерминации равен
.
Вариация ВРП на СЗ РФ на 91% объясняется вариацией ОФ. Влияние неучтенных факторов составляет 9%.
Отношение Фишера равно
.
Критическая точка распределения Фишера (определяется по таблице Приложения 2, уровень значимости , число степеней свободы 1 и 8, первый столбец и восьмая строка таблицы).
Полученные выше результаты могут быть представлены одним уравнением
(15)
В табличном редакторе EXEL имеется надстройка «Регрессия». Путь к этой надстройке: СЕРВИС НАДСТРОЙКИ ПАКЕТ АНАЛИЗА ENTER. Затем: СЕРВИС АНАЛИЗ ДАННЫХ РЕГРЕССИЯ. Надстройка будет представлена окном на рис.2. В данном окне:
Входной интервал Y адреса наблюдений результата ;
Входной интервал Х адреса наблюдений фактора (факторов) ;
Константа – ноль по умолчанию нет, в модели без константы – да;
Выходной интервал адрес на листе для вывода данных.
Сообщаем диалоговому окну на рис.2 адреса наблюдений результата и наблюдений фактора . Указываем адрес для вывода данных на данном листе. Нажимаем ОК. Получаем данные, представленные на рис. 3.
Рис.2. Диалоговое окно «Регрессия» в EXEL
Рис.3. Результаты вычислений в надстройке EXEL «Регрессия» для модели ОФ – ВРП СЗ РФ с исходными данными в табл.1.1
Упражнения
1. Повторите расчеты Примера 2, для данных табл.1 без С-Пб. Результаты представьте в виде (15). Объясните, почему для данных без
С-Пб в регрессии уменьшилась детерминация?
2. В соответствии с (3.4) и (3.5) определите доверительные интервалы для параметров а и b. Что происходит с доверительными интервалами при исключении из данных С-Пб?
3. Найдите на рис.3 информацию, представленную в уравнении (15).
4. Найдите на рис.3: RSS; ESS; TSS; ; ; n-2; доверительные интервалы для а и b.
5. Выполните в надстройке EXEL «Регрессия» задания упр.1 и упр.1.4. Результаты представьте в виде (15).
6. Как с помощью столбца p-значение на рис.3 проверить нулевые гипотезы по параметрам а и b?
7. Как с помощью столбца значимость F на рис.3 проверить гипотезу о значимости модели в целом?
8. Докажите формулу (11).
9. Почему в табл.1 ?
10. По графику плотности вероятности распределения Фишера определите графически . При увеличении значение увеличивается или уменьшается?
11. Допустим, что нулевая гипотеза - модель значима, а конкурирующая гипотеза – модель не значима. Ошибка первого рода состоит в том, что принимается гипотеза , хотя верной является гипотеза . Ошибка второго рода – принимается гипотеза , хотя верной является гипотеза . Как Вы считаете - это вероятность ошибки первого или второго рода? Что происходит с вероятностями ошибок первого и второго рода при увеличении ?
Нелинейные модели. Линеаризация.
Проблемы, связанные с линеаризацией. Эластичность
Фактор и результат могут быть связаны между собой нелинейной, отличной от (1.1) зависимостью. Некоторые из нелинейных зависимостей допускают преобразование переменных, после которого зависимость приобретает линейный вид. Такое преобразование называется линеаризацией. Допускают линеаризацию:
1. Параболическая модель
. (1)
Замена , преобразует (1) к виду . Получена ЛРМ, ее параметры могут оцениваться по формулам (1.3);
2. Еще один вариант параболической модели
. (2)
Здесь преобразование к линейному виду реализуется с помощью замены ;
3. Гиперболическая модель
, (3)
приводится к линейному виду заменой , и т.д.;
4. Обобщим (1), (2), (3) и ряд подобных уравнений нелинейной моделью
, (4)
где a, b, c – параметры. Если значение параметра с неизвестно, тогда линеаризация (4) невозможна. Значения с выбираются с определенным шагом из некоторого отрезка, и для каждого значения производится замена , затем оцениваются параметры a и b. Наилучшим можно считать то значение с, для которого коэффициент детерминации является наибольшим;
5. Еще один вариант гиперболической модели
. (5)
Замена приводит (5) к линейному виду ;
Ниже приводятся мультипликативные модели:
6. Степенная
. (6)
К линейному виду (6) приводится логарифмированием:
.
Производятся замены: . В результате получена ЛРМ:
;
7. Показательная
; (7)
8. Экспоненциальная
; (8)
9. Логистическая
, (9)
после логарифмирования имеет вид
.
Для линеаризации производятся замены:
.
10. Полулогарифмическая
. (10)
Проблемы, связанные с линеаризацией:
1. В моделях (6) – (9) изменяется распределение остатков;
2. В моделях (5) – (9), где преобразуется у, коэффициент детерминации не характеризует качество нелинейной модели;
3. В моделях (5) – (9) оценки параметров, не являются оптимальными. Используя численные методы, можно получить оценки параметров, для которых качество подгонки по критериюбудет лучше.
Эластичность функции равна
, (11)
где - производная f(x) по х.
Для линейной модели производная по х равна , а эластичность в соответствии с (11) равна
.
Для параболической модели (1) эластичность равна
.
Для степенной функции (6) эластичность постоянна и равна b. Поэтому в литературе модель (6) называют с постоянной эластичностью (изоэластической).
Пример 3
В табл.4 приводятся данные стоимости автомобилей марки VW-Polo и времени эксплуатации этих автомобилей. Обозначим: - время эксплуатации автомобиля, лет; - стоимость автомобиля, тыс. руб. С помощью надстройки EXEL «Регрессия» определим параметры линейной модели:
. (12)
Уровень значимости уравнения (12) очень высокий, . Согласно (12) стоимость новой машины VW-Polo оценивается в 574 тыс. руб., а амортизационные отчисления за год составляют 43 тыс. руб. Норма амортизации по данной машине составляет , а число лет эксплуатации автомобиля равно лет.
Представим нелинейную зависимость стоимости автомобиля от времени его эксплуатации:
. (13)
К линейному виду данная модель приводится логарифмированием. После вычисления логарифмов (13) преобразуется к виду
.
Обозначим
.
Таблица 4
Стоимость эксплуатации автомобиля
(наблюдения, линейная и нелинейная модель)
Номер
наблюдения
t
Время
эксплуатации
автомобиля, лет
xt
Стоимость
автомобиля,
тыс. руб.
yt
Линейный
прогноз
стоимости
ln yt
Нелинейный
прогноз
стоимости
1
3
530
445,5
6,273
499,2
2
3
457
445,5
6,125
499,2
3
5
307
360,0
5,727
355,2
4
5
351
360,0
5,861
355,2
5
6
300
317,2
5,704
299,6
6
7
290
274,5
5,670
252,7
7
7
240
274,5
5,481
252,7
8
7
235
274,5
5,460
252,7
9
8
220
231,8
5,394
213,1
10
8
195
231,8
5,273
213,1
11
8
237
231,8
5,468
213,1
12
8
221
231,8
5,398
213,1
13
9
219
189,0
5,389
179,8
14
10
135
146,3
4,905
151,6
15
10
203
146,3
5,313
151,6
16
12
81
60,8
4,394
107,9
Получена линейная модель
.
Оценим ее параметры в EXEL:
. (14)
На основе (14) оценим параметры:
. (15)
Получено уравнение нелинейного прогноза
. (16)
Согласно (16) стоимость нового автомобиля оценивается в 832 тыс. руб. Норма нелинейной амортизации . Число лет эксплуатации равно . На рис.4 представлена диаграмма рассеяния наблюдений по данным табл.4. Также на рисунке показаны линейный прогноз (сплошная линия) и нелинейный прогноз (прерывистая линия).
Рис.4. Стоимость автомобилей VW-Polo в зависимости
от времени эксплуатации
(точки - диаграмма рассеяния; сплошная линия – линейный прогноз;
прерывистая линия – нелинейный прогноз)
Качество нелинейной регрессии оценим с помощью отношения
, (17)
Получено: . Нелинейная модель лучше, чем линейная, соответствует данным наблюдений по критерию суммы квадратов отклонений наблюдений от прогноза.
Оценки параметров (15) можно улучшить, если их определить численно (см. упр.3), решая задачу
. (18)
Упражнения
1. Определите эластичность в моделях (2) – (10).
2. По данным табл.4 оцените параметры уравнений (7) и (8). Почему их графики совпадают?
3. С помощью надстройки EXEL «Поиск решения» решите задачу (18). На сколько % удалось увеличить ?
4. Определите распределение остатков в модели (6), если ?
Прогнозирование в КЛРМ. Ошибка прогноза.
Доверительный интервал для прогноза
Оценивая параметры ЛРМ, мы получаем уравнение прогноза
. (1)
Уравнение (1) позволяет выбрать очередное значение регрессора , и для него рассчитать прогноз . Данный прогноз является случайной величиной. «Истинное» значение , также случайная величина. Возникает ошибка прогноза
, (2)
от дисперсии которой зависит качество прогноза.
В КЛРМ дисперсия ошибки прогноза равна
. (3)
Значение зависит от случайного отклонения . Прогноз зависит от случайных отклонений . В классической модели остатки различных наблюдений независимы. Поэтому и независимые случайные величины. С учетом выше сказанного дисперсия ошибки прогноза равна
(4)
Доказательство (4) опирается на формулы (2.7) – (2.9).
Возникает вопрос: существует ли возможность получить прогноз лучше, чем с помощью уравнения (1). Справедливо следующее: среди линейных, несмещенных, прогноз (1) обладает наименьшей дисперсией ошибки. Доказательство данного утверждения аналогично доказательству теоремы Гаусса-Маркова. Его предлагается провести самостоятельно в упр.3.
В нормальной КЛРМ отношение
, (5)
где - оценка средней ошибки прогноза. Доказательство (5) приводится в (2.5).
На основании утверждения (5) определяется доверительная вероятность
, (6)
где - доверительная вероятность (обычно ); - критические точки распределения Стьюдента (см. Приложение 1). Решая неравенство
относительно yn+1, находим доверительный интервал для прогноза:
. (7)
Пример 4
На основе данных табл.4 необходимо оценить стоимость автомобиля VW-Polo, который находился в эксплуатации 5 лет.
Вначале оценим стоимость автомобиля с помощью линейной модели (5.12). Получим
(тыс. руб.).
В скобках указана оценка средней ошибки прогноза, рассчитанная по формуле
, (8)
По таблице Приложения 1, находим критическую точку распределения Стьюдента . В соответствии с (7) 95% доверительный интервал для линейного прогноза имеет вид
.
В нелинейной модели (5.16) стоимость автомобиля прогнозируется равной (тыс. руб.).
Для построения доверительного интервала для прогноза воспользуемся уравнением (5.14)
.
В соответствии с (7) доверительный интервал с надежностью 0,95 для имеет вид
.
Доверительный интервал нелинейного прогноза
Доверительный интервал нелинейного прогноза оказался шире, чем у линейного.
Упражнения
1. При каком значении ошибка прогноза минимальна?
2. Оцените стоимость автомобиля, который эксплуатировался 5 лет, с данными табл. 4 и принимая нелинейную модель . Определите доверительный интервал для этого прогноза. Выберите по качеству прогнозирования лучшую модель из линейной, показательной и степенной.
3. Докажите эффективность прогноза (1).
Векторное, матричное представление ЛРМ.
Геометрическая интерпретация.
Векторное представление ЛРМ:
, (1)
где - вектор наблюдений результата или зависимой переменной; - вектор наблюдений фактора или независимой переменной; - вектор случайных отклонений, влияние неучтенных факторов; - единичный вектор. Уравнение (1) полностью соответствует определению (1.1) при .
Матричное представление ЛРМ:
, (2)
где ; . (3)
Геометрическая интерпретация: МНК прогноз , является ортогональной проекцией вектора на пространство с базисом s и x.
При оценке параметров МНК в соответствии с (1.4)
(4)
Если скалярное произведение равно нулю, то вектора ортогональны. Вектор , проектирует наблюдения результата у на пространство, образованное векторами s и x. Поскольку е, в соответствии с (4) ортогонально s и x, то и прогноз - ортогональная проекция у (см. рис.5).
Рис. 5. Ортогональность остатков и прогноза .
Множественная регрессия
Поведение зависимой переменной редко объясняется влиянием одного фактора. На валовой региональный продукт влияют не только основные фонды, но и трудовые ресурсы, географическое положение региона, количество и качество полезных ископаемых, множество других факторов. То же самое может быть сказано о формировании стоимости автомобиля, квартиры и т.д. на рынке.
В разделе дается определение множественной линейной регрессионной модели. Параметры модели определяются методом наименьших квадратов. Формулируются классические требования к данным. Доказывается состоятельность, несмещенность и эффективность оценок параметров в классической модели. Степень влияния различных факторов на результат оценивается с помощью стандартизованной регрессии.
В действительности, крайне редко встречаются данные, которые можно назвать классическими. Анализируются возможные отклонения от классических требований. Дается определение обобщенной модели и ее частных случаев: авторегрессии и гетероскедастичности. Изучаются ошибки спецификации модели и последствия корреляции регрессоров с остатками.
Множественная линейная регрессионная модель.
Оценка параметров МНК
Множественной линейной регрессионной называется модель
, (1)
где - независимые переменные (факторы); - зависимая переменная, результат воздействия факторов; - параметры; - случайное отклонение, результат воздействия неучтенных факторов; – номер наблюдения; n – число наблюдений. МЛРМ (1) может быть представлена в матричном виде:
,
где ; ; ; .
Параметры в (1) обычно неизвестны. Они рассчитываются приблизительно (оцениваются). Получив оценки параметров, составляют уравнение прогноза
(2)
или в матричном виде
,
где - оценки параметров; - прогноз зависимой переменной.
МНК оценки параметров МЛРМ равны
. (3)
МНК оценки параметров множественной регрессии являются решением экстремальной задачи
.
Необходимые условия экстремума:
, (4)
где . Из уравнения (4) находим
.
Если матрица обратима, тогда
.
Матрица вторых частных производных
(5)
неотрицательно определена (см. упр.1), поэтому решение (3), точка, где наблюдается минимум.
Упражнения
1. Докажите неотрицательную определенность матрицы .
2. Докажите, что производная от скалярного произведения . Как это используется при выводе (3)?
3. Выведите формулу (5), вычисляя матрицу Гессе частных производных второго порядка .
4. Покажите, что при k=1, оценки (3) и (1.1.3) совпадают.
Классическая МЛРМ.
Несмещенность, состоятельность и эффективность
оценок параметров
Модель
(1)
называется классической, если
1. Матрица Х детерминирована;
2. Математическое ожидание остатков ;
3. Ковариационная матрица остатков ;
4. Модель называется нормальной, если .
МНК оценки параметров, являются несмещенными в КМЛРМ.
МНК оценки параметров, являются состоятельными в КМЛРМ.
(2)
Теорема Гаусса-Маркова. Среди линейных несмещенных оценок, оценки параметров МНК, являются эффективными в КМЛРМ.
МНК оценки параметров
относятся к классу линейных несмещенных. Весь класс линейных несмещенных оценок
(3)
где . Определим
(4)
поскольку из-за несмещенности оценок (3) (см. упр.4). Определим диагонали матриц уравнения (4). Получим
поскольку
Упражнения
1. Докажите, что при существовании моментов второго порядка матрицы Х.
2. Найдите при . Убедитесь в том, что найденные значения совпадают с полученными ранее значениями (1.2.7) – (1.2.9).
3. Докажите, что . Как это используется в доказательстве (2)?
4. Докажите, что , если справедливо (3).
5. Докажите, что при условии, что .
Статистические свойства оценок параметров
в нормальной КМЛРМ
Определяя статистические свойства оценок параметров, мы находим показатели их качества, а именно: стандартные отклонения и доверительные интервалы. В результате возможна проверка гипотез о значениях параметров включая сложные гипотезы.
Статистика
. (1)
Остатки множественной регрессии равны
(2)
Матрица N в (2) является идемпотентной (см. упр.1). Она обладает свойствами
(3)
Сумма квадратов ошибок
(4)
является квадратичной формой. Всякую квадратичную форму можно привести к диагональному виду ортогональным преобразованием координат. Пусть T матрица ортогонального преобразования координат. Тогда вектор в существующем базисе и вектор в новом базисе связывает соотношение
. (5)
Подставим (5) в (4). Получим
, (6)
где - собственные значения матрицы N (ее спектр). Собственные значения идемпотентной матрицы принимают значения 0 или 1. Действительно
,
В сумме (6) равны нулю или единице. Определим след матрицы N:
(7)
При доказательстве (7) используется свойство (см. упр.4). У идемпотентной матрицы след равен рангу. Также он равен сумме собственных значений:
. (8)
Действительно . Так как спектр матрицы состоит из нулей и единиц и преобразование координат не изменяет ранга матрицы, то . Используется также свойство ортогональной матрицы .
В соответствии с (8) в уравнении (6) всего слагаемых отличных от нуля. Считаем, что это первые слагаемые. Тогда
. (9)
По условию . Линейное преобразование нормальной случайной величины не изменяет ее распределения. Следовательно, вектор также подчиняется нормальному распределению. Из уравнения (5) находим
(10)
Из (10) следует, что , а . Поэтому
.
Несмещенная оценка дисперсии остатков в КМЛРМ равна
. (11)
В нормальной КМЛРМ статистика
. (12)
В нормальной модели оценки параметров подчиняются нормальному распределению:
,
где - стандартное отклонение оценки параметра . В (2.2) найдена ковариационная матрица
. (13)
Ее оценка
. (14)
На диагонали ковариационных матриц (13) и (14) находятся соответственно дисперсии и . Отношение
. (15)
Вычислим матрицу математических ожиданий
(16)
Из (16) следует, что числитель и знаменатель в (12) независимые случайные величины. Определим распределение статистики (12):
.
Упражнения
1. Докажите, что матрица N обладает свойствами: .
2. Докажите, что матрица N положительно определена.
3. Докажите, что ранг идемпотентной матрицы равен ее следу.
4. Докажите, .
5. Опишите алгоритм проверки гипотезы .
6. Опишите алгоритм построения доверительного интервала для параметра .
Оценка качества КМЛРМ. Коэффициент детерминации.
Отношение Фишера. Значимость модели
Коэффициент детерминации равен
. (1)
Коэффициент детерминации показывает, какая часть вариации результата объясняется вариацией регрессоров.
Определим
, (2)
где . Матрица L идемпотентна (см. упр.1).
Определим
. (3)
Матрица Р идемпотентна (см. упр.2). Общая сумма квадратов равна
(4)
При выводе (4) используется (см. упр.3). Делим (4) на TSS. Получим
.
В нормальной КМЛРМ отношение Фишера
(5)
если модель не значима ().
В соответствии с (3)
,
где (см. указание к упр.2). Сумма квадратов регрессии
(6)
Уравнение (6) – квадратичная форма. Вычислим след матрицы Р:
.
Далее следуют преобразования, аналогичные (2.5) – (2.10). В результате получим (см. упр.4)
. (7)
Докажем независимость RSS и ESS. Для этого вычислим ковариацию
.
Статистика Фишера
.
Значимость модели. Если отношение Фишера , модель не значима, ни один из факторов не влияет на результат. В противном случае, когда , хотя бы один из факторов значимо влияет на результат. Здесь - критическая точка распределения Фишера с (k, n-k-1) числом степеней свободы, - уровень значимости, обычно равный 0,05.
Пример 1
В табл.1 приводятся данные Госкомстата РФ по ВРП и ОФ СЗ РФ за 2000 - 2007 годы. Из данных исключен город Санкт-Петербург. Обозначим: x – ОФ, млрд. руб.; y – ВРП, млрд. руб. Проверим гипотезу об изменении предельного продукта ОФ со временем. Для проверки данной гипотезы предлагается построить модель, где предельный продукт ОФ является линейной функцией времени. Спецификация такой модели имеет вид
, (1)
где индекс i – номер региона (см. табл. 1.1); t – год ( за ноль взят 2000 год). Раскрывая скобки в (1), получим множественную регрессию
. (2)
Таблица 1
ВРП и ОФ СЗ РФ с 2000 по 2007 годы, млрд. руб.
Год
ВРП,
ОФ,
Год
ВРП,
ОФ,
2000
1
28
103
2004
4
1
54
198
794
2
59
228
4
2
132
473
1890
3
62
223
4
3
143
403
1611
4
69
163
4
4
161
345
1380
5
23
80
4
5
67
143
571
6
56
239
4
6
166
486
1944
7
55
155
4
7
125
312
1247
8
21
71
4
8
49
148
593
9
16
81
4
9
36
129
518
2001
1
1
28
123
123
2005
5
1
77
215
1075
1
2
59
307
307
5
2
171
578
2890
1
3
62
206
206
5
3
166
452
2262
1
4
69
187
187
5
4
194
400
2000
1
5
23
89
89
5
5
82
179
893
1
6
56
283
283
5
6
205
546
2732
1
7
55
188
188
5
7
133
344
1722
1
8
21
77
77
5
8
64
163
813
1
9
16
91
91
5
9
41
145
724
2002
2
1
41
148
296
2006
6
1
84
244
1461
2
2
86
387
773
6
2
218
728
4367
2
3
83
272
543
6
3
216
542
3250
2
4
81
252
505
6
4
202
478
2871
2
5
40
102
205
6
5
103
196
1175
2
6
95
345
691
6
6
265
611
3668
2
7
68
215
429
6
7
158
407
2440
2
8
31
111
222
6
8
75
186
1117
2
9
24
111
222
6
9
51
164
985
2003
3
1
47
175
524
2007
7
1
105
297
2076
3
2
107
445
1335
7
2
242
843
5903
3
3
104
395
1185
7
3
287
684
4789
3
4
108
333
998
7
4
244
675
4722
3
5
47
136
409
7
5
146
251
1759
3
6
121
433
1298
7
6
312
804
5627
3
7
81
291
874
7
7
192
538
3766
3
8
38
140
419
7
8
88
223
1563
3
9
29
123
368
7
9
63
189
1323
Для оценки параметров (2) применим МНК. Получим уравнение регрессии
. (3)
Предельный продукт ОФ на СЗ РФ возрастает на 0,023 ед. в год, значимость оценки по критерию Стьюдента 2∙10-6.
Упражнения
1. Докажите, что ;
2. Докажите, что . Указание: используйте равенство или ;
3. Докажите, что ;
4. Выведите формулу (7);
5. По данным табл. 1 проверьте гипотезу о параболическом изменении предельного продукта ОФ. Для этого постройте модель .
Прогнозирование в КМЛРМ.
Ошибка прогноза. Доверительный интервал для прогноза
Для прогнозирования в множественной регрессии используется уравнение
, (1)
где - значения факторов, для которых необходимо осуществить прогноз. По сути - еще одна строка матрицы Х в (2.1). Ошибка прогноза
. (2)
Для оценки качества прогноза необходимо найти дисперсию ошибки прогноза.
Дисперсия ошибки прогноза в КМЛРМ равна
. (3)
Среди линейных несмещенных, прогноз (1) в КМЛРМ обладает наименьшей дисперсией ошибки.
Прогноз (1) можно представить, как
. (4)
Все множество линейных несмещенных прогнозов
(5)
где . Находим
В нормальной КМЛРМ статистика
(6)
Поскольку в нормальной классической модели и , то их разность имеет нулевое математическое ожидание:
.
Отношение
. (7)
Представим статистику (6) в виде
. (8)
На основе (6) строится доверительный интервал для прогноза:
.
Упражнения
1. Сравните (3) при с (1.6.3). Убедитесь в том, что получаются одинаковые значения.
2. Определите . Сравните с . Почему дисперсия прогноза меньше дисперсии ошибки прогноза?
3. Докажите независимость числителя и знаменателя в (8). Указание: определите матрицу математических ожиданий .
Стандартизованная регрессия.
Коэффициент детерминации в стандартизованной регрессии
В множественной регрессии возникает задача сравнения факторов по силе воздействия на результат. Поскольку факторы обычно измеряются в различных шкалах, то для решения этой задачи сравнение коэффициентов регрессии по абсолютной величине не имеет смысла. Отношение порядка на множестве регрессоров может быть установлено с помощью стандартизованной регрессии:
, (1)
где . Параметр стандартизованной регрессии показывает часть стандартного отклонения результата вызванную стандартным отклонением фактора . Чем больше по модулю коэффициент стандартизованной регрессии, тем больше влияние данного фактора.
В стандартизованной регрессии
, (2)
где - параметры регрессии (1.1).
Представим регрессию (1.1) и вычислим среднее арифметическое наблюдений, входящих в это уравнение. Получим
Вычтем из первого уравнения второе, разделим на . Получим уравнение стандартизованной регрессии:
Стандартизованная регрессия (1) может быть представлена в матричном виде
.
Решая задачу
,
находим МНК оценки параметров стандартизованной регрессии
. (3)
В стандартизованной регрессии коэффициент детерминации равен
, (4)
где - выборочный коэффициент корреляции между и .
Коэффициент детерминации равен
где .
Упражнения
1. Выведите формулу (3);
2. Определите оценки параметров по формуле (3) для случая, когда ;
3. Определите матрицу . Как эта матрица связана с корреляционной матрицей регрессоров?
Частные коэффициенты корреляции.
Геометрическая интерпретация частной корреляции
Коэффициент корреляции является мерой связи двух случайных величин. Если он по модулю равен единице, то связь линейная. При независимости случайных величин он равен нулю. Для нормальных случайных величин равенство нулю коэффициента корреляции означает их независимость.
На практике часто встречаются следующие трудности: если одна величина связана с другой, то это может быть всего лишь отражением того факта, что обе они зависят от некоторой третьей величины. Например, цены на аренду жилья и продукты питания коррелируют из-за того, что они связаны с уровнем цен. Указанная ситуация приводит к рассмотрению связи между двумя величинами при фиксированных значениях остальных. Их называют частными корреляциями.
Рассмотрим вектор случайных величин
,
подчиняющийся многомерному нормальному распределению (см. Приложение 4). Частная корреляция между и равна
, (1)
где - алгебраические дополнения корреляционной матрицы вектора Х.
Геометрически частную корреляцию представим для трехмерного вектора с нулевым математическим ожиданием . Заметим, что для координат этого вектора операция подчиняется свойствам скалярного произведения. Каждую координату Х рассматриваем, как вектор пространства со скалярным произведением.
Геометрически частная корреляция равна косинусу угла между плоскостью и .
Длина каждого из векторов
.
Косинус угла между ними
.
Вектор, проектирующий Х1 на Х3
.
Вектор, проектирующий Х2 на Х3
.
Косинус угла между плоскостью и
Частную корреляцию можно найти с помощью уравнений регрессии. Для этого нужно выполнить регрессию Х1 на Х3, затем Х2 на Х3. Затем вычислить остатки первой и второй регрессий и . Выборочная частная корреляция
, (2)
где - выборочная корреляция между остатками и .
Упражнения
1. Определите по формуле (1) частную корреляцию между Х1 и Х2 при фиксированном Х3 () для вектора . Найдите и .
2. Проверьте справедливость (2) на произвольных данных.
Обобщенный МНК. Теорема Айткена
Модель множественной линейной регрессии
(1)
называется обобщенной, если выполняются следующие условия:
1. Матрица Х детерминирована;
2. Математическое ожидание ;
3. Ковариационная матрица .
В обобщенной модели (1) оценка ковариационной матрицы параметров
(2)
является смещенной.
Вычислим
(3)
В (3.2) мы определили, что остатки множественной регрессии . Математическое ожидание . Вычислим ковариационную матрицу . Найдем математическое ожидание
(4)
Сравнивая (3) и (4) делаем вывод, что
Теорема Айткена. Среди линейных несмещенных оценок, оценка
(5)
является эффективной.
Математическое ожидание оценки (5) ( см. упр. 2). Оценка (5) является несмещенной. Допустим, что существует преобразование координат с матрицей Т (не обязательно ортогональное), при котором справедливо
,
Множественную регрессию
умножим слева на матрицу Т. Получим
. (6)
Обозначим . Уравнение (6) преобразуется к виду
. (7)
Поскольку , то модель (7) классическая, и в соответствии с теоремой Гаусса-Маркова, оценка
(8)
является эффективной. Осталось определить матрицу Т. Для этого проведем следующие преобразования:
Подставляя полученный результат в (8), имеем оценку (5).
Упражнения
1. Докажите, что .
2. Докажите несмещенность .
Гетероскедастичность. «Взвешенный» МНК
Тестирование гетероскедастичности
Гетероскедастичность или неоднородность данных наблюдается, когда дисперсия остатков зависит от номера наблюдения. При отсутствии корреляции остатков гетероскедастичная ковариационная матрица имеет вид
. (1)
Для оценки параметров может быть использована формула (8.5):
,
где .
Матрица , где Т - матрица преобразования координат. В частности при
выполняется и оценка параметров может быть получена в двухшаговой процедуре, которая называется «взвешенный» МНК:
1. На первом шаге матрица Т умножается на у и Х. Определяются . Данные «взвешиваются» или умножаются на веса. В результате получена классическая модель ;
2. На втором шаге определяются МНК оценки параметров классической модели .
Если стандартные отклонения пропорциональны одному из регрессоров, тогда в качестве весов (диагонали матрицы Т) берут значения этого регрессора. Тест на пропорциональность можно провести следующим образом:
1. Определяются остатки , где , а ;
2. Выполняется регрессия на , где - один из регрессоров. Если регрессия значима, тогда можно брать в качестве весов.
Мультиколлинеарность. Метод главных компонент
В классической модели предполагается, что регрессоры детерминированы. В действительности редко удается построить модель с неслучайными факторами. Часто они оказываются случайными величинами и могут коррелировать между собой. Линейная или близкая к линейной зависимость между регрессорами называется мультиколлинеарностью. Отличают полную и частичную мультиколлинеарность.
Полная мультиколлинеарность наблюдается, когда ранг матрицы Х меньше, чем . В этом случае регрессоры линейно зависимы. Определитель и обратная матрица не существует. Оценки параметров не определяются однозначно.
Например, исследуется влияние затрат на выручку предприятия. В качестве факторов рассматриваются заработная плата (), материальные затраты (), капитальные затраты () и общие затраты (). Построено уравнение регрессии
, (1)
где - выручка предприятия.
Если общие затраты
, (2)
то однозначная идентификация параметров уравнения (1) невозможна.
Если выполняется (2), то при всех значениях параметра справедливо
Получаем бесконечно много оценок параметров уравнения.
Уравнение (1) при условии (2) - ошибка исследователя. Оценка параметров этого уравнения по формуле
(3)
приведет к диагностике деление на ноль. Но для реального предприятия равенство (2) выполняется приблизительно. И тогда:
1. Определитель ;
2. Оценки параметров (3) остаются несмещенными, но их ковариационная матрица оказывается ненормально большой. По критерию Стьюдента в действительности влияющие факторы, оказываются не значимыми.
Выше перечисленное – признаки частичной мультиколлинеарности. Частичная мультиколлинеарность наблюдается, когда между факторами существует зависимость, близкая к линейной. Представляют интерес значения дисперсий оценок отдельных параметров.
Дисперсия оценки i-того параметра модели возрастает при:
1. Увеличении корреляции i-того фактора с остальными;
2. Уменьшении дисперсии i-того фактора;
3. Увеличении дисперсии остатков модели.
Диагональ матрицы равна
,
где - дисперсия оценки i-того параметра модели. Определим
, (4)
где - коэффициент детерминации в регрессии i-того фактора на остальные; - выборочная дисперсия i-того фактора; i=1,2,…,k. Из (4) следует справедливость утверждений 1 – 3.
Детали доказательства формулы (4) предлагается разобрать в
упр. 1-3. Из формулы (4) следует, что дисперсия оценок параметров становится минимальной в случае взаимной ортогональности регрессоров. Тогда для них .
Метод главных компонент состоит в том, что из линейных комбинаций столбцов матрицы Х формируются новые, взаимно ортогональные регрессоры. Определим матрицу главных компонент
, (5)
где Т – матрица линейного преобразования Х. По условию формирования главных компонент столбцы матрицы G ортогональны. Поэтому матрица
(6)
является диагональной.
Столбцы матрицы Т – нормированные собственные вектора матрицы .
Пусть матрица квадратичной формы в некотором базисе. Зададим преобразование координат . Его столбцы, координаты нового базиса в старом. В новом базисе матрица этой же квадратичной формы имеет вид . Найдем
и обнаружим, что она совпадает с матрицей квадратичной формы в новом базисе. Матрица симметрическая. У нее существует ортонормированный базис из собственных векторов. Если базисом выбрать нормированные собственные вектора матрицы , тогда в новом базисе матрица квадратичной формы имеет диагональный вид
,
где - собственные значения матрицы .
Упражнения
1. Матрица регрессоров имеет вид . Обозначим матрицу регрессоров, из которой исключили i-тый столбец. Не умаляя общности считаем, что (данные центрированы). Докажите, в регрессии на ;
2. Докажите, что определитель блочной матрицы , если в первом случае А, а во втором D обратимы. Указание: представьте , а затем на месте В получите нули;
3. Докажите, что , где ;
4. Докажите, что собственные вектора матрицы , являются решением задачи
Указание: составьте функцию Лагранжа и приравняйте нулю ее частные производные по z.
Ошибки спецификации модели.
Лишние и пропущенные регрессоры
Предполагаем, что истинная модель (процесс генерирующий данные) имеет следующий вид
. (1)
Лишние регрессоры. Исследователь ошибочно предполагает, что регрессор влияет на у, и включает его в спецификацию модели. Модель с лишним регрессором имеет вид
, (2)
где ; . Оценка параметров модели (2) равна
(3)
Проверим несмещенность (3). Вычислим
(4)
В уравнении (4) , поскольку лишний регрессор. Он не влияет на у. Также должно выполняться , что означает отсутствие корреляции между остатками и матрицей регрессоров. В соответствии с (4) лишние регрессоры не мешают получать несмещенную оценку параметров, если отсутствует корреляция между остатками и матрицей регрессоров. При этом лишние регрессоры ухудшают качество оценок параметров.
Пропущенные регрессоры. У исследователя отсутствует информация о регрессоре , или он считает, что данный регрессор не влияет на у. Модель с отсутствующим регрессором имеет вид
, (5)
где ; . Оценка параметров модели (5) равна
(6)
Проверим несмещенность (6). Вычислим
(7)
Заметим, что в (7) равно оценке параметров регрессии на . Оценка (6) является несмещенной, только если одновременно выполняются два требования:
• не коррелирует с регрессорами ;
• регрессоры не коррелируют с остатками .
Корреляция регрессоров с остатками.
Инструментальные переменные. Двухшаговый МНК
Представим модель
, (1)
в которой хотя бы один из столбцов матрицы Х коррелирует с остатками .
Оценки параметров модели (1) полученные обычным МНК являются смещенными.
Вычислим математическое ожидание
где - параметры регрессии столбцов матрицы Х на остатки . Смещенными оказываются оценки тех параметров, которые коррелируют с . Величина смещения равна соответствующим значениям .
Несмещенные оценки параметров модели (1) могут быть получены с помощью инструментальных переменных. Инструментальными называются переменные, которые тесно коррелируют с матрицей Х, но при этом не коррелируют с остатками. Алгоритм оценки параметров модели (1) с помощью инструментальных переменных называется двухшаговым МНК.
Первый шаг МНК состоит в том, что определяются параметры регрессии матрицы Х на матрицу инструментальных переменных Z. Получается уравнение прогноза
, (2)
где - оценки параметров данной регрессии. Найденные, в уравнении (2) значения утратили свойство корреляции с остатками модели (1) и могут использоваться в качестве регрессоров. На втором шаге данного алгоритма оцениваются параметры модели
. (3)
Существуют условия, при которых оба шага можно объединить.
Если матрица обратима, тогда несмещенные оценки параметров модели (1) могут быть получены по формуле
. (4)
В соответствии с обычным МНК оценки параметров модели (3) имеют вид
. (5)
Подставим в (5) уравнение прогноза (2). Получим:
Проверим несмещенность полученных оценок:
Временные ряды
Временным рядом называются данные, упорядоченные в хронологическом порядке. Весь материал, изложенный ранее, относится к теме данного раздела. Существует здесь и определенная специфика. Для временного ряда характерно включение номера наблюдения в число регрессоров. Также временные ряды достаточно редко подчиняются требованиям классической модели, особенно в части независимости остатков разных наблюдений.
Выделение нестационарных составляющих
временного ряда. Тренд, сезонность
По классической традиции считается, что временной ряд включает в себя четыре основных составляющих:
1. Долгосрочная тенденция (тренд);
2. Циклическая компонента протяженностью более года. Это деловой или бизнес цикл;
3. Подъемы и спады в течение года, сезонная компонента;
4. Случайные отклонения не вызванные первыми тремя составляющими и формирующиеся под воздействием большого числа случайных факторов.
Первые три составляющие носят нестационарный характер. Их последовательно выделяют для получения стационарных остатков. Для выделения тренда используются обычные методы построения линейной или нелинейной регрессии. Линейным трендом называется регрессия
. (1)
Линейный тренд есть, если величина параметра b значимо отличается от нуля. Параболическим трендом называется регрессия
. (2)
Так можно построить полиномиальный тренд любого порядка. На практике редко используются полиномы более чем второй степени.
Процессы с постоянным темпом роста (спада) описываются показательным или экспоненциальным трендом
(3)
Для оценки параметров уравнения (3) логарифмируют. В логистике применяются S – образные функции, например
. (4)
Сезонная компонента может быть выделена с помощью фиктивных переменных. Например, для данных с квартальной компонентой можно построить регрессию с фиктивными переменными
, (5)
где для наблюдений i-того квартала и в противном случае.
Авторегрессия первого порядка
Модель
, (1)
называется авторегрессией первого порядка, если для ее остатков выполняется
,
где - классические остатки ().
Если математическое ожидание и дисперсия процесса не зависят от номера наблюдения, тогда
(2)
Вычислим математическое ожидание остатков модели (1):
при . Вычислим дисперсию
Вычислим ковариацию
Оценка параметров в модели с авторегрессией.
Процедуры Кохрейна-Оркатта, Хилдрета-Лу и Дарбина
Дисперсия остатков авторегрессии первого порядка (1.2) зависит от параметра . Допустим, что известно. Представим уравнение (1.1) в виде
Умножим второе уравнение на и сложим с первым. Получим
(1)
Определим замены:
где - классические остатки. Получено уравнение классической множественной линейной регрессии
. (2)
Для оценки параметров можно использовать МНК. Значение .
В действительности значение неизвестно. Для его оценки:
1. Определяются оценки параметров регрессии ;
2. Вычисляются остатки , где ;
3. Строится регрессионная модель. Оценивается ее параметр. Если подтверждается гипотеза , то авторегрессии нет;
4. Полученная оценка используется для пересчета данных в соответствии с (2). Оцениваются параметры уравнения (2): и .
5. Найденная оценка параметров позволяет определить прогноз .
Процедура Кохрейна-Оркатта состоит в том, что за шагом 5 следует 2 и т.д. , пока не будет получено достаточно точное значение .
Процедура Хилдрета-Лу состоит в том, в уравнение (2) значения подставляются из интервала с определенным шагом. Затем по коэффициенту детерминации определяется оптимальное значение параметра .
Для описания процедуры Дарбина преобразуем уравнение (1) к виду
(3)
Уравнение (3) – классическая множественная регрессия. Для оценки параметров можно использовать МНК. В действительности оценка параметров этого уравнения усложняется мультиколлинеарностью его регрессоров.
Упражнения
1. Представьте уравнение (1) в матричном виде где . Как выглядит матрица преобразования координат Т? Найдите матрицу . Как она связана с матрицей , определенной в (1.2)?;
2. По типу процедуры Кохрейна-Оркатта постройте алгоритм оценки параметров авторегрессии второго порядка: , .
Автокорреляция остатков.
Отношение Дарбина-Уотсона и его статистические свойства
Пусть
(1)
временной ряд. Допустим, что остатки временного ряда (1) стационарны в широком смысле (). Тогда автокорреляционная функция остатков определяется как
. (2)
Получить оценку автокорреляционной функции можно с помощью отклонений наблюдений от прогноза (), которые приблизительно равны остаткам. Оценка автокорреляционной функции равна
(3)
Отношение Дарбина-Уотсона равно
. (4)
Между статистикой Дарбина-Уотсона и автокорреляционной функцией первого порядка и существует следующая связь:
. (5)
С помощью отношения Дарбина-Уотсона тестируют гипотезу о наличии или отсутствии автокорреляции первого порядка. Алгоритм тестирования представлен в табл.3.1. Критические точки распределения Дарбина-Уотсона dL и dU, которые определяют зону неопределенности, приводятся в соответствующих таблицах (см. напр. 9).
Таблица 3.1.
DW
r(1)
0,dL)
>0
dL,dU
?
(dU,4-dU)
=0
4-dU,4-dL
?
(4-dL,4
<0
Упражнения
1. Определите МНК оценку параметра в регрессии , где , а - классические остатки. Как она связана с (3)?;
2. Как с помощью статистики Стьюдента решить вопрос о наличии или отсутствии автокорреляции остатков?
Модель распределенных лагов.
Методы Алмон и Койка
Модель
(1)
называется моделью распределенных лагов. Если данные в уравнении (1) подчиняются классическим требованиям, тогда ее параметры могут оцениваться обычным МНК. Однако при непосредственной оценке параметров матрица может оказаться близкой к вырожденной из-за мультиколлинеарности лагированых значений регрессора. Поэтому предполагается, что существует зависимость между значениями параметров в модели (1). Различные формы этой зависимости предполагают соответствующие им методы оценки параметров.
Метод Алмон. Для коэффициентов регрессии (1) предлагаются полиномы следующего вида
, (2)
где ; cj – неизвестные параметры модели. Подставляя (2) в (1) получим
(3)
где - новые значения регрессоров. Поскольку модель (3) является классической, то ее параметры оцениваются обычным МНК. Затем из уравнения (2) находятся оценки параметров модели (1).
В методе Койка применяются геометрические лаги. Считаем, что в уравнении (1) , а коэффициенты имеют вид геометрической прогрессии , где - неизвестные параметры. Подставляя значения параметров в (1) получим
. (4)
В уравнении (4) три параметра. Значения могут выбираться из интервала с определенным шагом. Для каждого из них находится . Параметры парной регрессии оцениваются обычным МНК. Оптимальное значение можно выбрать по коэффициенту детерминации.
Существует еще один метод оценивания параметров уравнения (4). Найдем
(5)
Из уравнения (5) определяем
(6)
где . Параметры уравнения (6) можно оценить обычным МНК. Но оценка получится смещенной из-за корреляции с остатками . Ситуацию можно исправить с помощью инструментальной переменной для .
Упражнения
1. Определите при .
Системы эконометрических уравнений
Система уравнений в эконометрических исследованиях может быть построена по-разному. Возможна система независимых уравнений, когда каждая зависимая переменная рассматривается как функция одного и того же набора факторов. Для нахождения его параметров используется метод наименьших квадратов. По существу, каждое уравнение этой системы является уравнением регрессии. Если каждое из уравнений системы является временным рядом, тогда возможна зависимость между остатками в один и тот же момент времени. Так возникает системы внешне не связанных уравнений.
Если зависимая переменная одного уравнения выступает в виде фактора в следующем уравнении, то исследователь может строить модель в виде системы рекурсивных уравнений. Каждое уравнение этой системы может рассматриваться самостоятельно, и его параметры определяются методом наименьших квадратов.
Ряд эконометрических исследований требует построения системы взаимозависимых или одновременных уравнений. В ней зависимые переменные одних уравнений являются регрессорами других. В такой системе отдельное уравнение не может рассматриваться самостоятельно, и для оценки его параметров традиционный МНК неприменим. Применяют двухшаговый или трехшаговый МНК.
Системы внешне не связанных
эконометрических уравнений
Система внешне не связанных эконометрических уравнений имеет вид
(1)
Каждое из уравнений системы (1) представляется классической множественной регрессией, и его параметры могут оцениваться обычным МНК. Допустим, что каждая из зависимых переменных является временным рядом и отсчеты формируются в один и тот же момент времени t. Тогда события, происходящие в момент времени t влияют на все уравнения системы (1). Их остатки не связанные в различные моменты, оказываются зависимыми между собой для момента t ().
Оценки параметров можно улучшить, если объединить уравнения системы (1) в одно
(2)
где
.
Модель (2) является обобщенной. Ковариационная матрица остатков не диагональная матрица и равна
,
где . Оценка b может быть получена в соответствии с (2.8.5) для обобщенной модели:
.
Системы одновременных
эконометрических уравнений
Систему взаимосвязанных тождеств и регрессионных уравнений, в которой переменные могут одновременно выступать как результирующие в одних уравнениях и как объясняющие в других, принято называть системой одновременных (эконометрических) уравнений. При этом в соотношения могут входить переменные, относящиеся не только к моменту времени t , но и к предшествующим моментам (лаговые переменные). Техника оценивания параметров системы эконометрических уравнений имеет свои особенности. Это связано с тем, что в регрессионных уравнениях системы объясняющие переменные (регрессоры) и случайные погрешности (остатки) коррелируют между собой.
Будем рассматривать линейную модель вида
(1)
где - значение эндогенной переменной в момент времени t; - значение предопределенной (экзогенной или лаговой) переменной. Эндогенные – это зависимые переменные, которые определяются внутри модели. Экзогенные – это независимые переменные. Лаговые – это запаздывающие переменные.
Систему (1) можно представить в матричном виде:
, (2)
где .
МНК оценка матрицы в (2) является смещенной и несостоятельной из-за корреляции и . Для оценки параметров системы (2) используют инструментальные переменные. Инструментальными переменными выступает матрица . Оценка параметров системы (2) осуществляется с помощью двухшаговой процедуры, которая называется двухшаговый МНК (2МНК).
На первом шаге оцениваются параметры приведенной модели
. (3)
В результате формируются переменные
. (4)
Их подставляют в систему (2). На втором шаге оцениваются параметры модели
. (5)
Оценка параметров модели (5) может оказаться невозможной из-за мультиколлинеарности. Существует счетное правило (необходимое условие идентифицируемости), которое устанавливает принципиальную возможность оценки параметров данной модели. Обозначим: Н – число эндогенных переменных в уравнении; D – число отсутствующих предопределенных переменных в уравнении.
Счетное правило: если , тогда идентификация параметров уравнения возможна. Если - тогда она невозможна.
Отдельное уравнение системы (5) имеет вид
.
Всего в этом уравнении необходимо оценить параметров. Поскольку определяются через , то число линейно независимых столбцов в матрице не может превышать . Идентификация параметров (5) возможна только если
или
.
Упражнения
1. Пусть задана система одновременных уравнений
Опишите механизм корреляции эндогенных переменных с остатками. Оценки каких параметров окажутся смещенными, если параметры этой системы оценивать непосредственно без инструментальных переменных?
Приложение 1
Критические точки распределения Стьюдента
Число
степеней
свободы
k
Уровень значимости
(двусторонний)
Число
степеней
свободы
k
Уровень значимости
(двусторонний)
0,1
0,05
0,01
0,1
0,05
0,01
1
6,314
12,706
63,656
26
1,706
2,056
2,779
2
2,920
4,303
9,925
27
1,703
2,052
2,771
3
2,353
3,182
5,841
28
1,701
2,048
2,763
4
2,132
2,776
4,604
29
1,699
2,045
2,756
5
2,015
2,571
4,032
30
1,697
2,042
2,750
6
1,943
2,447
3,707
31
1,696
2,040
2,744
7
1,895
2,365
3,499
32
1,694
2,037
2,738
8
1,860
2,306
3,355
33
1,692
2,035
2,733
9
1,833
2,262
3,250
34
1,691
2,032
2,728
10
1,812
2,228
3,169
35
1,690
2,030
2,724
11
1,796
2,201
3,106
36
1,688
2,028
2,719
12
1,782
2,179
3,055
37
1,687
2,026
2,715
13
1,771
2,160
3,012
38
1,686
2,024
2,712
14
1,761
2,145
2,977
39
1,685
2,023
2,708
15
1,753
2,131
2,947
40
1,684
2,021
2,704
16
1,746
2,120
2,921
41
1,683
2,020
2,701
17
1,740
2,110
2,898
42
1,682
2,018
2,698
18
1,734
2,101
2,878
43
1,681
2,017
2,695
19
1,729
2,093
2,861
44
1,680
2,015
2,692
20
1,725
2,086
2,845
45
1,679
2,014
2,690
21
1,721
2,080
2,831
46
1,679
2,013
2,687
22
1,717
2,074
2,819
47
1,678
2,012
2,685
23
1,714
2,069
2,807
48
1,677
2,011
2,682
24
1,711
2,064
2,797
49
1,677
2,010
2,680
25
1,708
2,060
2,787
50
1,676
2,009
2,678
Приложение 2
Критические точки распределения Фишера
(уровень значимости 0,05)
k1
k2
1
2
3
4
5
6
7
8
9
10
1
161,446
199,499
215,707
224,583
230,160
233,988
236,767
238,884
240,543
241,882
2
18,513
19,000
19,164
19,247
19,296
19,329
19,353
19,371
19,385
19,396
3
10,128
9,552
9,277
9,117
9,013
8,941
8,887
8,845
8,812
8,785
4
7,709
6,944
6,591
6,388
6,256
6,163
6,094
6,041
5,999
5,964
5
6,608
5,786
5,409
5,192
5,050
4,950
4,876
4,818
4,772
4,735
6
5,987
5,143
4,757
4,534
4,387
4,284
4,207
4,147
4,099
4,060
7
5,591
4,737
4,347
4,120
3,972
3,866
3,787
3,726
3,677
3,637
8
5,318
4,459
4,066
3,838
3,688
3,581
3,500
3,438
3,388
3,347
9
5,117
4,256
3,863
3,633
3,482
3,374
3,293
3,230
3,179
3,137
10
4,965
4,103
3,708
3,478
3,326
3,217
3,135
3,072
3,020
2,978
11
4,844
3,982
3,587
3,357
3,204
3,095
3,012
2,948
2,896
2,854
12
4,747
3,885
3,490
3,259
3,106
2,996
2,913
2,849
2,796
2,753
13
4,667
3,806
3,411
3,179
3,025
2,915
2,832
2,767
2,714
2,671
14
4,600
3,739
3,344
3,112
2,958
2,848
2,764
2,699
2,646
2,602
15
4,543
3,682
3,287
3,056
2,901
2,790
2,707
2,641
2,588
2,544
16
4,494
3,634
3,239
3,007
2,852
2,741
2,657
2,591
2,538
2,494
17
4,451
3,592
3,197
2,965
2,810
2,699
2,614
2,548
2,494
2,450
18
4,414
3,555
3,160
2,928
2,773
2,661
2,577
2,510
2,456
2,412
19
4,381
3,522
3,127
2,895
2,740
2,628
2,544
2,477
2,423
2,378
20
4,351
3,493
3,098
2,866
2,711
2,599
2,514
2,447
2,393
2,348
21
4,325
3,467
3,072
2,840
2,685
2,573
2,488
2,420
2,366
2,321
22
4,301
3,443
3,049
2,817
2,661
2,549
2,464
2,397
2,342
2,297
23
4,279
3,422
3,028
2,796
2,640
2,528
2,442
2,375
2,320
2,275
24
4,260
3,403
3,009
2,776
2,621
2,508
2,423
2,355
2,300
2,255
25
4,242
3,385
2,991
2,759
2,603
2,490
2,405
2,337
2,282
2,236
26
4,225
3,369
2,975
2,743
2,587
2,474
2,388
2,321
2,265
2,220
27
4,210
3,354
2,960
2,728
2,572
2,459
2,373
2,305
2,250
2,204
28
4,196
3,340
2,947
2,714
2,558
2,445
2,359
2,291
2,236
2,190
29
4,183
3,328
2,934
2,701
2,545
2,432
2,346
2,278
2,223
2,177
30
4,171
3,316
2,922
2,690
2,534
2,421
2,334
2,266
2,211
2,165
31
4,160
3,305
2,911
2,679
2,523
2,409
2,323
2,255
2,199
2,153
32
4,149
3,295
2,901
2,668
2,512
2,399
2,313
2,244
2,189
2,142
33
4,139
3,285
2,892
2,659
2,503
2,389
2,303
2,235
2,179
2,133
34
4,130
3,276
2,883
2,650
2,494
2,380
2,294
2,225
2,170
2,123
35
4,121
3,267
2,874
2,641
2,485
2,372
2,285
2,217
2,161
2,114
36
4,113
3,259
2,866
2,634
2,477
2,364
2,277
2,209
2,153
2,106
37
4,105
3,252
2,859
2,626
2,470
2,356
2,270
2,201
2,145
2,098
38
4,098
3,245
2,852
2,619
2,463
2,349
2,262
2,194
2,138
2,091
39
4,091
3,238
2,845
2,612
2,456
2,342
2,255
2,187
2,131
2,084
40
4,085
3,232
2,839
2,606
2,449
2,336
2,249
2,180
2,124
2,077
45
4,057
3,204
2,812
2,579
2,422
2,308
2,221
2,152
2,096
2,049
50
4,034
3,183
2,790
2,557
2,400
2,286
2,199
2,130
2,073
2,026
55
4,016
3,165
2,773
2,540
2,383
2,269
2,181
2,112
2,055
2,008
60
4,001
3,150
2,758
2,525
2,368
2,254
2,167
2,097
2,040
1,993
65
3,989
3,138
2,746
2,513
2,356
2,242
2,154
2,084
2,027
1,980
70
3,978
3,128
2,736
2,503
2,346
2,231
2,143
2,074
2,017
1,969
80
3,960
3,111
2,719
2,486
2,329
2,214
2,126
2,056
1,999
1,951
90
3,947
3,098
2,706
2,473
2,316
2,201
2,113
2,043
1,986
1,938
100
3,936
3,087
2,696
2,463
2,305
2,191
2,103
2,032
1,975
1,927
110
3,927
3,079
2,687
2,454
2,297
2,182
2,094
2,024
1,966
1,918
120
3,920
3,072
2,680
2,447
2,290
2,175
2,087
2,016
1,959
1,910
Приложение 3
Выборочные распределения
Выборки или наблюдения случайных величин сопровождаются статистиками характеризующими выборку. Распределения этих статистик называются выборочными. Обычно в основе выборочных распределений лежит нормальное распределение. Случайная величина Х подчиняется нормальному распределению с параметрами а и (), если ее плотность вероятности имеет следующий вид
. (1)
Стандартизованной называется нормальная случайная величина
. (2)
Случайная величина Х подчиняется распределению 2 с n числом степеней свободы (, если
и независимы. (3)
Случайная величина Х подчиняется распределению Стьюдента с n числом степеней свободы , если
и Y и Z независимы. (4)
Случайная величина Х подчиняется распределению Фишера с m и n числом степеней свободы , если
и Y и Z независимы. (5)
Приложение 4
Многомерное нормальное распределение.
Частные корреляции
Вектор случайных величин подчиняется нормальному распределению, если его плотность вероятности имеет вид
, (1)
где - ковариационная матрица вектора Х; - ковариация между i-той и j-той компонентами вектора Х; - математическое ожидание вектора i-той компоненты вектора Х. Например, при ковариационная матрица имеет вид
,
где - дисперсия i-той компоненты. Двумерная нормальная плотность вероятности равна
, (2)
где - коэффициент корреляции между i-той и j-той компонентами вектора Х.
Не умаляя общности, считаем далее, что компоненты вектора Х стандартизованы, то есть и . В этом случае ковариационная матрица вектора Х совпадает с корреляционной матрицей:
. (3)
Разобьем вектор Х на две компоненты. Представим
.
Квадратичная форма в показателе экспоненты (1) равна
(4)
где ; .
Представим правую часть (4) в виде
.
Равенство (4) возможно, если и . Находим:
;
.
Условная плотность вероятности
. (5)
Плотность вероятности Y при условии, что равна
При вычислении кратного интеграла квадратичная форма в показателе экспоненты приводится к диагональному виду ортогональным преобразованием координат.
Допустим, что первая компонента вектора имеет размерность 2: . Тогда
(6)
где - алгебраические дополнения матрицы , представленной в (3). В этом случае условная плотность вероятности (5) становится равной
, (7)
где . Сравнивая (7) с (2) находим, что коэффициент корреляции между Х1 и Х2 не зависит от Z и равен
. (8)
Формула (8) представляет частную корреляцию между Х1 и Х2 при фиксированном значении Z.
Аналогично могут быть получены частные корреляции между другими компонентами вектора Х:
. (9)
Приложение 5
Оценка параметров регрессии в соответствии с
методом наибольшего правдоподобия
Допустим, что случайная величина Х подчиняется распределению (), где а – неизвестный параметр распределения. Для оценки параметра производится n наблюдений случайной величины Х. В результате получен вектор случайных величин . Функция
(1)
называется функцией правдоподобия. Значение параметра а, при котором функция (1) достигает своего максимума, называется оценкой наибольшего (максимального) правдоподобия:
. (2)
Для решения экстремальной задачи (2) необходимо дифференцировать функцию (1). Чтобы не дифференцировать произведение, функцию правдоподобия логарифмируют. Решается задача
. (3)
В качестве примера оценим параметры нормальной классической ЛРМ методом наибольшего правдоподобия. В случае парной регрессии . Задача на максимум функции правдоподобия может быть представлена в виде
(4)
Вычислим и приравняем нулю частные производные:
(5)
Решая систему уравнений (5), получаем оценки параметров нормальной классической регрессионной подели в соответствии с методом наибольшего правдоподобия:
(6)
Оценки параметров а и b совпадают с оценками МНК. Оценка дисперсии остатков оказывается смещенной ().
Для заметок
________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Литература
1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник. – М.: ЮНИТИ, 1998.
2. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика: Начальный курс. – М.: Дело, 2001.
3. Катышев П.К., Пересецкий А.А. Сборник задач к начальному курсу эконометрики. – М; Дело, 1999.
4. Доугерти К. Введение в эконометрику. – М.: ИНФРА-М, 2001.
5. Колемаев В.А. Эконометрика: Учебник. – М.: ИНФРА-М, 2004.
6. Бородич С.А. Эконометрика. – Минск: ООО «Новое знание», 2001.
7. Тихомиров Н.П., Дорохина Е.Ю. Эконометрика. М.: «Экзамен», 2003.
8. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М: Финансы и статистика, 2002.
9. Практикум по эконометрике: Учебное пособие / Под ред. И.И. Елисеевой. – М: Финансы и статистика, 2002.
10. Green W.H. Econometric Analysis. – N.J.: Prentice Hall, 2003.
11. Kirchgässner G., Wolters J. Introduction to Modern Time Series Analysis. Springer, 2008.
12. www.gks.ru – официальный сайт Федеральной службы государственной статистики.
13. Регионы России. Социально-экономические показатели. 2007. Р 32. Стат. сб. / Росстат. – М., 2007. – 991 с.