Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Введение
Эконометрические модели отражают статистические закономерности, устанавливаемые наукой. Эконометрическая модель – это система одновременных линейных алгебраических уравнений, некоторые из которых содержат случайные составляющие. Последние можно трактовать как результат совокупного влияния факторов, воздействие каждого из которых незначительно и поэтому не может быть учтено напрямую в модели.
Эконометрические модели могут применяться как на макро, так и на микро уровне. Цель их применения – количественный анализ взаимного влияния показателей, описывающих данный экономический объект (или явление) и прогнозирование будущих значений одних переменных (показателей) по известным значениям других переменных.
Различают эндогенные, в том числе лаговые эндогенные, экзогенные и предопределенные переменные.
Эндогенными (выходными) называются переменные, которые в каждой текущей момент времени t могут быть определены с помощью модели.
Эндогенные лаговые – это такие эндогенные переменные, некоторые прошлые значения которых влияют на их текущие значения.
Экзогенные– это переменные, которые задаются извне модели.
Предопределенными (входными) называются переменные, по значениям которых определяются значения эндогенных в каждый момент времени t .
Все уравнения, не содержащие случайную составляющую, называются балансовыми.
Наиболее часто в экономических исследованиях применяется конъюнктурная модель Клейна, разработанная этим автором в начале 50-х годов прошлого века для США. Проиллюстрируем все выше сказанное именно на этой модели.
Конъюнктурная модель Клейна
где
потребление,
чистые инвестиции,
заработная плата в частном секторе,
заработная плата в государственном секторе,
валовый внутренний продукт (без чистого экспорта и прироста запасов)
общая прибыль,
капитал,
государственные расходы,
общий сбор налогов.
Как видим в модели 9 переменных и 6 уравнений. В число эндогенных переменных входят всего шесть, т.е. ровно столько, сколько уравнений! Из этих шести, три переменных являются лаговыми эндогенными, поскольку в текущий момент t в уравнениях принимают участие также прошлые значения этих переменных .
Экзогенными переменными являются эти переменные вместе с прошлыми значениями лаговых эндогенных переменных образуют набор t, предопределенных переменных.
Первые три уравнения содержат случайные составляющие, последние три таких составляющих не содержат, поэтому являются балансовыми.
Модель Клейна, идентифицированная*/ по данным Канады за 1955 -1975 гг. имеет следующий вид (все стоимостные показатели в млрд. долл. в ценах 1975г.)
1,407+0,694+0,1+0,855+1,7 ,
-2,215+0,433+0,947-0,343,85 ,
Из модели в частности видно, что увеличение текущей прибыли на млн. долл. приводит к среднему увеличению потребления 0,694 млн. долл., а такое же увеличение фонда заработной платы в частном и государственном секторах – к среднему росту потребления на 0,855 млн. долларов. На рост инвестиций наибольшее влияние оказывает прибыль прошлого года, а на рост фонда заработной платы в частном секторе – ВВП текущего года, кроме того, имеется тенденция среднегодового роста этого фонда на 698 млн. долл.
1
Таким образом, характерной чертой эконометрической модели является наличие в системе ее уравнений хотя бы одного уравнения со случайной составляющей. В частности, вся система может состоять только из одного уравнения со случайной составляющей, тогда имеем дело с множественной линейной регрессией.
Другой особенностью эконометрической модели является то, что она идентифицируется по временной выборке, при этом в некоторых из переменных может присутствовать временной тренд. Поэтому другим частным случаем эконометрической модели служит модель временного ряда с трендом.
И модель линейной множественной регрессии, и модель временного ряда с трендом – это хорошо изученные объекты, и изучение это проводилось в рамках математической статистики с использованием простого и обобщенного методов наименьших квадратов.
Существенно новые проблемы возникли, когда появилась необходимость работать с моделями, в которых содержится более одного уравнения со случайными составляющими. По мере преодоления этих проблем выяснилось, что после определенных преобразований задача идентификации такой модели сводится к решению нескольких задач множественной регрессии.
Итак, с одной стороны модель множественной регрессии – это частный случай эконометрической модели, а с другой стороны – фундамент для изучения общей эконометрической модели.
Поэтому дальнейшее изложение построено следующим образом: сначала детально излагаются методы работы с моделями множественной регрессии и временного ряда с трендом, и только после этого подробно изучаются системы одновременных уравнений. Именно такая последовательность предусмотрена в ГОСе по дисциплине.
ЛЕКЦИЯ 1 . ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
Модель парной линейной регрессии имеет вид
где
у – зависимая переменная (предиктор),
х – независимая переменная (регрессор),
- детерминированная составляющая,
- случайная составляющая (случайный остаток),
параметры регрессии, которые должны быть определены по выборочным данным.
Параметр показывает, на сколько единиц в среднем изменится зависимая переменная (например, выпуск продукции в стоимостном выражении), если независимая переменная (например, число занятых) увеличится на единицу.
Независимая переменная - неслучайная величина, напротив, зависимая переменная - случайная величина, поскольку в нее входит случайная составляющая .
Поскольку изменение только одной независимой переменной , вообще говоря, не может вобрать в себя все источники вариации зависимой переменной, то случайная составляющая и отражает совокупное влияние на зависимую переменную всех других (кроме ) факторов.
1.1. Идентификация модели
Оценка параметров регрессии (идентификация) проводится либо по пространственной либо по временной выборке В первом случае носителями информации выступают разные (но в определенном смысле однотипные) экономические объекты, рассматриваемые в один и тот же момент времени. Во втором случае носителем информации служит один и тот же объект в разные моменты времени. Реже используется пространственно-временная выборка.
Итак, пусть для определенности имеется конкретная пространственная выборка (объема n): тогда в случае справедливости модели парной регрессии имеют место следующие соотношений (выборочных уравнений)
(1.1.1)
Эти соотношения трактуются по-разному для конкретной и случайной выборок. В первом случае каждое выборочное наблюдение - это просто пара чисел или точка в двумерном пространстве, поэтому в соотношениях (1.1.1) - конкретные числа, являющиеся реализациями случайных величин . Во втором случае - настоящие случайные величины, поэтому и также являются случайными величинами. Необходимость в этой второй трактовке возникает тогда, когда необходимо проверить качество полученных оценок параметров регрессии, а это можно сделать лишь путем перебора всех возможных ситуаций, т.е. по случайной выборке.
В последнем случае обычно делается предположение о некоррелированности разных значений т.е.
при
Для получения оценок применяется метод наименьших квадратов (МНК): подбираются такие значения параметров, при которых сумма квадратов отклонений фактических значений от выравненных была бы минимальной
(1.1.2)
Под выравненным значением зависимой переменной для -го наблюдения понимается значение
(1.1.3)
лежащее на прямой
С геометрической точки зрения минимизация суммы квадратов отклонений (1.1.2) означает выбор прямой (из всех прямых с параметрами ), которая ближе всего “прилегает” по ординатам к системе выборочных точек что показано на рис. 1.1.
y
.
. МНК-прямая
.
.
.
x
Рис. 1.1. Геометрическая интерпретация метода наименьших квадратов
Минимум квадратичной функции двух переменных находим, приравнивая нулю производные
(1.1.4)
Приведем теперь эти уравнения к стандартному виду (слева – неизвестные, справа – известные величины)
(1.1.5)
Получившаяся система из двух линейных уравнений с двумя неизвестными называется системой нормальных уравнений. Она легко решается методом последовательного исключения неизвестных
(1.1.6)
где (поэтому ).
Свойства МНК – оценок
Прежде всего докажем, что МНК – оценки несмещены. В самом деле
таким образом, оценки действительно несмещены.
Теперь докажем, что МНК-оценки – состоятельны, т.е. сходятся по вероятности к истинным значениям параметров. Для несмещенных оценок достаточным условием состоятельности является сходимость их дисперсий к нулю при неограниченном возрастании объема выборки. Это следует из неравенства Чебышева:
т.е. оценка состоятельна.
Осталось только показать, что Имеем
(1.1.7)
поэтому , если а это будет иметь место тогда, если (кроме конечного числа значений), т.е. не совпадают со своим средним значением.
Точно также
(1.1.8)
при тех же условиях, что и выше.
При этом было использовано равенство (которое вытекает из условия ):
Итак, МНК–оценки параметров регрессии состоятельны.
Нормальные уравнения в матричной форме
Запись нормальных уравнений в матричной форме позволяет продемонстрировать их единообразное строение как в случае парной, так и множественной регрессии.
Введем следующие обозначения
(1.1.9)
Y – вектор–столбец выборочных значений зависимой переменной,
X – матрица выборочных значений независимых переменных
Нетрудно прямым счетом убедиться, что матрица нормальных уравнений равна
(1.1.10)
и вектор правых частей нормальных уравнений
(1.1.11)
поэтому нормальные уравнения в матричной форме имеют вид
(1.1.12)
Оценка дисперсии случайной составляющей
Поскольку речь идет о дисперсии случайной составляющей, то ее оценку надо строить по сумме квадратов оценок случайной составляющей
(1.1.13)
константу h подберем так, чтобы оценка была несмещенной.
Имеем
(1.1.14)
последнее верно, поскольку
Представим в следующем виде и найдем (пользуемся соотношениями )
Подставив последнее выражение в (1.1.14), получаем
поэтому оценка дисперсии
(1.1.15)
является несмещенной.
Распределение статистики
Эта статистика, т.е. функция от выборочных значений, использовалась при построении несмещенной оценки дисперсии случайной составляющей.
Докажем, что эта статистика имеет распределение степенями свободы, если значения случайной составляющей имеют нормальное распределение, т.е.
В Приложении 1 доказано, что при статистика
имеет распределение степенью свободы.
Разложим теперь полную сумму квадратов отклонений на остаточную и объясненную
В самом деле, имеем
поскольку последнее слагаемое равно нулю
то
(1.1.16)
или
Но
имеет при распределение с одной степенью свободы, поэтому из следует, что
имеет распределение степенями свободы.
Проверка гипотезы о наличии регрессионной зависимости
Найденная оценка может быть реализацией случайной величины, математическое ожидание которой равно нулю
т.е. может оказаться, что никакой регрессионной зависимости на самом деле нет. Для того, чтобы разобраться с этой ситуацией, проверим следующие две конкурирующие гипотезы
: ( нет регрессионной зависимости),
: ( есть регрессионная зависимость).
Будем считать, что случайная составляющая имеет нормальное распределение, т.е. поэтому оценка как линейная комбинация значений зависимой переменной также нормальная случайная величина
При нулевой гипотезе
(1.1.16)
Поскольку дисперсия случайной составляющей неизвестна, то в (1.1.16) ее приходится заменять оценкой
(1.1.17)
Последняя величина называется расчетной t-значимостью оценки и при нулевой гипотезе имеет распределение Стьюдента с степенями свободы
поскольку статистика (как было доказано выше)
распределена по закону степенями свободы.
Для принятия решения применим следующий критерий
т.е. если расчетная значимость по модулю не превосходит табличное значение (- двустороння критическая граница распределения Стьюдента, отвечающая вероятности ), то принимается гипотеза , в противном случае – гипотеза . Для такого критерия ошибка первого рода равна . В самом деле
1.2. Прогноз по уравнению регрессии
Если известно значение независимой переменной , то прогноз зависимой переменной осуществляется подстановкой этого значения в оценку детерминированной составляющей
(1.2.1)
Вследствие несмещенности оценокпараметров регрессии этот прогноз также несмещен
(1.2.2)
Показателем точности прогноза служит его дисперсия: чем она меньше, тем точнее прогноз
(1.2.3)
Из формулы (1.2.3) видно, что прогноз тем точнее, чем больше объем выборки, а при фиксированном объеме – точнее при большем “разнесении” выборочных данных и чем ближе значение независимой переменной к среднему выборочному значению.
Интервальный прогноз по уравнению регрессии
Поскольку согласно (1.2.3) а дисперсия в (1.2.3) заменяется ее несмещенной оценкой по формуле (1.1.15), то за середину доверительного интервала выбирается точечный прогноз зависимой переменной, а ширина доверительного интервала выбирается пропорциональной стандартному отклонению точечного прогноза
(1.2.4)
- двусторонняя критическая граница распределения Стьюдента с степенями свободы.
Пример 1.1. Зависимость розничного товарооборота от числа занятых
Исследуем зависимость розничного товарооборота (млн. руб.) магазинов от среднесписочного числа работников. Товарооборот как результирующий признак обозначим через , а среднесписочное число работников (чел.) как независимую переменную (фактор) – через . На объем товарооборота влияют такие факторы, как объем основных фондов, их структура, площади торговых залов и подсобных помещений, расположение магазинов по отношению к потокам покупателей и др. Предположим, что в исследуемой группе магазинов значения этих последних факторов примерно одинаковы, поэтому влияние различия их значений на изменении объема товарооборота сказывается незначительно. В табл. 1.1 во втором и третьем столбцах приведены значения соответственно объемов розничного товарооборота и среднесписочного числа работников, а в следующих столбцах – значения расчетных величин, необходимых для определения оценок коэффициентов регрессии и дисперсии случайной составляющей
Найдя по итогам второй и третьей колонок средние последовательно заполняем 4-8-й столбцы и подводим итоги по этим столбцам. Теперь можно определять эмпирические коэффициенты регрессии. По формулам (1.1.6) находим следующие точечные оценки коэффициентов регрессии:
Таблица 1.1
Фактические и выравненные значения товарооборота
в зависимости от числа занятых
Порядковый номер
магазина
Число занятых
(чел.)
Товарооборот
(млн.руб)
1
2
3
4
5
6
7
8
9
10
11
1
73
0,5
-40
-0,7
1600
28
0,49
0,43
0,07
0,0049
2
85
0,7
-28
-0,5
784
14
0,25
0,661
0,039
0,015
3
102
0,9
-11
-0,3
121
3,3
0,09
0,998
-0,088
0,0077
4
115
1,1
2
-0,1
4
-0,2
0,01
1,239
-0,139
0,0193
5
122
1,4
9
0,2
81
1,8
0,04
1,373
0,027
0,0007
6
126
1,4
13
0,2
169
2,6
0,04
1,45
-0,05
0,0025
7
134
1,7
21
0,5
441
10,5
0,25
1,604
0,096
0,0092
8
147
1,9
34
0,7
1156
23,8
0,49
1,854
0,046
0,0021
Итого
904
9,6
4356
83,8
1,66
1,199
0,001
0,0479
y
2,0
1,5
1,0
0,5
50 100 150 x
Рис. 1.2. Фактические (соединены пунктирной линией) и выравненные (соединены прямой) значения товарооборота
Значение нулевого коэффициента представляет собой ординату эмпирической лини регрессии в точке а коэффициент регрессии - угловой коэффициент этой прямой линии. На рис. 1.2 изображены система соединенных штриховой линией точек наблюдений и прямая эмпирической регрессии. Если не учитывать, что мы имеем не теоретическую, а эмпирическую линию регрессии (которая действительно является приближением теоретической линии регрессии), то коэффициент показывает, что увеличение среднесписочной численности на одного человека приводит к увеличению объема товарооборота в среднем на 19,24 тыс. руб. Это своего рода эмпирический норматив приростной эффективности использования работников данной группы магазинов. Если увеличение численности на одного работника приводит к меньшему росту объема товарооборота, то прием его на работу необоснован.
Теперь можно вычислить выравненные значения (значения ординат эмпирической линии регрессии)
и использовать 9, 10 и 11-й столбцы табл. 1.1. Итог 11-го столбца, в свою очередь, позволяет получить оценку дисперсии случайной составляющей:
Знание дисперсии случайной составляющей позволяет проверить статистические гипотезы о параметрах регрессии и уравнении в целом, а также строить интервальные оценки параметров регрессии и прогнозного значения детерминированной составляющей.
Для проверки гипотезы о том, значимо ли отличается от нуля выборочный коэффициент , находим, согласно равенству (1.1.17), эмпирическую значимость коэффициента
которую теперь надо сравнить с теоретическим значением найденным из таблицы распределения Стьюдента (см. табл. П. 4.2.). Выбираем уровень значимости равным 5% (т.е. вероятностью 0,05 мы допускаем отклонение гипотезы , когда она на самом деле верна), тогда по табл. П. 4.2. находим Эмпирическая значимость (14,198) существенно больше теоретической (2,447), поэтому значимо отличается от нуля, т. е. принимаем гипотезу
Этот же вывод подтверждается и высоким значением коэффициента детерминации:
который показывает, что в исследуемой ситуации 97,1% общей вариабельности розничного товарооборота объясняется изменениями числа работников, в то время как на все остальные факторы приходится лишь 2,9% вариабельности.
Этот статистический вывод не абсолютен. Допустим, что в магазинах исследуемого типа стало больше работников, при этом предельная эффективность работника упадет, а на первый план выйдет влияние других факторов. По-видимому, это прежде всего доля дефицитных товаров в ассортименте и комплекс всех факторов, который характеризует культуру обслуживания.
Построим интервальные оценки параметров регрессии в форме Здесь середины интервалов являются точечными оценками коэффициентов регрессии, которые уже рассчитаны: При выборке уровня значимости 5% получаем Остается только найти стандартные ошибки коэффициентов регрессии. Согласно формулам (1.1.7), (1.1.8)
заменяя на , получаем:
Отсюда окончательно получаем, что с вероятностью 0,95 истинные значения параметров лежат в пределах:
Найденные отклонения фактических значений от выравненных (столбец 10) позволяют провести сравнительный анализ работы различных магазинов рассматриваемой группы. Прежде всего необходимо обратить внимание на магазины с отрицательным отклонением (3, 4, 6-й). Особенно велико отклонение у 4-го магазина. В реальной ситуации необходимо внимательно обследовать эти магазины и установить причины отклонения фактического значения товарооборота от выравненного (“нормативного” значения). В данной ситуации это может быть расположение магазина в стороне от основных потоков покупателей, плохое снабжение товарами повышенного спроса, устаревшее оборудование, неудовлетворительный кадровый состав и т.п. При чисто статистическом анализе при сделанных выше предположениях и на основе имеющихся данных приходом к выводу, что в этих магазинах, по-видимому, имеются резервы в организации труда работников. Напротив, в магазинах 1, 2, 5, 7 и 8 работники используются эффективнее статистического норматива, но может оказаться, что эти магазины объективно находятся в лучших условиях.
Полученное уравнение регрессии может быть использовано для прогноза. В частности, пусть намечается открытие магазина такого же типа с численностью работников чел., тогда достаточно обоснованный объем товарооборота следует установить по уравнению регрессии
С точки зрения принятой теоретической схемы полученный прогноз является лишь точечной оценкой истинной детерминированной составляющей , а сама эта составляющая лежит внутри доверительного интервала в котором согласно формуле (1.2.4)
или
поэтому получаем следующий доверительный интервал для теоретического значения прогноза:
или
Вопросы и задачи
1. Предскажите время реакции полуторамесячного ребенка по следующим данным
Возраст (мес.)
Времени реакции (с)
1
1,5
2
0,8
3
0,5
4
0,4
2. Каков содержательный смысл параметра регрессии ?
3. Определить функцию спроса (зависимость сбыта Q от цены товара P) по следующим данным
Цена
(в евро)
54
50
55
59
60
58
64
Объем сбыта (шт.)
570
600
580
510
480
500
450
ЛЕКЦИЯ 2. ЛИНЕЙНАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
Модель линейной множественной регрессии имеет вид
где
y – зависимая переменная (предиктор),
- независимые переменные (регрессоры),
- детерминированная составляющая – линейная функция независимых переменных, - параметры регрессии – предельные эффективности независимых переменных,
- случайная составляющая (случайный остаток),
Параметр - показывает, на сколько единиц в среднем возрастет зависимая переменная, если i-я независимая переменная возрастет на единицу.
Независимые переменные – неслучайные величины, зависимая переменная – случайная величина, поскольку в ее состав наряду с детерминированной составляющей входит и случайная составляющая.
Случайная составляющая отражает влияние на зависимую переменную большого числа факторов, которые не вошли в детерминированную составляющую, поскольку влияние каждого из них незначительно.
2.1. Оценка параметров регрессии по методу наименьших
квадратов
Исходными данными для оценки служат пространственная
либо временная выборка
Выборочные данные представим в виде вектора-столбца значений зависимой переменной (слева от матриц – их размеры)
(2.1.1)
и матрицы значений независимых переменных
,
один столбец матрицы Х – это вектор значений одной из независимых переменных, в частности, начальный столбец из единиц – это вектор значений фиктивной независимой переменной коэффициентом при которой является свободный член.
Предполагается, что модель выполнена для каждого выборочного наблюдения
(2.1.2)
поэтому n уравнений (2.1.2) целесообразно назвать выборочными уравнениями.
Если речь идет о всех мыслимых исходах выборки, т.е. о случайной выборке, то - некоррелированные случайные величины (и yj также)
в противном случае (т.е. для конкретной выборки) – реализации этих случайных величин, поэтому - числа.
Выборочные уравнения (2.1.2) можно записать в виде единого матричного соотношения
(2.1.3)
- вектор-столбец коэффициентов регрессии,
- вектор-столбец случайных остатков.
Для получения оценок коэффициентов регрессии так же, как и в случае парной регрессии, применяется метод наименьших квадратов (МНК): подбираются такие значения параметров, при которых сумма квадратов отклонения фактических значений зависимой переменной от выравненных была бы минимальной
(2.1.4)
Под выравненным значением зависимой переменной для j-го наблюдения понимается значение
лежащее на гиперплоскости в -мерном пространстве, определяемой параметрами
Для нахождения минимума квадратичной формы (2.1.4) приравниваем нулю производные по параметрам
(2.1.5)
Приведем теперь эти уравнения к стандартному виду (неизвестные – слева, известные –справа)
(2.1.6)
Получившаяся система из линейного алгебраического уравнения с неизвестными называется системой нормальных уравнений, ее решение отмечено значком “крышка”.
Нулевое уравнение этой системы имеет специальный вид
откуда
(2.1.7)
С другой стороны при введении искусственной нулевой переменной нормальные уравнения приобретают следующую единообразную форму
(2.1.8)
или в матричном виде
(2.1.9)
Если матрица нормальных уравнений невырождена, т.е. то система нормальных уравнений (2.1.9) имеет следующее решение
. (2.1.10)
Свойства МНК-оценок
Прежде всего МНК-оценки, задаваемые формулой (2.2.10) несмещены.
Ковариационная матрица оценок равна
(2.1.11)
поскольку .
Матрицу, обратную к матрице нормальных уравнений, обычно обозначают буквой C
Из (2.1.10), в частности, следует
(2.1.12)
Докажем теперь, что МНК-оценки состоятельны.
Для этого воспользуемся записью нормальных уравнений в форме (2.1.6). Разрешив нулевое уравнение относительно (см. 2.1.7)
и подставив это выражение в остальные уравнения, получим нормальные уравнения для оценок
(2.1.13)
или в матричной форме
(2.1.14)
где
вектор-столбец оценок параметров регрессии без ,
.
Следует заметить, что ковариационная матрица в нашей ситуации лишь характеризует расположение выборочных значений независимых переменных, но вовсе не свидетельствует об их случайном характере.
Найдем собственные числа и нормированные собственные векторы этой матрицы
Из собственных векторов построим ортогональную матрицу
С помощью этого ортогонального преобразования перейдем от набора центрированных и коррелированных показателей к набору центрированных и некоррелированных показателей главных компонент
(2.1.15)
Выразим ковариационную матрицу первоначальных показателей z, т.е. центрированных коррелированных переменных, через ковариационную матрицу главных компонент
Поскольку
поэтому по правилу обращения произведения матриц
при этом мы воспользовались правилом, согласно которому операция обращения ортогональной матрицы эквивалентна ее транспонированию.
Из последнего выражения следует, что
(2.1.16)
в свою очередь из (2.1.16) видно, что
если для любого при
но
поэтому для того, чтобы МНК–оценки были состоятельны, достаточно, чтобы выборочные значения независимых переменных были разными, кроме, быть может, конечного числа значений, тогда и значения компонент будут разными.
2.2. Оценка дисперсии случайной составляющей
Поскольку речь идет о дисперсии случайной составляющей, то оценивать ее надо по оценкам случайных остатков (как и в случае парной регрессии)
(2.2.1)
Подберем константу h таким образом, чтобы оценка дисперсии была несмещена
(2.2.2)
Имеем
(2.2.3)
Поскольку
то
(2.2.4)
но матрица H симметрична
поэтому
кроме того, матрица H идемпотентна, т.е.
так что
Поскольку след матрицы H равен (след квадратной матрицы – сумма ее диагональных элементов, след произведения не меняется при перестановке сомножителей, если при этом произведение имеет смысл)
то
поэтому несмещенная оценка дисперсии случайной составляющей имеет вид
(2.2.5)
2.3. Проверка гипотез о параметрах регрессии. Интервальная
оценка параметров регрессии
Относительно каждого из параметров регрессии проверяются следующие гипотезы
-я независимая переменная не влияет на результат),
-я независимая переменная влияет на результат).
При построении критерия для проверки сформулированных гипотез будем опираться на классическое предположение о нормальном распределении случайной составляющей
Критериальная статистика - -значимость оценки, т.е.
(2.3.1)
Ниже будет показано, что при гипотезе эта статистика имеет распределение Стьюдента с степенью свободы.
Для доказательства понадобится два важных вспомогательных утверждения: первое из них докажем здесь, а второе о распределении статистики доказано в Приложении 2.
Полная вариация разделяется на объясненную и остаточную вариацию
(2.3.2)
где
- полная вариация,
- объясненная вариация,
- остаточная вариация.
Это утверждение было доказано в главе 1 для случая парной регрессии, докажем его здесь для общего случая множественной регрессии.
Имеем
поэтому для доказательства достаточно показать, что последняя сумма равна нулю.
Поскольку
то
поэтому (напомним, так что и )
последнее выражение равно нулю, вследствие равенства нулю каждого выражения в квадратной скобке как l-го нормального уравнения, все члены которого перенесены в правую часть.
Вернемся к статистике . При нулевой гипотезе где
поэтому
но неизвестно, поэтому заменяем это стандартное отклонение его оценкой, и при нулевой гипотезе видим, что статистика имеет распределение Стьюдента с степенью свободы
Оценка незначима, если ее расчетная -значимость по модулю не превышает табличной значимости, т.е. двусторонней критической границы распределения Стьюдента
оценка значима в противном случае
Указанный критерий имеет ошибку первого рода . В самом деле, ошибка первого рода равна
2.3.1. Последовательная процедура исключения переменных с незначимыми оценками коэффициентов регрессии
Найдем оценку с минимальной значимостью
если
то исключаем переменную из уравнения, после чего снова применяем МНК к новому уравнению и так до тех пор, пока в уравнении не останутся переменные со значимыми оценками коэффициентов регрессии.
2.3.2. Интервальная оценка коэффициентов регрессии
Если то статистика
имеет распределение Стьюдента с степенью свободы, поэтому доверительный легко построить, используя определение двусторонних критических границ этого распределения
подставив в это соотношение вместо статистику получаем
откуда и следует доверительный интервал
2.4. Оценка качества уравнения множественной регрессии
Наиболее часто в практических расчетах для оценки качества всего уравнения в целом применяется коэффициент детерминации
(2.4.1)
т.е. доля объясненной вариации во всей вариации. Считается, чем больше эта доля, тем лучше уравнение регрессии описывает изучаемое явление. Однако если коэффициент детерминации очень близок к единице, то это должно настроить исследователя на критическое отношение к независимым переменным модели: среди них может оказаться переменное, которое тесно связано с зависимой переменной.
Поэтому более надежно использовать для проверки качества всего уравнения в целом F-отношение.
В качестве нулевой гипотезы выдвигается предположение, что линейной регрессии нет
при конкурирующей гипотезе
хотя бы одно
Как было показано выше, при нулевой гипотезе
поэтому при выполнении этой гипотезы F-отношение
имеет распределение Фишера с степенями свободы.
Для проверки сформулированных выше основной и конкурирующей гипотез применяется следующий критерий
где - правосторонняя критическая граница распределения Фишера.
Этот критерий имеет ошибку первого ряда
Чем выше расчетное -отношение, тем лучше модель отражает изучаемое явление.
2.5. Прогноз по уравнению регрессии
Точечный прогноз по уравнению регрессии осуществляется путем подстановки значений независимых переменных в оценку детерминированной составляющей
(2.5.1)
Этот прогноз несмещен, поскольку оценки параметров регрессии несмещены
(2.5.2)
Точность прогноза определяется его дисперсией: чем меньше дисперсия, тем выше точность прогноза.
Поскольку для
последнее верно вследствие
то
. (2.5.3)
Интервальный прогноз по уравнению регрессии
Такой прогноз строим так же, как интервальную оценку для параметров регрессии: за середину доверительного интервала выбираем точечную оценку детерминированной составляющей а затем отступаем от середины на величину, пропорциональную стандартному отклонению оценки с коэффициентом пропорциональности, равным двусторонней критической границе распределения Стьюдента , отвечающей вероятности
Итак, доверительный интервал для детерминированной составляющей
имеет вид
(2.5.4)
где
2.6. Критерий Дарбина – Уотсона
Все выводы, полученные выше, основывались на предположении, что случайные остатки для разных наблюдений некоррелированы. Однако это предположение далеко не всегда выполняется. Отсюда два вопроса: 1. Как проверить коррелированы или некоррелированы случайные остатки? 2. Что делать в том случае, когда остатки коррелированы?
Ответ на первый вопрос дает критерий Дарбина – Уотсона, который рассматривается в этом параграфе. Ответ на второй вопрос дает применение обобщенного метода наименьших квадратов (ОМНК), которому посвящен следующий параграф.
Для определенности будем рассматривать этот критерий для временной выборки
В качестве критериальной величины выступает отношение суммы квадратов первых разностей оценок случайных остатков к сумме квадратов остатков
(2.6.1)
где
– МНК-оценки параметров регрессии.
Авторы критерия исследовали распределение статистики в предположении верности гипотезы об отсутствии корреляции между соседними значениями.
Оказалось, что существуют такие критические границы критерия Дарбина-Уотсона (они приводятся в Приложении к учебникам по “Теории вероятностей и математической статистике”), что решающее критериальное правило выглядит следующим образом
1 случай (альтернатива: существование положительной автокорреляции остатков первого порядка)
при гипотеза отвергается,
при гипотеза не отвергается,
при никакой определенный вывод по имеющимся данным сделать нельзя:
2 случай (альтернатива: существование отрицательной автокорреляции остатков первого порядка)
при гипотеза отвергается,
гипотеза не отвергается,
при никакой определенный вывод по имеющимся данным сделать нельзя.
Итак, если автокорреляция в случайных остатках отсутствует, то критериальная статистика должна не слишком отклоняться от значения
2.7. Обобщенный метод наименьших квадратов
Пусть с помощью критерия Дарбина – Уотсона было установлено, что гипотезу о некоррелированности случайных остатков принять нельзя, и пусть каким-то образом определена ковариационная матрица случайных остатков
(2.7.1)
Как тогда находить оценки параметров регрессии? Напрямую пользоваться обычным методом наименьших квадратов нельзя, поскольку его применение основано на некоррелированности случайных остатков. Основная идея состоит в том, чтобы сделать такое преобразование над первоначальными выборочными уравнениями
(2.7.2)
или в матричном виде
(2.7.3)
где (напоминаем обозначения 2.1.1)
чтобы новая модель превратилась в модель с некоррелированными случайными остатками.
С этой целью умножим матричное равенство (2.6.3) на (квадратная матрица существует, если A – симметрична и положительно определена)
или в новых обозначениях
(2.7.4)
где
Новая модель характеризуется некоррелированностью случайных остатков
поэтому для оценки ее параметров (наших первоначальных параметров регрессии ) можно применить обычный метод наименьших квадратов
или, переходя к первоначальным обозначениям, получим оценки обобщенного МНК
(2.7.5)
Только что нами были определены ОМНК–оценки параметров регрессии, но не установлено, в чем состоит ОМНК. Напомним, что обычный МНК состоял в минимизации квадратичной формы
В нашем случае мы также применяем обычный МНК, но только к преобразованным переменным
заменив в последнем выражении преобразованные переменные на первоначальные, получаем обобщенный метод наименьших квадратов
. (2.7.6)
Эти оценки так же, как и МНК-оценки, несмещены
,
они имеют следующую ковариационную матрицу
(2.7.7)
если обозначить последнюю матрицу через ,
то
. (2.7.8)
Точечный прогноз по уравнению регрессии в этом случае выглядит точно таким же образом, как при использовании МНК-оценок, но только в формуле фигурируют ОМНК-оценки
. (2.7.9)
Этот прогноз несмещен
,
и имеет следующую дисперсию
Рассмотрим две наиболее интересных с практической точки зрения ситуации: 1) случайные остатки по-прежнему некоррелированы, но их дисперсии в каждый момент времени разные (гетероскедастичность), 2) случайные составляющие связаны автокорреляционной зависимостью 1-о порядка.
2.7.1. Гетероскедастичность случайных остатков
В этом случае ковариационная матрица случайных остатков имеет вид
, (2.7.10)
т.е.
Поэтому
и оценки ОМНК определяют путем минимизации следующей квадратичной формы
(2.7.11)
т.е. квадраты отклонений фактических значений зависимой переменной от ее выравненных значений входят обратно пропорционально дисперсиям случайных остатков: для больших дисперсий “вес” меньше!
2.7.2. Автокоррелированность случайных остатков
Вернемся теперь к первоначальному допущению о гомоскедастичности случайных остатков, т.е.
но будем считать, что коэффициенты корреляции случайных остатков связаны соотношением
т.е. связь затухает при росте , тогда
(2.7.12)
несмещенная оценка дисперсии гомоскедастичной случайной составляющей для рассматриваемой модели равна
.
2.8. Особенности практического применения моделей
множественной регрессии
Регрессионная модель, как и всякая другая математическая модель, отражая основные свойства изучаемого экономического явления или объекта, не в состоянии полностью воспроизвести его поведение. Но даже то, что исследователь наметил отразить, трудно сделать в условиях реальной экономической ситуации. Все дело в том, что в распоряжении исследователя имеются данные о фактической траектории экономического объекта либо совокупности участков траекторий ряда сходных объектов. При этом значения факторов не расположены так, чтобы оценки параметров регрессии оказались самыми точными и чтобы исследователь получил ответ на вопросы о влиянии на результирующий признак всех интересующих его факторов отдельно и во взаимодействии. Последнего можно долиться только в условиях контролируемого (планируемого) эксперимента, когда значения факторов можно выбирать по усмотрению исследователя, но при этом, разумеется, нельзя полностью воспроизвести условия реальной экономической ситуации.
Например, при изучении влияния минеральных удобрений на урожайность по фактическим значениям урожайности конкретной сельскохозяйственной культуры и фактически дозам внесения минеральных удобрений под эту культуру на единицу площади в рамках определенной совокупности сходных хозяйств может оказаться, что коэффициент регрессии поэтому фактору незначим, а это при прямолинейной трактовке служит основанием для вывода: минеральные удобрения не влияют не урожайность. На самом еле это, конечно, совсем не так. Более тщательное изучение всех условий, формирующих результирующий показатель и значения факторов, поможет выяснить обстоятельства неправильного вывода. Так, может оказаться, что в о всех этих хозяйствах внесение минеральных удобрений находится примерно на одинаковом уровне и практически не сказывается на вариабельности результирующего признака. Могут быть и другие особенности, например, с увеличением внесения удобрений на единицу площади в меньшей степени соблюдаются агротехнические условия внесения и т.п.
Итак, необходимо, чтобы в условиях конкретной выборки каждый из введенных в модель факторов обладал достаточной вариабельностью (в смысле влияния на результат). Это можно выяснить, исключая данный фактор из модели и сравнивая поученные до и после исключения коэффициенты детерминации и F-отношения (не забывая при этом о возможном взаимодействии исключенного фактора с другими). Существенность влияния фактора в конкретных условиях определяется также его значимостью.
Следующим осложняющим обстоятельством является мультиколлинеарность факторов, т.е. такое расположение их выборочных значений, при котором последние близко прилегают к некоторой гиперплоскости пространстве факторов. Применительно к нормальным уравнениям это означает, что их определитель близок к нулю, и поэтому уравнения практически нельзя решить. Наиболее распространены в таких случаях следующие приемы: исключение одного из двух сильно связанных факторов, переход от первоначальных факторов к их главным компонентам, число которых может быть меньше, затем возвращение к первоначальным факторам. Другим приемом является так называемая гребневая регрессия с получением ридж-оценок. Суть приема состоит в усилении обусловленности матрицы нормальных уравнений добавлением неотрицательных чисел к ее диагональным элементам:
(2.8.1)
при этом, естественно, оценки получают смещение, однако появляется возможность более устойчивого их определения.
Особым случаем мультиколлинеарности при использовании временных выборок является наличие в составе переменных линейных или нелинейных трендов. В этом случае теория рекомендует сначала выделить и исключить тренды, а затем определить параметры регрессии по остаткам, при этом используется следующая теоретико-вероятностная схема:
(2.8.2)
В этой схеме - регулярные функции времени, т.е. тренды зависимой и независимых переменных, а - отклонения от трендов. В условиях прогноза по тренду приходится считать эти отклонения выборочными значениями случайных величин, однако при рассмотрении регрессии в остатках отклонения от трендов независимых переменных как детерминированные, а отклонения от тренда зависимой переменной расчленяется на детерминированную (регрессию по остаткам независимых переменных) и случайную составляющие.
Игнорируя наличие трендов в зависимой и независимой переменных, мы завышаем степень влияния независимых переменных на результирующий признак, что получило название ложной корреляции. В качестве примера явно выделим ложную корреляцию в случае парной регрессии по динамическим рядам зависимой и независимой переменных, содержащих тренды:
(2.8.3)
где - эмпирические коэффициенты корреляции первоначальных переменных и их отклонений от трендов; - эмпирические коэффициенты корреляции переменных по времени; - доли вариации остатков в общей вариации зависимой и независимых переменных.
Как видно из формулы (2.7.3), эмпирический коэффициент корреляции переменных распадается на произведение эмпирических коэффициентов корреляции переменных по времени (ложная корреляция) и на часть, обусловленную истинной корреляцией в форме эмпирического коэффициента корреляции остатков.
Наиболее часто в практических исследованиях возникает вопрос: сколько надо наблюдений для надежного определения параметров регрессии? Однозначного ответа на этот вопрос нет. Выше было показано, что очень многое зависит от расположения выборочных значений факторов. Далее в этом параграфе подробнее будут рассмотрены осложняющие обстоятельства, связанные со случайной составляющей. Будет предполагать, что случайная составляющая удовлетворяет стандартным условиям, сформулированным в начале 2.1., а матрица нормальных уравнений достаточно обусловлена. Последнее означает, что можно перейти от первоначальных к ортогональным факторам, например к главным компонентам в том же количестве. Далее будем считать, что это уже сделано.
Выбор числа наблюдений зависит от требований к точности и надежности оценок параметров, что определяется в конечном счете размером доверительного интервала прогноза. Таким образом, из требований к точности прогноза и вытекает требование определенного числа наблюдений. Обозначим требуемый размер половины доверительного интервала через где - оценка дисперсии случайной составляющей. Достижение этой желаемой точности определяется как объемом выборки, так и расположением прогностических значений факторов. Чем более разнесены последние от средних выборочных значений, тем меньше точность прогноза. Выберем определенные уровни отклонений, пропорциональные отклонениям выборочных значений:
При указанных условиях необходимый объем выборки, согласно формуле (2.4.3), при ортогональности выборочных значений факторов определяется из следующего соотношения:
или
откуда
(2.8.4)
Из формулы (2.7.4), в частности, вытекает, что при на каждый фактор должно приходиться по четыре наблюдения, а при сохранении тех же требований к точности прогноза, но при увеличении в 2 раза отклонений прогностических значений от среднего арифметического фактических значений факторов т.е. при - по 16 наблюдений.
Самым большим препятствием к применению регрессии является ограниченность исходной информации, при этом наряду с указанными выше затрудняющими обстоятельствами (мультиколлинеарность, зависимость остатков, небольшой объем выборки и т.п.) ценность информации может снижаться за счет ее «засоренности», т.е. проявления новых обстоятельств, которые ранее не были учтены.
Резко отклоняющиеся наблюдения могут быть результатом действия большого числа сравнительно малых случайных факторов, которые в достаточно редких случаях приводят к большим отклонениям, либо это действительно случайные один или несколько выбросов, которые можно исключить как аномальные. Однако при наличии не менее трех аномальных отклонений на несколько десятков наблюдений мы склонные приписать это влиянию одного или нескольких неучтенных факторов, которые проявляются только для аномальных наблюдений.
В таком случае приходим к следующей теоретико-вероятностной схеме:
где - случайная составляющая, отражающая влияние неучтенных факторов, которые проявляются только для аномальных отклонений, - обычная случайная составляющая,
Согласно такой схеме имеет место система неравноточных наблюдений, при использовании которой каждое наблюдение должно входить в расчет обратно пропорционально своей дисперсии, т.е. аномальные отклонения войдут с меньшим весом, обычные – с существенно большим.
Перенумеруем наблюдения таким образом, чтобы первые n1 из них были обычными: а последние - аномальными: и обозначим через
Тогда «взвешенные» средние выражаются через средние обычных и аномальных наблюдений так:
Коэффициенты нормальных уравнений и их правые части имеют вид:
Следовательно, средние и коэффициенты регрессии таким образом выражаются через соответствующие величины, рассчитанные по обычным наблюдениям при этом учитываются поправки, отвечающие аномальным наблюдениям:
Например, согласно этому правилу, два сильно отклоняющихся аномальных наблюдения с приблизительно равными значениям независимых переменных следует заменить одним наблюдением с теми же значениями независимых переменных и значением зависимой переменной, равным полусумме соответствующих значений объединяемых наблюдений.
Подобную же процедуру реализует робастное оценивание при котором наблюдения с меньшими отклонениями берутся с большим весом, с большими отклонениями – с меньшим.
Вопросы и задачи
1. Какой содержательный смысл имеют параметры линейной множественной регрессии ?
2. В макроэкономических исследованиях широко используется мультипликативная производственная функция, согласно которой выпуск Х (например, валовой внутренний продукт) следующим образом зависит от капитала К и числа занятых L
Можно ли с помощью обычного метода наименьших квадратов оценить по выборочным данным параметры производственной функции ?
3. На основе данных о курсе доллара x1, фондовом индексе x2 и котировке акций y за 10 дней спрогнозировать котировку акций, если курс доллара составит 30.0 руб., а значение фондового индекса будет равно 5,0.
x1
28,75
28,7
28,54
28,90
28,88
28,35
27,98
28,10
28,05
27,90
x2
4,0
4,2
4,7
5,1
4,9
4,6
4,8
4,3
4,4
4,5
y
100
112
108
106
103
101
100
103
102
100
ЛЕКЦИЯ 3. СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭКОНОМИЧЕСКИХ
ВРЕМЕННЫХ РЯДОВ
В общем случае временной ряд содержит как детерминированную, так и случайную составляющие; для простоты далее будем считать их аддитивными:
где -значения временного ряда; - детерминированная составляющая; - значения детерминированных факторов, влияющих на детерминированную составляющую в момент t; -случайная составляющая, - длина ряда.
Математическая статистика занимается анализом и прогнозом временных рядов, содержащих случайную составляющую.
В экономике роль детерминированной составляющей играет, например, результирующий показатель, представляющий собой объем производства, обусловленный общей тенденцией экономического роста, научно-техническим прогрессом и затратами экономических ресурсов. На этот результат кроме экономических факторов могут оказывать долговременное влияние, поддающееся предсказанию, и некоторые природные факторы. Например, солнечная активность оказывает влияние на урожайность сельскохозяйственных культур с периодичностью 11,2 года. Случайная же составляющая аккумулирует влияние множества не включенных в детерминированную составляющую факторов, каждый из которых отдельно оказывает незначительное воздействие на результат.
Основная задача анализа временных рядов состоит в выделении на основе знания отрезка временного ряда детерминированной и случайной составляющих, а также в оценке их характеристик. Получив оценки детерминированной и случайной составляющих, можно решать задачи прогноза будущих значений как самого временного ряда, так и его составляющих.
§ 10.1. Трендовые модели
Под трендом (в узком смысле) понимается детерминированная составляющая, зависящая только от времени. Тогда временной ряд представляется следующей теоретико-вероятностной схемой:
(3.1.1)
где -тренд; -случайная составляющая,
Если тренд линеен относительно своих параметров, а случайная составляющая имеет известную матрицу ковариаций, то задача сводится к задаче множественной регрессии, описанной в гл. 9. В самом деле, в таком случае соотношение (3.1.1) принимает следующую форму:
(3.1.2)
где -полностью известные функции времени.
Например, в случае полиномиального тренда соотношение (3.1.2) имеет вид:
Обозначив через придем к обычной модели множественной регрессии, линейной относительно параметров:
(3.1.3)
или в матричной форме
(3.1.4)
где
Приведем общее решение, исходя из теории регрессионного анализа, содержащейся в гл. 9. Форма решения зависит от статистических характеристик случайной составляющей.
Значения случайной составляющей независимы
Ковариационная матрица случайной составляющей с независимыми значениями имеет вид:
наилучшие оценки коэффициентов тренда получаются по методу наименьших квадратов и имеют следующий вид:
1) оценка коэффициентов тренда
(3.1.5)
2) оценка дисперсии случайной составляющей
(3.1.6)
где
Точечный прогноз детерминированной составляющей на глубину выполняется по формуле:
(3.1.7)
Отметим, что
где
Интервальный прогноз для детерминированной составляющей на глубину τ задается следующей формулой (в предположении, что случайная составляющая имеет нормальное распределение либо рассматривается достаточно длинный отрезок ряда):
(3.1.8)
где - критическая граница распределения Стьюдента с степенью свободы, соответствующая уровню значимости p;
Рассмотрим более подробно случай линейного тренда:
Формулы (3.1.5) – (3.1.8) принимают следующий вид:
1) оценка коэффициентов линейного тренда
(3.1.9)
2) оценка дисперсии случайной составляющей
(3.1.10)
где
3) точечный прогноз детерминированной составляющей
(3.1.11)
(3.1.12)
4) интервальный прогноз детерминированной составляющей
(3.1.13)
Априорные предположения о форме тренда могут быть сформулированы в виде рабочей гипотезы. Например, в случае рабочей гипотезы о постоянстве годовых абсолютных приростов приходим к линейному тренду. Если же имеет место гипотеза постоянства темпов роста то получаем экспонентный тренд который в логарифмах сводится к линейному. Так как не всегда удается иметь дело с трендом, линейным относительно использовать нелинейные методы оценивания, понятие о которых дано в § 3.3.
Значения случайной составляющей зависимы, матрица ковариаций известна
В случае если значения случайной составляющей зависимы и заданы известная ковариационная матрица случайной составляющей наилучшие несмещенные точечные оценки коэффициентов тренда определяются методом максимального правдоподобия. В матричной форме эти оценки определяются следующими выражениями:
(3.1.14)
Точечный прогноз детерминированной составляющей на глубину осуществляется по следующей формуле:
(3.1.15)
при этом
где
Проверка гипотезы о значимости оценок коэффициентов тренда и всего уравнения тренда в целом может быть выполнены по формулам, приведены в гл. 9.
Значения случайной составляющей зависимы, матрица ковариаций неизвестна
Если ковариационная матрица неизвестна, то имеет специальную структуру, определяемую некоторым числом параметров, то для оценки конечного числа параметров (коэффициенты тренда и параметры ковариационной матрицы) можно применять метод максимального правдоподобия.
В общем случае, когда о структуре ковариационной матрицы ничего не известны, теория рекомендует применять итерационную, по крайней мере двухшаговую, процедуру: на первом шаге с помощью метода наименьших квадратов определяют оценки коэффициентов тренда и оценку ковариационной матрицы по отклонениям, на втором шаге находят уточненные оценки коэффициентов тренда по формулам (3.1.14), в которые вместо матрицы B, подставлена ее оценка , что позволяет получить прогноз детерминированной составляющей на глубину по формуле (3.1.15).
§ 3.2. Выявление тренда в динамических рядах экономических показателей
При исследовании динамических рядов экономических показателей обычно выделяют следующие четыре основные составляющие: долговременную эволюторно изменяющуюся составляющую*; долговременные циклические колебания; кратковременные циклические колебания (сезонная составляющая); случайную составляющую. В нашем понимании первые три составляющие представляют собой тренд, т.е. детерминированную составляющую.
Случайная составляющая образована в результате суперпозиции большого числа внешних факторов, не участвующих в формировании детерминированной составляющей и оказывающих каждый отдельно незначительное влияние на изменение значений показателя. В целом влияние этих факторов на изучаемый экономический показатель проявляется в изменении во времени его значений.
Долговременная эволюторно изменяющаяся составляющая является результатом действия факторов, которые приводят к постепенному изменению данного экономического показателя. Так, в результате научно-технического прогресса, совершенствования организации и управления производством относительные показатели результативности и эффективности производства растут, а удельные расходы ресурсов на единицу полезного эффекта снижаются.
Долговременная циклическая составляющая проявляется на протяжении длительного времени в результате действия факторов, обладающих большим последствием либо циклически изменяющихся во времени. Примером такого рода явлений служат кризисы перепроизводства и структурные кризисы. Другой пример связан с природным фактором – солнечной активностью. Так, с большой степенью достоверности доказано, что изменение солнечной активности с периодичностью 11,2 года оказывает существенное влияние на развитие биологических объектов. Исследование длинных рядов урожайности сельскохозяйственных культур в районах устойчивого земледелия позволяет выявить долговременную циклическую составляющую с 11-летним периодом и амплитудой 5-7% от среднегодовой урожайности.
Сезонная циклическая составляющая легко просматривается в колебаниях продуктивности сельскохозяйственных животных в зависимости от времени года, а также в колебаниях розничного товарооборота по временам года.
Эволюторно изменяющуюся долговременную составляющую можно достаточно хорошо представить отрезком ряда Тейлора; следовательно, эта составляющая во многих практических случаях рассматриваться как полиномиальный тренд.
Что касается долговременной и сезонной циклических составляющих, то обе они являются периодическими функциями, которые достаточно хорошо могут быть представлены отрезками ряда Фурье; следовательно, эти составляющие могут рассматриваться как тригонометрический тренд.
Ниже на простых примерах демонстрируется техника расчета оценок коэффициентов полиномиального и тригонометрического тренда и их использования для прогнозирования будущих значений детерминированной составляющей. Оценка коэффициентов одновременно присутствующих эволюторной и циклической составляющих – несколько более сложная задача, но она полностью укладывается в схему расчетов, приведенную в §3.1. Если амплитуда циклической составляющей эволюторно изменяется, т.е. имеет место мультипликативное представление детерминированной составляющей в форме произведения эволюторной функции на периодическую, то для анализа и прогнозирования можно воспользоваться методом сезонного экспоненциального сглаживания, который рассмотрен в §3.4.
Полиномиальный тренд
Схема расчетов, приведенных в § 3.1 для тренда, представляющего собой линейную комбинацию некоторого набора функций в случае полиномиального тренда выглядит следующим образом. Роль функций играют степени времени, т.е. поэтому
Исходную модель временного ряда [сравните с обозначениями формул (3.1.3), (3.1.4)]
можно записать в матричной форме:
где в качестве используется матрица, столбцами которой служат значения времени в различной степени:
Остальные обозначения совпадают с обозначениями формулы (3.1.4).
Матрица коэффициентов нормальных уравнений имеет вид:
т.е. ее элементы являются суммами натуральных чисел в целой степени, которые могут быть заранее рассчитаны, протабулированы и использованы для любого исходного ряда. Правые части нормальных уравнений необходимо подсчитывать для каждого ряда
причем для оценки свободы члена используется формула
в которой коэффициенты при оценках
также могут быть заранее протабулированы.
Прогноз на глубину осуществляется по формуле
Доверительный интервал для детерминированной составляющей записывается в следующей форме:
где
Пример 3.1. В качестве примера исследуем динамический ряд среднегодовых удоев молока (кг) от одной коровы на сельскохозяйственных предприятиях за 1961-1985 гг. (длина ряда – 25 лет). Для расчетов используем формулы полиномиального тренда при примем гипотезы линейного тренда, состоящую в примерном постоянстве по годам среднегодовых приростов удоев молока от одной коровы [см. формулы для линейного тренда (3.1.9) – (3.1.13)]. Пример расчетов по аналогичным формулам парной регрессии был рассмотрен в § 9.3, поэтому аналогичные расчеты проведены менее подробно. Исходные и расчетные данные представлены в табл. 3.1.
Таблица 3.1
Год
Фактический удой кг
Выравненный удой
Отклонения
Квадрат отклонений
1961
2532
2 532
2565
-33
1 089
1962
2317
4 634
2621
-304
92 416
1963
2341
7 023
2676
335
112 225
1964
2513
10 052
2731
-218
47 524
1965
2968
14 840
2787
181
32 761
1966
2956
17 736
2842
114
12 996
1967
3041
21 287
2898
143
20 449
1968
3182
25 456
2953
229
52 441
1969
3177
28 593
3008
169
28 561
1970
3181
31 810
3064
117
13 689
1971
3201
35 211
3119
2
4
1972
3192
38 304
3174
18
324
1973
3156
41 028
3230
-74
5 476
1974
3364
47 096
3285
79
6 241
1975
3489
52 335
3341
148
21 904
1976
3587
57 392
3396
191
36 481
1977
3648
62 016
3451
197
38 809
1978
3475
62 550
3507
-32
1 024
1979
3475
66 025
3562
-87
7 569
1980
3579
71 580
3617
-38
1 444
1981
3473
72 993
3673
-200
40 000
1982
3385
74 470
3728
-343
117 649
1983
3701
81 523
3784
-83
6 889
1984
3854
92 496
3839
15
225
1985
3966
99 150
3894
72
5 184
Итого
80753
1 121 733
643 793
Прежде всего по формуле (3.1.9) находим оценки коэффициентов линейного тренда, используя исходные данные табл. 3.1:
Теперь рассчитываем выравненные значения (с точностью до 1 кг) и заполняем столбцы табл. 3.1.
По найденной сумме квадратов отклонения теперь можно получить оценку дисперсии случайной составляющей
откуда
Найдем расчетную значимость коэффициента линейного тренда:
которая существенно превышает табличную значимость при 5%-ном уровне значимости (5%-ом риске), т.е. коэффициент линейного тренда существенно отличается от нуля, и, следовательно, тренд действительно имеет место.
Теперь можно найти прогностическое значения тренда среднегодовых удоев молока от одной коровы на 1986-1990 гг.:
Построим доверительный интервал для теоретического тренда удойности за 1987 г., т.е. при прогнозе на два года вперед:
Так как
то окончательно получаем доверительный интервал
размах которого равен 302, т.е. достаточно велик и составляет 7,5% по отношению к значению середины интервала. Вместе с тем размах вполне приемлем для практических прогнозов значений долговременной тенденции удойности на несколько лет вперед.
Более углубленный анализ динамического ряда удойности совместно с динамическими рядами экономических факторов, оказывающих на удойность решающее влияние, показывает, что колеблемость удойности вокруг тренда главным образом обусловлена колеблемостью урожайности кормовых культур. И это полностью соответствует действительности, поскольку именно обеспеченность кормами оказывает решающее воздействие на продуктивность животных. Практически синхронная колеблемость вокруг своих трендов рядов динамики удойности и
y
30
24
20
16
12
1962 1966 1970 1974 1978 1982 1986 1990 t
Рис. 3.1.
урожайности зерновых хорошо видна на рис. 3.1, на котором точки отсчета и масштаб выбраны таким образом, чтобы тренды исходили и одно точки, а размахи рядов были примерно одинаковы. Фактические и выравненнные значения ряда урожайности зерновых показаны штриховой линией, а ряда удойности коров - сплошными линиями.
Синхронное изменение значений двух рядов, обусловленное решающей зависимостью продуктивности коров от обеспеченности кормами, приводит к мысли о возможности прогнозирования отклонений удойности от тренда по отклонениям урожайности от своего тренда (см. также § 9.3). Это имело бы большое практическое значение для более достоверного предвидения производства животноводческой продукции, если бы существовали надежные методы прогнозирования отклонений значений урожайности от тренда в зависимости от вариации погодных условий. Однако к настоящему времени надежных методов прогноза урожайности сельскохозяйственных культур в зависимости от метеорологических условий и их прогноза на длительный срок пока нет. Существующие метода дают недостаточно достоверные прогнозы урожайности. Поэтому для прогноза удойности пока наиболее практически доступным является метод выделения тренда, прогноз остатков станет осуществим в будущем.
Что касается выявления тренда урожайности зерновых (ц/га), то результаты соответствующих расчетов проводится ниже и представлены в табл. 3.2 и 3.3:
Таблица 3.2
Год
Значение урожайности
Отклонение
Год
Значение урожайности
Отклонение
фактические
выравненное
фактическое
выравненное
1960
13,3
11.67
1,63
1973
19,5
22,52
-3,02
1961
12,2
13,36
-1,16
1974
30,1
23,08
7,02
1962
12,4
14,6
-2,2
1975
26,7
23,63
3,07
1963
12,4
15,62
-3,22
1976
31,0
24,17
6,83
1964
16,4
16,53
-0,13
1977
28,4
24,71
3,69
1965
22,0
17,34
4,66
1978
20,0
25,24
-5,24
1966
17,2
18,1
-0,9
1979
24,7
25,76
-1,06
1967
21,8
18,81
2,99
1980
26,9
26,27
0,63
1968
22,4
19,49
2,91
1981
21,3
26,79
-5,49
1969
24,8
20,13
4,67
1982
28,6
27,3
1,3
1970
21,3
20,76
0,54
1983
27,7
27,8
-0,1
1971
26,7
21,36
5,34
1984
30,0
28,3
1,7
1972
17,9
21,95
-5,05
1985
22,9
28,8
-5,9
Таблица 3.3
Год
Прогноз
Стандартная ошибка прогноза
1986
29,8
1,69
1987
30,4
1,32
1988
31,0
1,9
1989
31,5
2,02
1990
32,1
2,11
Итак, стандартные ошибки достаточно высоки, поэтому размахи доверительного прогноза по тренду ± 3,4;…; ±4,3, что весьма значительно. Тем не менее эти прогнозы можно использовать на практике, если предположить, что сохраниться сложившаяся долговременная тенденция изменения значений данного показателя. Если тенденция изменится под влиянием определенного фактора, то отклонение от прогноза по тенденции можно будет рассматривать как суперпозицию результата влияния нового фактора и случайной составляющей.
Таблица 3.4
Формула тренда
Значение коэффициента
Остаточная сумма квадратов отклонений
А
В
14,6
0,56
392
14,5
0,029
448
24,9
-18,3
512
0,069
-0,0015
581
9,27
5,5
328
3,2
-0,97
463
Экспоненциальное сглаживание
29,68
0,6427
439
В табл. 3.4 приведены результаты расчетов по различным трендам, линейным относительно двух параметров. Как видим, наименьшая из рассмотренных сумм квадратов отклонений у логарифмического тренда, который характеризуется постепенным нападением абсолютных приростов, что отвечает сформулированной выше гипотезе:
Это тренд дает более осторожный прогноз по сравнению с прогнозом по линейному тренду, что видно из табл. 3.5.
Таблица 3.5
Год
Прогноз по тренду
Экспоненциальное сглаживание
линейному
логарифмическому
1986
29,8
27,4
30,3
1987
30,4
27,6
31,0
1988
31,0
27,8
31,6
1989
31,5
28,0
32,3
1990
32,1
28,1
32,9
В табл. 3.4, 3.5 приводится коэффициенты прогнозирующего полинома и прогноза тенденции этого же ряда на те же годы, полученные методом экспоненциального сглаживания (см. § 3.4).
Тригонометрическая регрессия
Снова рассмотрим модель, содержащую детерминированную и случайную составляющие:
где при периодическая функция с известным периодом , нацело делящим , т.е. Далее , а следовательно, и будем считать четными.
При рассмотрении тренда только в наблюдаемые моменты времени его можно точно выразить через линейного независимых тригонометрических функций. Если же период тренда равен , то все его первые значений затем повторяется еще раз, поэтому в точное разложение функции в точках достаточно включить членов, которые дают точное представление функции в точках а все остальные значения повторяют первые значений.
Функции имеют период поскольку
причем этот период укладывается в общей длине ряда раз, т.е. целое число раз, если - целое. Теперь подберем таких функций с наименьшими периодами. Прежде всего в разложение необходимо включить константу, т.е. в число функций времени войдет Затем последовательно будем включать пары тригонометрических функций причем каждому соответствует пара функций с периодом Следовательно, остановившись на мы включим функцию. Таким образом, осталось включить еще одну функцию имеющую период В качестве такой функции выберем
Окончательно получаем следующее представление периодического тренда:
(3.2.1)
Например, при рассмотрении ежемесячных данных, имеющих сезонный характер (т.е. период ), достаточно включить в разложение 12 членов, т.е.
и разложение принимает вид:
(3.2.2)
Теперь воспользуемся методом наименьших квадратов для оценки параметров получившейся теоретико-вероятностной схемы:
(3.2.3)
Нормальные уравнения в терминах функций времени запишутся следующим образом:
(3.2.4)
- и в данном случае распадутся на отдельных уравнений, содержащих только одно неизвестное, что вытекает из ортогональности тригонометрических функций.
Рассмотрим оценку для свободного члена
Согласно Приложению 2,
поэтому
Рассмотрим внедиагональные члены матрицы нормальных уравнений (3.2.4). Только что было показано, что
При условии, что внедиагональные коэффициенты обращаются в нуль; действительно, согласно Приложению 2,
Коэффициенты при единственном неизвестном в каждом из нормальных уравнений также определяются по формулам, найденным в Приложении 2:
Пример 3.2. Используем формулы тригонометрического тренда для выделения тренда в динамическом ряде помесячных удоев от одной коровы. Для примера выбраны данные только за те годы, которые характеризуются практически одинаковым среднегодовым удоем; это означает, что отсутствует смещение, отличающее один год от другого, и имеют место только сезонные циклические колебания. В табл. 3.6 (и далее) используется обозначение:
Используя данные табл. 3.6., получаем
Таблица 3.6
Месяц
Удои (кг)
Всего
Среднее
1975
1978
1983
Январь
140
143
133
416
138,7
Февраль
147
148
135
430
143,3
Март
196
196
183
575
191,7
Апрель
210
208
203
624
208
Май
259
240
254
753
251
Июнь
288
290
294
872
290,7
Июль
271
278
276
825
275
Август
244
245
264
743
247,7
Сентябрь
190
195
196
681
193,7
Октябрь
136
136
144
416
138,7
Ноябрь
104
110
115
329
109,7
Декабрь
116
120
124
360
120
Итого
2301
2309
2311
6921
2307
Среднее
191,8
192,4
192,6
576,8
192,2
Легко также найти
Остальные коэффициенты найдем следующим образом:
Исходные данные для расчета приведены в табл. 3.7.
На основе данных табл. 3.7. получаем значения оценок остальных коэффициентов, которые помещаем в табл. 3.8.
Таблица 3.7
1
138,7
0,866
0,5
0,5
0,866
1
-0,5
0,866
-0,866
0,5
2
143,3
0,5
0,866
-0,5
0,866
-1
-0,5
-0,866
0,5
-0,866
3
191,7
1
-1
-1
1
1
4
208
-0,5
0,866
-0,5
-0,866
1
-0,5
0,866
-0,5
-0,866
5
251
-0,866
0,5
0,5
-0,866
1
-0,5
-0,866
0,866
0,5
6
290,7
-1
1
-1
1
-1
7
275
-0,866
-0,5
0,5
0,866
-1
-0,5
0,866
0,866
-0,5
8
247,7
-0,5
-0,866
-0,5
0,866
1
-0,5
-0,866
-0,5
0,866
9
193,7
-1
-1
1
1
-1
10
138,7
0,5
-0,866
-0,5
-0,866
-1
-0,5
0,866
0,5
0,866
11
109,7
0,866
-0,5
0,5
-0,866
-1
-0,5
-0,866
-0,866
-0,5
12
120
1
1
1
1
1
-496,95
-30,15
-17,35
-84,26
3
7
40,05
-43,21
-17,3
30,9
Таблица 3.8
Параметр
Оценка коэффициентов
j = 1
j = 2
j = 3
j = 4
j = 5
j = 6
-82,8
-2,9
0,5
6,7
-2,9
-1,6
-5,0
13,7
1,2
-7,2
5,2
-
Амплитуда
83
14
1,3
9,8
5,9
1,6
Период
12
6
4
3
2,5
2
Таблица 3.9
Месяц
Фактические удои
Расчетные удои по первой гармонике
Расчетные удои по первой и второй гармоникам
Январь
138,7
118
20,7
128,5
10,2
Февраль
143,3
146,5
-3,2
159,9
-16,6
Март
191,7
187,2
4,5
190,1
1,6
Апрель
208
229,3
-21,3
218,8
-10,8
Май
251
261,4
-10,4
248
3
Июнь
290,7
275
15,7
272,1
18,6
Июль
275
266,4
8,6
276,9
-1,9
Август
247,7
238,2
9,5
246,9
0,8
Сентябрь
193,7
197,2
-3,5
200,1
-6,4
Октябрь
138,7
155,1
-16,4
144,6
-5,9
Ноябрь
109,7
123
-13,3
109,6
0,1
Декабрь
120
109,4
10,6
106,5
13,5
Сумма модулей отклонений фактических от расчетных значений
137,7
89,4
Как видно из табл. 3.8, наибольшее значение амплитуды у первой гармоники с периодом причем это значение на порядок выше амплитуд остальных гармоник, поэтому в практических случаях можно ограничиться одной гармоникой:
или двумя гармониками:
Более точные результаты получаются при включении всех шести гармоник:
В табл. 3.9 приведены фактические значения ряда и их оценка по первой гармонике, а также по первой и второй гармоникам. Добавление всех остальных гармоник весьма незначительно улучшает результат.
§ 3.3 Нелинейные тренды
В том случае, когда тренд нелинеен относительно коэффициентов и его невозможно линеаризовать, применяют нелинейные методы оценки коэффициентов, основанные на итерационных процедурах, на каждом шаге которых используются алгоритмы получения линейных оценок. В настоящем параграфе дано общее представление о нелинейном оценивании на примере метода Ньютона – Гаусса.
В случае тренда, нелинейного относительно параметров, имеет место следующая теоретико-вероятностная схема:
(3.3.1)
где – тренд, нелинейный относительно вектора параметров , ; -случайная составляющая с , причем для простоты будем предполагать, что ее значения независимы.
Рассмотрим сумму квадратов отклонений известного отрезка ряда от тренда:
Для минимизации суммы квадратов отклонений необходимо приравнять к нулю производные по параметрам:
(3.3.2)
Если линейного независимы как функции времени, то матрица Х имеет ранг :
Для исследования движения к точке экстремума необходимо рассмотреть и вторые производные:
Исследование проведем при следующих предположениях, которые сознательно сформулированы не очень строго (чтобы можно было только изложить суть метода):
1) нелинейный тренд имеет относительно невысокий порядок нелинейности, иными словами, вторые производные имеют не очень большие по модулю значения;
2) точка , с которой начато исследование, находится вблизи точки минимума , т.е. разность мала.
Исходя из этих предложений, рассмотрим разложение тренда в окрестности некоторой точки :
(3.3.3)
причем вследствие сделанных нами предположений вторые производные в разложении отсутствуют.
Последовательность точек будем строить образом, чтобы она сходилась к . Введем следующие обозначения:
Тогда
(3.3.4)
где величина вобрала в себя и остаточные члены разложения каждой временной компоненты при этом по-прежнему считаем, что .
Если предыдущая точка уже каким-то образом определена, то будем искать последующую точку с помощью метода наименьших квадратов, рассматривая в качестве исходной модели (в матричном виде) преобразованное в такой вид выражение (3.3.4):
(3.3.5)
Выражение (3.3.5) представляет собой модель тренда, линейного относительно коэффициентов причем наблюдаемыми значениями ряда являются а значениями функций времени при параметрах регрессии - Применяя метод наименьших квадратов к оценке параметров линейной модели (3.3.5), получаем
обозначив полученную оценку через имеем:
В результате, начиная с некоторой точки получаем рекуррентную последовательность точек таким образом, что каждая последующая точка получается из предыдущей с помощью метода наименьших квадратов для линейного относительно коэффициентов тренда. В Приложении 3 доказано, что данная последовательность при ранее указанных предположениях сходится к точке минимума
§ 3.4 Экспоненциальное сглаживание
В случае линейных и нелинейных временных трендов, рассмотренных в § 3.1, 3.3, необходимо было постулировать форму тренда с точностью до параметров перед началом экспериментального исследования на основе известного отрезка временного ряда. Метод экспоненциального сглаживания позволяет анализировать временной ряд и получать прогноз без предварительного задания формы тренда. Требуется лишь, чтобы в области исследования тренд изменялся достаточно постепенно, эволюторно.
В основе экспоненциального сглаживания лежит следующая теоретико-вероятностная схема:
(3.4.1)
Для простоты далее будем предполагать, что значения случайной составляющей в разные моменты времени некоррелированны, т.е.
Из первоначального временного ряда сглаженный ряд можно получить с помощью следующего линейного оператора сглаживания:
(3.4.2)
где -константа сглаживания, Если применить оператор сглаживания последовательно ко всем значениям отрезка ряда, то получим
(3.4.3)
при это в последнем равенстве сглаженное значение заменил на первое известное значение ряда. Таким образом, в случае экспоненциального сглаживания наблюдения входят в обработку не с одинаковыми, а с экспоненциально убывающими весами, т.е. настоящие наблюдения как бы воспринимаются с большим доверием, чем прошлые. Напомним, что и в методе скользящих средних мест имеет место неравенство весов: наблюдения, попавшие в отрезок осреднения, входят с равными весами, а остальные наблюдения – с нулевыми весами.
Так как веса экспоненциально убывают, то при достаточно большой длине ряда его прошлые значения входят с быстро стремящимися к нулю (по мере удаления) весами, поэтому условно ряд можно считать бесконечным, расширив за пределы самых удаленных значений. В этом случае оператор сглаживания запишется в следующем виде:
(3.4.4)
Оператор сглаживания как в первоначальной, так и в унифицированной форме линеен, поэтому, применяя его к отдельным составным частям теоретико-вероятностой схемы, можно после сложения получит результат сглаживания всего исходного ряда.
Применим оператор к случайной составляющей, тогда
Найдем теперь дисперсию сглаженных значений случайной составляющей, воспользовавшись независимостью ее значений в различные моменты времени:
Отсюда следует, что в результате сглаживания дисперсии случайной составляющей, вообще говоря, уменьшается, поскольку так как т.е. действительно имеет место сглаживание. «Выступающие» значения детерминированной составляющей также сглаживаются, т.е. сглаживанию действительно подвергается временной ряд в целом.
Оператор сглаживания можно вновь применить к уже сглаженным значениям; в результате получим оператор сглаживания второго порядка, последующее сглаживание дает оператор третьего порядка и т.д.:
(3.4.5)
Применяя несколько раз оператор сглаживания, а также подбирая соответствующим образом константу сглаживания, можно практически полностью исключить случайную составляющую. В результате останется только преобразованная детерминированная составляющая.
Возникает вопрос: как же все-таки построить прогноз? Из изложенного выше следует, что пока имеет место такая же ситуация, как и в случае метода скоьзящих средних: можно аналитически выделить в преобразованном виде детерминированную составляющую, однако нет аналитической формулы для получения ее прогностических значений.
В случае экспоненциального сглаживания (в отличие от метода скользящих средних) имеются аналитические выражения для прогноза. Теорема Брауна, являющаяся фундаментальной в методе экспоненциального сглаживания, утверждает, что коэффициенты полиномов, по которым производится прогнозирование, определяются с помощью дисконтированного метода наименьших квадратов и аналитически выражаются через сглаживаемые значения ряда.
Введем следующие обозначения для прогнозирующего полинома степени , построенного в предположении, что значение ряда в момент является последним:
(3.4.6)
Таким образом, по этому полиному можно получать прогноз в точках Коэффициенты полинома должны быть определены так, чтобы прогноз был наиболее точным.
Теорема Брауна. Коэффициенты прогнозирующих полиномов, определенные по дисконтированному методу наименьших квадратов
линейно выражаются через сглаженные значения ряда
Доказательство теоремы сопряжено с громоздкими выкладками, поэтому приведем его только для случая
Найдем оценки двух параметров прогнозирующего полинома с помощью дисконтированного метода наименьших квадратов (индекс опущен, введено обозначение ). Получаем
(3.4.8)
Точку минимума, как обычно, находим из условия равенства нулю производных:
откуда получаем следующие уравнения:
Так как
то
поэтому окончательно имеем:
(3.4.9)
В случае наиболее часто используемого квадратичного прогнозирующего полинома
можно аналогично получить следующие выражения для оценок его коэффициентов:
(3.4.10)
Для расчетов на ЭВМ применяют следующие рекуррентные формулы, эквивалентные формулам (3.4.40):
где
Из этих формул видно, что при появлении нового наблюдения не обязательно хранить весь предыдущий отрезок временного ряда, надо лишь знать коэффициенты прогнозирующего полинома, найденные по этому отрезку.
Для прогнозирования на глубину за разделы известного отрезка ряда используют прогнозирующий полином, найденный на основе всего ряда:
В том случае, когда в окрестности точки детерминированная составляющая близка к постоянной, применяют аппарат однократного экспоненциального сглаживания и прогноз определяется по формуле
Так как
то получаем следующий доверительный интервал прогноза:
Если в окрестности точки детерминированная составляющая линия, то применяют двойное экспоненциальное сглаживание и точечный прогноз осуществляют по формуле:
В результате подсчетов можем получить
поэтому имеем следующий доверительный интервал для прогноза:
Если детерминированная составляющая нелинейная в окрестности , то применяют тройное экспоненциальное сглаживание и точечный прогноз определяется формулой:
В том случае, если детерминированная составляющая кроме роста испытывает еще и периодические колебания, т.е. в окрестности может быть описана формулой:
где - периодическая функция с известным периодом , может быть применено сезонное экспенциальное сглаживание, которое реализовано в ряде пакетов прикладных программ. Программная система по заданному периоду инициализации производит первоначальную оценку периодической функции ( - число наблюдений):
В дальнейшем производится взаимосвязанное сглаживание периодической функции и коэффициентов тренда по формулам:
Прогноз временного ряда на шагов вперед осуществляется по формуле
Оптимальные значения констант сглаживания выбирают от минимума суммы квадратов отклонений прогнозов (на один шаг) от действительных значений ряда.
Вопросы и задачи
1. Определите вид и параметры тренда в динамическом ряде выплавки стали с 1960 по 1979 гг. (см. таблицу).
Год
Выплавка стали, млн. т
Годы
Выплавка стали, млн. т
1960
65,3
1969
110,3
1961
70,8
1970
115,9
1962
76,3
1971
120,7
1963
80,2
1972
125,6
1964
85,0
1973
131,5
1965
91,0
1974
136,2
1966
96,9
1975
141,3
1967
102,2
1976
144,8
1968
106,5
1977
146,7
1978
151,5
2. Имеются следующие данные о числе ошибок лиц, обучающихся машинописи:
Число месяцев работы на пишущей машинке
Среднее число ошибок на страницу
1
25
2
10
3
5
4
2
Найти прогноз среднего числа ошибок для лиц с полуторамесячным стажем.
3. Пусть
При каком оценка является несмещенной? Найти дисперсию этой оценки.
ЛЕКЦИЯ 4. ИДЕНТИФИЦИРУЕМОСТЬ ЭКОНОМЕТРИЧЕСКОЙ
МОДЕЛИ
В предыдущих главах были изучены модели, состоящие из одного уравнения со случайным остатком. Собственно эконометрическая модель характеризуется наличием нескольких одновременных уравнений, некоторые из которых содержат случайные остатки и параметры которых неизвестны, другие не содержат случайных остатков, зато параметры их, вообще говоря, известны, как правило, они равны Эти последние уравнения называются балансовыми.
Переменные эконометрической модели делятся на два класса: эндогенные (внутрисистемные) и экзогенные (внесистемные). Первые определяются посредством модели (системы уравнений), вторые считаются заданными извне модели.
В свою очередь среди эндогенных переменных выделяются лаговые эндогенные переменные, текущие значения которых присутствуют (как и значения обычных эндогенных переменных) в одновременных уравнениях, но кроме того в момент времени в некоторых уравнениях присутствуют и прошлые (лаговые) значения этих переменных уже как известные величины.
Лаговые переменные за прошлые моменты времени и экзогенные переменные в текущий момент t образуют группу предопределенных (входных) переменных, тогда как все эндогенные переменные в текущий момент времени t образуют группу выходных переменных.
Рекомендуется еще раз прочитать введение, где дана интерпретация типов уравнений и переменных на примере модели Клейна.
Ниже в главах 4,5 изложение ведется в двух вариантах: общем и частном. В первом случае излагается общая теория, во втором показывается, как выглядит эта общая теория, применительно к упрощенной модели Клейна, состоящей из трех одновременных уравнений. Это второе русло изложения далее каждый раз выделяется заголовком “Сквозной пример”. Если общая теория воспринимается с трудом, то рекомендуем обратиться к сквозному примеру, после чего снова вернуться к теории.
4.1. Структурная и приведенная формы эконометрической
модели
Введем следующие обозначения (слева каждой матрицы в скобках указывается ее размер):
- общее число одновременных уравнений эконометрической модели,
- число уравнений, содержащих случайную составляющую,
- число наблюдений за переменными модели,
-число предопределенных переменных, включая фиктивную переменную (тождественно равную единице), коэффициенты при которой являются свободными членами уравнений,
- вектор-столбец значений эндогенных переменных в момент времени t,
- вектор-столбец значений предопределенных переменных в момент времени t,
- вектор-столбец (ненаблюдаемых) случайных составляющих в момент времени t,
- матрица коэффициентов при эндогенных переменных, причем в каждой строчке один из коэффициентов равен 1,
- матрица коэффициентов при предопределенных переменных.
Замечание. В приведенных обозначениях используется верхний индекс, это возможно, поскольку рассматриваемые эконометрические модели – линейные, поэтому этот индекс никак нельзя принять за показатель степени. Введение значка “тильда” над некоторыми векторами и матрицами обусловлено тем, что в дальнейшем будут использоваться уже без значка “тильда” только части этих векторов и матриц.
В этих обозначениях развернутая запись эконометрической модели в расширенной структурной форме выглядит следующим образом
(4.1.1)
или в матричной форме
(4.1.2)
где
Заметим, что число уравнений равно числу эндогенных переменных.
Разделим вектор эндогенных переменных на два подвектора
в подвектор первого типа войдут переменные, коэффициенты при которых равны 1 в первых уравнениях, а в подвектор второго типа – переменные, коэффициенты при которых равны 1 в последних уравнениях. Тогда модель (4.1.2) примет вид
(4.1.3)
- матрица коэффициентов в первых m уравнениях при первой группе эндогенных переменных,
- матрица коэффициентов в первых m уравнениях при второй группе эндогенных переменных,
- матрица коэффициентов в последних уравнениях при первой группе эндогенных переменных,
- матрица коэффициентов в последних уравнениях при второй группе эндогенных переменных,
- матрица коэффициентов при предопределенных переменных в первых m уравнениях,
- матрица коэффициентов при предопределенных переменных в последних уравнениях,
вектор-столбец случайных остатков в первых m уравнениях.
Если матрица B4 невырождена, то последнюю группу уравнений можно разрешить относительно второй группы эндогенных переменных
подставив это выражение в первую группу уравнений, получим
(4.1.4)
Именно эта система уравнений со случайными остатками, получившаяся в результате исключения балансовых равенств, и называется обычно эконометрической моделью в структурной форме.
С этого момента будем пользоваться следующими обозначениями
вектор–столбец эндогенных переменных, число компонент которого равно числу уравнений со случайными остатками,
В этих обозначениях структурная форма эконометрической модели приобретет следующий законченный вид
(4.1.5)
Идентификация модели состоит в оценке ее коэффициентов по выборочным данным.
Диагональные элементы матрицы B равны 1, поэтому подлежат оценке по выборочным данным только элементов матрицы В. В матрице Г mp переменных, поэтому для идентификации модели в структурной форме надо оценить коэффициентов матриц B и Г.
Относительно случайных остатков обычно делаются следующие предположения:
(4.1.6)
т.е. случайные остатки одного уравнения некоррелированы для разных наблюдений, случайные остатки разных уравнений некоррелированы между собой, для каждого из уравнений случайные остатки центрированы и гомоскедастичны.
Трудность идентификации структурной формы (4.1.5) заключается в том, что прямое применение к каждому уравнению структурной формы МНК неприемлемо, поскольку приводит к смещенным (иногда и несостоятельным) оценкам коэффициентов. Это обусловлено тем, что в каждом уравнении наряду с предопределенными переменными присутствуют, вообще говоря, все эндогенные (объясняемые) переменные. Для того, чтобы стало возможным напрямую применять МНК, надо добиться того, чтобы в каждом уравнении имелась бы ровно одна эндогенная переменная (с единичным коэффициентом), тогда это уравнение становится обычным уравнением множественной регрессии и МНК эффективно работает, как это было описано в главах 1-3.
Итак, для преодоления указанной трудности разрешим систему уравнений структурной формы (4.1.5) относительно эндогенных переменных. Это возможно только в том случае, когда матрица B невырождена, т.е. Пусть это имеет место, тогда умножив левую и правую часть (4.1.5) на B-1, получим
или
(4.1.7)
где
Система уравнений (4.1.7) называется эконометрической моделью в приведенной форме. Каждое уравнение приведенной формы имеет вид обычного уравнения множественной регрессии (если одна из них предопределенных переменных равна 1, то коэффициент при ней – свободный член)
(4.1.8)
где коэффициенты при предопределенных переменных
- j-я строка матрицы π ,
j-я строка матрицы B-1.
Поскольку то при выполнении (4.1.6)
(4.1.8)
при
Иными словами, если случайные остатки структурной формы центрированы, некоррелированы и гомоскедастичны, то такими же свойствами обладают и случайные остатки приведенной формы.
Сквозной пример 4.1. Упрощенная модель Клейна
Рассмотрим следующую эконометрическую модель, состоящую из трех одновременных уравнений
(4.1.9)
где
– потребление за год t,
– чистые инвестиции за год t,
– валовой внутренний продукт (ВВП) за год t без чистого экспорта и прироста запасов,
– государственные расходы за год t,
– центрированные, некоррелированные и гомоскедастичные случайные остатки уравнений,
– склонность к потреблению,
– склонность к инвестированию,
– свободные члены первого и второго уравнений.
В этой модели три уравнения, первые два – это уравнения со случайными остатками, последнее уравнение – это балансовое равенство.
- эндогенные (выходные) переменные модели, - экзогенные (входные) переменные модели.
В модели нет лаговых эндогенных переменных, поэтому предопределенные (объясняющие) переменные – это только экзогенные переменные.
В модели четыре параметра которые надлежит оценить по выборочным данным.
Как видим, первоначальная форма модели (4.1.9) не является ни структурной формой, ни приведенной формой.
Для исключения балансового равенства (т.е. третьего уравнения) подставим его в первые два уравнения со случайными остатками
Раскрыв скобки и приведя подобные члены, а также поделив первое уравнение на коэффициент при , второе – на коэффициент при , получаем следующую структурную форму модели (все переменные находятся в левой части каждого уравнения, случайные остатки – в правой части)
(4.1.10)
где
В матричной записи структурная форма модели приобретает такой же вид, как структурная форма (4.1.5) любой эконометрической модели
в нашем случае (m=2, p=2)
Следует обратить внимание, что в структурной форме (4.1.10) чисто формально шесть коэффициентов, подлежащих оцениванию по выборочным данным, однако на самом деле, исходя и первоначальной модели, надо найти только четыре коэффициента, поскольку из этой модели следует, что
Разрешим уравнения структурной формы (4.1.10) относительно эндогенных переменных , тогда получим приведенную форму
(4.1.11)
где
(4.1.12)
Рассматриваемая модель названа упрощенной моделью Клейна по следующим двум соображениям:
первое упрощение состоит в том что три уравнения модели Клейна (капитала, заработной платы частного сектора, дохода частного сектора) исключаются;
второе упрощение состоит в том, что потребление и чистые инвестиции зависят только от ВВП в год t и не зависят от значений ВВП в предыдущие моменты времени и от переменных, которые выведены из модели, в связи с исключением трех уравнений.
4.2. Условия идентифицируемости эконометрической модели
в целом
Отдельное уравнение эконометрической модели в структурной форме называется идентифицируемым, если по выборочным данным могут быть оценены его коэффициенты.
Эконометрическая модель идентифицируема, если идентифицируемы все уравнения структурной формы этой модели.
Таким образом, идентифицируемость – это возможность оценки (быть может, неоднозначной) всех коэффициентов структурной формы по выборочным данным. Если в результате проверки условий идентифицируемости оказалось, что модель неидентифицируема, и потому работать с ней нельзя, то ее надо так скорректировать, чтобы она стала идентифицируемой.
Условия идентифицируемости устанавливаются как условия осуществимости следующей процедуры: переход от структурной формы к приведенной, оценка коэффициентов приведенной формы, определение коэффициентов структурной формы по коэффициентам приведенной формы. Если первоначальная модель не представлена в структурной форме, то возникнут также условия возможности определения коэффициентов первоначальной формы по коэффициентам структурной формы. Эта заключительная часть процедуры показана для упрощенной модели Клейна в сквозном примере.
В процессе осуществления указанной процедуры станет ясно, что некоторые условия относятся к эконометрической модели в целом, в то время как другие – к отдельным уравнениям. Условия первого типа появляются на прямом пути от структурной формы к приведенной, а условия второго типа – на обратном пути получения оценок коэффициентов структурной формы по коэффициентам приведенной формы.
Как видно из заглавия, в этом параграфе будут установлены условия первого типа.
Прежде всего, рассмотрим расширенную структурную форму модели (4.1.2). Число уравнений и число эндогенных переменных в ней одинаковы и равны . Если бы число эндогенных переменных было больше числа уравнений, то первые невозможно бы было определить. Напротив, если переменных меньше, чем уравнений, то эндогенные переменные определяются неоднозначно.
Итак, первое необходимое условие идентифицируемости: число эндогенных переменных и число уравнений расширенной структурной формы должны быть одинаковыми.
Следующий шаг: исключение балансовых коэффициентов. Этот шаг осуществим, если матрица коэффициентов при подвекторе второго типа должна быть невырождена, т.е. Это второе необходимое условие идентифицируемости.
В результате исключения балансовых равенств получается эконометрическая модель в стандартной структурной форме. В ней число эндогенных переменных (первого типа) равно числу уравнений со случайными остатками. Если бы уравнений было бы меньше, то их нельзя бы было разрешить относительно эндогенных переменных, если бы – больше, то решение получилось бы неоднозначным. Поэтому третье необходимое условие идентифицируемости состоит в том, что число эндогенных переменных стандартной структурной формы равно числу уравнений.
Следующий шаг: разрешение уравнений структурной формы относительно эндогенных переменных. Это возможно, если матрица B коэффициентов при эндогенных переменных невырождена, т.е. . Это четвертое необходимое условие идентифицируемости.
Поскольку набор независимых (предопределенных) переменных в каждом уравнении (множественной регрессии) приведенной формы один и тот же, то и коэффициенты (при оценках параметров регрессии) нормальных уравнений одни и те же. Матрица А коэффициентов нормальных уравнений равна
,
напомним
- матрица выборочных значений преопределенных переменных.
Поэтому для того, чтобы можно было найти оценки всех коэффициентов приведенной формы, необходимо, чтобы матрица нормальных уравнений была невырождена, т.е. , а это имеет место лишь тогда, когда ранг матрицы X равен p. Это пятое необходимое условие идентифицируемости.
Сквозной пример 4.2. Условия идентифицируемости упрощенной модели Клейна
Проверим, как выполняются установленные выше условия идентифицируемости для рассматриваемой нами модели.
Первое условие выполнено, поскольку в расширенной структурной форме число уравнений и столько же эндогенных переменных: C, I, Y.
Второе условие также выполнено, т.к. матрица при исключаемой переменной Y (коэффициент при ней в балансовом уравнении равен 1) имеет размеры и равна 1 (т.е. ).
В стандартной структурной форме два уравнения со случайными остатками, т.е. m=2, и столько же эндогенных переменных: C, I, поэтому третье условие выполнено.
Рассмотрим матрицу коэффициентов при эндогенных переменных в стандартной структурной форме
,
где
поэтому
следовательно, четвертое необходимое условие () выполнено в том случае, если т.е. сумма склонностей к потреблению и к накоплению не равна 1.
Матрица X в нашем случае (т.е. в случае парной регрессии) имеет вид
поэтому
где
откуда
Итак, пятое необходимое условие выполнено, если , а это будет иметь место в том случае, если государственные расходы не являются постоянными.
4.3. Условия идентифицируемости отдельного уравнения
эконометрической модели
Если пятое условие идентифицируемости выполнено, то могут быть получены оценки коэффициентов каждого уравнения приведенной формы
Вопрос теперь стоит так: “Можно ли по оценкам коэффициентов приведенной формы найти оценки коэффициентов структурной формы, т.е. выразить коэффициенты матриц В, Г через коэффициенты матрицы оценок ?” Матрицы В, Г связывают с матрицей соотношение (см. 4.1.7)
, (4.3.1)
которое можно представить в виде
(4.3.2)
Если матрица оценок известна, то согласно (4.3.1) для нахождения полного набора коэффициентов В и полного набора mp коэффициентов Г имеется mp уравнений (в матрице П mp коэффициентов), т.е. для определения коэффициентов В,Г по оценкам не хватает уравнений. Для того, чтобы преодолеть эту проблему “обнуляют” некоторые коэффициенты матриц В, Г, что с экономической точки зрения означает пренебрежение некоторыми наименее важными связями между переменными модели. В результате число ненулевых коэффициентов матриц В, Г становится не больше mp, т.е. числа коэффициентов матрицы (лучше точное равенство).
Шестое необходимое условие состоит в том, что среди уравнений структурной формы не должно быть двух (или более) уравнений с одинаковыми номерами “обнуленных” коэффициентов.
Рассмотрим произвольное i-ое уравнение структурной формы. Перенумеруем эндогенные переменные так, чтобы первые из них были те, коэффициенты при которых в структурной форме отличны от нуля.
Тогда i-ое уравнение структурной формы примет следующий вид
(4.3.3)
в этом уравнении неизвестных коэффициентов и неизвестных коэффициентов .
Для определения этих неизвестных коэффициентов имеется р уравнений, которые получаются, если взять i–ю строку матричного соотношения (4.3.2)
(4.3.4)
где
- строка ненулевых коэффициентов при эндогенных переменных,
- матрица коэффициентов приведенной формы в первых mi уравнениях при первых pi преопределенных переменных,
- матрица коэффициент приведенной формы в первых mi уравнениях и при последних преопределенных переменных,
- матрица коэффициентов приведенной формы в последних уравнениях при последних преопределенных переменных,
- строка ненулевых коэффициентов при предопределенных переменных.
Для неизвестных коэффициентов i-го уравнения структурной формы получаем следующие уравнения
(4.3.5)
.
В строке один коэффициент равен 1, так что в первых линейных неоднородных уравнениях неизвестное, поэтому для возможности их разрешения относительно этих mi-1 неизвестных должно быть кроме того Итак, седьмое условие состоит в том, что матрица оценок коэффициентов приведенной формы в первых mi при последних преопределенных переменных должна иметь ранг mi-1, а восьмое условие – в том, что число p-pi нулевых коэффициентов структурной формы при преопределенных переменных (т.е. число уравнений первой группы (4.3.5)), должно быть не меньше числа неизвестных коэффициентов при эндогенных переменных структурной формы.
Если первая группа уравнений (4.3.5) имеет одно (или несколько) решение то с помощью второй группы уравнений (4.3.5) определяются оценки ненулевых коэффициентов структурной формы при преопределенных переменных.
Если окажется, что общее число неизвестных (ненулевых) коэффициентов i–го уравнения структурной формы меньше числа р уравнений (4.3.5), то говорят, что i–ое уравнение сверхидентифицируемо, при этом сами коэффициенты оцениваются неоднозначно.
Сквозной пример 4.3. Условия идентифицируемости каждого из уравнений структурной формы упрощенной модели Клейна
Приведенная форма упрощенной модели Клейна задана двумя уравнениями (4.1.11). Если выполнено условие пять (неодинаковость объема государственных расходов за рассматриваемые годы), то коэффициенты двух уравнений приведенной формы можно оценить с помощью применения метода наименьших квадратов к каждому уравнению по отдельности. Поскольку каждое уравнение – это уравнение парной регрессии, то оценки имеют вид
Теперь для определения коэффициентов структурной формы по коэффициентам приведенной формы воспользуемся соотношением (4.3.2), которое в нашем случае имеет вид
или в развернутом виде
Система из первых двух уравнений предназначена для определения параметров первого уравнения структурной формы, а система из последних двух уравнений – параметров второго уравнения структурной формы. Таким образом, всего в структурной форме шесть неизвестных параметров.
Как видим, в каждом случае для определения трех параметров имеется два уравнения, т.е. и первое и второе уравнение структурной формы неидентифицируемы, поэтому согласно теории в каждом из двух уравнений структурной формы надо обнулить один параметр, т.е. пренебречь какой-то связью.
Однако в нашем примере этого делать не придется, т.к. нас интересует первоначальная модель (4.1.9), в которой только четыре неизвестных параметра: Из этого обстоятельства следует, то между параметрами структурной формы действуют следующие два соотношения: Если воспользоваться этими соотношениями, то системы (4.3.6) приобретают вид
(4.3.7)
Первая и вторая системы имеют следующие решения:
(4.3.8)
Разрешим теперь соотношения (4.1.10) между параметрами первоначальной и структурной форм относительно параметров и структурной форм относительно параметров первоначальной формы
Подставим теперь в последние выражения значения оценок структурной формы по формулам (4.3.8), тогда получим зависимость оценок коэффициентов первоначальной формы от оценок коэффициентов приведенной формы
(4.3.9)
Таким образом, первоначальная модель идентифицируема, т.к. четыре ее коэффициента могут быть найдены по оценкам коэффициентов приведенной формы по формулам (4.3.9).
Вопросы и задачи
1. Каковы виды уравнений и переменных эконометрической модели?
2. В чем отличие расширенной структурной формы эконометрической модели от стандартной структурной формы модели?
3. Почему надо переходить от структурной формы к приведенной?
4. В чем отличие идентифицируемости от идентификации модели?
5. Каковы условия идентифицируемости эконометрической модели в целом?
6. Каковы условия идентифицируемости отдельного уравнения?
7. Задана следующая эконометрическая модель
Являются ли уравнения этой системы идентифицируемыми?
ЛЕКЦИЯ 5. Идентификация и прогноз по
эконометрической модели
В предыдущей главе были установлены условия идентифицируемости эконометрической модели, т.е. возможности ее идентификации. В этой главе рассматриваются методы идентификации эконометрической модели, т.е. определения ее коэффициентов и характеристик случайных составляющих.
5.1. Методы идентификации эконометрической модели
Исходными данными для идентификации служат выборочные значения эндогенных и предопределенных переменных
(5.1.1)
Строки с номером в матрицах - это выборочные значения эндогенных и предопределенных переменных для наблюдения (например, за год ),
Отдельные столбцы выборочных матриц , ненаблюдаемых случайных остатков далее будем обозначать большими буквами с нижними индексами
– вектор-столбец выборочных значений -ой эндогенной переменной,
– вектор-столбец выборочных значений -ой предопределенных переменной,
– вектор-столбец значений случайной составляющей го уравнения.
Ниже рассматриваются наиболее употребительные методы идентификации эконометрической модели.
5.1.1. Косвенный метод наименьших квадратов
Этот метод фактически уже был описан в предыдущей главе при выводе условий идентифицируемости. Суть его состоит в том, что напрямую оценивается не коэффициенты структурной формы, а коэффициенты приведенной формы, а коэффициенты приведенной формы (поэтому метод и называется косвенным), после чего по оценкам коэффициентов приведенной определяются оценки коэффициентов структурной (или какой-либо другой первоначальной) формы.
Итак, вначале по обычному МНК определяем оценки коэффициентов каждого уравнения приведенной формы по отдельности
(5.1.2)
Все равенства для оценок (5.1.2) можно свернуть в одно матричное равенство
(5.1.3)
Затем по оценкам параметров приведенной формы находим оценки коэффициентов структурной формы, используя соотношение (4.3.2)
(5.1.4)
Последнее матричное уравнение имеет размер , т.е. в нем содержится отдельных линейных алгебраических уравнений. Поскольку перед проведением идентификации была установлена идентифицируемость модели, то подлежащих определению с помощью уравнений (5.1.4) элементов матриц должно быть не больше (некоторые элементы этих матриц могут быть равны нулю, другие равны между собой и т.п.).
Полученные оценки коэффициентов приведенной формы позволяют получить выравненные значения эндогенных переменных
где
- ая строка матрицы или значения предопределенных переменных для наблюдения
вектор-строка оценок коэффициентов при предопределенных переменных в -ом уравнении приведенной формы.
Зная фактические и выровненные значения эндогенных переменных, можно определить несмещенные оценки дисперсий случайных остатков уравнений приведенной формы
(5.1.5)
Поскольку случайные остатки приведенной и структурной форм связаны соотношением (4.1.7)
откуда получаем зависимость случайных остатков структурной формы от остатков приведенной формы
(5.1.6)
где
Найдем зависимость дисперсий случайных остатков структурной формы от соответствующих дисперсий приведенной формы
т.е.
(5.1.7)
Сквозной пример 5.1. Применение косвенного метода наименьших квадратов для идентификации упрощенной модели Клейна
Приведем результаты применения косвенного МНК для идентификации упрощенной модели Клейна по исходным данным Швеции*/ за 1980-2001 г.г. Исходные данные приведены в табл. 5.1., тем самым читатель сам может выполнить расчеты, результаты которых приведены ниже.
ТАБЛИЦА 5.1
Важнейшие макроэкономические показатели Швеции за 1980-2001 г.г. в млрд. долл. (в ценах 1995 г.)
( расчетные (выравненные) значения)
№
Годы
Потребление
Чистые инвестиции
Государственные расходы
1
1980
125,0
61,9
70,1
25,8
31,9
37,4
2
1981
124,8
63,0
70,5
24,1
32,1
37,7
3
1982
126,3
64,8
70,9
23,6
32,2
38,0
4
1983
128,6
64,0
70,5
26,9
32,1
37,7
5
1984
134,2
65,1
70,9
31,0
32,2
38,0
6
1985
137,1
67,4
71,4
31,2
32,5
38,4
7
1986
140,8
69,7
71,9
32,3
32,7
38,8
8
1987
145,6
73,6
72,1
32,9
32,8
39,0
9
1988
149,3
75,2
72,2
35,0
32,8
39,1
10
1989
153,3
75,3
73,9
37,6
33,5
40,4
11
1990
155,0
75,6
76,8
36,7
34,7
42,7
12
1991
153,3
78,7
76,0
32,5
34,4
42,1
13
1992
150,6
78,5
76,7
29,5
34,6
42,6
14
1993
152,3
78,4
79,4
29,0
35,8
44,8
15
1994
158,7
80,2
79,8
33,4
35,9
45,1
16
1995
165,1
80,6
79,7
39,5
35,9
45,0
17
1996
167,2
82,0
81,7
38,7
36,7
46,6
18
1997
171,3
84,4
81,8
40,1
36,8
46,7
19
1998
177,5
87,0
84,5
41,7
37,9
48,8
20
1999
185,7
90,7
87,2
43,9
39,0
51,0
21
2000
193,8
95,1
88,5
46,7
39,5
52,0
22
2001
210,6
102,7
95,4
50,3
42,4
57,5
*/ Сбор данных за 1960-2001 гг. и расчеты по ним выполнили в 2002 г. студенты ГУУ (III курс, специальность “Мировая экономика”) Качанов В.М., Соколов М.А., Евтихеева М.Г., Коновалов Н.В.
Расчет коэффициентов парной регрессии потребления по государственным расходом дал следующие результаты
поэтому выравненные значения потребления равны
Оценки коэффициентов парной регрессии чистых инвестиций по государственным расходам таковы
поэтому выравненные значения чистых инвестиций равны
Подставим теперь оценки коэффициентов приведенной формы в формулы для коэффициентов первоначальной эконометрической модели, получим
Таким образом, конкретная эконометрическая модель Швеции, полученная с помощью косвенного МНК (по данным 1960-2001г.г.) имеет вид
Коэффициент 0,45 при в первом уравнении (склонность к потреблению) означает, что при увеличение ВВП на 1 млрд. долл. потребление возрастет в среднем на 450 млн. долл. Точно так же коэффициент 0,19 при во втором уравнении (склонность к инвестированию) означает, что такое же увеличение ВВП приведет к среднему росту чистых инвестиций на 190 млн. долл.
5.1.2. Двухшаговый метод наименьших квадратов
Применим двухшаговый МНК к -му уравнению эконометрической модели (4.1.5).
Запишем -ое уравнение в следующей форме
(5.1.8)
где
- множество номеров эндогенных переменных (кроме номера ), коэффициенты при которых отличны от нуля, всего таких номеров – (-1) (вместе с -м номером число отличных от нуля коэффициентов равно ),
- множество номеров предопределенных переменных, коэффициенты при которых в -ом уравнении отличны от нуля, число таких коэффициентов – .
Введем следующие обозначения
– матрица, составленная из векторов-столбцов выборочных значений эндогенных переменных ,
– матрица, составленная из векторов-столбцов выборочных значений предопределенных переменных ,
– вектор-столбец, составленный из ненулевых коэффициентов при эндогенных переменных в -ом уравнении (исключая коэффициент 1 при эндогенной переменой ),
– вектор-столбец, составленный из ненулевых коэффициентов , при предопределенных переменных в -ом уравнении.
В этих обозначениях уравнений (5.1.8) в матричной форме запишутся следующим образом
Перенесем теперь все члены этого матричного равенства, кроме , в правую часть
(5.1.9)
По форме это матричная запись выборочных уравнений модели множественной регрессии, однако наличие в правой части некоторых других эндогенных переменных исключает прямое применение МНК, поэтому и необходима двухшаговая процедура.
На первом шаге с помощью МНК строятся регрессии эндогенных переменных с номерами по всем предопределенным переменным, иными словами производится оценка параметров регрессии следующих моделей
или в матричном виде
(5.1.10)
где
- вектор-столбец параметров -ой модели,
- вектор-столбец случайных остатков -ой модели,
Применив к каждой модели МНК, получим
(5.1.11)
Свернем соотношение (5.1.11) в одно выражение
(5.1.12)
в котором
С помощью полученных оценок найдем набор значений переменных с номерами
(5.1.13)
Подставим в (5.1.9) вместо набора выборочных значений объясняющих эндогенных переменных, набор их выравненных значений, тогда получим следующее матричное равенство
(5.1.14)
в этом равенстве справа присутствуют наряду со случайными остатками только выравненные значения и значения предопределенных переменных. Вторым шагом является оценка по МНК параметров множественной регрессии (5.1.14).
Нормальные уравнения для этих параметров множественной регрессии в этом случае будут иметь вид
(5.1.15)
Если матрица
оказалась невырожденной, то могут быть найдены оценки параметров структурной формы, рассматриваемых как параметры множественной регрессии
Если ввести обозначения
(5.1.16)
то в этих обозначениях
Сквозной пример 5.2. Применение двухшагового метода наименьших квадратов для идентификации упрощенный модели Клейна
В качестве исходных данных снова используем значения важнейших макроэкономических показателей Швеции за 1980-2000г.г., представленные в таблице 5.1.
Первый шаг двухшаговой процедуры уже выполнен в процессе применения косвенного МНК: установлена регрессионная зависимость эндогенных переменных (C,I) от предопределенных переменных (см. сквозной пример 5.1.)
Рассмотрим теперь второй шаг применительно к первому уравнению, для этого в него вместо подставим , тогда получим
или
но поскольку согласно первоначальной модели, то в этом случае последнее уравнение запишется как модель парной регрессии
,
в которой зависимой переменной служит , а независимой – поэтому МНК-оценки параметров этой модели имеют вид
Подставив в последние формулы значения временных рядов из таблицы 5.1., получим
Теперь в свою очередь подставляем эти значения в формулы (4.3.9), в результате получаем
Таким образом применение двухшагового МНК к первому уравнению структурной формы позволило идентифицировать первое уравнение первоначальной формы
как видим, получилось уравнение, весьма близкое к тому, которое было найдено с помощью косвенного МНК.
5.1.3. Трехшаговый метод наименьших квадратов
Этот метод применяется тогда, когда нарушается условие гомоскедастичности или когда случайные составляющие коррелированы. Для оценки коэффициентов каждого уравнения структурной формы по-прежнему применяется двухшаговой МНК. Тогда третий шаг состоит в следующем.
По 2МНК-оценкам коэффициентов структурной формы определяются оценки значений эндогенных переменных (выравненные значения), после чего находятся разности фактических и выравненных значений, а уже по этим разностям устанавливается оценка ковариационной матрицы случайных составляющих и, наконец, с помощью этой матрицы определяются
3МНК-оценки параметров структурной формы.
В обозначениях (5.1.16) каждое уравнение структурной формы для выборочных данных записывается в следующем матричном виде
умножив обе части этого векторного равенства размера на , получим векторное равенство размера
или
(5.1.16)
где
при этом не коррелирует с
Ковариационная матрица случайных составляющих имеет вид
поэтому
Применим ОМНК для определения оценок параметров (напомним ) соотношений (5.1.16)
(5.1.17)
Можно показать, что оценки (5.1.17) совпадают с оценками, полученными по двухшаговому МНК, т.е.
Запись (5.1.16), примененную для i-го уравнения структурной формы, можно распространить на все уравнения структурной формы
(5.1.18)
Модель (5.1.18) можно записать в более сжатой форме
(5.1.19)
где
Ковариационная матрица случайных составляющих уравнений (5.1.19) имеет следующий вид
(5.1.20)
где
Оценки ковариаций случайных составляющих структурной формы получаем по разностям фактически и расчетных (на втором шаге) значений эндогенных переменных
(5.1.21)
Подставив оценки (5.1.21) в (5.1.20), можем воспользоваться ОМНК для получения оценок третьего шага
(5.1.22)
5.1.4. Метод максимума правдоподобия
Напомним суть метода, который применяется для оценки вероятностных параметров. Составляется функция правдоподобия, которая является произведением плотностей (вероятностей) в выборочных точках. В качестве оценок вероятностных параметров выбираются такие их значения, которые максимизируют функцию правдоподобия. Оценки максимума правдоподобия при определенных (весьма слабых) условиях обладают следующими свойствами: они единственны, состоятельны, асимптотически несмещены, эффективны и нормальны.
Применим этот метод к оценке параметров структурной формы. Выборочные уравнения этой формы в матричном виде записываются так
или для отдельных моментов времени
Далее примем, что центрированные случайные остатки
являются нормальными гомоскедастичными случайным величинами, ковариационная матрица которых могла бы быть оценена по выборке (в предположении, что коэффициенты В, Г заданы) следующим образом
(5.1.23)
Тогда плотность распределения m-мерной нормальной случайной величины ut будет иметь вид
поэтому логарифмическая функция правдоподобия (логарифм произведения нормальных плотностей в выборочных точках) запишется так
(5.1.24)
где
Задача на максимум сложной нелинейной функции (5.1.24) реализована в программной системе S-PLUS, Microsoft Professional Edition (программа “Generalized Nonlinear Least Squares”). Вводя уравнения структурной формы и исходные данные X,Y в эту программную систему, получаем на выходе точечные оценки параметров структурной формы их стандартные ошибки, t-значения, а также ковариационные матрицы оценок коэффициентов каждого уравнения ос случайными остатками.
Следует заметить, что программная система воспринимает и балансовые равенства, просто в этом случае правая (случайная) часть равна нулю, а все коэффициенты уравнения известны. В приводимом ниже примере показаны результаты работы этой программы с целью оценки коэффициентов расширенной структурной формы.
Сквозной пример 5.3. Применение метода максимального правдоподобия для оценки коэффициентов модели Клейна
Модель Клейна была рассмотрена во введении. Чтобы работать с ней запишем ее здесь еще раз (содержательный смысл переменных раскрыт во введении)
Для этой модели вектор-столбец из шести эндогенных переменных в момент времени t имеет вид
соответственно столбец из семи преопределенных переменных равен
Матрицы коэффициентов при эндогенных преопределенных переменных согласно модели, в которой все переменные перенесены в левую часть, чтобы в результате получилась расширенная структурная форма, таковы (номер строки – номер уравнения)
Всего коэффициентов эконометрической модели, подлежащих оценке, - 12, остальные возможные коэффициенты “обнулены”, т.е. соответствующие связи между переменными признаны автором модели несущественными.
Ковариационная матрица случайных остатков равна
где оценки определяются по формулам (самой программной системой)
причем коэффициенты и берутся из первых трех строк матриц В и Г, поскольку эти строки относятся к уравнениям со случайными остатками.
Например, в обозначениях нашей конкретной модели
Таким образом, в максимизируемой логарифмической функции правдоподобия (5.1.24) неизвестные входят в и в
Замечание. Поскольку в различных руководствах по эконометрике не сложилось единого толкования структурной формы и единых обозначений, то различные программные продукты, приспособленные для идентификации эконометрических моделей используют разные виды записи структурной формы. В частности, чтобы пользоваться упомянутой программой надо иметь в виду, что матрица коэффициентов при эндогенных переменных обозначается Г и равна в наших обозначениях , а матрица коэффициентов при предопределенных переменных обозначается В и равна в наших обозначениях
В заключение приводим листинги с результатами расчетов по модели, которые выполнила в 2002 г. студентка Оттавского университета А. Князева (см. Введение). Сама численная модель приведена во введении.
*** Generalized Nonlinear Least Squares ***
Generalized nonlinear least squares fit
Model: C c0 + c1 * P1 + c2 * P2 + c3 * W
Data: StatsCAN3
AIC BIC logLik
85.54173 89.71982 –38.77087
Coefficients:
Value Std.Error t-value p-value
c0 1.406948 0.7960066 1.76751 0.0951
c1 0.693815 0.1548662 4.48009 0.0003
c2 0.100057 0.1254383 0.79766 0.4361
c3 0.854805 0.0599314 14.26306 <.0001
Correlation:
c0 c1 c2
c1 –0.264
c2 –0.109 –0.512
c3 0.204 –0.702 –0.223
Standardized residuals:
Min Q1 Med Q3 Max
-2.069735 –0.7559147 0.1474549 0.6335608 2.017052
Residual standard error: 1.703948
Degrees of freedom: 21 total; 17 residual
*** Generalized Nonlinear Least Squares ***
Generalized nonlinear least squares fit
Model: I i0 + i1 * P1 + i2 * P2 + i3 * K2
Data: StatsCAN3
AIC BIC logLik
119.7979 123.9759 –55.89893
Coefficients:
Value Std.Error t-value p-value
i0 –2.215234 1.859684 -1.191188 0.2499
i1 0.432931 0.302817 1.429677 0.1709
i2 0.946911 0.444332 2.131090 0.0480
i3 -0.339519 0.133151 –2.549889 0.0207
Correlation:
i0 i1 i2
i1 –0.316
c2 –0.290 –0.049
c3 0.321 –0.568 –0.783
Standardized residuals:
Min Q1 Med Q3 Max
-1.602949 –0.6997122 –0.002022127 0.5518358 1.829678
Residual standard error: 3.851912
Degrees of freedom: 21 total; 17 residual
*** Generalized Nonlinear Least Squares ***
Generalized nonlinear least squares fit
Model: W w0 + w1 * X1 + w2 * X2 + w3 * A
Data: STAT.CAN.TOTAL
AIC BIC logLik
89.44518 93.62327 –40.72259
Coefficients:
Value Std.Error t-value p-value
w0 11.62381 4.125882 2.81729 0.0119
w1 0.77934 0.059707 13.05287 <.0001
w2 -0.15899 0.075880 –2.09525 0.0514
w3 0.69752 0.201700 3.45820 0.0030
Correlation:
w0 w1 w2
w1 0.020
w2 –0.476 –0.884
w3 0.979 0.051 –0.485
Standardized residuals:
Min Q1 Med Q3 Max
-1.197279 –0.7731836 –0.1131369 0.5101537 1.8444
Residual standard error: 1.869904
Degrees of freedom: 21 total; 17 residual
5.2. Прогноз по эконометрической модели
Система в приведенной форме (для выборочных данных) имеет вид
(5.2.1)
или в виде одного матричного равенства
(5.2.2)
где (напоминаем применявшиеся ранее обозначения)
МНК-оценки параметров приведенной формы, как параметров множественной регрессии (применительно к каждому уравнению приведенной формы) имеют вид
(5.2.3)
или после транспортирования
(5.2.4)
причем эти оценки, как МНК-оценки параметров множественной регрессии, несмещены
и состоятельны
Точечный прогноз
Зная значения преопределенных на τ тактов вперед можно по оценкам коэффициентов приведенной формы найти точечные оценки эндогенных переменных в этот момент времени
(5.2.5)
или по отдельным эндогенным переменным
Этот точечный прогноз несмещен
Точность этого прогноза по каждой переменной определяется ее дисперсией (меньше дисперсия – точнее прогноз и наоборот). Чтобы определить дисперсию каждой компоненты, найдем ковариационную матрицу точечного прогноза
(5.2.6)
Поскольку
то
где
Имеем
Введем обозначение тогда
В последних преобразованиях использовалось следующее соображение: число, полученное в результате перемножения нескольких матриц, является матрицей размера , поэтому к нему можно применять матричную операцию (след). Напомним, что эта операция применяется только для квадратных матриц и ее результатом является сумма диагональных элементов матрицы
В матричном исчислении доказывается (при условии, что АВ,ВА существуют).
Итак,
(5.2.7)
где
в частности,
Сквозной пример 5.3. Прогноз по упрощенной модели Клейна
Для прогноза эндогенных переменных на шагов вперед необходимо задать значения предопределенных переменных В нашем примере одна предопределенная ( в нашем случае экзогенная ) - (государственные расходы в год ). Поскольку в нашем распоряжении не было данных о будущих государственных расходах, то получим их путем прогноза по линейному тренду, т.е. на основе следующей модели
Оценки параметров линейного тренда получаем как МНК-оценки параметров парной регрессии
Подставив в последние формулы значения государственных расходов из табл. 5.1. (или введя эти данные в статистический ППП), получим
откуда
Теперь можно найти прогноз будущих значений государственных расходов на 2002 г. и 2003 г.
Подставив эти значения в формулы для выравненных значений эндогенных переменных.
Прогноз на 2002 г.
Прогноз на 2003 г.
Интервальный прогноз
Для простоты рассмотрим только случай, когда остатки приведенной формы некоррелированы, тогда
и
т.е. ковариационная матрица прогнозируемых значений эндогенных переменных диагональна (или приближенно диагональна), поэтому можно строить интервальный прогноз по каждой эндогенной переменной в отдельности.
Если случайные остатки нормальны, а их дисперсии оценены по выборке по формулам (2.2.5), то точечная оценка распределена по закону Стьюдента с степенями свободы, поэтому по правилу интервального прогноза по уравнению множественной регрессии (2.4.4) получаем следующий доверительный интервал для неслучайной составляющей -ой эндогенной переменной
(5.2.8)
где
Вопросы и задачи
1. Идентифицировать по двухшаговому МНК второе уравнение упрощенной модели Клейна Швеции (сквозной пример).
2. В каком случае применяется трехшаговый МНК?
3. Каким образом осуществляется точечный прогноз эндогенных переменных по эконометрической модели?
ЛЕКЦИЯ 6. Возможные направления развития эконометрики
В качестве двух наиболее важных, с нашей точки зрения, направлений развития эконометрики в этой главе рассматриваются нелинейные эконометрические модели и эконометрические модели с непрерывным временем.
Это обусловлено тем, что экономика на макро и микроуровнях являются нелинейной динамической системой, причем в исследовании динамических экономических систем в последние годы наблюдается заметный крен в сторону динамических систем с непрерывным временем. Так, классическая модель Солоу является нелинейной динамической системой с непрерывным временем, модели оптимального экономического роста также являются такими моделями.
В основе упомянутых моделей – нелинейные производственные функции выпуска, коэффициенты которых определяются по статистическим данным в форме временных рядов, поэтому содержат случайные составляющие.
Ниже вначале рассматриваются проблемы, порожденные нелинейностью, и возможные подходы к их разрешению, а затем эконометрические модели с непрерывным временем.
6.1. Нелинейные эконометрические модели
Нелинейность рассмотрим на примере модели замкнутой трехсекторной экономики. Эта модель является обобщением односекторной модели Солоу и подробно изучена в цитируемой книге*/.
Секторами трехсекторной экономики являются: материальный (нулевой), фондосоздающий (первый), и потребительский (второй). Материальный сектор производит предметы труда, фондосоздающий – средства труда, потребительский – предметы потребления.
Если производственные функции секторов являются функциями Кобба-Дугласа и выполнены предположения, аналогичные принятым в модели Солоу, то эта модель в относительных показателях записывается следующим образом(время непрерывно, индекс времени опущен):
Удельные выпуски секторов
(6.1.1)
Динамика фондовооруженности секторов
(6.1.2)
*/Колемаев В.А. математическая экономика / учебника, второе издание. – М.: Юнити-Дана, 2002.
Динамика роста числа занятых
(6.1.3)
Натуральные балансы
Материальный
(6.1.4)
Инвестиционный
(6.1.5)
Трудовой
(6.1.6)
где
– число запятых в момент t,
– число запятых в i-м секторе,
– выпуск -го сектора,
народнохозяйственная производительность -го сектора,
– основные производственные фонды (ОПФ) -го сектора,
фондовооруженность -го сектора,
доли -го сектора в распределении инвестиционных и трудовых ресурсов,
коэффициент прямых материальных затрат -го сектора,
коэффициент износа ОПР -го сектора,
темп прироста числа занятых.
В этой детерминированной динамической модели
управляющие параметры, определяющие структурную политику, поэтому могут меняться во времени;
экзогенные параметры производственных функций, которые определяют технологический уклад, предполагаются неизменными;
экзогенные параметры прямых затрат и износа фондов (предполагаются неизменными);
– эндогенные переменные, устанавливаемые по модели в каждый момент времени t.
Но параметры нелинейных производственных функций оцениваются по временным рядам показателей поэтому имеют аддитивные (либо мультипликативные) случайные составляющие
(6.1.7)
Кроме того экзогенные параметры также определяются по соотношениям, содержащим случайные остатки,
(6.1.8)
(6.1.9)
В нелинейной эконометрической модели (6.1.7) – (6.1.9) имеется семь нелинейных одновременных уравнений со случайными остатками, содержащих 12 параметров (), подлежащих оценке.
Интуитивно представляется возможным применить следующий алгоритм действий. Вначале с помощью нелинейного МНК оценить коэффициенты каждого из первых трех уравнений (6.1.7) на основе временных рядов . Затем по временным рядам с помощью обычного МНК найти оценки параметров каждого из трех уравнений (6.1.9). Наконец, на заключительном этапе при известном параметре оцениваем по обычному МНК параметры уравнения материального баланса (6.1.8). Значение оценки получаем в том случае, когда оценка свободного члена минимальна по модулю.
Итак, даже из этого примера видно, что рассмотрение нелинейных эконометрических моделей связано с преодолением существенных проблем. Так, оценки получены по линейному МНК, но состоятельны ли они, смещены или не смещены. Является ли состоятельной и несмещенной оценка параметра полученная не по МНК, а методом переборка? Кроме того необходимо отметить, что между случайными остатками разных уравнений существует тесная взаимосвязь, поэтому корректна ли рассмотренная процедура оценки?
6.2. Эконометрические модели с непрерывным временем
Рассмотрим переход к непрерывному времени на примере модели Клейна. Модель содержит шесть уравнений, из них четыре являются конечно-разностными уравнениями первого порядка. При переходе к непрерывному времени последние перейдут в дифференциальные уравнения первого порядка.
Нормальные случайные остатки каждого i-го уравнения можно рассматривать как приращения за год Винеровского ( т.е. Гауссовского с независимыми приращениями) случайного процесса . Например,
При переходе к шагу дискретности (меньше года) все показатели типа потока (т.е. накопленные за год), должны быть умножены на . Таким образом, модель Клейна приобретет следующий вид (константы и мгновенные показатели также умножаются на )
(6.1.2)
При получаем непрерывный аналог модели Клейна (индекс времени опущен, но подразумевается по умолчанию, производные от винеровского процесса – “белый шум”)
(6.2.2)
Оценка параметров производится для некоторой последовательности значений . Например, (нужны данные по полугодиям), (нужны данные по кварталам), (нужны помесячные данные).
Если оценки параметров во всех этих случаях примерно одинаковы (статистически не различаются), то в модели (6.2.2) можно использовать среднеарифметические из этих оценок. Если же они существенно отличаются друг от друга, то в качестве оценок следует использовать последние оценки, т.е. при .
Рассмотрим техническую сторону вычислений при . В этом случае временной ряд каждого входящего в расчет показателя рассматриваются в следующие моменты времени
при этом значения показателя типа потока, скажем, в момент получается сложением его значения за второе полугодие первого года со значением за первое полугодие второго года. Объем выборки при этом удваивается, но между значениями случайных остатков в дробные моменты времени возникает корреляция.
Что касается методов оценки параметров при выбранном (например, ), то они такие же, как были описаны в гл. 5, т.е. МНК и его модификации, а также метод максимального правдоподобия.
Литература
1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: Юнити, 1998.
2. Ланкастер П. Теория матриц. – М.: Наука, 1978.
3. Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая статистика. – М.: Инфра-М, 2002.
4. Магнус Я.Р., Катышев П,К., Пересецкий А.А. Эконометрика. Начальный курс. – М.: Дело, 2001.
5. Маленво Э. Статистические методы эконометрии. – М.: Статистика, 1976.
6. Фишер Ф. Проблема идентификации в эконометрии. – М.:. Статистика, 1978.
7. Green W.H. Econometric analysis. Macmillan Publishing Company, New
York, 1993.
8.Колемаев В.А.Эконометрика.М.ИНФРА,2004
9.Писарева О.М.-все работы по эконометрике.