Предмет и методы эконометрики

⌛ 2008 год
👀 1589 просмотров
📌 1534 загрузки
🏢️ УлГУ

Выбери формат для чтения

Конспект лекции по дисциплине «Предмет и методы эконометрики», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Предмет и методы эконометрики», Word формат

Федеральное агентство по образованию Государственное образовательной учреждение высшего профессионального образования Ульяновский государственный технический университет Н. И. Шанченко ЛЕКЦИИ ПО ЭКОНОМЕТРИКЕ Учебное пособие для студентов высших учебных заведений, обучающихся по специальности «Прикладная информатика (в экономике)» Ульяновск 2008 2 УДК 330.43 (075.8) ББК 65в6я73 Ш 20 Рецензенты: Доктор физико-математических наук, профессор кафедры информационной безопасности и управления УлГУ, А. С. Андреев; Кафедра общепрофессиональных дисциплин УВАУГА Утверждено редакционно-издательским советом университета в качестве учебного пособия Шанченко, Н. И. Лекции по эконометрике : учебное пособие для студентов высших Ш 20 учебных заведений, обучающихся по специальности «Прикладная информатика (в экономике)» / Н. И. Шанченко. – Ульяновск : УлГТУ, 2008. – 139 с. ISBN 978-5-9795- 0504-6 Содержит краткий курс лекций по дисциплине «Эконометрика», включая описание основных задач эконометрики и методов, применяемых для их решения. Предназначено для студентов экономических и информационных специальностей. УДК 330.43 (075.8) ББК 65в6я73 ISBN 978-5-9795-0504-6 © Н. И. Шанченко, 2008 © Оформление. УлГТУ, 2008 3 СОДЕРЖАНИЕ СОДЕРЖАНИЕ ................................................................................................... 3 Введение ............................................................................................................... 7 1. Предмет и методы эконометрики ................................................................ 10 1.1. Предмет и методы эконометрики ......................................................... 10 1.2. Характеристика взаимосвязей ............................................................. 12 1.3. Основные этапы построения эконометрической модели ................. 13 1.4. Выбор вида эконометрической модели ............................................... 16 1.5. Методы отбора факторов ...................................................................... 18 1.6. Оценка параметров моделей ................................................................. 20 1.7. Примеры эконометрических моделей .................................................. 21 Контрольные вопросы .................................................................................. 22 2. Парный регрессионный анализ .................................................................... 23 2.1. Понятие парной регрессии .................................................................... 23 2.2. Построение уравнения регрессии ......................................................... 24 2.2.1. Постановка задачи .......................................................................... 24 2.2.2. Спецификация модели .................................................................... 25 2.3. Оценка параметров линейной парной регрессии ............................... 26 2.4. Оценка параметров нелинейных моделей ........................................... 28 2.5. Качество оценок МНК линейной регрессии. Теорема Гаусса-Маркова .............................................................................. 29 2.6. Проверка качества уравнения регрессии. F-критерий Фишера ........ 30 2.7. Коэффициенты корреляции. Оценка тесноты связи .......................... 32 2.8. Точность коэффициентов регрессии. Проверка значимости ............ 33 2.9. Точечный и интервальный прогноз по уравнению линейной регрессии ...................................................................................... 35 2.10. Коэффициент эластичности ................................................................ 36 Контрольные вопросы .................................................................................. 37 3. Множественный регрессионный анализ ..................................................... 38 3.1. Понятие множественной регрессии ..................................................... 38 3.2. Отбор факторов при построении множественной регрессии ............ 39 3.2.1. Требования к факторам .................................................................. 39 3.2.2. Мультиколлинеарность .................................................................. 40 3.3. Выбор формы уравнения регрессии ..................................................... 42 3.4. Оценка параметров уравнения линейной множественной регрессии .................................................................................................. 43 3.5. Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова ........................................................................ 46 3.6. Проверка качества уравнения регрессии. F-критерий Фишера ........ 47 3.7. Точность коэффициентов регрессии. Доверительные интервалы .... 49 3.8. Частные уравнения регрессии. Частная корреляция .......................... 50 3.9. Обобщенный метод наименьших квадратов. Гетероскедастичность ................................................................................... 52 3.9.1. Обобщенный метод наименьших квадратов ................................ 52 4 3.9.2. Обобщенный метод наименьших квадратов в случае гетероскедастичности остатков ..................................................... 53 3.10. Проверка остатков регрессии на гетероскедастичность .................. 55 3.11. Построение регрессионных моделей при наличии автокорреляции остатков........................................................................ 56 3.12. Регрессионные модели с переменной структурой. Фиктивные переменные.......................................................................... 58 3.12.1. Фиктивные переменные ............................................................... 58 3.12.2. Тест Чоу ......................................................................................... 59 3.11. Проблемы построения регрессионных моделей ............................... 59 Контрольные вопросы .................................................................................. 60 4. Системы эконометрических уравнений ...................................................... 61 4.1. Структурная и приведенная формы модели........................................ 61 4.2. Оценка параметров структурной формы модели ............................... 65 4.3. Косвенный метод наименьших квадратов ........................................... 66 4.4. Двухшаговый метод наименьших квадратов ...................................... 68 4.5. Трехшаговый метод наименьших квадратов ...................................... 69 Контрольные вопросы .................................................................................. 70 5. Моделирование одномерных временных рядов и прогнозирование ....... 71 5.1. Составляющие временного ряда .......................................................... 71 5.2. Автокорреляция уровней временного ряда ......................................... 72 5.3. Моделирование тенденции временного ряда ...................................... 73 5.3.1. Методы определения наличия тенденции .................................... 73 5.3.2. Сглаживание временного ряда по методу скользящей средней .............................................................................................. 74 5.3.3. Метод аналитического выравнивания .......................................... 76 5.3.4. Выбор вида тенденции ................................................................... 77 5.3.5. Оценка адекватности и точности модели тенденции .................. 79 5.4. Моделирование периодических колебаний ........................................ 82 5.4.1. Выделение периодической компоненты по методу скользящей средней......................................................................... 82 5.4.2. Моделирование сезонных колебаний с помощью фиктивных переменных .................................................................. 83 5.4.3 Моделирование сезонных колебаний с помощью гармонического анализа.................................................................. 83 5.5. Прогнозирование уровней временного ряда на основе кривых роста. ........................................................................ 84 5.5.1. Метод аналитического выравнивания .......................................... 84 5.6. Адаптивные модели прогнозирования ................................................ 86 5.6.1. Понятие адаптивных методов прогнозирования ......................... 86 5.6.2. Экспоненциальное сглаживание ................................................... 87 5.6.3. Использование экспоненциальной средней для краткосрочного прогнозирования ........................................... 88 5.6.4. Адаптивные полиномиальные модели.......................................... 88 5.7. Исследование взаимосвязи двух временных рядов ............................ 89 5 5.8. Коинтеграция временных рядов ........................................................... 91 Контрольные вопросы .................................................................................. 92 6. Линейные модели стохастических процессов ........................................... 93 6.1. Стационарные стохастические процессы ........................................... 93 6.1.1. Основные понятия........................................................................... 93 6.1.2. Параметрические тесты стационарности ..................................... 94 6.1.3. Непараметрические тесты стационарности ................................. 96 6.2. Линейные модели стационарных временных рядов. Процессы ARMA ..................................................................................... 97 6.2.1. Модели авторегрессии (AR) .......................................................... 97 6.2.2. Модели скользящего среднего (MA) ............................................ 98 6.2.3. Модели авторегрессии-скользящего среднего (ARMA) ............. 99 6.3. Автокорреляционные функции ............................................................ 99 6.3.1. Автокорреляционная функция....................................................... 99 6.3.2. Частная автокорреляционная функция ....................................... 100 6.4. Прогнозирование ARMA-процессов .................................................. 101 6.4.1. AR-процессы.................................................................................. 101 6.4.2. MA-процессы ................................................................................. 102 6.4.3. ARMA-процессы ........................................................................... 103 6.5. Нестационарные интегрируемые процессы ...................................... 103 6.5.1. Нестационарные стохастические процессы. Нестационарные временные ряды ............................................... 103 6.5.2. Тесты Дики-Фуллера .................................................................... 104 6.5.3. Модификации теста Дики-Фуллера для случая автокорреляции .............................................................................. 104 6.5.4. Метод разностей и интегрируемость .......................................... 105 6.6. Модели ARIMA .................................................................................... 105 6.6.1. Определение и идентификация модели ...................................... 105 6.6.2. Прогнозирование ARIMA-процессов ......................................... 106 Контрольные вопросы ................................................................................ 107 7. Динамические эконометрические модели ................................................ 108 7.1. Общая характеристика динамических моделей ................................ 108 7.2. Модели с распределенным лагом ....................................................... 109 7.2.1. Оценка параметров модели с распределенным лагом методом Койка ............................................................................... 109 7.2.2. Оценка параметров модели с распределенным лагом методом Алмон. ............................................................................. 110 7.2.3. Интерпретация параметров .......................................................... 111 7.3. Модели авторегрессии ......................................................................... 112 7.3.1. Интерпретация параметров .......................................................... 112 7.3.2. Оценка параметров моделей авторегрессии .............................. 113 7.4. Модель частичной корректировки ..................................................... 114 7.5. Модель адаптивных ожиданий ........................................................... 115 Контрольные вопросы ................................................................................ 116 8. Информационные технологии эконометрических исследований .......... 117 6 8.1. Электронные таблицы Excel ............................................................... 118 8.2. Статистический пакет общего назначения STATISTICA ................ 119 8.3. Эконометрические программные пакеты. Matrixer 5.1 .................... 120 8.4. Анализ временных рядов в системе ЭВРИСТА ............................... 122 Контрольные вопросы ................................................................................ 124 Глоссарий ......................................................................................................... 125 Приложения ..................................................................................................... 131 1. Нормированная функция Лапласа ......................................................... 131 2. Значения критических уровней tα,k для распределения Стьюдента ... 132 3. Значения F-критерия Фишера на уровне значимости α = 0,05 ......... 133 4. Значения F-критерия Фишера на уровне значимости α = 0,01 .......... 134 5. Значения 2 ;k критерия Пирсона ........................................................... 135 6. Значения статистик Дарбина-Уотсона dL dU ........................................ 136 7. Критические значения f-критерия для DF-, ADF- и РР-тестов, рассчитанные по Маккиннону ............................................................ 137 8. Критические значения коинтеграционного ADF-критерия................ 137 Библиографический список ........................................................................... 138 Интернет-ресурсы ....................................................................................... 138 7 Введение Развитие экономики, усложнение экономических процессов и повышение требований к принимаемым управленческим решениям в области макро и микроэкономики потребовало более тщательного и объективного анализа реально протекающих процессов на основе привлечения современных математических и статистических методов. С другой стороны, проблема нарушения предпосылок классических статистических методов при решении реальных экономических задач привели к необходимости развития и совершенствования классических методов математической статистики и уточнения постановок соответствующих задач. В результате этих процессов осуществилось выделение и формирование новой отрасли знания под названием Эконометрика, связанной с разработкой и применением методов количественной оценки экономических явлений и процессов и их взаимосвязей. Основным методом исследования в эконометрике является экономикоматематическое моделирование. Правильно построенная модель должна давать ответ на вопрос о количественной оценке величины изменения изучаемого явления или процесса в зависимости от изменений внешней среды. Например, как скажется увеличение или уменьшение уровня инвестиций на совокупном валовом продукте, какие дополнительные ресурсы понадобятся для запланированного увеличения выпуска продукции и т. п. Практическая значимость эконометрики определяется тем, что применение ее методов позволяет выявить реально существующие связи между явлениями, дать обоснованный прогноз развития явления в заданных условиях, проверить и численно оценить экономические последствия принимаемых управленческих решений. Построение эконометрических моделей приходится осуществлять в условиях, когда нарушаются предпосылки классических статистических методов, и учитывать наличие таких явлений, как: – мультиколлинеарность объясняющих переменных; – закрытость механизма связи между переменными в изолированной регрессии; – эффект гетероскедастичности, т. е. отсутствия нормального распределения остатков для регрессионной функции; – автокорреляция остатков; – ложная корреляция. Разработка методов, преодолевающих эти трудности, составляет теоретическую основу эконометрики. Наряду с логически правильным формальным применением имеющегося математического и статистического инструментария важными составляющими успеха эконометрического исследования являются экономически адекватная постановка задачи и последующая экономическая интерпретация полученных результатов. 8 Огромный толчок развитию эконометрических методов и их широкому внедрению в практику дало развитие средств вычислительной техники и особенно появление персональных и портативных компьютеров. Разработка программных пакетов, реализующих методы построения и исследования эконометрических моделей привело к тому, что выполнение эконометрических процедур становится доступным самому широкому кругу аналитиков, экономистов и менеджеров. В настоящее время основные усилия прикладного исследователя сводятся к подготовке качественных исходных данных, к правильной постановке проблемы и экономически обоснованной интерпретации результатов исследования. Вместе с тем, от исследователя требуется четкое понимание областей применимости используемых методов и сложности и неочевидности процесса перенесения полученных теоретических результатов на реальную действительность. Настоящее пособие отражает содержание односеместрового курса лекций, читаемых на факультете информационных систем и технологий УлГТУ студентам специальности «Прикладная информатика (в экономике)» и соответствует Государственному образовательному стандарту по дисциплине «Эконометрика». Пособие состоит из восьми глав и приложения. В первой главе дается характеристика предмету эконометрики и применяемым методам, освещаются основные аспекты эконометрического моделирования, применяемые методики и виды используемых переменных. Во второй главе рассмотрены вопросы построения парных регрессионных моделей: постановка задачи, спецификация и оценка параметров моделей, оценка качества полученных моделей, получение точечного и интервального прогнозных значений, экономическая интерпретация модели. Третья глава посвящена построению множественных регрессионных моделей. Подробно рассмотрены вопросы спецификации и оценки параметров модели, оценки качества полученной модели и ее статистической значимости. Приведены условия, обеспечивающие эффективность метода наименьших квадратов (теорема Гаусса-Маркова). Описан обобщенный метод наименьших квадратов, позволяющий получать эффективные оценки параметров в условиях мультиколлинеарности факторов и автокорреляции остатков. Рассмотрены регрессионные модели с переменной структурой. Четвертая глава посвящена построению моделей в виде системы эконометрических уравнений. Изложены особенности моделей, возникающие трудности применения классических методов и описаны наиболее широко применяемые методы оценки параметров, такие как косвенный, двухшаговый и трехшаговый методы наименьших квадратов. В пятой главе рассмотрены вопросы моделирования одномерных временных рядов и прогнозирования: структура временного ряда, явление автокорреляции, моделирование тенденции и периодической составляющей ряда, прогнозирование уровней ряда. Отдельное внимание уделено адаптивным методам прогнозирования и моделированию коинтегрируемых временных рядов. В шестой главе освещены вопросы построения линейных моделей стохастических процессов: AR, MA и ARMA-моделей стационарных процессов, 9 ARIMA-моделей нестационарных процессов. Описаны методы проверки временных рядов на стационарность. В седьмой главе излагаются модели и методы, применяемые для исследования эконометрических моделей, описывающих динамику развития экономических процессов. Рассмотрены модели авторегрессии и модели с распределенным лагом. Описаны применяемые для оценки параметров моделей, такие как методы инструментальных переменных, методы Койка и Алмон. Восьмая глава посвящена информационным технологиям эконометрических исследований. Изложены общие требования к программному обеспечению и возможности программных пакетов Excel, STATISTICA, ЭВРИСТА, Matrixer 5.1. В приложении даны часто используемые статистические таблицы. Пособие предназначено студентам экономических и информационных специальностей. Изложение материала ориентировано на читателя, обладающего знаниями в пределах курсов высшей математики и математической статистики, читаемых студентам экономических и информационных специальностей. Пособие будет также полезно всем желающим познакомиться с основными задачами, моделями и методами эконометрики. 10 1. Предмет и методы эконометрики 1.1. Предмет и методы эконометрики Эконометрика как наука возникла в первой половине 20-го века в результате активного использования для решения задач экономической теории математических и статистических методов. Термин эконометрика введен в научную литературу в 1930 году норвежским статистиком Рагнаром Фришем. Он первым определил эконометрику, как научную дисциплину, базирующуюся на синтезе экономической теории, статистики и математики. В дословном переводе слово эконометрика означает «экономические измерения». Это очень широкое толкование данного понятия. Как правило, термин эконометрика применяется в более узком смысле. А именно, под эконометрикой понимается раздел науки, изучающий конкретные количественные и качественные взаимосвязи экономических объектов и процессов с помощью математических и статистических методов и моделей (БСЭ). Можно сказать, что главной задачей эконометрики является количественная оценка имеющихся взаимосвязей между экономическими явлениями и процессами. Экономические явления взаимосвязаны и взаимообусловлены. Следствием этого является то, что значения соответствующих экономических показателей изменяются во времени с учетом этих взаимосвязей. Так, например, известно, что совокупный спрос зависит от уровня цен, потребление – от располагаемого дохода, инвестиции – от процентной ставки и так далее. Перед исследователем стоит задача выявления таких связей, количественная их оценка и изучение возможности использования выявленных связей в экономическом анализе и прогнозировании. Разработкой соответствующего инструментария и его применением для решения конкретных практических экономических задач как раз и занимается эконометрика. В основе любого эконометрического исследования лежит построение экономико-математической модели, адекватной изучаемым реальным экономическим явлениям и процессам. Процесс построения эконометрических моделей начинается с качественного исследования проблемы методами экономической теории, формулируются цели исследования, выделяются факторы, влияющие на изучаемый показатель, и формулируются предположения о характере предполагаемой зависимости. На этой основе изучаемые зависимости выражаются в виде математических формул и соотношений. Следует отметить, что ввиду невозможности одновременно учесть большое количество факторов, влияющих на изучаемый показатель, предполагаемые зависимости между переменными будут выполняться не точно, а с определенной погрешностью. Кроме того, экономическим явлениям присуща внутренняя неопределенность, связанная с целенаправленной деятельностью субъектов экономики. 11 Вышесказанное обуславливает применение статистических методов, с помощью которых осуществляется отбор значимых факторов, определяется наличие и степень тесноты связи между изучаемыми показателями, дается количественная оценка параметров предполагаемых зависимостей и исследуется степень их соответствия реальной действительности. Основным инструментом математической статистики, используемым для построения эконометрических моделей, являются методы корреляционного и регрессионного анализа. Корреляционный анализ ставит своей целью проверку наличия и значимости линейной зависимости между переменными без разделения переменных на зависимые и объясняющие. Ответ на эти вопросы дается с помощью вычисления показателей (коэффициентов) корреляции. Регрессионный анализ направлен на выражение изучаемой зависимости в виде аналитической формулы с предварительным выделением зависимых и объясняющих переменных. Регрессионный анализ призван ответить на такие вопросы, как: – какие переменные определяют поведение других величин и, следовательно, могут использоваться как объясняющие переменные? – какова формула зависимости и каков экономический смысл ее коэффициентов? Результатом проведения регрессионного анализа является построение, так называемого, уравнения регрессии. После построения уравнения регрессии осуществляется проверка его статистического качества, включающая: – проверку статистической значимости коэффициентов уравнения регрессии; – проверку общего качества уравнения регрессии; – проверку наличия свойств данных, предполагавшихся при оценивании уравнения регрессии. Рассматривая эконометрическое исследование в целом, в нем можно выделить следующие этапы: 1. Постановка проблемы, т. е. определение цели и задач исследования, выделение зависимых (уj) и независимых (xk) экономических переменных на основе качественного анализа изучаемых взаимосвязей методами экономической теории. 2. Сбор необходимых исходных данных. 3. Построение эконометрической модели и оценка ее адекватности и степени соответствия исходным данным. 4. Использование модели для целей анализа и прогнозирования параметров исследуемого явления. 5. Качественная и количественная интерпретация полученных на основе модели результатов. 6. Практическое использование результатов. В процессе экономической интерпретации результатов необходимо ответить на следующие вопросы: 12 – являются ли статистически значимыми объясняющие факторы, важные с теоретической точки зрения? – соответствуют ли оценки параметров модели качественным представлениям? Примером эконометрической модели может служить аналитическое выражение взаимосвязи показателей инфляции и безработицы, записанное без учета инфляционных ожиданий (1.1) и с учетом последних (1.2) [6]:     (u  u*) , (1.1)    e   (u  u*) , (1.2) где π – фактический и π – ожидаемый темпы инфляции (в процентах), и – фактический и и* – естественный уровни безработицы (в процентах), β – постоянный параметр. При проведении исследования определяется, какая из этих зависимостей лучше соответствует реальной взаимосвязи между уровнями инфляции и безработицы, а также оценивается значение величины естественного уровня безработицы. е 1.2. Характеристика взаимосвязей Основная задача эконометрики заключается в исследовании и количественной оценке объективно существующих взаимосвязей и зависимостей между экономическими явлениями. Наибольший интерес для исследователя представляют причинно-следственные отношения между явлениями, что позволяет выявлять факторы, оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственное отношение – это такая связь между явлениями, при которой изменение одного из них, называемого причиной, ведет к изменению другого, называемого следствием. Следовательно, причина всегда предшествует следствию. Причинно-следственные связи в социально-экономических явлениях обладают следующими особенностями. Во-первых, причина Х и следствие Y взаимодействуют не непосредственно, а через промежуточные факторы, которые, как правило, при анализе опускаются. Формально это может быть выражено с помощью схемы Х—>Х'—>Х"—>Y, где Х' и Х" изображают такие промежуточные факторы. Во-вторых, социально-экономические явления развиваются и формируются в результате одновременного воздействия большого числа факторов. Поэтому одной из главных проблем при изучении этих явлений становится задача выявления главных, существенных причин и абстрагирование от второстепенных. Признаки по их роли в изучаемой взаимосвязи делятся на два класса: факторные и результативные. Факторными признаками (факторами) называются признаки, обусловливающие изменения других, связанных с ними признаков. Факторные признаки называются также независимыми, объясняющими или входными переменными. Результативными называются признаки, изменяющиеся под действием факторных признаков. Результативные признаки называются также зависимыми, объясняемыми или выходными переменными. 13 По направлению изменения связи подразделяются на прямые (когда изменение результативного и факторного признаков происходит в одном направлении) и обратные (когда изменение результативного и факторного признаков происходит в противоположных направлениях). По характеру проявления различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Такие связи изучаются в основном в естественных науках. В эконометрике в основном изучаются причинные зависимости, которые проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений. То есть одним и тем же значениям факторных признаков, как правило, соответствуют различные значения результативного признака. Но, тем не менее, рассматривая всю совокупность наблюдений можно отметить наличие определенной зависимости между значениями признаков. Такие причинные зависимости называются стохастическими. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков. По аналитическому выражению выделяют связи линейные и нелинейные. Линейной называется связь, в которой изменение результативного признака прямо пропорционально изменению факторных признаков. В противном случае связь называется нелинейной. Аналитически линейная стохастистическая связь между явлениями может быть представлена уравнением прямой линии на плоскости, либо уравнением гиперплоскости в n-мерном пространстве (при наличии n факторных переменных). 1.3. Основные этапы построения эконометрической модели Построение эконометрической модели является основой эконометрического исследования. Оно основывается на предположении о реально существующей зависимости между признаками. От того, насколько хорошо полученная модель описывает изучаемые закономерности между экономическими процессами, зависит степень достоверности результатов анализа и их применимости. Построение эконометрической модели начинается со спецификации модели, заключающейся в получении ответа на два вопроса: 1) какие экономические показатели (признаки) должны быть включены в модель; 2) какой вид имеет аналитическая зависимость между отобранными признаками. В обобщенной форме эконометрическая модель, описывающая взаимосвязи между явлениями или закономерности их развития, представляется с помощью соотношения: (1.3) y = f(α, x) + ε, где f(α, x) – функционал, выражающий вид и структуру взаимосвязей. Здесь величина y выражает уровень исследуемого явления и называется зависимой (объясняемой) переменной или результативным признаком; величина x = (x1, x2,…, x n) представляет собой вектор значений независимых (объяс- 14 няющих) переменных xi или факторных признаков (факторов); через α = (α0, α1, α2,…, αn) обозначен вектор некоторых произвольных констант, называемых параметрами модели; ε – ошибка модели. Ошибка модели ε характеризует отличие наблюдаемого (реализованного) значения переменной у от вычисленных согласно соотношения (1.3) в конкретных условиях (при конкретных значениях переменных факторов xi) и рассматривается как случайная величина. Для расчета численных значений параметров α0, α1, α2,…, αn используется предварительно накопленный массив наблюдений за совместным проявлением изучаемого процесса и рассматриваемых факторов. Одно наблюдение представляет собой множество значений (yt, x1t, x2t,…, xnt). Индекс t соответствует отдельному наблюдению. Отдельные наблюдения могут характеризовать уровни изучаемого явления в различные моменты времени (табл. 1.1) либо его проявление для различных однородных объектов в один и тот же момент или период времени (табл. 1.2). В первом случае индекс t соответствует отдельному моменту времени, а во втором – отдельному объекту. Таблица 1.1 Текущий период, t 1995 г. 1996 г. 1997 г. … 2005 г. 2006 г. Макроэкономические данные по России за период 1995-2006 гг. Денежная ВнутренНацио- Расходы на Валовая ВВП, масса, ние инве- нальный личное по- прибыль стиции, доход, требление, экономики, Y I Y С Q М (млрд руб.) (млрд руб.) (млрд руб.) (млрд руб.) (млрд руб.) (млрд руб.) 1428,5 98,7 267,0 1412,7 1016,6 610,8 2007,8 220,8 376,0 1978,9 1435,9 699,4 2342,5 288,3 408,8 2292,0 1776,1 783,3 … … … … … … 21620,1 4363,3 3611,1 21079,5 14363,5 7908,1 26781,1 6044,7 4580,5 26009,7 17742,6 9606,9 Таблица 1.2 В исследованиях, посвященных прогнозированию значений таких финансовых показателей, как Предприятие 1 2 3 4 5 6 Сравнительные данные по предприятиям Основные проОбъем реали- Среднемесячная Затраты на производственные зации Q, численность изводство фонды млн руб. / мес. чел. млн руб. млн руб. 100 300 250 80 120 310 190 90 150 420 310 110 90 200 150 50 40 80 100 30 200 400 420 150 15 Зависимую переменную у часто называют эндогенной (внутренней) переменной модели, отражая тот факт, что значения зависимой переменной у определяются только значениями независимых переменных xi. Независимые переменные (факторы) x1, x2,…, xn называют экзогенными (внешними) переменными. Термин «внешний» говорит о том, что значения переменных xi определяются вне рассматриваемой модели, для которой они являются заданными. В эконометрике переменная у согласно (1.3) всегда рассматривается как случайная величина. Независимые переменные xi могут считаться как случайными или детерминированными. В классической эконометрической модели они рассматриваются как детерминированные величины. В этом случае при ошибке модели, обладающей свойствами «белого шума», функционал f(α, x) можно рассматривать как математическое ожидание условного распределения переменной у при заданных значениях x1t, x2t,…, xnt, t = 1, 2,…. T. Представление значений независимых переменных эконометрических моделей как проявлений случайных величин, как правило, не вносит существенных изменений в методы оценки параметров моделей. В классических регрессионных моделях обычно предполагается, что факторы независимы между собой и с ошибкой модели, обладающей свойствами «белого шума». Вместе с тем, ряд ошибки может характеризоваться свойствами непостоянства дисперсии для различных наблюдений; наличием автокорреляционных связей между соседними значениями εt и εt-1 (для упорядоченных значений факторной переменной) и т. д. Могут иметь место корреляционные связями с экзогенными переменными xi и др. В моделях, описывающих динамику процессов или явлений, т. е. в моделях, когда состояние явления в последующие периоды времени зависит от состояний, достигнутых в предыдущие моменты времени, в качестве экзогенных переменных используются значения переменных (эндогенных или экзогенных) в предыдущие моменты времени (yt–1, yt–2, …; xit–1, xit–2, …), называемые лаговыми переменными. В исследованиях, посвященных разработке методов прогнозирования таких финансовых показателей, как курсы валют, ценных бумаг, индексов широко применяются модели, основанные на предположении, что динамика этих процессов полностью определяется внутренними условиями. В этом случае модели соответствующих временных рядов включают в качестве факторов только лаговые значения результативного показателя yt–1, yt–2, … и (или) ошибки εt–1, εt–2, … . После выделения совокупности рассматриваемых переменных следующим этапом является определение конкретного вида модели, наилучшим образом соответствующего изучаемому явлению. По характеру связей факторов с переменной у модели подразделяются на линейные и нелинейные. По свойствам своих параметров модели подразделяются на модели с постоянной и переменной структурой. 16 Особый вид моделей составляют системы взаимосвязанных эконометрических уравнений, включающие несколько уравнений вида (1.3). Каждому уравнению соответствует своя зависимая переменная yi, которая в других уравнениях системы может выступать в качестве независимого фактора. Если на основе предварительного качественного анализа рассматриваемого явления не удается однозначно выбрать наиболее подходящий тип модели, то рассматриваются несколько альтернативных моделей, среди которых в процессе исследования выбирается та, которая в наибольшей степени соответствует изучаемому явлению. В общем случае процедуру построения эконометрической модели можно представить в виде следующих этапов: 1. Спецификация модели, т. е. выбор класса моделей, наиболее подходящих для описания изучаемых явлений и процессов. Этот этап предполагает решение двух задач: а) отбор существенных факторов для их последующего включения в модель; б) выбор типа модели, т. е. выбор вида аналитической зависимости, связывающей включенные в модель переменные. 2. Оценка параметров модели, т. е. получение численных значений констант модели. При этом используется предварительно полученный массив исходных данных. 3. Проверка качества построенной модели и обоснование возможности ее дальнейшего использования. Наиболее сложным и трудоемким в эконометрическом исследовании является этап оценки параметров модели, где применяются методы теории вероятностей и математической статистики. 1.4. Выбор вида эконометрической модели При решении проблемы выбора вида аналитической зависимости могут использоваться различные соображения:  выводы аналитических исследований о качественном характере зависимости (направление изменения переменных и его особенности),  описание свойств различных аналитических зависимостей,  цели построения модели. Выбор вида эконометрической модели основывается, прежде всего, на результатах предварительного качественного или содержательного анализа, проводимого методами экономической теории. По возможности характер предполагаемой зависимости обосновывается исходя из теоретически предположений о характере закономерности развития изучаемого явления или процесса. Примером может служить зависимость между общими затратами на производство продукции (З) и объемом производства (V) З = Зпост + Зуд.пер · V, где Зпост  постоянные затраты (не зависят от объема производства), Зуд.пер  удельные переменные затраты (переменные затраты на выпуск единицы продукции). 17 Другой подход основан на анализе массива исходных данных, который позволяет выявить некоторые характеристики предполагаемых зависимостей и на этой основе сформулировать, как правило, несколько предположений о виде аналитической связи. Построенная модель используется для формулирования предположений о характере закономерности в развитии изучаемого явления, которые проверяются в течение дальнейших исследований. Приведем некоторые виды аналитических зависимостей, наиболее часто используемых при построении моделей: 1) линейная y  a  b1  x1  b2  x 2  ...  b p  x p   , (1.4) 2) степенная b y  a  x1b1  x 2b2  ...  x pp   , (1.5) 3) полулогарифмическая (1.6) y  a  b1 ln x1  b2 ln x 2  ...  b p  ln x p , 4) гиперболическая 1 1 1 y  a  b1  b2  ...  b p  , (1.7) x1 x2 xp 5) экспоненциальная ye a b1 x1 b2  x2 ...b p  x p  . (1.8) Могут применяться также комбинации рассмотренных зависимостей. Например, 1 y  a  b1 x1  b2  .b3  ln x 3 . x2 При выборе вида аналитической зависимости важную роль играют требования простоты модели и наличия наглядной экономической интерпретации ее параметров. Исходя из этих соображений, наиболее часто используются линейная (1.4) и степенная (1.5) функции. В линейной модели (1.4) параметры bi при факторах хi характеризуют величину среднего изменения зависимой переменной y с изменением соответствующего фактора хi на единицу, в то время как значения остальных факторов остаются неизмененными. В степенной модели (1.5) параметры bj при факторах хi являются коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменяется зависимая переменная y при изменении соответствующего фактора хi на 1 % в условиях неизменности действия других факторов. Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления. При определении вида модели могут использоваться следующие соображения. Если изменение результативного признака y прямо пропорционально изменению значения фактора, то адекватной является линейная модель (1.4). 18 Если изменение результативного признака y пропорционально значению фактора, то адекватной может быть либо степенная y  a  x b   , либо экспо- a  b  x  модели. ненциальная y  e Если при увеличении значения факторов значение результативного признака y монотонно стремится к конечному пределу, то можно использовать гиперболическую модель (1.7). С целью отразить свойство оптимальности экономических переменных, т. е. наличия таких значений факторов хi, на которых достигается минимаксное воздействие на зависимую переменную, в модель включают факторы хi не только первой, но и второй степени y = a + b1x + b2x2 . (1.9) Например, при увеличении возраста рабочих до определенного значения уровень производительности труда возрастает, а затем начинает снижаться. Наибольшее применение в эконометрике нашли линейные модели. Это обусловлено несколькими причинами. Во-первых, существуют эффективные методы построения таких моделей. Во-вторых, в небольшом диапазоне значений факторных признаков линейные модели с достаточной точностью могут аппроксимировать реальные нелинейные зависимости. В-третьих, параметры модели имеют наглядную экономическую интерпретацию. В-четвертых, прогнозы по линейным моделям, характеризуются, как правило, меньшим риском значительной погрешности прогноза. 1.5. Методы отбора факторов Важной составляющей процесса построения эконометрической модели является отбор факторов, существенно влияющих на изучаемый показатель и подлежащих включению в разрабатываемую модель. Оптимальный набор факторов определяется на основе качественного и количественного анализа. Прежде всего, на этапе постановки задачи и содержательного экономического анализа экономической модели отбираются факторы, влияние которых должно быть учтено при построении модели. В ряде случаев набор факторов определяется однозначно или с большой степенью уверенности. Например, спрос на товар определяется в основном ценой и доходом. В более сложных случаях на следующем этапе с помощью формальных статистических методов проверяется целесообразность включения в модель каждого фактора. Прежде всего, факторы проверяются на наличие тесной линейной корреляционной зависимости между ними. Признаком наличия линейной корреляционной зависимости между факторами xi и xj является условие  rxi x j   r1кр, (1.10) 19 где rxi x j  выборочный линейный коэффициент корреляции, определяемый соотношением rxi x j  1 n  ( xit  xi )( x jt  x j ) n  1 i 1  xi  x , (1.11) j r1кр n  количество наблюдений,  критическое значение r1кр 0,80,9 (определяется эмпирически). Существование тесной корреляционной зависимости между факторами приводит к получению ненадежных оценок параметров модели. Для преодоления сильной межфакторной корреляции применяется ряд подходов: – исключение из модели одного или нескольких факторов. Из двух коррелирующих факторов исключаются тот, который более коррелирует с остальными факторами; – преобразование факторов, при котором уменьшается корреляция между ними. Например, переходят от исходных переменных к их линейным комбинациям, не коррелированным друг с другом (метод главных компонент). При построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней ряда y t  y t  y t 1 , чтобы исключить влияние тенденции. Одним из критериев включения факторов в модель является степень их изолированного влияния на результативный признак, определяемая с помощью коэффициента парной корреляции ryxi . Отбираются факторы xi, удовлетворяющие условию  ryxi   r2кр , (1.12) где r2кр 0,50,6 (определяется эмпирически). При определении «оптимального» набора факторов могут использоваться два метода:  метод включения;  метод исключения. Согласно методу включения, сначала строится уравнение регрессии с одним наиболее влияющим фактором (фактор, для которого значение парного коэффициента корреляции с результативным признаком ryxi больше по модулю). Затем в него последовательно вводятся следующие факторы и определяется пара наиболее влияющих факторов. На следующем к первым двум добавляется еще по одному фактору и определяется наилучшая тройка факторов и т. д. На каждом шаге строится модель регрессии и проверяется значимость факторов. В модель включают только значимые факторы. Для проверки значимости фактора могут использоваться либо критерий Стьюдента, либо частный критерий Фишера. Процесс заканчивается, когда не остается факторов, которые следует включить в модель. 20 Согласно методу исключения сначала строится уравнение регрессии с полным набором факторов, из числа которых затем последовательно исключаются незначимые (наименее значимые) факторы. На каждом шаге исключается только один фактор, так как после исключения какого-либо фактора другой фактор, бывший до этого незначимым, может стать значимым. Процесс заканчивается, когда не остается факторов, которые следует исключить из модели. Методы включения и исключения не гарантируют определение оптимального набора факторов, но в большинстве случаев дают результаты либо оптимальные, либо близкие к ним. Не рекомендуется включать в модель очень большое число факторов, так как это может затруднить выявление качественных закономерностей и возрастает опасность включения в модель несущественных случайных факторов. Кроме того, для получения достаточно надежных оценок параметров желательно, чтобы количество наблюдений превышало количество определяемых параметров не менее чем в 67 раз. 1.6. Оценка параметров моделей После отбора факторов и выбора вида аналитической зависимости осуществляется определение численных значений параметров αi модели (1.3). Данная процедура носит название оценка параметров модели. Следует сказать, что сами полученные численные значения параметров αi также называются оценка параметров. Путаницы не происходит, потому что то, в каком смысле используется этот термин, как правило, ясно их контекста. При оценке параметров модели в качестве исходных данных используется заранее подготовленный массив наблюдений {(yt, x1t, x2t,…, xnt), t = 1, 2,…. n}. Так как исходные данные содержат проявления случайных величин, то и полученные оценки являются случайными величинами, зависящими от исходных данных и метода оценивания. Отсюда возникает задача отбора методов оценивания параметров, дающих оценки более высокого качества. Согласно теории статистического оценивания качество оценок определяется наличием у них таких свойств как несмещенность, состоятельность и эффективность. Оценка параметра называется несмещенной, если ее математическое ожидание равно оцениваемому параметру. Оценка параметра называется состоятельной, если она сходится по вероятности к оцениваемому параметру при возрастании количества наблюдений. Оценка параметра называется эффективной, если она имеет наименьшую дисперсию среди возможных несмещенных оценок параметра, вычисленных по выборкам одного и того же объема n. Наиболее часто для оценки параметров применяются методы максимального правдоподобия и метод наименьших параметров. При выполнении определенных условий (относительно погрешностей модели εt) оценки параметров, полученные с помощью этих методов, обладают свойствами несмещенности, состоятельности и эффективности. Поэтому после получения оценок параметров необходимо проверить выполнение упомянутых условий, чтобы убедиться 21 в качестве полученных оценок. Если эти условия не выполняются, то следует скорректировать модель соответствующим образом. Причины нарушения условий, налагаемых на погрешности модели εt, могут быть следующими: – в модели не учтены существенные факторы; – неправильно выбран вид модели. 1.7. Примеры эконометрических моделей Модель ценообразования на основной капитал. Задается уравнением регрессии [2] r  r f      (rm  r f )   , (1.13) где r и rf – прибыли рассматриваемой и безрисковой ценной бумаги; rm – прибыль общерыночного портфеля ценных бумаг; α, β – константы (β =σ/σm, σ и σm – стандартные отклонения рассматриваемой ценной бумаги и рынка в целом); ε – погрешность модели. Производственная функция. Производственной функцией называется соотношение между входными факторами производства и выпуском продукции. Производственная функция часто применяется для оценки эластичности выпуска продукции по отдельным факторам производства. Например, производственная функция Кобба-Дугласа имеет вид P  a  L  K 1   , где (1.14) Р – выпуск продукции; L– затраты труда; K – объем капитала; 0<α<1. Модель формирования спроса и предложения. Q d  1   2  P   3 I   1 Q s  4  5  P   2 , Qd – спрос на товар; Qs – предложение товара; P – цена; I – доход. Макроэкономическая модель. C t  a1  b11  Yt  b12  Yt 1   1t , (функция потребления) I t  a 2  b21  Yt   2t , (функция инвестиций) Yt  Ct  I t  Gt . (тождество дохода) где Сt – потребление; Yt – ВВП; It – валовые инвестиции; Gt – государственные расходы; t – текущий период; t–1 – предыдущий период. где (1.15) (1.16) 22 Контрольные вопросы 1. Охарактеризуйте предмет эконометрики. 2. Укажите основные этапы эконометрического исследования. 3. Какие задачи решают корреляционный и регрессионный анализы? 4. Каковы особенности причинно-следственных отношений в социальноэкономических явлениях? 5. Какие зависимости называются стохастическими? 6. Какие типы данных используются в эконометрическом исследовании? 7. Опишите основные этапы построения эконометрической модели. 8. Какие виды аналитических зависимостей, наиболее часто используются при построении моделей? 9. Какие методы используются для отбора факторов? 10. Какие методы используются для оценки параметров модели? 11. Какими свойствами характеризуется качество оценок параметров? 23 2. Парный регрессионный анализ 2.1. Понятие парной регрессии Регрессией в теории вероятностей и математической статистике принято называть зависимость среднего значения какой-либо величины (y) от некоторой другой величины или от нескольких величин (хi). Парной регрессией называется модель, выражающая зависимость среднего значения зависимой переменной y от одной независимой переменной х yˆ  f ( x) , (2.1) где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак–фактор). Парная регрессия применяется, если имеется доминирующий фактор, обуславливающий большую долю изменения изучаемой объясняемой переменной, который и используется в качестве объясняющей переменной. Множественной регрессией называют модель, выражающую зависимость среднего значения зависимой переменной y от нескольких независимых переменных х1, х2, …, хp ŷ = f (x1,x2,...,xp). (2.2) Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать одновременное влияние нескольких факторов. Используя уравнение регрессии (2.1), соотношение между значениями переменными у и х (модель связи) можно записать как y  f ( x)   , (2.3) где первое слагаемое f(x) можно интерпретировать как ту часть значения y, которая объяснена уравнением регрессии (2.1), а второе слагаемое ε как необъясненную часть значения y (или возмущение). Соотношение между этими частями характеризует качество уравнения регрессии, его способность представлять зависимость между переменными х и y. При построении уравнения регрессии ε рассматривается как ошибка модели, представляющая собой случайную величину, удовлетворяющую определенным предположениям. Наличие составляющей ε обусловлено такими причинами, как наличие дополнительных факторов, оказывающих влияние на переменную y, неверный вид функциональной зависимости f(x), ошибки измерения, выборочный характер исходных данных. По виду аналитической зависимости различают линейные и нелинейные регрессии. Линейная парная регрессия описывается уравнением: yˆ  a  b  x . (2.4) Примеры наиболее часто используемых нелинейных регрессий: – полиномы разных степеней yˆ x  a  b1  x  b2  x 2  b3  x 3 , 24 b – равносторонняя гипербола yˆ  a  , x b yˆ  a  x – степенная yˆ  e a bx , ŷ = a·bx , K . yˆ  1  a  e bt – экспоненциальная – показательная – логистическая 2.2. Построение уравнения регрессии 2.2.1. Постановка задачи Постановка задачи: по имеющимся данным n наблюдений за совместным изменением двух переменных показателей x и y {(xi,yi), i=1,2,...,n} необходимо определить аналитическую зависимость ŷ = f(x), наилучшим образом описывающую данные наблюдений. Результаты наблюдений удобно представлять в виде таблицы Таблица 2.1 Данные наблюдений x x1 x2 … xn 1 2 … n y y1 y2 … yn Каждая строка таблицы представляет собой результат одного наблюдения (xi,yi). Поясним понятие зависимости ŷ = f(x), наилучшим образом описывающей данные наблюдений. Значения xi, yi из каждой строки можно рассматривать как координаты точки (xi,yi) на координатной плоскости xy. Совокупность всех точек составляют, так называемое, поле корреляций (рис. 2.1). y y x Рис. 2.1. Поле корреляций x Рис. 2.2. Лучшая линейная регрессия Зависимости ŷ = f(x) соответствует некоторая кривая на плоскости. Чем ближе данная кривая подходит ко всем точкам поля корреляций, тем лучше зависимость ŷ = f(x) описывает исходные данные. Для формализации этого понятия рассмотрим разность между еi расчетными (теоретическими, модельными) ŷ i = f(x i) и наблюдаемыми yi значениями 25 еi = ŷ i – yi. Наилучшей будем считать такую зависимость, для которой сумма квадратов отклонений принимает минимальное значение, т. е. 2 S    yˆ i  y i   min . (2.5) Построение уравнения регрессии предполагает решение двух задач (или, другими словами, осуществляется в два этапа): 1) спецификация модели (выбор вида аналитической зависимости ŷ = f(x)); 2) оценка параметров выбранной модели (определение численных значений параметров на основе массива наблюдений). 2.2.2. Спецификация модели Парная регрессия применяется для моделирования зависимости, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Для выбора вида аналитической зависимости можно использовать следующие методы: – графический (вид зависимости определяется на основе анализа поля корреляций); – аналитический (на основе качественного анализа изучаемой взаимосвязи); – экспериментальный (построение нескольких моделей различного вида с выбором наилучшей согласно применяемому критерию качества). Визуальный анализ поля корреляций (рис. 2.1) позволяет определить форму кривой регрессии, ее особенности. Зная типичный вид графиков различных функций можно подобрать соответствующую аналитическую зависимость. Примером применения аналитического метода может служить зависимость между затратами (y) и объемом производства (x). Считая, что затраты прямо пропорциональны объему производства, зависимость между ними можно представить в виде линейной функции y = a + b·x, где a – часть затрат, не зависящая от объема производства, b – дополнительные затраты на производство единицы продукции. Разделив обе части последнего уравнения на объем производства x, получим зависимость удельных затрат (z = y/x) на производство единицы продукции от объема производства z y a b . x x При построении модели зависимости спроса товар от его цены при выборе вида зависимости следует учитывать, что при увеличении цены спрос падает. В этом случае могут использоваться следующие зависимости: y = a – b·x, (b>0); y 1 , a  bx (b>0); y  e a bx , (b>0). Если из соображений экономической теории следует, что величина изменения зависимой переменной y пропорциональна значению независимой пере- 26 менной x, то можно выбрать полиномиальную, степенную или показательную зависимости (см. п. 2.1). Если предполагается, что значение зависимой переменной y при увеличении значения независимой переменной x не может превысить некоторого преb или логистическую дела, то можно выбрать гиперболическую yˆ  a  x K yˆ  зависимости. 1  a  e bt В случае, если в рассматриваемой области изменения фактора x результативная переменная y принимает минимальное или максимальное значение, в уравнение регрессии включают переменные x не только первой, но и второй степени, например y = a + b1x + b2x2. В качестве критерия качества модели может использоваться либо средняя 1  yˆ i  y i 2 , либо остаточная дисперквадратическая ошибка модели  êâ   n 1 2 сия Dîñò    yˆ i  y i  . n Этот подход легко реализуем при наличии соответствующих вычислительных средств. Но он не является определяющим, так как в эконометрике более важным является не способность модели соответствовать имеющемуся массиву данных наблюдений, а ее способность раскрывать существующие закономерности в экономических явлениях и процессах и интерпретация полученных с ее помощью результатов. 2.3. Оценка параметров линейной парной регрессии Линейная парная регрессия описывается уравнением: yˆ  a  b  x , (2.6) согласно которому изменение Δy переменной y прямо пропорционально изменению Δx переменной x (Δy = b·Δx). Для оценки параметров a и b уравнения регрессии (2.6) воспользуемся методом наименьших квадратов (МНК). При определенных предположениях относительно ошибки ε МНК дает наилучшие оценки параметров линейной модели y  a b x  . (2.7) Согласно МНК, выбираются такие значения параметров а и b, при которых сумма квадратов отклонений фактических значений результативного признака yi от теоретических значений ŷi = f(xi) (при тех же значениях фактора xi) минимальна, т. е. 2 S    yˆ i  yi   min . (2.8) С учетом вида линейной парной регрессии (2.6) величина S является функцией неизвестных параметров а и b 27 (2.9) S = Σ(yi  a  b·xi)2 = S(а,b). Следовательно, оптимальные значения параметров а и b удовлетворяют условиям S  0; a S  0. b (2.10) Выполняя соответствующие вычисления, получим для определения параметров а и b следующую систему уравнений S = 2Σ(yi  a  b·xi) = 0, a S = 2bΣ(yi  a  b·xi) = 0, b откуда после некоторых преобразований получается система нормальных уравнений метода наименьших квадратов na  b xi   y i , (2.11)  a  xi  b xi2   y i xi . Используя соотношения nx   xi , ny   y i , n x 2   xi2 , n yx   yi xi из (2.8) получим a  b  x  y , (2.12)  a  x  b  x 2  yx. Откуда следуют следующие выражения для определения параметров а и b yx yx . a  y  b  x, b  (2.13) x2  x 2 Формулу для параметра b можно представить следующим образом 1  ( xi  x )( yi  y ) cov( x, y ) n i b  . (2.14) 2 2 x x Рассмотрим интерпретацию параметров уравнения линейной регрессии. Коэффициент b при факторной переменной x показывает насколько изменится в среднем величина y при изменении фактора x на единицу. Например, допустим, что зависимость между затратами (тыс. руб.) и объемом выпуска продукции описывается соотношением y = 35000+0,58·x. В этом случае увеличение объема выпуска на 1 единицу потребует дополнительных затрат на 580 рублей. Что касается свободного члена a в уравнении (2.6), то в случае, когда переменная x представляет собой время, он показывает уровень явления в начальный момент времени. В других случаях, параметр a может не иметь экономической интерпретации. 28 2.4. Оценка параметров нелинейных моделей Нелинейные уравнения регрессии можно разделить на два класса: – уравнения, которые с помощью замены переменных можно привести к линейному виду в новых переменных x', y' y   a   b  x  ; (2.15) – уравнения, для которых это невозможно. Назовем их внутренне нелинейными. В первом случае, уравнения регрессии преобразуются к линейному виду с помощью введения новых (линеаризующих) переменных x', y'. При этом предварительно формируются массивы значений {(x'i, y'i), i = 1, …,n}. В последующем, после определения параметров линейного уравнения регрессии с помощью обратного преобразования можно получить параметры исходного уравнения регрессии, представляющие интерес для исследователя. Линеаризующие преобразования для некоторых нелинейных моделей приведены в таблице 2.2. Таблица 2.2 Линеаризующие преобразования Зависимость Формула Гиперболическая b y  a x Логарифмическая y  a  b  ln x Степенная yˆ  a  x b Экспоненциальная yˆ  e a b x Показательная ŷ = a·bx , Преобразование y  y 1 x  x y  y x   ln x y   ln y x   ln x y   ln y x  x y   ln y x  x Зависимость между параметрами a  a b  b a  a b  b ln a  a  b  b a  a b  b ln a  a  ln b  b  Для оценки параметров внутренне нелинейных зависимостей также можно применить метод наименьших квадратов и определять оптимальные значения параметров а и b исходя из условия (2.8) или (2.9). Но в данном случае условия (2.10) уже не являются линейными алгебраическими уравнениями относительно параметров а и b, поэтому величины параметров а и b удобнее определять непосредственно из условия (2.9) как значения, доставляющие минимум величине S. Итерационную процедуру минимизации S в общем виде можно представить в виде следующих последовательных шагов. 1. Задаются некоторые «правдоподобные» начальные (исходные) значения а и b0 параметров а и b. 29 2. Вычисляются теоретические значения ŷ i = f(xi) с использованием этих значений параметров. 3. Вычисляются остатки еi = ŷi – yi и сумма квадратов остатков 2 S    yˆ i  y i  . 4. Вносятся изменения в одну или более оценку параметров. 5. Вычисляются новые теоретические значения ŷ i, остатки еi и S. 6. Если произошло уменьшение S, то новые значения оценок используются в качестве новой отправной точки. 7. Шаги 4, 5 и 6 повторяются до тех пор, пока не будет достигнута ситуация, когда величину S невозможно будет улучшить (в пределах заданной точности). 8. Полученные на последнем шаге значения параметров а и b являются оценками параметров уравнения регрессии, полученными по нелинейным методом наименьших квадратов. Конкретные методы минимизации S отличаются способом выбора новых измененных значений оценок параметров. 2.5. Качество оценок МНК линейной регрессии. Теорема Гаусса-Маркова При использовании полученных различными способами оценок параметров уравнения регрессии (2.6) важно быть уверенными, являются ли они «лучшими» среди всех остальных в некотором смысле. Ответ на этот вопрос дает теорема Гаусса-Маркова, согласно которой оценки параметров линейной регрессии, полученные методом наименьших квадратов, будут несмещенными и эффективными (т. е. будут иметь наименьшую дисперсию) в классе линейных несмещенных оценок при выполнении четырех условий, известных как условия Гаусса-Маркова. Эти условия принимаются в качестве основных предпосылок регрессионного анализа. 1-е условие Гаусса-Маркова: математическое ожидание случайного члена εi равно нулю в любом наблюдении М(εi) = 0. (2.16) 2-е условие Гаусса-Маркова: дисперсия случайного члена εi постоянна для всех наблюдений D( i )   2 . (2.17) 3-е условие Гаусса-Маркова: значения случайного члена в любых наблюдениях εi и εj не коррелируют между собой (2.18) Cov(εi, εj) = 0 (i ≠ j). Это условие с учетом того, что М(εi) = М(εj) = 0 принимает вид M(εi, εj) = 0 (i ≠ j). (2.19) 4-е условие Гаусса-Маркова: случайный член должен быть распределен независимо от объясняющих переменных xi Cov(xi, εi) = M (xi, εi) = 0, (2.20) где было учтено, что М(εi) = 0. 30 Следует сказать, что последнее условие заведомо выполняется, если объясняющие переменные xi считаются детерминированными величинами. Выполнение 4-го условия Гаусса-Маркова обеспечивает несмещенность оценки параметра b. Выполнение 1-го и 4-го условий Гаусса-Маркова обеспечивает несмещенность оценки параметра а. Нарушение одного из условий Гаусса-Маркова приводит к нарушению эффективности оценок, т. е. в классе несмещенных оценок можно найти такие, которые имеют меньшую дисперсию. В регрессионном анализе обычно делается еще одна предпосылка о нормальности распределения случайного члена, что позволяет выполнить количественную оценку точности полученных оценок параметров (2.13). После построения модели необходимо вычислить значения остатков еi и проверить выполнение условий Гаусса-Маркова, так как их нарушение снижает качество модели. Если условия нарушаются, то следует модернизировать модель соответствующим образом. Эти вопросы будут рассмотрены в 3 разделе. 2.6. Проверка качества уравнения регрессии. F-критерий Фишера Оценка качества полученного уравнения регрессии основывается на методах дисперсионного анализа. Наблюдаемые значения результативного признака yi можно представить в виде суммы двух составляющих ŷi и еi (2.21) yi = ŷi+ еi. Величина ŷi = а + b·хi представляет собой расчетное значение переменной у в наблюдении i. Остаток еi есть расхождение между наблюдаемым и расчетными значениями переменной у, или необъясненная с помощью уравнения регрессии часть переменной у. Из (2.21) следует следующее соотношение между дисперсиями наблюдаемых значений переменной D(y), ее расчетных значений D(ŷ) и остатков D(е) (остаточной дисперсией Dост = D(е)) D(y) = D(ŷ) + D(е). (2.22) 1 1 2 2 D( yˆ )    yˆ i  y  , Учитывая соотношения D( y )    y i  y  , n n D(e)  Dост  1  yˆ i  yi 2 и М(е) = 0 равенство (2.21) можно записать в виде  n n n n i 1 i 1 i 1  ( yi  y ) 2   ( yˆ i  y ) 2   ( yˆ i  yi ) 2 . (2.23) Отношение объясненной части D(ŷ) дисперсии переменной у ко всей дисперсии D(y) n R2  D( yˆ ) или R 2  D( y )  ( yˆ i  y ) 2 i 1 n  ( yi  y ) 2 i 1 (2.24) 31 называют коэффициентом детерминации и используют для характеристики качества уравнения регрессии или соответствующей модели связи. Соотношение (2.23) можно представить в альтернативном виде n R2  1 Dост или R 2  1  D( y ) 2  ( yˆ i  yi ) 2 i 1 n  ( yi  y ) 2 . (2.25) i 1 Коэффициент детерминации R принимает значения в диапазоне от нуля до единицы 0 ≤ R2 ≤ 1. Коэффициент детерминации R2 показывает, какая часть дисперсии результативного признака y объяснена уравнением регрессии. Например, значение R2 = 0,56 говорит о том, что соответствующее уравнение регрессии объясняет 56 % дисперсии результативного признака. Чем больше R2, тем большая часть дисперсии результативного признака y объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между у и x коэффициент детерминации R2 будет близок к нулю. Таким образом, коэффициент детерминации R2 может применяться для оценки качества (точности) уравнения регрессии. Возникает вопрос, при каких значениях R2 уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использование в анализе. Ответ на этот вопрос дает F-критерий Фишера. Введем следующие обозначения: TSS = ESS = RSS = n  ( yi  y ) 2  полная сумма квадратов отклонений; i 1 n  ( yˆ i  y ) 2  объясненная сумма квадратов отклонений; i 1 n n i 1 i 1  ( yˆ i  yi ) 2   ei  необъясненная сумма квадратов отклонений. 2 Известно, что величина ESS k F , (2.26) RSS n  k 1 где k  число независимых переменных в уравнении регрессии (для парной регрессии k = 1), в случае нормально распределенной ошибки εi является F-статистикой Фишера (случайная величина, распределенная по закону Фишера) с числом степеней свободы k1 = k, k2 = n  k  1. Согласно F-критерию Фишера, выдвигается «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии (т. е. о статистически незначимом отличии величины F от нуля). Эта гипотеза отвергается при выполнении условия F > Fкрит, где Fкрит определяется по таблицам F-критерия Фишера (П3, 32 П4) при числе степеней свободы k1 = k, k2 = n  k  1 и заданному уровню значимости α. Уровнем значимости (обозначается α) в статистических гипотезах называется вероятность отвергнуть верную гипотезу (это, так называемая, ошибка первого рода). Уровень значимости α обычно принимает значения 0,05 и 0,01, что соответствует вероятности совершения ошибки первого рода 5 % и 1 %. Используя соотношение (2.24), величину F можно выразить через коэффициент детерминации R2 R2 n  k  1 F . (2.27) k 1  R2 Например, по данным 30 наблюдений было получено уравнение регрессии y = 50,5 + 3,2x и R2 = 0,60. Необходимо проверить его значимость при уровне значимости α = 0,05. Определим величину F-статистики, учитывая, что k = 1 R2 n  k 1 0,6 30  1  1 0,6 F      28  42 . 2 k 1  0,6 1 0,4 1 R По таблицам F-критерия Фишера при k1 = k = 1, k2 = n  k  1 = 30 – 1 – 1 = 28 и α = 0,05 находим Fкрит = 4,20. Так как F = 42 > Fкрит = 4,20 , то делаем вывод о статистической значимости уравнения регрессии. 2.7. Коэффициенты корреляции. Оценка тесноты связи Наряду с построением уравнения регрессии осуществляется оценка тесноты связи между явлениями (между переменными). Тесноту связи в случае линейной зависимости характеризуют с помощью выборочного коэффициента корреляции rxy rxy  1  ( xi  x )( yi  y ) n i  x y  cov( x, y )  x y (2.28) или rxy  yx  y  x  x y . (2.29) Здесь σx, σy  средние квадратические отклонения переменных x и y. Выборочный коэффициент корреляции rxy связан с коэффициентом линейной регрессии b соотношением rxy  b x . y (2.30) Выборочный коэффициент корреляции rxy принимает значения в диапазоне –1 ≤ rxy ≤ 1. 33 Чем ближе величина rxy к единице, тем теснее линейная связь и тем лучше линейная зависимость согласуется с данными наблюдений. При rxy = 1 связь становится функциональной, т. е. соотношение yˆ i  a  b  xi выполняется для всех наблюдений. При rxy > 0 связь является прямой, при rxy < 0 – обратной. Тесноту нелинейной связи (задаваемой уравнением нелинейной регрессии yˆ  f ( x) ) оценивают с помощью индекса корреляции R n Dост  1 R  R2  1 D( y)  ( yˆ i 1 n i (y i 1 i  yi ) 2  y) . (2.31) 2 Индекс корреляции R принимает значения в диапазоне 0 ≤ R ≤ 1. Чем ближе величина R к единице, тем теснее данная связь, тем лучше зависимость yˆ  f ( x) согласуется с данными наблюдений. При R = 1 (R2 = 1) связь становится функциональной, т. е. соотношение y i  f ( xi ) выполняется для всех наблюдений. В случае линейной зависимости выборочный коэффициент корреляции rxy и коэффициент детерминации R2 связаны соотношением r2xy = R2. (2.32) 2 Коэффициент детерминации R может использоваться для оценки качества (точности) построенной модели регрессии. Чем выше этот показатель, тем лучше модель описывает исходные данные. 2.8. Точность коэффициентов регрессии. Проверка значимости Полученные согласно формулам (2.13) оценки коэффициентов регрессии зависят от используемой выборки значений переменных x и y и являются случайными величинами. Представление о точности полученных оценок, о том насколько далеко они могут отклониться от истинных значений коэффициентов можно получить используя, так называемые «стандартные ошибки» коэффициентов регрессии. Под стандартной ошибкой коэффициента регрессии понимается оценка стандартного отклонения функции плотности вероятности коэффициента. Стандартные ошибки коэффициентов регрессии (sa, sb) определяются соотношениями n  ( yˆ sb  i 1 i  yi ) 2 /(n  2) n  (x i 1 i  x) 2 n sa   ( yˆi  yi ) 2 i 1 n  2 n  2 sост s   ост , 2  x  x   x n x i 1 n 2 i n ( xi  x ) 2 i 1 n 2  sост x i 1 2 n 2 i 2 x (2.33) n  sост x i 1 n x 2 i , (2.34) где s2ост 34 представляет собой несмещенную оценку остаточной дисперсии n 2 sост   ( yˆ i 1 i  yi ) 2 n  2 . (2.35) Сопоставляя оценки параметров и их стандартные ошибки можно сделать вывод о надежности (точности) полученных оценок. Отношения ~ a  a~ bb ta  и tb  (2.36) sb sb в случае нормально распределенной ошибки εi являются t-статистиками, т. е. случайными величинами, распределенными по закону Стьюдента с числом сте~ пеней свободы n2. Через a~ и b обозначены точные значения коэффициентов регрессии. Для оценки статистической значимости коэффициентов регрессии применяется t-критерий Стьюдента, согласно которому выдвигается «нулевая» гипотеза H0 о статистической незначимости коэффициента уравнения регрессии (т. е. о статистически незначимом отличии величины а или b от нуля). Эта гипотеза отвергается при выполнении условия t > tкрит, где tкрит определяется по таблицам t-критерия Стьюдента (П2) по числу степеней свободы k1 = nk1 (k  число независимых переменных в уравнении регрессии) и заданному уровню значимости α. t-критерий Стьюдента может использоваться и для оценки статистической значимости выборочного коэффициента корреляции rxy , так как величина t xy  rxy s rxy , (2.37) где s rxy  1  rxy2 n2 (2.38) распределена по закону Стьюдента с числом степеней свободы n2. Через s rxy обозначена стандартная ошибка коэффициента корреляции rxy . Проверка значимости оценок параметров ничего не говорит о том, насколько эти оценки могут отличаться от точных значений. Ответ на этот вопрос дает построение доверительных интервалов. Под доверительным интервалом понимаются пределы, в которых лежит точное значение определяемого показателя с заданной вероятностью (P = 1α). Доверительные интервалы для параметров a и b уравнения линейной регрессии определяются соотношениями: a  t1α,n-2 · sa ; b  t1α,n-2 · sb. (2.39) 35 Величина t1α,n-2 представляет собой табличное значение t-критерия Стьюдента на уровне значимости α при числе степеней свободы n–2. Если в границы доверительного интервала попадает ноль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равным нулю, так как он не может одновременно принимать и положительное, и отрицательное значения. Для статистически значимого коэффициента корреляции rxy интервальные оценки (доверительный интервал) получают с использованием Z-преобразования Фишера: 1 1  rxy Z  Z (rxy )   ln . (2.40) 2 1  rxy Первоначально определяется интервальная оценка для z  1  z   z '  t1 / 2  ,  3 n   (2.41) где t1α/2 – квантиль стандартного нормального распределения порядка 1–α/2, z' = Z (rxy) – значение Z-преобразования Фишера, соответствующее полученному значению коэффициента корреляции rxy. Граничные значения доверительного интервала (r– , r+) для rxy получаются из граничных значений доверительного интервала (z– , z+) для z с помощью обратного Z-преобразования Фишера rxy  Z 1 ( z ) r   Z 1 ( z  ); r   Z 1 ( z  ) . (2.42) 2.9. Точечный и интервальный прогноз по уравнению линейной регрессии Точечный прогноз заключается в получении прогнозного значения уp, ко торое определяется путем подстановки в уравнение регрессии y x  a  b  x соответствующего (прогнозного) значения xp уp = a + b  xp. Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin , уpmax интервала, содержащего точную величину для прогнозного значения yp ( y p min  y p  y p min ) с заданной вероятностью. При построении доверительного интервала прогноза используется стандартная ошибка прогноза 2 отношением s y p  s у p . s y p , связанная с дисперсией ошибки прогноза s у2 соp 36 2 Дисперсия ошибки прогноза s у з представляет собой сумму дисперсии s у2ˆз ошибки прогноза расчетного значения yˆ p  a  b  x p и остаточной диспер- сии s2ост (2.34) s у2 p = s у2ˆ p + s2ост. (2.43) 2 Величина дисперсии s уˆ p находится из соотношения yˆ  y  b  ( x  x ) и составляет 1 s у2ˆp  s 2 ост  (  n (x  x)2 n  (x i 1 i  x) ). (2.44) 2 Соответственно стандартные ошибки прогноза расчетного значения по уравнению регрессии и индивидуального значения прогноза s yˆ p и s y p опреде- ляются соотношениями s yˆ p  sост  (x p  x)2 1 ,  n n 2  ( xi  x ) (2.45) i 1 syp (x p  x)2 1 .  sост  1   n n 2  ( xi  x ) (2.46) i 1 Доверительные интервалы прогноза определяются соотношениями: для расчетного значения по уравнению регрессии ŷp (2.47) yˆ p  t1 ;n  2  s yˆ p  yˆ p  yˆ p  t1 ;n  2  s yˆ p , для индивидуального значения прогноза уp yˆ p  t1 ;n  2  s y p  yˆ p  yˆ p  t1 ;n  2  s y p , (2.48) где величина t1α,n-2 представляет собой табличное значение t-критерия Стьюдента на уровне значимости α при числе степеней свободы n–2. 2.10. Коэффициент эластичности В экономических исследованиях широкое применение находит такой показатель, как коэффициент эластичности. Если зависимость между переменными x и y имеет вид y  f (x) , то коэффициент эластичности Э вычисляется по формуле x Э  f ' ( x) . y (2.49) Коэффициент эластичности Э показывает, на сколько процентов в среднем изменится результативный признак у при изменении фактора х на 1 % от своего номинального значения. Для линейной регрессии y  a  b  x коэффициент эластичности равен Эb x . y 37 Коэффициент эластичности Э в общем случае зависит от величины x и является величиной переменной. Чтобы исключить эту зависимость применяется средний коэффициент эластичности Ý Э  f ' (x) x x b , y y (2.50) который уже является величиной постоянной. Средний коэффициент эластичности Э показывает, на сколько процентов в среднем по совокупности значений фактора х изменится результативный признак у при изменении фактора х на 1 %. b Для степенной регрессии y  a  x коэффициент эластичности равен b и является величиной постоянной. Отсюда следует интерпретация параметра b в уравнении степенной регрессии: параметр b показывает, на сколько процентов изменится результативный признак у при изменении фактора х на 1 %. Контрольные вопросы 1. Что понимается под регрессией в теории вероятностей и математической статистике? 2. Какие задачи решаются при построении уравнения регрессии? 3. Какие методы применяются для выбора вида модели регрессии? 4. Какие функции чаще всего используются для построения уравнения парной регрессии? 5. Какой вид имеет система нормальных уравнений метода наименьших квадратов? 6. Как осуществляется оценка параметров нелинейных моделей? 7. Назовите условия Гаусса-Маркова. О чем говорит теорема ГауссаМаркова? 8. Что при проверке статистических гипотез называют уровнем значимости? 9. Как проверяется значимость уравнения регрессии? 10. Как проверяется значимость коэффициентов уравнения регрессии? 11. Как вычисляется коэффициент детерминации R2? 12. По какой формуле вычисляется выборочный коэффициент парной корреляции rxy ? 13. Как проверяется значимость выборочного коэффициента парной корреляции? 14. Как строится доверительный интервал для линейного коэффициента парной корреляции? 15. Как вычисляется и что показывает индекс детерминации? 16. Как осуществляется построение доверительного интервала прогноза в случае линейной регрессии? 17. Как вычисляется и как интерпретируется коэффициент эластичности Э? 38 3. Множественный регрессионный анализ 3.1. Понятие множественной регрессии Множественной регрессией называют уравнение связи с несколькими независимыми переменными: ŷ = f (x1,x2,...,xp) . (3.1) Переменная у называется зависимой, объясняемой или результативным признаком. х1, х2, …, хp – независимые, объясняющие переменные или факторные признаки (факторы). Соответствующая регрессионная модель имеет вид y = f (x1,x2,...,xp) + ε, (3.2) где ε  ошибка модели, являющаяся случайной величиной. Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств. Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель. Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра y и xj и ((yi, xj,i); j=1, 2, ..., p; i=1, 2, ..., n) необходимо определить аналитическую зависимость ŷ = f(x1,x2,...,xp), наилучшим образом описывающую данные наблюдений. Таблица 3.1 Результаты наблюдений 1 2 … n y y1 y2 … yn x1 x11 x12 … x1n x2 x21 x22 … x2n … … … … … xp xp1 xp2 … xpn Каждая строка таблицы содержит p +1 число и представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения. Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений результативного показателя ŷ i = f (x1i,x2i,...,xpi) от наблюдаемых значений yi 2 S    yˆ i  yi   min . Как и в случае парной регрессии, построение уравнения множественной регрессии предполагает решение двух задач (или, другими словами, осуществляется в два этапа): 39 1) спецификация модели; 2) оценка параметров выбранной модели. В свою очередь, спецификация модели включает в себя решение двух задач: – отбор p факторов xj, подлежащих включению в модель; – выбор вида аналитической зависимости ŷ = f (x1,x2,...,xp). 3.2. Отбор факторов при построении множественной регрессии 3.2.1. Требования к факторам Процесс отбора факторов в достаточно сложных ситуациях является итерационной процедурой, предполагающей, в частности, построение уравнений регрессии, и включает два этапа. Первоначально отбор факторов осуществляется на основе качественных соображений, исходя из представлений о природе взаимосвязи моделируемого показателя с другими экономическими показателями. На следующем этапе отобранные факторы подвергаются проверке на статистическую значимость. Окончательное решение о включении фактора в модель основывается на количественной оценке степени влияния фактора на изучаемый показатель. К факторам, включаемым в модель, предъявляются следующие требования: 1. Факторы не должны быть взаимно коррелированы и, тем более, находиться в точной функциональной связи. Наличие высокой степени коррелированности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изолированное влияние факторов на результативный показатель. 2. Включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной. Так как данная величина характеризуется таким показателем, как коэффициент детерминации R2, включение фактора в модель должно приводить к заметному изменению последнего. Формальная проверка существенности вклада фактора в модель выполняется с помощью оценки значимости соответствующего частного коэффициента корреляции либо значимости коэффициента в уравнении регрессии. Если необходимо учесть влияние качественного фактора (не имеющего количественной оценки), то в модель включается соответствующая ему «фиктивная» переменная, имеющая конечное количество формально численных значений, соответствующих градациям качественного фактора. Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную z, принимающую значения z = 0 при начальном образовании, 1  при среднем, 2  при высшем. Если для какого-либо показателя, который представляется важным для данного исследования, отсутствуют исходные данные, либо сам показатель четко не определен, то может быть полезно включить в модель некоторый ее «заменитель». Например, в качестве показателя качества образования можно использовать число преподавателей или расходы на одного студента. Такой подход основан на том факте, что неучет существенного показателя приводит к 40 смещенным оценкам параметров. Например, производственная функция КоббаДугласа, построенная по данным экономики США за период 19491978 гг., построенная с учетом времени в качестве замещающей переменной для показателя технического прогресса имеет вид [4] logŶ = 1,03 + 0,17 logK + 0,93 logL + 0,024t, (2,33) (0,66) (0,17) 0,016) а без учета имеет вид logŶ =  4,50+ 1,19 logK + 0,77 logL, (0,57) (0,10) (0,15) где Y  индекс объема выпуска частного сектора; K – индекс затрат капитала; L  индекс затрат труда; t – время, равное единице в 1948 г. и т. д. Без учета замещающей переменной коэффициент при logK неправдоподобно велик. При отборе факторов в модель следует, по возможности, стремиться к минимизации количества факторов, так как неоправданное их увеличение приводит к затруднениям в интерпретации модели и снижению достоверности результатов. 3.2.2. Мультиколлинеарность Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Следствием мультиколлинеарности является линейная зависимость между столбцами наблюдений xij в таблице 3.1 или между столбцами матрицы X (3.11). В результате, матрица X′X становится плохо обусловленной, что приводит к неустойчивости оценок коэффициентов регрессии, когда незначительные изменения данных наблюдений приводят к значительным изменениям оценок. Проверка наличия мультиколлинеарности основывается на анализе матрицы парных корреляций между факторами rx1x2 ... rx1x p   rx1x1 rx1x2 ... rx1x p   1 r ... rx3 x2  rx2 x2 ... rx3 x2   rx2 x1 1 x2 x1     R (3.3)  ... ... ... ...  ... ... ...  ... r ... rx p x p  rx p x1 rx p x2 ... 1  r  x p x1 x p x2    Коэффициенты парной корреляции rxi x j между объясняющими переменными используются для выявления дублирующих факторов. Линейная зависимость между объясняющими переменными xi и xj считается установленной, если выполняется условие rxi x j  0,8 , а сами факторы называются явно коллинеарными (эмпирическое правило). Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. Наряду с парной коллинеарностью может иметь место линейная зависимость между боле, чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величину определителя Det R 41 матрицы парных коэффициентов корреляции rx x между факторами либо ее i j минимального собственного значения. Чем ближе к нулю определитель (минимальное собственное значение) матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии. Для оценки статистической значимости мультиколлинеарности факторов может быть использован тот факт, что величина n  1  (2m  5) lg DetR имеет 6   1 1 p ( p  1) степенями свободы. 2 Выдвигается гипотеза H0 о независимости переменных, т. е. Det R  1 . Если фактическое значение χ2 превосходит табличное (критическое) 2 2  факт   табл , то гипотеза Н0 отклоняется и мультиколлинеарность счита( df , a ) приближенное распределение  2 с df  ется доказанной. Для выявления мультиколлинеарности факторов можно использовать коэффициенты множественной детерминации Rx2 | x x ... x ; Rx2 | x x ... x … , полученные 1 2 3 p 2 1 3 p по уравнениям регрессии, в которых качестве зависимой переменной рассматривается один из факторов. Чем ближе значение коэффициента детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Согласно эмпирическому правилу, при значении коэффициента множественной детерминации R x21| x2 x3 ... x p > 0,6 мультиколлинеарность факторов считается установленной. Оставляя в уравнении регрессии факторы с минимальной величиной коэффициента множественной детерминации, можно исключить мультиколлинеарность факторов. Для преодоления явления линейной зависимости между факторами используются такие способы, как:  исключение одного из коррелирующих факторов;  переход с помощью линейного преобразования к новым некоррелирующим независимым переменным. Например, переход к главным компонентам вектора исходных объясняющих переменных (что позволяет также уменьшить количество рассматриваемых факторов), переход к последовательным разностям во временных рядах xit  xit  xit 1 и т. п.;  переход к смещенным оценкам, имеющим меньшую дисперсию. В частности, при использовании «ридж-регрессии» применяются смещенные оценки вектора параметров bτ  ( X X  E p 1 ) 1 X Y (п. 3.4), где τ  некоторое положительной число, Ep+1  единичная матрица порядка p+1. Такое преобразование увеличивает определитель матрицы системы нормальных уравнений и повышает устойчивость результатов (снижает дисперсию оценок, которые становятся смещенными). Другие аспекты вопроса отбора факторов рассмотрены в п. 1.5. 42 Следует также учитывать ограничение, накладываемое на количество факторов, имеющимся числом наблюдений. Количество наблюдений должно превышать количество факторов более чем в 6-7 раз. 3.3. Выбор формы уравнения регрессии Различают следующие виды уравнений множественной регрессии: линейные, нелинейные, сводящиеся к линейным, и нелинейные, не сводящиеся к линейным (внутренне нелинейные). В первых двух случаях для оценки параметров модели применяются классического линейного регрессионного анализа. В случае внутренне нелинейных уравнений для оценки параметров приходится применять методы нелинейной оптимизации. Основное требование, предъявляемое к уравнениям регрессии, заключается в наличии наглядной экономической интерпретации модели и ее параметров. Исходя из этих соображений, наиболее часто используются линейная и степенная зависимости. Линейная множественная регрессия имеет вид yˆ  a  b1  x1  b2  x 2  ...  b p  x p . (3.4) Параметры bi при факторах хi называются коэффициентами «чистой» регрессии. Они показывают, на сколько единиц в среднем изменится результативный признак y за счет изменения соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне. Предположим, например, что зависимость спроса на товар (Qd) от цены (P) и дохода (I) характеризуется следующим уравнением: Qd = 2,5  0,12P + 0,23 I. Коэффициенты данного уравнения говорят о том, что при увеличении цены на единицу, спрос уменьшится в среднем на 0,12 единиц измерения спроса, а при увеличении дохода на единицу, спрос возрастет в среднем 0,23 единицы. Параметр а в (3.14) не всегда может быть содержательно проинтерпретирован. Степенная множественная регрессия имеет вид b yˆ  a  x1b1  x 2b2  ...  x pp (3.5) Параметры bj (степени факторов хi) являются коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменится результативный признак y за счет изменения соответствующего фактора хi на 1 % при неизмененном значении остальных факторов. Наиболее широкое применение этот вид уравнения регрессии получил в производственных функциях, а также при исследовании спроса и потребления. Например, зависимость выпуска продукции Y от затрат капитала K и труда L Y  0 ,89 K 0 .23 L0 .81 говорит о том, что увеличение затрат капитала K на 1 % при неизменных затратах труда вызывает увеличение выпуска продукции Y на 0,23 %. Увеличение затрат труда L на 1 % при неизменных затратах капитала K вызывает увеличение выпуска продукции Y на 0,81 %. 43 Экономический смысл имеет также сумма коэффициентов bi каждого фактора (сумма эластичностей) b = bi. Эта величина дает обобщенную характеристику эластичности производства. Если значение b > 1, то говорят, что функция имеет возрастающий эффект от масштаба производства. Значение b = 1 говорит о постоянном масштабе производства. Если значение b < 1, то имеет место убывающий эффект от масштаба производства. Примеры других зависимостей, используемых при построении регрессии, приведены в п. 1.4. Если один и тот же фактор вводится в регрессию в разных степенях, то каждая степень рассматривается как самостоятельный фактор. Например, если в нелинейной модели с двумя факторами x1 , x 2 y  a  b1  x1  b2  x 2  b3  x12  b4  x1  x 22   , величины x12 , x1  x 22 рассматривать как новые дополнительные факторы, то, используя замену переменных z1  x1 , z 2  x 2 , z 3  x12 , z 4  x1 x 22 , ее можно привести к линейному уравнению регрессии с четырьмя факторами: y  a  b1  z1  b2  z 2  b3  z 3  b4  z 4   . 3.4. Оценка параметров уравнения линейной множественной регрессии Рассмотрим уравнение линейной множественной регрессии y  a  b1  x1  b2  x 2  ...  b p  x p   . (3.6) Для оценки параметров уравнения множественной регрессии обычно применяется метод наименьших квадратов (МНК), согласно которому следует выбирать такие значения параметров а и bi, при которых сумма квадратов отклонений фактических значений результативного признака yi от теоретических значений ŷ = f (x1i,x2i,...,xpi) (при тех же значениях фактора xij) минимальна, т. е. 2 S    yˆ i  y i   min . С учетом (3.6) величина S является функцией неизвестных параметров а и bi n S   ( yi  a  b1  x1  b2  x2  ...  b p  x p ) 2  S ( a, b1 ,..., b p ) . (3.7) i 1 Оптимальные значения параметров а и bi удовлетворяют условиям S S S S  0,  0,  0, ...  0. (3.8) a b1 b2 b p Выполняя соответствующие вычисления, получим для определения параметров а и bi следующую систему уравнений 44 n S  2 ( y i  a  b1  x1  b2  x 2  ...  b p  x p ), a i 1 n S  2b1  ( y i  a  b1  x1  b2  x 2  ...  b p  x p ), b1 i 1 (3.9) ... n S  2b p  ( y i  a  b1  x1  b2  x 2  ...  b p  x p ), b p i 1 откуда после некоторых преобразований получается система нормальных уравнений метода наименьших квадратов  y  n  a  b1  x1  b2  x 2  ...  b p  x p ;  yx1  a x1  b1  x12  b2  x 2 x1  ...  b p  x p x1 ; ..................................................................................... (3.10)  yx p  a x p  b1  x1 x p  b2  x 2 x p  ...  b p  x 22 . Решение системы (3.10) удобно записать с помощью матричных обозначений. Обозначим 1 x11 ...x p1  a   y1    b  y  1 x ... x 1 12 p 2 , B   , Y   2 , X   (3.11)   ...  ...  ...        1x1n ...x pn   yn  b p  где B  матрица-столбец (p+1×1) из коэффициентов а и bi; Y  матриц-столбец (n×1) исходных значений зависимой переменной y; X  матрица (p+1×n) исходных значений независимых переменных xi, в которой первый столбец из единиц можно рассматривать как значения «фиктивной» переменной, соответствующей коэффициенту а. В этих обозначениях система (3.10) примет вид ( X X ) B  X Y , (3.12) где X'  транспонированная матрица X. Матрица X X является неособенной квадратной размерности (p+1×p+1) при условии, что столбцы матрицы X линейно независимы. Решение системы (3.12) определяется соотношением (3.13) B  ( X X ) 1 X Y . Независимые переменные xi имеют различный экономический смысл, разные единицы измерения и масштаб. Если нужно определить степень относительного влияния отдельных факторов xi на изменение результативной переменной y, то переменные xi следует привести к сопоставимому виду. Это можно осуществить, вводя, так называемые, «стандартизованные» переменные t y , t x1 ,..., t x p с помощью соотношений 45 ty  yy y , t xi  xi  xi  xi , (i = 1, 2, …, p) (3.14) где y, x i  средние значения,  y ,  x  средние квадратические отклонения пеi ременных y и xi. Стандартизованные переменные обладают следующими свойствами: 1) средние значения равны нулю t y  t xi  0 ; 2) средние квадратические отклоне- ния равны единице  t y   t xi  1. Уравнения множественной регрессии в стандартизованных переменных принимает вид t y   1  t x   2  t x  ...   p  t x   . (3.15) 1 2 p Величины βi называются стандартизованными коэффициентами. Их связь коэффициентами множественной регрессии bi задается соотношениями x y или  i  bi i (i = 1, 2, …, p). (3.16) bi   i  xi y Параметр а уравнения (3.6) можно определить из соотношения a  y  b1 x1  b2 x 2  ...  b p x p . (3.17) Стандартизованные коэффициенты регрессии βi показывают, на сколько сигм (средних квадратических отклонений) изменится в среднем результативный признак y за счет изменения соответствующего фактора на одну сигму при неизмененном значении других факторов, закрепленных на среднем уровне. Система нормальных уравнений МНК (3.10) в стандартизованных переменных принимает вид: ryx1  1   2 rx2 x1   3 rx3 x1  ...   p rx p x1 ; ryx2  1rx1x2   2   3 rx3 x2  ...   p rx p x2 ; ............................................................ (3.18) ryx p  1rx1x p   2 rx2 x p   3 rx3 x p  ...   p . Стандартизованные коэффициенты регрессии βi сравнимы между собой, что позволяет ранжировать факторы по силе их воздействия на результат. Большее относительное влияние на изменение результативной переменной y оказывает тот фактор, которому соответствует большее по модулю значение коэффициента βi. Отметим, что в случае парной линейной регрессии стандартизованный коэффициент регрессии β совпадает с линейным коэффициентом корреляции ryx. Для оценки параметров нелинейных уравнений множественной регрессии предварительно осуществляется преобразование последних в линейную форму (с помощью замены переменных) и МНК применяется для нахождения параметров линейного уравнения множественной регрессии в преобразованных переменных. 46 В случае внутренне нелинейных зависимостей (которые невозможно привести к линейному виду) для оценки параметров по методу наименьших квадратов приходится применять методы нелинейной оптимизации (п. 2.4). 3.5. Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова В классическом множественном регрессионном анализе обычно делаются следующие предпосылки: 1. Математическое ожидание случайного члена εi равно нулю в любом наблюдении М(εi) = 0. (3.19) 2. Дисперсия случайного члена εi постоянна для всех наблюдений D( i )   2 . (3.20) 3. Значения случайного члена в любых наблюдениях εi и εj не коррелируют между собой Cov(εi, εj) = 0 (i ≠ j). (3.21) Это условие с учетом того, что М(εi) = М(εj) = 0 принимает вид M(εi, εj) = 0 (i ≠ j). (3.22) 4. Случайный член должен быть распределен независимо от объясняющих переменных xi в одних и тех же наблюдениях Cov(xit, εi) = M (xi, εi) = 0, (3.23) где было учтено, что М(εi) = 0. Следует сказать, что последнее условие заведомо выполняется, если объясняющие переменные xit считаются детерминированными величинами. 5. Матрица X X является неособенной, т. е. столбцы матрицы X линейно независимы. 6. Значения случайного члена εi распределены по нормальному закону. Модель (3.6), удовлетворяющая приведенным предпосылкам 16, называется классической нормальной линейной моделью множественной регрессии. Модель (3.6), удовлетворяющая приведенным предпосылкам 15, называется классической линейной моделью множественной регрессии. Согласно теореме Гаусса-Маркова, при выполнении указанных предпосылок оценки параметров линейной множественной регрессии (3.13), полученные методом наименьших квадратов, будут несмещенными и эффективными (т. е. будут иметь наименьшую дисперсию) в классе линейных несмещенных оценок. Нарушение одного из условий Гаусса-Маркова приводит к нарушению эффективности оценок, т. е. в классе несмещенных оценок можно найти такие, которые имеют меньшую дисперсию. После построения модели необходимо вычислить значения остатков еi и проверить выполнение предпосылок 16, так как их нарушение снижает качество модели. Если условия нарушаются, то следует модернизировать модель соответствующим образом. Эти вопросы будут рассмотрены далее. 47 3.6. Проверка качества уравнения регрессии. F-критерий Фишера Как и в случае парной регрессии для оценки качества полученного множественной уравнения регрессии (3.6) можно использовать коэффициент детерминации, представляющий собой отношение объясненной части D(ŷ) дисперсии переменной у ко всей дисперсии D(y) n R2  D( yˆ ) или R 2  D( y )  ( yˆ i  y ) 2 i 1 n  ( yi  y ) , (3.24) 2 i 1 где 1  yi  y 2 , D( yˆ )  1   yˆ i  y 2 , D(e)  Dост  1   yˆ i  yi 2 .  n n n 2 Коэффициент детерминации R принимает значения в диапазоне от нуля до единицы 0 ≤ R2 ≤ 1 и показывает, какая часть дисперсии результативного признака y объяснена уравнением регрессии. Чем выше значение R2, тем лучше данная модель согласуется с данными наблюдений. Оценка статистической значимости уравнения регрессии (а также коэффициента детерминации R2) осуществляется с помощью F-критерия Фишера D( y )  n  ( yˆ i  y ) 2 i 1 F p n  ( yˆ i  yi ) 2 R2 n  p 1  , p 1 R2 (3.25) i 1 n  p 1 где p  число независимых переменных в уравнении регрессии (3.6). Согласно F-критерию Фишера, выдвигаемая «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии отвергается при выполнении условия F > Fкрит, где Fкрит определяется по таблицам F-критерия Фишера (П3, П4) по двум степеням свободы k1 = p, k2 = n  p  1 и заданному уровню значимости α. Для оценки тесноты связи факторов с исследуемым признаком, задаваемой построенным уравнением регрессии yˆ  f ( x1 , x 2 ,..., x p ) , используется коэффициент множественной корреляции R n R  R2  1 Dост  1 D( y)  ( yˆ i 1 n i (y i 1 i  yi ) 2  y) . (3.26) 2 Коэффициент множественной корреляции R принимает значения в диапазоне 0 ≤ R ≤ 1. Чем ближе величина R к единице, тем теснее данная связь, тем лучше зависимость yˆ  f ( x1 , x 2 ,..., x p ) согласуется с данными наблюдений. При R = 1 48 (R = 1) связь становится функциональной, т. е. соотношение yˆ  f ( x1 , x 2 ,..., x p ) точно выполняется для всех наблюдений. Коэффициент множественной корреляции может использоваться как характеристика качества построенного уравнения регрессии yˆ  f ( x1 , x 2 ,..., x p ) , точности построенной модели. Величина коэффициента множественной корреляции не может быть меньше максимального парного индекса корреляции R  max ryxi , (i  1, 2, ..., p ) . В случае линейной зависимости (3.6) коэффициент корреляции R связан с парными коэффициентами корреляции r yx соотношением 2 i R   i  ryx , i (3.27) i где  i – стандартизованные коэффициенты регрессии (3.16). Использование коэффициента множественной детерминации R2 для оценки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R2. Поэтому при большом количестве факторов предпочтительнее использовать, так называемый, скорректированный, улучшенный (adjusted) коэффициент множественной детерминации R 2 , определяемый соотношением n R 2  1  ( yˆ i  yi ) 2 : (n  p  1) i 1 n  ( yi  y ) 2 : (n  1)  1 n 1 (1  R 2 ) , n  p 1 (3.28) i 1 где p – число факторов в уравнении регрессии, n – число наблюдений. Чем больше величина p, тем сильнее различия R 2 и R 2 . При использовании R 2 для оценки целесообразности включения фактора в уравнение регрессии следует однако учитывать, что увеличение R 2 при включении нового фактора не обязательно свидетельствует о его значимости, так как значение увеличивается R 2 всегда, когда t-статистика больше единицы (t>1). При заданном объеме наблюдений и при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный коэффициент множественной детерминации убывает. При небольшом числе наблюдений скорректированная величина коэффициента множественной детерминации R2 имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Отметим, что низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации R2 может быть обусловлено следующими причинами: – в регрессионную модель не включены существенные факторы; – неверно выбрана форма аналитической зависимости, не отражающая реальные соотношения между переменными, включенными в модель. 49 3.7. Точность коэффициентов регрессии. Доверительные интервалы Оценки коэффициентов регрессии зависят от используемой выборки значений переменных x и y и являются случайными величинами. Для характеристики точности полученных оценок можно использовать стандартные ошибки коэффициентов регрессии. Под стандартной ошибкой коэффициента регрессии понимается оценка стандартного отклонения функции плотности вероятности данного коэффициента. Стандартные ошибки коэффициентов регрессии sbi определяются соотношениями sb  sост ( X X ) 1 ii , (3.29) 2 где s ост представляет собой несмещенную оценку остаточной дисперсии i n 2 sост  ( X X )  1 ii  ( yˆ i 1 i  yi ) 2 n  p  1 ;  диагональный элемент матрицы ( X X ) 1 .  Величину ( X X ) 1  ii можно вычислить как ( X X )  Aii , ii det( X X ) где Aii  алгебраическое дополнение к элементу ii матрицы ( X X ) . Сопоставляя оценки параметров и их стандартные ошибки, можно сделать вывод о надежности (точности) полученных оценок. Для оценки статистической значимости коэффициентов регрессии применяется t-критерий Стьюдента, основанный на том факте, что отношения 1 t bi  ~ bi  bi s bi  (i  1, 2, ..., p ) (3.30) являются t-статистиками, т. е. случайными величинами, распределенными по ~ закону Стьюдента с числом степеней свободы np1. Через bi обозначены точные значения коэффициентов регрессии. Согласно t-критерию Стьюдента, выдвигается «нулевая» гипотеза H0 о статистической незначимости коэффициента уравнения регрессии (т. е. о статистически незначимом отличии величины а или bi от нуля). Эта гипотеза отвергается при выполнении условия t > tкрит, где tкрит определяется по таблицам t-критерия Стьюдента (П2) по числу степеней свободы k1 = np1 (p  число независимых переменных в уравнении регрессии) и заданному уровню значимости α. t-критерий Стьюдента применяется в процедуре принятия решения о целесообразности включения фактора в модель. Если коэффициент при факторе в уравнении регрессии оказывается незначимым, то включать данный фактор в модель не рекомендуется. Отметим, что это правило не является абсолютным и бывают ситуации, когда включение в модель статистически незначимого фактора определяется экономической целесообразностью. 50 Доверительные интервалы для параметров bi уравнения линейной регрессии определяются соотношениями: ~ bi  t1α, np1 · sbi  bi  bi + t1α, np1 · sbi. (3.31) Величина t1α,n-2 представляет собой табличное значение t-критерия Стьюдента на уровне значимости α при степени свободы n–2. Если в границы доверительного интервала попадает ноль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равным нулю, так как он не может одновременно принимать и положительное, и отрицательное значения. Точность полученного уравнения регрессии можно оценить, анализируя доверительный интервал для функции регрессии, т. е. для среднего значения ỹ0, зависимой переменной y при заданных значениях объясняющих переменных x1 = x10, x2 = x20, ..., xp = xp0., Доверительный интервал для функции регрессии определяется соотношениями ŷ0  t1α, np1 · sŷ  ỹ0  ŷ0 + t1α, np1 sŷ, (3.32) где ŷ0 – групповая средняя, определяемая по уравнению регрессии (3.4) при заданных значениях объясняющих переменных x1 = x10, x2 = x20, ..., xp = xp0; s yˆ  sîñò X 0 ( X X ) X 0 – ее стандартная ошибка; (3.33) ỹ0 – точное значение групповой средней; X 0 – вектор, составленный из заданных значений независимых переменных X 0 = (1, x10, x20, ..., xp0 ). Доверительный интервал для индивидуальных значений зависимой переменной y*0 определяется соотношениями ŷ0  t1α, np1 · sŷ0  y*0  ŷ0 + t1α, np1 sŷ0, (3.34) где s yˆ0  sîñò 1  X 0 ( X X ) X 0 (3.35) есть стандартная ошибка индивидуальных значений зависимой переменной y*0. 3.8. Частные уравнения регрессии. Частная корреляция Уравнение линейной множественной регрессии yˆ  a  b1  x1  b2  x2 ... bp  xp характеризует совместное влияние факторов x1 , x 2 ,..., x p на исследуемую переменную y. Уравнение парной регрессии yˆ x i  a i  b i  xi показывает зависимость между y и xi при игнорировании остальных факторов. Коэффициент bi наряду с влиянием фактора xi частично отражает влияние и остальных факторов. Частные уравнения регрессии, характеризующие изолированное влияние одного из факторов хi на результативную переменную y при исключении влияния остальных факторов, включенных в уравнение регрессии, получаются из общего уравнения линейной множественной регрессии (3.6) при закреплении всех факторов кроме хi на их среднем уровне: yˆ xi  p  a  b1  x1  b2  x 2  ...  bi 1  x i 1  bi  x i  bi 1  x i 1  ...  b p  x p , (i = 1, 2, …, p) 51 или yˆ xi  p  Ai  bi  x i , (i = 1, 2, …, p) (3.36) где Ai  a  b1  x1  b2  x 2  ...  bi 1  xi 1  bi 1  xi 1  ...  b p  x p и Ai  a i . На основе частных уравнений регрессии (3.36) определяют частные коэффициенты эластичности x (3.37) Ý y x  bi i , (i = 1, 2, …, p) i yˆ xi  p где bi – коэффициенты регрессии для фактора хi в уравнении множественной регрессии; yˆ xi n – значение результативного фактора, полученное из частного уравнения регрессии при данном значении фактора хi, Средние частные коэффициенты эластичности Ý yxi  bi xi . (i = 1,2, …,p) (3.38) yˆ xi  p показывают, на сколько процентов в среднем по совокупности изменится результат у от своей величины при изменении фактора х на 1 % от своего значения при неизменных значениях других факторов, и могут использоваться для выделения факторов, наиболее влияющих на результат. Если факторы xi , x j находятся в корреляционной связи, то это влияет на способность коэффициента парной корреляции ryxi изолированно выявить степень тесноты связи между переменными у и хi. В такой ситуации следует использовать частные коэффициенты корреляции ryxi  p , характеризующие тесноту связи между переменными у и хi при исключении влияния остальных p – 1 фактора (при фиксированных значениях остальных факторов), определяемые соотношениями ryxi  p   q yi q yy  qii , (i = 1, 2, …, p) (3.39) где qyi, qyy и qii  алгебраические дополнения соответственно к элементам ryxi , ryy и rxi xi матрицы ... ryx p   ryy ryx1 ryx2   ... rx1x p   rx1 y rx1x1 rx1x2 r rx2 x1 rx2 x2 ... rx2 x p  x2 y .  (3.40) q ... ... ... ...  r rx p x1 rx p x2 ... rx p x p    xp y     Значимость частных коэффициентов корреляции ryxi  p проверяется также, как и значимость парного коэффициента корреляции (2.37), (2.38) с заменой числа наблюдений n на n′ = n – p + 1, т. е. статистика 52 t  ryxi  p n  p  1 2 (3.41) 1  r yxi  p имеет t-распределение Стьюдента с n–p–1 степенями свободы. Если t>t1–α;n–p–1, то коэффициент считается значимым. В случае только двух факторов х1 и х2 формула (3.39) принимает вид ryx1  ryx2 rx1x2 ryx1x2  . (3.42) (1  ryx2 2 )(1  rx21x2 ) Существенность влияния корреляционной связи проанализируем на примере. Рассмотрим переменную у и два фактора х1 и х2, находящиеся в корреляционной связи, и предположим, что парные коэффициенты корреляции имеют следующие значения ryx1 = 0,54, ryx2 = 0,1, rx1x2 = 0,6. Вычисления по формуле (3.42) дают 0,54  0,1  0,6 0,48 ryx1 x2    0,60; 2 2 , 99  , 64 (1  0,1 )(1  0,6 ) ryx2  x1  0,1  0,54  0,6 (1  0,54 2 )(1  0,6 2 )  0,224  0,33. 0,78  0,64 Значения коэффициентов ryx1 и ryx1x2 близки между собой, а значения коэффициентов ryx2 и ryx2 x1 отличаются по величине более, чем в три раза и имеют разные знаки. Частные коэффициенты корреляции ryxi  p позволяют ранжировать факторы по степени влияния на результативный признак и находят применение в процедуре отбора факторов для включения их в уравнение регрессии (учитываются факторы, которым соответствуют значимые коэффициенты частной корреляции). 3.9. Обобщенный метод наименьших квадратов. Гетероскедастичность 3.9.1. Обобщенный метод наименьших квадратов Оценки (3.13) коэффициентов линейной множественной регрессии (3.6) являются эффективными (имеющими минимальную дисперсию в классе линейных несмещенных оценок) только при выполнении предпосылок п. 3.5. Нарушение второй и третьей предпосылок ведет к утере эффективности оценок (3.13), т. е. существуют оценки с меньшей дисперсией (с меньшим разбросом значений оценок). Следствием предпосылок 2 и 3 является диагональная структура матрицы ковариаций ε случайного члена εi с одинаковыми диагональными элементами σ2 (дисперсия случайного члена εi) ε = σ2En, (3.43) 53 где En  единичная матрица размерности n (n – количество наблюдений). При нарушении предпосылок ε перестает иметь структуру (3.43). Обозначим ее для удобства через Ω. В общем случае, согласно теореме Айткена, наилучшей в классе линейных несмещенных оценок является оценка (3.44) B  ( X  1 X ) 1 X  1Y . Вычисление оценок параметров уравнения множественной линейной регрессии по формуле (3.45) (с учетом матрицы ковариаций Ω) называется обобщенным методом наименьших квадратов (ОМНК). Согласно ОМНК, уравнения регрессии предварительно преобразовываются с целью получить модель, содержащую случайный член, удовлетворяющий предпосылкам регрессионного анализа (п. 3.5). Следует сказать, что ввиду сложности определения матрицы ковариаций ε = Ω этот результат имеет в основном теоретический характер. Тем не менее, при определенных предположениях о структуре ε теорема имеет практическое значение. 3.9.2. Обобщенный метод наименьших квадратов в случае гетероскедастичности остатков Предположим, что нарушается только предпосылка 2 о постоянстве дисперсии случайного члена  2i   2j   2 , ( j  i ) . В этом случае говорят о гетероскедастичности остатков, а сами остатки называются гетероскедастичными. При выполнении предпосылки 2 говорят о гомоскедастичности остатков. Матрицы Ω и Ω–1 в этом случае являются диагональными   1  2 0 ... 0   1  12 0 ... 0   1   2 ...  ...     2 ,  1    22 (3.45)  .  ... ... ... ... ... ... ... ...    2   0 0 ...  n  0 0 ... 1    n2  Система нормальных уравнений ОМНК (3.13), (3.10) имеет вид ( X  1 X ) B  X  1Y (3.46) или в координатной форме yi   2 i  a y i x1i  2 i 1  i2  a  b1  x1i  2 i x1i x1  b2   i2  b1  x 21i  2 i  b2  x 2i  i2  ...  b p  x 2i x1i  2 i x pi  i2  ...  b p  ; x pi x1i  i2 ; (3.47) .....................................................................................  y i x pi  i2  a x pi  i2  b1  x1i x pi  i2  b2  x 2i x pi  i2  ...  b p  x 2 pi  i2 . 54 Система уравнений (3.47) соответствует модели, определяемой соотношениями x pi yi x x 1  a  b1  1i  b2  2 i  ...  b p   u i , (i = 1, 2, …, n) (3.48) i i i i i которые получаются, если исходное уравнение множественной регрессии (3.6), записанное для каждого наблюдения разделить на среднее квадратическое отi клонение  i случайного члена εi в i-наблюдении. Случайный член ui  в i модели (3.48) имеет постоянную для всех наблюдений дисперсию  ui2 =1. Запись модели в виде (3.48) соответствует уравнению линейной множественной регрессии (без свободного члена) y   ax0  b1  x1  b2  x2  ...  b p  x p  u , (3.49) записанному в новых переменных y , x0 , x1 , ..., x p , значения которых определяются по формулам yi  yi , x0 i  1 , x1i  x1i , x 2i  x2i i , (i = 1, 2, …, n) (3.50) i i практически никогда не известны и , ..., x pi  i i i i Следует сказать, что величины  i2 x pi , ui  вместо них следует использовать состоятельные оценки ˆ i2 . При практическом использовании ОМНК используется какое-либо предположение относительно зависимости дисперсии  i2 случайного члена ε от наблюдения или величины факторов xi. Представим дисперсии  i2 случайного члена в виде произведения некоторой функции K i2 от факторов на постоянную величину  2  i2  K i2 2 . (3.51) Тогда соотношения (3.50) принимают вид x pi y x x  1 yi  i , x0 i  , x1i  1i , x2i  2 i , ..., x pi  , u i  i ,  ui  const   2 . Ki Ki Ki Ki Ki Ki (i = 1, 2,…, n) (3.52) Часто на практике можно с достаточным основанием предположить, что величины σi пропорциональны значениям какого-либо фактора xα, т. е.  i  xi   (  i2  x2i   2 ). В этом случае модель (3.49) принимает вид xp x x x y 1 a  b1  1  ...  b 1   1  b  b 1   1  ...  b p   u (3.53) x x x x x x и  ui2   2 . Оценки параметров модели (3.53) являются оценками параметров исходного уравнения (3.6). Если, вычислив значения новых переменных, мы запишем модель в стандартном виде 55 xp x1 x2 y  a  b1   b2   ...  b p  u, x x x x (3.54) то это будет новая модель с переменными, имеющими иной смысл. Оценки ее параметров будут отличаться от оценок параметров исходной модели. Рассмотрим случай парной регрессии y a bx (3.55) и предположим, что величины σi пропорциональны значениям фактора x, т. е.  i  xi   (  i2  xi2   2 ). Преобразуя согласно ОМНК уравнение регрессии (3.55) получим следующую модель y a  bu, (3.56) x x оценки параметров которой будут эффективными оценками параметров исходной модели (5.55). Заметим, что в новой модели параметры a и b поменялись местами, т. е. свободный член стал коэффициентом и наоборот. 3.10. Проверка остатков регрессии на гетероскедастичность Так как оценки параметров, полученные МНК, являются эффективными только при выполнении предпосылок МНК (п. 3.5), то после вычисления оценок и построения модели следует определить наблюдаемые отклонения ei  y i  f ( x1i , x 2i ,..., x pi ) и проверить, удовлетворяются ли предпосылки МНК. Рассмотрим методы, применяемые для проверки выполнения предпосылки о постоянстве дисперсий остатков (их гомоскедастичности). Тест ранговой корреляции Спирмена проверяет наличие монотонной зависимости между дисперсией ошибки и величиной фактора. Наблюдения (значения фактора xi и остатки ei) упорядочиваются по величине фактора x и вычисляется коэффициент ранговой корреляции Спирмена n  x ,e  1  6  d i2 i 1 , (3.57) n ( n  1) где di – разность между рангами значений xi и ei в i-наблюдении. Коэффициент ранговой корреляции  x,e считается значимым на уровне 2 значимости α при n > 10, если выполняется условие  x ,e n  2 > t1α, n2, (3.58) t  1   2 x ,e где t1α, n2 – табличное значение t-критерия Стьюдента на уровне значимости α и при числе степеней свободы (n–2). Тест Гольдфельда–Квандта. Применяется в предположении, что средние квадратические отклонения случайного члена σi пропорциональны значениям фактора xi и случайный член распределен по нормальному закону. Процедура применения теста Гольдфелда– Квандта состоит из следующих шагов: 1) наблюдения упорядочиваются по мере возрастания фактора хi; 56 2) выделяются первые n′ и последние n′ наблюдений и исключаются из рассмотрения n–2n′ центральных наблюдений. При этом должно выполняться условие n′ > р, где p – число оцениваемых параметров; 3) по каждой из групп оцениваются уравнения регрессии остатков εi по значимым факторам; 4) определяются остаточные суммы квадратов для первой (S1 =  e 2 i ) и второй (S2=  e 2 i ) групп и находится их отношение: R = S2 : S1 (S2 > S1); 5) нулевая гипотеза о гомоскедастичности остатков отвергается, если выполнено условие R  F , n p , n p (3.59) где F , n p , n p – табличное значение F-критерия Фишера на уровне значимости α при числе степеней свободы (n′– р) и (n′– р). Авторами метода рекомендовано для случая одного фактора при n=30 принимать n′=11, а при n=60 принимать n′=22. Тест Глейзера. Позволяет не только выявить наличие гетероскедастичности остатков, но и сделать определенные выводы о характере зависимости дисперсии остатков  i от значений фактора хi. В тесте проверяется существование функциональной зависимости следующего вида (3.60)  i    xiγ . По полученным остаткам уравнения регрессии осуществляются регрессии ei    xiγ (3.61) при различных значениях параметра γ (например, -1; 0,5; 1; 1,5; 2; …) и выбирается зависимость с наиболее значимым коэффициентом β. Если все коэффициенты β не значимы, то нет оснований говорить о гетероскедастичности остатков. Отобранная зависимость (с наиболее значимым коэффициентом β) используется в ОМНК для получения улучшенных оценок параметров исходной модели. 3.11. Построение регрессионных моделей при наличии автокорреляции остатков Предположим, что нарушается только предпосылка 3 о независимости значений случайного члена εi и εj в различных наблюдениях Cov(εi, εj) = 0 (i ≠ j). В этом случае говорят об автокорреляции остатков. Оценки параметров, полученные методом наименьших квадратов, остаются несмещенными, но теряют свою эффективность. Автокорреляция обычно встречается в регрессионном анализе только при использовании исходных данных в виде временных рядов. Более подробно понятие автокорреляции изложено в 5 разделе, где также приведены методы, позволяющие определить наличие и характер авторреляции во временном ряде. Здесь же мы рассмотрим случай, когда имеет место зависимость только между соседними остатками. Предположим, что остатки в уравнении линейной регрессии 57 y t  a  b  xt   t (3.62) образуют авторегрессионный процесс первого порядка  t   t 1  u t . (3.63) Для оценки величины ρ может использоваться статистика ДарбинаУотсона d (см. п. 5.3.5) ρ = 1 – d/2. (3.64) Преобразуем уравнение (3.62), чтобы исключить автокорреляцию в остатках. Для этого уравнение (3.62), записанное для момента времени t–1, y t 1  a  b  xt 1   t 1 умножим на ρ и вычтем из исходного уравнения (3.62) y t    y t 1  a  a    b  ( xt    xt 1 )   t     t 1 . Вводя новые переменные y t и xt y t  y t    y t 1 ; xt  xt    xt 1 (3.65) и используя обозначение a   a (1   ) , (3.66) приведем исходную модель регрессии (3.62) к линейному уравнению регрессии y t  a   b  x t  u t (3.67) со случайными независимыми остатками ut. Для оценки параметров преобразованного уравнения (3.67) можно применять обычный МНК. После определения параметров a  и b параметр а находится из соотношения (3.66). Изложенная процедура предварительного преобразования переменных с последующим применением МНК к оценке параметров уравнения регрессии в преобразованных переменных является частным случаем обобщенного метода наименьших квадратов. Если ρ = 1, то данный метод становится методом первых последовательных разностей, так как yt'  yt  yt 1 ; xt'  xt  xt 1 . Если ρ = –1, т. е. в остатках наблюдается полная отрицательная корреляция, то с учетом соотношений y t  y t  (1)  y t 1  y t  y t 1 ; x t  x t  (1)  x t 1  x t  x t 1 ; a   a (1  (1))  2  a изложенный выше метод (уравнение (3.67)) принимает следующий вид y t  y t 1  2  a  b  ( x t  xt 1 )  u t или ( y t  y t 1 ) / 2  a  b  ( x t  xt 1 ) / 2  u t / 2 . Данная модель является моделью регрессии по скользящим средним. 58 3.12. Регрессионные модели с переменной структурой. Фиктивные переменные 3.12.1. Фиктивные переменные При изучении экономических взаимосвязей возникает необходимость учесть в модели влияние качественного фактора (фактора, не имеющего количественного выражения), например пол потребителя, фактор сезонности, наличие государственных программ. Влияние качественных признаков может приводить к скачкообразному изменению параметров линейных регрессионных моделей, построенных для различных значений качественного признака. Такие модели называются регрессионными моделями с переменной структурой. Чтобы учесть влияние качественного фактора в рамках одного регрессионного уравнения вводятся, так называемые, фиктивные переменные с двумя значениями 0 и 1. Например, изучается зависимость потребления товара y от величины дохода x с учетом пола потребителя. С использованием фиктивной переменной z 1, мужской пол z 0, женский пол уравнение регрессии принимает вид y  a bx cz  . (3.68) Вводя новый член регрессии c  z , мы тем самым предполагаем, что пол потребителя влияет только на величину свободного члена уравнения (параметр a характеризует объем потребления). Чтобы учесть влияние пола потребителя на величину коэффициента регрессии b (характеризующего «склонность» к потреблению), следует в модель регрессии ввести дополнительное слагаемое d  z  x , что дает y  a bx cz  d zx  . (3.69) Таким образом, модель (3.69) является объединением двух моделей для мужчин и женщин y  a 1  b1  x   , y  a2  b2  x   , где a 1  a  c; b1  b  d ; a 2  a; b 2  b . Проверка значимости коэффициентов при фиктивных факторах z и z·x покажет значимость влияния качественного показателя на изучаемый признак и необходимость включения в уравнение регрессии соответствующего члена. Если качественный признак имеет более двух градаций признака, то вводится несколько фиктивных переменных, число которых на единицу меньше числа градаций признака. Например, чтобы учесть сезонность, вводятся три фиктивные переменные 1, весна, z1   0, не весна, 1, лето, z2   0, не лето, и уравнение регрессии примет вид 1, осень, (3.70) z3   0, не осень 59 y  a  b  x  c1  z1  c 2  z 2  c3  z 3   . Если качественных признаков несколько, то фиктивные переменные вводятся для каждого признака по таким же правилам. 3.12.2. Тест Чоу Предположим, что имеется две набора наблюдений за совместным изменением двух зависимой и объясняющей переменной (xi,yi), полученные в различных условиях. Возникает вопрос можно ли считать две полученные выборки наблюдений частями одной объединенной выборки или принципиально различными, для которых уравнения регрессии должны строиться отдельно, как показано на рисунке 3.1 [4]. Ответ на этот вопрос дается с помощью теста Чоу. Рис. 3.1. Регрессии, оцениваемые для теста Чоу Рассмотрим уравнения регрессии, построенные по первой, второй и объединенной выборкам yi  a1  b11  x1i  ...  b1 p  x pi   i , (i = 1, 2, …, n1) yi  a 2  b 21  x1i  ...  b 2 p  x pi   i , (i = 1, 2, …, n2) yi  a  b1  x1i  ...  b p  x pi   i . (i = 1, 2, …, n = n1+n2) Обозначим суммы квадратов остатков регрессии, полученных по первой, второй и объединенной выборкам E21, E21, E2. Согласно тесту Чоу, нулевая гипотеза H0 о том, что две выборки являются частями одной объединенной выборки, отвергается при уровне значимости α, если выполняется условие ( E 2  E12  E 22 )( n  2 p  2) F  F ; p 1;n 2 p  2 . (3.71) ( E12  E 22 )( p  1) 3.11. Проблемы построения регрессионных моделей Последствия отсутствия в уравнении существенной независимой переменной. Если в уравнение регрессии не включена независимая переменная, оказывающая существенное влияние на результативный признак, то в общем случае это приводит к смещению оценок коэффициентов регрессии. Смещение отсутствует только если ковариация отсутствующей переменной с переменными, включенными в модель, равна нулю. Стандартные ошибки коэффициентов 60 регрессии становятся некорректными, что приводит к неприменимости соответствующих t-тестов. Кроме того, возможно появление автокорреляции и гетероскедастичности остатков. Признаком отсутствия значимой переменной может служить несоответствие знаков коэффициентов теоретическим предположениям. Если нет возможности включить в уравнение регрессии такую переменную, то следует использовать замещающую переменную (п. 3.2.1). Последствия включения в модель несущественной независимой переменной. Если в уравнение регрессии включена существенная независимая переменная, то в общем случае это не приводит к смещению оценок коэффициентов регрессии, но значения стандартных ошибок могут возрасти. Последствия неправильной спецификации формы уравнения регрессии. Использование неверной формы уравнения регрессии приводит к смещенности и несостоятельности оценок параметров, низкому значению коэффициента детерминации R2. Возможно также появление автокорреляции и гетероскедастичности остатков. Контрольные вопросы 1. Что понимается под множественной регрессией? 2. Какие задачи решаются при построении уравнения регрессии? 3. Какие задачи решаются при спецификации модели? 4. Какие требования предъявляются к факторам, включаемым в уравнение регрессии? 5. Что понимается под коллинеарностью и мультиколлинеарностью факторов? 6. Как проверяется наличие коллинеарности и мультиколлинеарности? 7. Какие подходы применяются для преодоления межфакторной корреляции? 8. Какие функции чаще используются для построения уравнения множественной регрессии? 9. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае линейной регрессии? 10. По какой формуле вычисляется коэффициент множественной корреляции? 11. Как вычисляются коэффициент множественной детерминации и скорректированный коэффициент множественной детерминации? 12. Что означает низкое значение коэффициента множественной корреляции? 13. Как проверяется значимость уравнения регрессии и его коэффициентов? 14. В каких случаях применяется Обобщенный МНК? 15. В чем отличие частных уравнений регрессии от уравнений парной регрессии? 16. Как вычисляются средние частные коэффициенты эластичности? 17. Что такое стандартизированные переменные? 18. Какой вид имеет уравнение линейной регрессии в стандартизированном масштабе? 19. Как оценивается значимость факторов? 20. Как вычисляются частные коэффициенты корреляции? 21. Что понимается под гомоскедастичностью остатков? 22. Как проверяется гипотеза о гомоскедастичности ряда остатков? 23. Каковы последствия неправильной спецификации модели? 24. К чему приводит отсутствие в уравнении существенной независимой переменной? 61 4. Системы эконометрических уравнений 4.1. Структурная и приведенная формы модели Экономические процессы и явления, как правило, представляют собой сложные системы, характеризующиеся большим количеством параметров и сложными взаимосвязями. Использование отдельных изолированных уравнений регрессии для исследования экономических процессов является сильным упрощением. Оно предполагает, что факторы можно изменять независимо друг от друга и что изменение зависимой переменной (результативного признака) никак ни влияет на поведение изучаемой системы. В случае сложных экономических систем такое предположение, как правило, не может быть выполнено, так как изменение какого-либо признака повлечет за собой изменения во всей системе взаимосвязанных признаков. В таких ситуациях эконометрические модели строятся в виде систем эконометрических уравнений. Наиболее широко этот подход применяется в макроэкономических исследованиях, а также в исследованиях спроса и предложения. Например, в рыночной экономике равновесные цены рассматриваются как результат взаимодействия спроса и предложения. При этом предложение товара в существенной степени зависит от сложившейся цены, а цена, в свою очередь, определяется величиной среднего дохода потребителя и имеющимся на рынке предложением товара. Соответствующая модель определяется системой из двух уравнений Qt = a10 + b11·Pt + ε1t, (4.1) Pt = a20 + b21·Qt + a11·It + ε2t, где Pt – средняя цена за единицу товара, Qt – объем предложения товара, It – средний уровень дохода, t – означает текущий период времени, a10, a20, b11, b21 – постоянные параметры, ε1t, ε2t – ошибки уравнений. В качестве другого примера рассмотрим макроэкономическую модель Клейна [2]: CNt = α0 + α1(W1t + W2t) + α2Рt+ α3Рt-1 + ε1t, (4.2) It = β0 + β 1Рt+ β 2Рt-1 + β 3Kt-1 + ε2t, (4.3) W1t = γ0 + γ 1Et+ γ 2Et-1 + γ 3T + ε3t, (4.4) Yt + ТХt ≡ CNt + It + Gt, (4.5) Yt ≡ Рt + Wt, (4.6) Kt ≡ It + Kt-1, (4.7) Wt = W1t + W2t, (4.8) Et ≡ Yt + TXt – W2t. (4.9) Первое уравнение называется функций потребления. Оно соотносит потребление CN и совокупный фонд заработной платы W, равный сумме заработных плат работников занятых в частном секторе W1, и государственном секторе W2, а также текущий и лаговый незарплатный доход (прибыль) Р. Второе уравнение называется функций инвестиций. Оно соотносит чистые инвестиции I с текущими и лаговыми прибылями Р и запасом капитала K в начале года: 62 Третье уравнение носит название уравнение спроса на труд. Оно соотносит фонд заработной платы в частном секторе W1 с текущими и лаговыми переменными, измеряющими частный продукт Е (определяемый как национальный доход Y плюс косвенные налоги на бизнес ТХ минус фонд оплаты труда в государственном секторе W2), и временем Т, где Т измеряется как текущий год (YEAR) минус 1931: Случайные остатки ε1t, ε2t, ε3t предполагаются сериально некоррелированными (т. е. некоррелированными во времени). Последние пять соотношений (4.4)–(4.8) представляют собой тождества. Первое тождество устанавливает, что совокупный национальный продукт есть сумма товаров и услуг, необходимых потребителям, плюс инвестиции и плюс чистый спрос правительства. Второе тождество постулирует, что совокупный доход – это сумма прибылей и заработных плат, а третье (не учитываемое в оценивании, но используемое в динамических «симуляционных» расчетах) определяет запас капитала на конец года как остаток капитала на конец года плюс чистые инвестиции за год. Последние два тождества определяют совокупный фонд заработной платы, как сумму фондов заработной платы частного и государственного секторов, и частный продукт, как совокупный продукт за вычетом фонда заработной платы в государственном секторе. Переменные в системах эконометрических уравнений подразделяются на эндогенные и экзогенные. Эндогенными переменными называются взаимозависимые переменные, которые определяются внутри модели (системы). Число эндогенных переменных, обозначаемых обычно буквой y, равно числу уравнений системы. Экзогенными (предопределенные) переменными называются переменные, которые определяются вне системы. Это независимые переменные, обозначаемые буквой x. К предопределенным переменным относятся и лаговые (значения переменных за предыдущие моменты времени) переменные системы. Разделение переменных на эндогенные и экзогенные зависит от теоретических рассуждений, лежащих в основе модели. Чтобы отразить влияние эндогенных переменных за предшествующие периоды уt–1 на уровень эндогенных переменных в текущем периоде уt, они вводятся в уравнения в качестве экзогенных переменных. Например, уровень ВВП текущего года (уt) не может считаться независимым от уровня ВВП в предыдущем году (уt–1). В рассмотренной выше модели Клейна: CNt, It, W1t, Yt, Рt, Кt, Wt, Et – эндогенные переменные; Gt, W2t, ТХt и (YEAR – 1931) – экзогенные переменные; Кt-1, Р t-1 и E t-1 – лаговые переменные. В общем случае система эконометрических уравнений с n зависимыми переменными yi имеет вид y1  b12  y 2  b13  y 3  ...  b1n  y n  a11  x1  ...  a1m  x m   1 ; y 2  b21  y1  b23  y 3  ...  b2 n  y n  a 21  x1  ...  a 2 m  x m   2 ; (4.10) ....................................................................................................... y n  bn1  y1  bn 2  y 2  ...  bnn 1  y n 1  a n1  x1  ...  a nm  x m   n ; 63 или в матричной форме BY + AX = ε, (4.11) где  1 b12 ... b1n  a11 a12 ... a1m  B  b21  1 ... b2 n  , A  a 21 a 22 ... a 2 m  , bn1 bn 2 ...  1 a n1 an 2 ... a nm   y1   x1   1  Y   y 2  , X   x2  ,    2   y n   yxm   n  (4.12) Система (4.10) называется системой взаимозависимых, одновременных уравнений, а также структурной формой модели, так как она показывает взаимное влияние между всеми переменными модели. Частными случаями системы (4.10) являются система независимых уравнений, в которой каждая зависимая переменная yi является функцией только предопределенных переменных хi y1  a11  x1  ...  a1m  xm   1 ; y 2  a 21  x1  ...  a 2 m  x m   2 ; ......................................................... (4.13) y n  a n1  x1  ...  a nm  xm   ; и система рекурсивных уравнений y1  a11  x1  ...  a1m  x m   1 ; y 2  b21  y1  a 21  x1  ...  a 2 m  x m   2 ; y 3  b31  y1  b32  y 2  a 31  x1  ...  a 3m  x m   3 ; (4.14) ...................................................................... y n  bn1  y1  bn 2  y 2  ...  bnn 1  y n 1  a n1  x1  ...  a nm  x m   n , когда каждая зависимая переменная yi является функцией только предопределенных переменных хi и зависимых переменных yi, определенных в предыдущих уравнениях системы. В системах независимых и рекурсивных уравнений отсутствует взаимное влияние зависимых переменных, предпосылки регрессионного анализа не нарушаются и поэтому для нахождения параметров аij и bij, называемых структурными коэффициентами, можно применять обычный МНК. В моделях 4.10, 4.13, 4.14 отсутствуют свободные члены в каждом уравнении системы, так как предполагается, что значения переменных предварительно центрированы (выражены в отклонениях от среднего уровня). Следует отметить, что структурная форма модели может включать не только уравнения, содержащие параметры (константы, подлежащие определению) и называемые поведенческими уравнениями, но и тождества, т. е. уравнения, не со- 64 держащие параметров и определяющие фиксированные отношения между переменными, например, соотношения (4.4) – (4.9). Наличие взаимозависимости между эндогенными переменными в системе одновременных уравнений (4.10) приводит к нарушению предпосылки о независимости объясняющих переменных и случайных членов, в результате чего обычный метод наименьших квадратов будет давать несостоятельные и смещенные оценки параметров. Если с помощью преобразований исключить зависимые переменные из правых частей уравнений (4.10), то полученная система уравнений называется приведенной формой модели (ПФМ) yˆ1   11  x1   12  x 2  ...   1m  x m ; yˆ 2   21  x1   22  x 2  ...   2 m  x m ; (4.15) ......................................................... yˆ n   n1  x1   n 2  x 2  ...   nm  x m , параметры которой ij являются алгебраическими функциями от структурных параметров и называются приведенными коэффициентами. Например, для конъюнктурной модели, определяемой соотношениями: Ct  a1  b11  Yt  b12  Ct 1  u1 (функция потребления); I t  a2  b21  rt  b22  I t 1  u 2 (функция инвестиций); rt  a3  b31  Yt  b32  M t  u3 (функция денежного рынка); Yt  Ct  I t  Gt (4.16) ( тождество дохода), где С – расходы на потребление, Y – ВВП, I – инвестиции, r – процентная ставка, М – денежная масса, G – государственные расходы, t и t–1 обозначают текущий и предыдущий периоды, u1, u2, u3 – случайные ошибки, приведенная форма модели будет иметь следующий вид: Ct  11  M t  12  Gt  13  Ct 1  14  I t 1   1 I t   21  M t   22  Gt   23  Ct 1   24  I t 1   2 rt   31  M t   32  Gt   33  Ct 1   34  I t 1   3 (4.17) Yt   41  M t   42  Gt   43  Ct 1   44  I t 1   4 По своей структуре приведенная форма модели представляет собой систему независимых уравнений, поэтому ее параметры ij можно оценивать с помощью обычного метода наименьших квадратов. Полученные численные значения параметров ij позволяют вычислять модельные значения эндогенных переменных через предопределенные переменные. На этом процесс построения модели не заканчивается, так как для исследователя наибольший интерес представляют значения именно структурных коэффициентов аij и bij, характеризующих внутренние взаимосвязи в системе и допускающих экономическую интерпретацию. 65 4.2. Оценка параметров структурной формы модели Получение оценок параметров приведенной формы модели, как уже отмечалось, затруднений не представляет. Следующим этапом должно быть определение оценок параметров структурной формы модели по оценкам приведенной формы модели. Здесь возникает проблема идентифицируемости, заключающаяся в том, что не всегда возможно по приведенным коэффициентам модели однозначно определить ее структурные коэффициенты. Это связано с тем, что в общем случае структурная и приведенная формы модели содержат разное число параметров п·(п–1) + n·т и n·т. Чтобы уравнять число параметров, необходимо предположить равенство нулю некоторых структурных коэффициентов модели либо наличие между ними определенных соотношений, например, а11 + b12 = 0. С позиции идентифицируемости можно выделить три вида структурных моделей: – идентифицируемые системы, в которых число параметров структурной и приведенной форм модели совпадает, и структурные коэффициенты модели однозначно оцениваются через параметры приведенной формы модели; – неидентифицируемые системы, в которых число структурных параметров превышает число приведенных, и структурные коэффициенты не могут быть получены из коэффициентов приведенной формы модели; – сверхидентифицируемые системы с числом приведенных параметров превышающих число структурных. В этом случае возможно неоднозначное определение значений структурных коэффициентов при полученных значениях приведенных коэффициентах. При исследовании структурной модели на идентифицируемость необходимо проверять каждое уравнение. Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо, и неидентифицируемой, если хотя бы одно из уравнений системы неидентифицируемо. Сверхидентифицируемая модель содержит только идентифицируемые и сверхидентифицируемые уравнения. Необходимое условие идентифицируемости. Обозначим через H число эндогенных переменных в уравнении, а через D – число предопределенных переменных, отсутствующих в уравнении, но присутствующих в системе. Необходимое условие идентифицируемости формулируется следующим образом: – уравнение идентифицируемо, если D+1 = H; – уравнение неидентифицируемо, если D+1 < H; – уравнение сверхидентифицируемо, если D+1 > Н. Иными словами, для того, чтобы уравнение было идентифицируемо, необходимо, чтобы число предопределенных переменных модели, отсутствующих в данном уравнении, было на единицу меньше, чем число эндогенных переменных, входящих в данное уравнение. Например, для первого уравнения системы (4.16) выполняются соотношения Н = 2, D = 3. Следовательно, D+1 > Н, и первое уравнение системы (4.16) сверхидентифицируемо. 66 Достаточное условие идентифицируемости. Уравнение, соответствующее переменной yi, идентифицируемо, если ранг матрицы, составленной из коэффициентов при переменных модели, отсутствующих в исследуемом уравнении, но входящих в остальные уравнения системы, равен числу эндогенных переменных системы без единицы Rank (B Ai )  n  1 , где B A – блочная матрица коэффициентов, составленная из матриц B и A; B Ai – матрица, полученная из матрицы B A в результате удаления i-строки и столбцов, соответствующих объясняющим переменным входящим в i-уравнение. Проверим достаточное условие для первого уравнения системы (4.16) . Эндогенные переменные модели: Сt, It , rt , Yt. Предопределенные переменные модели: Мt , Gt , Ct–1, It–1. Общая матрица B A коэффициентов уравнений системы (4.16), столбцы которой соответствуют переменным Сt, It , rt , Yt, Мt , Gt , Ct–1, It–1 имеет вид B A = –1 b12 b11 –1 1 b21 –1 1 b22 b31 –1 b32 1 Первое уравнение содержит переменные Сt, Yt, Ct–1. Запишем матрицу B A1 , полученную вычеркиванием из матрицы B A первой строки и столбцов, соответствующих переменным Сt, Yt, Ct–1 B A1 = –1 1 b21 –1 b22 b32 1 Ранг матрицы равен трем, т. к.  1 0 b22  Det b32 0 0   b22  b32  0   0 1 0  Следовательно, достаточное условие идентифицируемости для первого уравнения системы (4.16) выполняется. 4.3. Косвенный метод наименьших квадратов Наиболее часто для оценки параметров системы одновременных уравнений применяются косвенный, двухшаговый и трехшаговый методы наименьших квадратов (КМНК, ДМНК и ТМНК). Первый из них используется только в случае идентифицируемых уравнений. Реже применяется универсальный, но очень сложный в вычислительном отношении метод максимального правдоподобия. 67 Косвенный МНК используется в случае идентифицируемой системы уравнений и заключается в следующем: 1) исходная система уравнений преобразуется в приведенную форму модели и определяются численные значения параметров ij для каждого ее уравнения в отдельности с помощью традиционного МНК; 2) путем алгебраических преобразований осуществляется переход от приведенной формы к уравнениям структурной формы модели, что автоматически дает численные оценки структурных параметров. Например, требуется найти структурные параметры модели y1  b12 y 2  a11 x1   1 ; y 2  b21 y1  a 22 x2   2 , (4.18) при условии, что полученная приведенная форма модели описывается уравнениями y1  2  x1  4  x2 ; y 2  x1  x2 . Проверим идентифицируемость уравнений. В модели имеется две эндогенные переменные у1, у2 и две экзогенные переменные x1, x2. В первое уравнение входят две эндогенные переменные у1, у2 и одна экзогенная переменная x2. Следовательно, H = 2, D = 1 и H = D + 1, и первое уравнение – идентифицируемо. Идентифицируемость второго уравнения доказывается аналогично. Для нахождения структурных коэффициентов можно применить косвенный МНК, т. е. получить их с помощью преобразования приведенных уравнений. Для этого из 2-го уравнения приведенной формы выразим переменную x 2  x1  y 2 и подставим в 1-е уравнение приведенной формы модели y1  2  x1  4  ( x1  y 2 ) или y1  4  y 2  6  x1 . Сравнивая это уравнение с 1-м уравнением структурной формы (4.18) y1  b12 y2  a11 x1 , определим значения структурных параметров b12  4; a11  6 . Далее из первого уравнения приведенной формы выразим переменную x1  1 y1  2  x2 и подставим во 2-е уравнение приведенной формы модели 2 1 1 y 2  ( y1  2  x 2 )  x 2 или y 2  y1  3  x 2 . 2 2 Сравнивая последнее уравнение с 2-м структурной формы (4.16) y2  b21 y1  a22 x2 , получим 1 b21  ; a 22  3 . 2 Таким образом, структурная форма модели определяется уравнениями y1  4  y 2  6  x1   1 (4.19) 1 y 2  y1  3  x2   2 2 68 4.4. Двухшаговый метод наименьших квадратов Двухшаговый МНК основан на использовании, так называемых, «инструментальных» переменных и является универсальным методом. Как уже отмечалось, в системе одновременных уравнений нарушаются предпосылки о независимости факторов (выражаемых эндогенными переменными) и ошибок уравнений. Для преодоления этой трудности можно использовать замену эндогенных переменных уi в правых частях уравнений модели на вспомогательные «инструментальные» переменные ŷi, которые были бы близки к исходным эндогенным переменным и при этом не зависели бы от ошибок уравнений. В качестве таких переменных предлагается использовать переменные, определяемые уравнениями приведенной формы модели (4.15). Согласно двухшаговому МНК, численные значения структурных параметров определяются в следующей последовательности: 1) Исходная система уравнений преобразуется в приведенную форму модели и определяются численные значения параметров ij для каждого ее уравнения в отдельности с помощью традиционного МНК; 2) По полученным уравнениям приведенной формы находятся расчетные значения инструментальных переменных ŷi, соответствующих эндогенным переменным уi для каждого наблюдения; 3) С помощью обычного МНК определяются параметры каждого структурного уравнения в отдельности, используя в качестве факторов фактические значения предопределенных переменных и полученные расчетные значения инструментальных переменных ŷi. Рассмотрим в качестве примера модифицированную модель Кейнса [5] C t  a1  b11  Yt   1 ; I t  a 2  b21  Yt  b22  Yt 1   2 ; (4.20) Yt  C t  I t  G t , где Y – валовой национальный доход; С – личное потребление; I – инвестиции; G – государственные расходы; t и t–1 обозначают текущий и предыдущий периоды; 1 и 2 – случайные ошибки. Информация об уровнях всех показателей за двенадцать лет дана в табл. 4.1. Таблица 4.1 Данные для макроэкономической модели Кейнса Год наблюдения 1 2 3 4 5 6 7 8 9 10 11 12 Ct 1016,6 1435,9 1776,1 2003,8 3265,7 4476,9 5886,9 7443,2 9024,8 11401,4 14363,5 17742,6 It 267,0 376,0 408,8 407,1 670,4 1165,2 1504,7 1762,4 2186,4 2865,0 3611,1 4580,5 Yt Yt-1 1412,7 1978,9 2292,0 2514,4 4632,0 7116,6 8819,9 10627,5 12886,1 16679,9 21079,5 26009,7 – 1412,7 1978,9 2292,0 2514,4 4632,0 7116,6 8819,9 10627,5 12886,1 16679,9 21079,5 Gt 486,1 652,7 839,0 842,1 1258,0 1960,1 2419,4 3422,3 3964,9 4669,7 6820,6 8375,2 Ŷt – 2243,7 2899,5 3158,6 3771,6 6230,0 8736,4 11168,2 13207,8 15784,2 21114,7 26321,7 69 В модели имеются три эндогенные переменные Yt, Сt, It и две предопределенные переменные Yt-1 и Gt. Первое уравнение сверхидентифицируемо, т. к. H = 2, D = 2 и H < D + 1. Второе уравнение идентифицируемо, т. к. H = 2, D = 1 и H = D + 1. Применяя обычный МНК получим систему приведенных уравнений C t  377,5  0,582  Yt 1  0,632  Gt ; I t  19,3  0,154  Yt 1 0,155  Gt ; (4.21) Yt  412,5  0,817  Yt 1  1,037  Gt . Подставляя данные наблюдений из таблицы 4.1 в 3-е уравнение приведенной формы (4.21) определим расчетные значения инструментальной переменной Ŷi (табл. 4.1), соответствующей эндогенной переменной Y. Применяя МНК последовательно к уравнениям структурной формы модели C t  a1  b11  Yˆt   1 ; I t  a 2  b21  Yˆt  b22  Yt 1   2 получим окончательный вид структурной формы модели C t  97,66  0,678  Yt   1 ; I t  42,47  0,150  Yt  0,031  Yt 1   2 . (4.22) Из уравнений (4.22) следует, что 67,8 % прироста национального дохода идет на увеличение потребления. На увеличение инвестиций направляется соответственно 15 % и 3,1 % прироста национального дохода текущего года и предыдущего года. 4.5. Трехшаговый метод наименьших квадратов Более эффективным, но требующим существенно больших вычислительных затрат, является трехшаговый метод наименьших квадратов (ТМНК) [3]. Он заключается в том, что двухшаговый метод наименьших квадратов применяется не к исходным уравнениям модели, а к уравнениям, преобразованным согласно обобщенному методу наименьших квадратов. Трехшаговый МНК является итерационной процедурой: 1) Параметры модели определяются обычным или двухшаговым МНК. 2) Вычисляются ошибки модели и определяется оценка корреляционной матрицы ошибок. 3) Уравнения преобразуются согласно обобщенному МНК. 4) Применяется двухшаговый МНК к преобразованным уравнениям и получается улучшенная модель (с улучшенными параметрами). 5) Процесс повторяется, начиная со второго шага, пока не будет достигнута заданная точность (либо превышено заданное количество итераций). Если случайные члены структурной модели не коррелируют, то трехшаговый метод сводится к двухшаговому. 70 Контрольные вопросы 1. В каких случаях модель строится в виде систем эконометрических уравнений? 2. Какие проблемы возникают при оценке параметров систем эконометрических уравнений? 3. Какие переменные называются эндогенными и предопределенными? 4. Что представляет собой структурная форма модели? 5. Что представляет собой приведенная форма модели? 6. В чем заключается проблема идентифицируемости модели? 7. Как проверяется идентифицируемость уравнений модели? 8. Какие методы применяются для нахождения структурных коэффициентов модели для различных видов систем уравнений? 9. Что представляет собой косвенный МНК? 10. Что представляет собой двухшаговый МНК? 11. Какие требования предъявляются к инструментальным переменным в двухшаговом МНК? 71 5. Моделирование одномерных временных рядов и прогнозирование 5.1. Составляющие временного ряда Временным рядом (рядом динамики, динамическим рядом) называется упорядоченная во времени последовательность численных показателей{(yi,ti), i=1,2,...,n}, характеризующих уровни развития изучаемого явления в последовательные моменты или периоды времени (табл. 5.1). Таблица 5.1 Динамика ВВП Российской Федерации ВВП, млрд руб. 2000 г. 2001 г. 2002 г. 2003 г. 2004 г. 7305,6 8943,6 10834,2 13285,2 17048,1 Величины yi называются уровнями ряда, а ti – временными метками (моменты или интервалы наблюдения). Обычно рассматриваются временные ряды с равными интервалами между наблюдениями, в качестве значений ti берутся порядковые номера наблюдений и временной ряд представляется в виде последовательности y1 , y 2 ,..., y n , где n – количество наблюдений. Целью исследования временного ряда является выявление закономерностей в изменении уровней ряда и построении его модели в целях прогнозирования и исследования взаимосвязей между явлениями. При исследовании экономического временного ряда его обычно представляют в виде совокупности трех составляющих: – долговременной тенденции (Т), т. е. устойчивого увеличения или уменьшения значений уровней ряда (тренда); – периодических колебаний (S); – случайных колебаний (E). На рис. 5.1 показан график временного ряда, на котором прослеживаются все три составляющие. 45 40 35 30 25 20 15 10 5 10 20 30 40 50 60 Рис. 5.1. Временной ряд Различным образом объединяя эти компоненты, можно получить различные модели временного ряда (Y): – аддитивную (5.1) Yt = Tt + St + Et; 72 – мультипликативную (5.2) Yt = Tt ·St · Et; – смешанную (5.3) Yt = Tt · St + Et. В экономике периодические колебания принято подразделять на сезонные, у которых период колебаний не превышает одного года (цены на сельскохозяйственную продукцию), вызванные климатическими или социальноэкономическими причинами, и циклические с периодом колебаний несколько лет, связанные с циклами деловой активности. Основная задача эконометрического исследования временного ряда заключается в выявлении и придании количественного выражения составляющим его отдельным компонентам. Как правило, наличие той или иной составляющей можно определить с помощью визуального анализа графика временного ряда (рис. 5.1). Перед построением модели исходные данные проверяются на сопоставимость (применение одинаковой методики получения или расчета данных), однородность (отсутствие случайных выбросов), устойчивость (наличие закономерности в изменении уровней ряда) и достаточность (число наблюдений должно в 7–10 превосходить число параметров модели). 5.2. Автокорреляция уровней временного ряда Важной особенностью временных рядов по сравнению с данными наблюдений, относящихся к одному периоду времени, является, как правило, наличие связи между последовательными уровнями ряда, вызванное действием какихлибо долговременных причин, что приводит к наличию таких составляющих ряда, как долговременная тенденция и периодическая составляющая. Корреляционная зависимость между последовательными уровнями временного ряда называется автокорреляцией уровней временного ряда. Степень тесноты автокорреляционной связи между уровнями ряда может быть определена с помощью коэффициентов автокорреляции, т. е. коэффициентов линейной корреляции между уровнями исходного временного ряда и уровнями ряда, сдвинутыми на несколько шагов назад во времени. n rτ   ( yt  y1τ )  ( yt τ  y 2 τ ) t  τ 1 n n t  τ 1 t  τ 1 , (5.4)  ( yt  y1τ ) 2   ( yt τ  y 2 τ ) 2 где τ – величина сдвига, называемая лагом, определяет порядок коэффициента автокорреляции, n y1τ   yt t  τ 1 n  yt τ t  τ 1 ; y2τ  . n  n  Функцию r ( )  rτ называют автокорреляционной функцией временного ряда, а ее график – коррелограммой. 73 Анализ автокорреляционной функции и коррелограммы позволяет выявить структуру ряда, т. е. определить присутствие в ряде той или иной компоненты. Так, если наиболее высоким оказался коэффициент автокорреляции первого порядка, то исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка т, то ряд содержит циклические колебания с периодичностью в т моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то ряд не содержит тенденции и циклических колебаний. Необходимо подчеркнуть, что линейные коэффициенты автокорреляции характеризуют тесноту только линейной связи текущего и предыдущих уровней ряда. Поэтому по коэффициентам автокорреляции можно судить только о наличии или отсутствии линейной (или близкой к линейной) зависимости. Для проверки ряда на наличие нелинейной тенденции рекомендуется вычислить линейные коэффициенты автокорреляции для временного ряда, состоящего из логарифмов исходных уровней. Отличные от нуля значения коэффициентов автокорреляции будут свидетельствовать о наличии нелинейной тенденции. 5.3. Моделирование тенденции временного ряда Моделирование тенденции временного ряда является важнейшей классической задачей анализа экономических временных рядов. Решение этой задачи начинается, как правило, с проверки наличия тенденции и формулирования предложений о характере долговременной тенденции, после чего уже строится модель тенденции как функции времени. 5.3.1. Методы определения наличия тенденции Для диагностирования наличия тенденции наиболее широко применяются метод сравнения средних и метод Фостера-Стюарта. Метод сравнения средних. Метод сравнения средних применим для выявления монотонной тенденции. Временной ряд разбивается на две примерно равные части y1 , y 2 ,..., y n1 и y n1 1 , y n1  2 ,..., y n  n1  n2 с количеством уровней n1 и n2 и для каждой части вычис- ляются средние ( y1 , y 2 ) и выборочные дисперсии (s12, s22) соответственно. Далее рассчитывается значение критерия Стьюдента по формуле y1  y 2 (5.5)  , 2 2 s1 s  2 n1 n2 если предполагается, что значения дисперсий на этих участках не равны между собой, т. е. σ21 ≠ σ22, и по формуле y y n1 n2  1 2 2 , (5.6) n1  n2 s где s2 – общая выборочная дисперсия ряда, если предполагается, что дисперсии одинаковы σ21 = σ22 = σ2. 74 Нулевая гипотеза о равенстве средних (об отсутствии тенденции) отвергается, если выполняется условие τ > t1α, m, (5.7) где t1α, m – табличное значение t-критерия Стьюдента при уровне значимости α и числе степеней свободы m = n1 + n2 – 2. Метод Фостера-Стюарта. Является более универсальным и дает более надежные результаты. Каждому уровню ряда yi, начиная со второго, ставится в соответствие два значения pi qi по следующим правилам: pi = 1, если уровень yi меньше всех предыдущих уровней, т. е. yi  y1, y2 ,...,yi1 , и pi = 0 в противном случае; qi = 1, если уровень yi больше всех предыдущих уровней, т. е. y i  y1 , y 2 ,..., y i 1 , и qi = 0 в противном случае. Вычисляется статистика n tp   ( pi  q i ) i 2 . (5.8) 1 2 i 2 i Гипотеза об отсутствии тенденции отвергается, если выполняется условие tp > t1α, n1, где t1α, n1 – табличное значение t-критерия Стьюдента при уровне значимости α и числе степеней свободы n – 1. n 5.3.2. Сглаживание временного ряда по методу скользящей средней Цель сглаживания временного ряда заключается в получении ряда с меньшим разбросом уровней, что в ряде случаев позволяет на основе визуального анализа сделать вывод о наличии тенденции и ее характерных особенностях. Сглаживание временного ряда по методу скользящей средней заключается в замене исходных уровней ряда yt сглаженными значениями y′t, которые получаются как среднее значение определенного числа уровней исходного ряда, симметрично окружающих значение yt. В результате получается временной ряд y′t, меньше подверженный колебаниям. Если индивидуальный разброс значений временного ряда около своего среднего значения a характеризуется дисперсией σ2, то средняя из m членов ряда ( y1  y 2  ...  y m ) / m будет иметь в m раз меньшую дисперсию (σ2/m). Для вычисления сглаженных значений y′t по методу простой скользящей средней используются следующие формулы: 1) Нечетный интервал сглаживания g = 2p+1 (интервал сглаживания – количество исходных уровней ряда (yt), используемых для сглаживания): 75 t p  yi y 't  i t  p  y t  p  y t  p 1  ...  y t  p 1  y t  p , (5.9) 2p 1 2p 1 где у t – фактическое значение уровня исходного ряда в момент t; y′t – значение скользящей средней в момент t; 2р+1- длина интервала сглаживания. Формула (5.9) при интервалах сглаживания g = 3 и g = 5 принимает вид y  y t  y t 1 y  y t 1  y t  y t 1  y t  2 y ' t  t 1 ; y't  t 2 . 3 5 2) Четный интервал сглаживания g = 2p: 1 1 yt  p  yt  p 1  ...  yt 1  yt  yt 1  ...  yt  p 1  yt  p 2  y 't  2 2p (5.10) t  p 1 1 1 yt  p   yi  yt  p 2 2 i t  p 1 .  2p Формула (5.10) при интервалах сглаживания g = 2 и g = 4 принимает вид 1 1 1 1 y t 1  y t  y t 1 y t  2  y t 1  y t  y t 1  y t  2 2 2 ; y 't  2 . y 't  2 2 4 При использовании скользящей средней с длиной активного участка g = 2p+1 первые и последние р уровней ряда сгладить нельзя, их значения теряются. Очевидно, что потеря значений последних точек является существенным недостатком, т. к. для исследователя последние «свежие» данные обладают наибольшей информационной ценностью. Для восстановления потерянных значений временного ряда можно использовать следующий прием: а) Вычисляется средний прирост ∆у на последнем активном участке ( y n  g ,..., y n ) y  y n  y n g g 1 , где g – длина активного участка. б) Определяются значения последних р = (g–1)/2 уровней сглаженного временного ряда с помощью последовательного прибавления среднего абсолютного прироста ∆у к последнему сглаженному значению y′n–p y ' n  p 1  y ' n  p   y , y ' n  p  2  y ' n  p 1   y , ..., y ' n  y ' n 1   y . Аналогичная процедура применяется для восстановления первых р уровней временного ряда. Отметим, что важным свойством процедуры сглаживания является полное устранение периодических колебаний из временного ряда, если длина интервала сглаживания берется равной или кратной периоду колебаний. Это обстоятельство используется при выделении периодической составляющей временного ряда (п. 5.) 76 5.3.3. Метод аналитического выравнивания Аналитическим выравниванием временного ряда называют нахождение аналитической функции ŷ = f(t), характеризующей основную тенденцию изменения уровней ряда с течением времени. Сама функция f(t) носит название кривой роста. При аналитическим выравнивании (нахождении аналитической функции ŷ = f(t)) исходят из предположения, что аддитивная модель временного ряда может быть представлена как сумма двух компонент y(t) = f(t) + εt, (5.11) где εt – случайная компонента с нулевой средней и постоянной дисперсией выражает ошибку модели из-за действия случайных факторов. Чаще всего в качестве кривой роста применяются следующие функции:  линейная yt  a0  a1t ; (5.12)  парабола второго и более высоких порядков y t  a 0  a1t 1  a 2 t 2  ...  a k t k ; (5.13)  гиперболическая yt  a0  a1 / t ; (5.14) a a t  экспонента y t  e 0 1 ; (5.15)  потенциальная y  a  a t ; (5.16) t 1  модифицированная экспонента y t  K  a 0  a1t ; a  степенная y t  a 0  t 1 ; K  логистическая кривая y t  a1t ; 1  a0 e (5.17) (5.18) (5.19) t  кривая Гомперца y t  K  a 0 a1 . (5.20) Построение таких функций ничем не отличается от построения уравнений парной регрессии (линейной или нелинейной) с учетом того, что в качестве зависимой переменной используются фактические уровни временного ряда yt, а в качестве независимой переменной моменты времени t = 1,2, ..., n. Для построения кривой роста необходимо выбрать вид аналитической зависимости и затем оценить значения ее параметров. Для определения вида тенденции (аналитической зависимости) применяются такие методы, как – качественный анализ изучаемого процесса; – построение и визуальный анализ графика зависимости уровней ряда от времени; – расчет и анализ показателей динамики временного ряда (абсолютные приросты, темпы роста и др.); – анализ автокорреляционной функции исходного и преобразованного временного ряда; 77 – метод перебора, при котором строятся кривые роста различного вида с последующим выбором наилучшей на основании значения скорректированного коэффициента детерминации R 2 (3.28). 5.3.4. Выбор вида тенденции Выбор вида тенденции на основе качественного анализа. Социальноэкономические процессы в зависимости от характера их протекания можно разделить на три класса (рис. 5.2): I) Процессы с монотонным характером развития и отсутствием пределов роста (рис. 5.2, а). Эти условия справедливы для поведения многих экономических показателей, например, для большинства натуральных показателей промышленного производства. В этом случае для моделирования тенденции могут использоваться: линейная yt  a0  a1t , параболическая y t  a 0  a1t 1  a 2 t 2  ...  a k t k , a a t a экспоненциальная y t  e 0 1 , степенная y t  a 0  t 1 функции. y y y К К(a0) t t а) I класс б) II класс t в) III класс Рис. 5.2. Схемы протекания процессов II) Процессы, которые имеют предел роста (падения) в исследуемом периоде, так называемые процессы с «насыщением» (рис. 5.2, б). Развитие процесса происходит под влиянием некоторых ограничивающих факторов, величина воздействия которых растет вместе с ростом достигнутого уровня. С такими процессами часто сталкиваются в демографии, при изучении потребностей в товарах и услугах (в расчете на душу населения), при исследовании эффективности использования ресурсов и т. д. Примерами показателей, для которых могут быть указаны пределы роста, являются среднедушевое потребление определенных продуктов питания, расход удобрений на единицу площади и т. п. В этом случае для моделирования тенденции используются гиперболическая a функция y t  a 0  1 либо модифицированная экспонента y t  K  a 0  a1t с паt раметром a1, удовлетворяющим условию 0 < a1 < 1. 78 В случае гиперболы параметр a0 равен пределу роста, к которому значение уровня процесса приближается (при росте t) снизу в случае a1 < 0, либо сверху при a1 > 0 (рис. 5.2 б). В случае модифицированной экспоненты параметр K равен пределу роста, к которому значение уровня процесса приближается (при росте t) снизу в случае a0 < 0, либо сверху при a0 > 0 (рис. 5.2, б). При решении экономических задач часто можно определить значение предела роста исходя из свойств прогнозируемого процесса (например, коэффициент использования оборудования не может превышать 1 и т. п.). Иногда значение предела роста задается экспертным путем. III) Так называемые S-образные процессы (рис. 5.2, в), представляющие как бы два последовательных лавинообразных процесса (когда прирост зависит от уже достигнутого уровня): один с ускорением развития, а другой – с замедлением. С такими процессами часто сталкиваются в демографических исследованиях, в страховых расчетах, при решении задач прогнозирования научнотехнического прогресса, при определении спроса на новый вид продукции. К S-образным процессам можно отнести процесс развитие новой отрасли (нового производства). Вначале производство развивается очень медленно вследствие того, что технические методы производства еще недостаточно разработаны, издержки производства высоки и спрос на рынке на данный товар еще очень мал, поэтому производство развивается медленно. В дальнейшем, благодаря усовершенствованию технических методов изготовления, переходу к массовому производству и увеличению емкости рынка для данного товара производство растет быстрее. Затем наступает период насыщения рынка, рост производства все более замедляется, и, наконец, почти прекращается. Наступает стабилизация производства на определенном уровне. Следует отметить, что выявленные закономерности развития следует обобщать с определенной осторожностью и, причем, только для достаточно коротких периодов, так как выявленная тенденция развития производства может быть нарушена вследствие внешних факторов, например, технического переворота в данной отрасли или связанных с нею. Для моделирования тенденции S-образных процессов следует использоK вать либо логистическую функцию y t  a1t (с параметром a1 < 1), либо 1  a0 e t кривую Гомперца y t  K  a 0 a1 с параметрами, удовлетворяющими условиям 0 < a0, a1 < 1. Предел роста в обоих случаях равен параметру K. Выбор вида тенденции на основе анализа показателей динамики временного ряда. Исследуя последовательные разности уровней ряда yt первого, второго и следующих порядков ∆yt = yt – yt-1 – последовательные разности первого порядка, 2 ∆ yt = ∆yt – ∆yt-1 – последовательные разности второго порядка и т. д., можно сделать вывод о наличии тенденции, описываемой полиномиальной функцией от времени t. 79 Если исходный временной ряд содержит тенденцию, а временной ряд последовательных разностей первого порядка не содержит тенденцию, то можно сделать вывод, что тенденция линейно зависит от времени yt  a0  a1t . Коэффициент a1 в данном случае численно равен среднему абсолютному приросту уровня явления за единицу измерения временного параметра t (за сутки, неделю, месяц, год и т. д.). Если исходный временной ряд и временной ряд последовательных разностей первого порядка содержат тенденцию, а временной ряд последовательных разностей второго порядка не содержит тенденцию, то можно сделать вывод, что тенденция задается полиномом второго порядка от времени y t  a 0  a1t  a 2 t 2 . Относительно тенденции в виде полинома от t более высокой степени вывод делается аналогично. Исследуя отношения последовательных уровней ряда (цепные коэффициенты роста) kt = yt/yt-1, можно сделать вывод о наличии тенденции, задаваемой экспоненциальной функцией от времени t. Если исходный временной ряд содержит тенденцию, а временной ряд коэффициентов роста не содержит тенденцию, то можно сделать вывод, что тенденция экспоненциально зависит от времени. Иными словами, тенденция имеет вид экспоненциальной функции y t  a 0  a1t . Величина a1 в данном случае численно равна среднему коэффициенту роста уровня явления за единицу измерения временного параметра t (за сутки, неделю, месяц, год и т. д.). Аналогичный результат можно получить, анализируя первые последовательные разности временного ряда, составленного из логарифмов от исходных уровней. Если наблюдается линейная зависимость между логарифмами уровней ряда ln y t и соответствующих промежутков времени ln t , то рекомендуется исa пользовать степенную функцию y t  a 0  t 1 . 5.3.5. Оценка адекватности и точности модели тенденции После построения модели тенденции осуществляется проверка ее качества по характеристикам адекватности (соответствия данным наблюдения) и точности. Проверка адекватности модели основывается на анализе ряда остатков et  y t  yˆ t . (i = 1, 2, …, n) (5.21) Модель считается адекватной, если остатки:  являются случайными;  распределены по нормальному закону;  имеют равное нулю среднее значение e = 0;  независимы между собой. 1) Проверка случайности остатков заключается в установлении факта отсутствия или наличия тенденции остатков. Для этой цели может использоваться критерий серий. Предварительно определяется медиана em упорядоченного ряда остатков. Каждому элементу ряда остатков et ставится в соответствие знак 80 «+», если et > em, и знак «–», если et < em. Непрерывно идущую последовательность одинаковых знаков принято называть серией. Определяется максимальная длина серии Lmax и число серий V. Остатки считаются случайными на уровне значимости 0,05, если одновременно выполняются два условия Lmax  3,3(lg n  1) , 5.22) 1  V   (n  1  1,96 n  1)  . (5.23) 2  2) Нормальность распределения остатков считается установленной (приближенно) если одновременно выполняются следующие неравенства: 6  1,5 Ý , (5.24) n 1 где А – выборочная характеристика асимметрии, Э – выборочная характеристика эксцесса, δA, δэ – среднеквадратические ошибки выборочных характеристик асимметрии и эксцесса, определяемые соотношениями 1 n 3 1 n 3  et  et n t 1 n t 1 (5.25) ;  3; A Ý 1 n 2 1 n 2 (  et ) (  et ) n t 1 n t 1 A  1,5 A ; Ý 24n(n  2)(n  3) 6(n  2) (5.26) , ; Ý  (n  1)(n  3) (n  1) 2 (n  3)(n  5) Если же выполняется хотя бы одно из неравенств 6 A  2 A ; Э  2 Э , (5.27) n 1 то гипотеза о нормальном характере распределения остатков отвергается. Другие случаи требуют дополнительной проверки с помощью более мощных критериев. 3) Проверка равенства нулю среднего значения ряда остатков e = 0 осуществляется с помощью критерия Стьюдента. Гипотеза о равенстве нулю e = 0 отвергается, если выполняется условие e tp  n  t1 ,n 1 , (5.28) se где 1 n se  ( et  e ) 2 .  n  1 t 1 4) Под независимостью ряда остатков понимается отсутствие в нем автокорреляции, т. е. отсутствует зависимость каждого значения ряда от предыдущих значений. Если вид функции, описывающей систематическую составляющую, выбран неудачно, то последовательные значения ряда остатков могут коррелировать между собой. A  81 Для проверки ряда остатков на отсутствие автокорреляции уровней остатков используется критерий Дарбина-Уотсона. Этот критерий основан на расчете величины n d  (et  et 1 ) 2 i 2 n  et , (5.29) 2 i 1 представляющей собой отношение суммы квадратов разностей последовательных значений остатков к остаточной сумме квадратов по модели регрессии. Между критерием Дарбина–Уотсона d и коэффициентом автокорреляции остатков первого порядка re1 имеет место следующее соотношение: d  2  (1  r1e ). (5.30) Таким образом, если в остатках существует полная положительная автокорреляция и re1 = 1, то d = 0. Если в остатках полная отрицательная автокорреляция, то re1 = –1 и, следовательно, d = 4. Если автокорреляция остатков отсутствует, то re1 = 0 и d = 2. Величина d изменяется в диапазоне 0  d  4. Применение критерия Дарбина-Уотсона для выявления автокорреляции остатков осуществляется в следующей последовательности. а) Выдвигается нулевая гипотеза Н0 об отсутствии автокорреляции остатков. Альтернативные гипотезы Н1 и Н1* состоят, соответственно, в наличии положительной или отрицательной автокорреляции в остатках. б) По таблицам критерия Дарбина-Уотсона (см. приложение) определяются критические значения критерия dL и dU для заданного числа наблюдений n, числа факторов модели k и уровня значимости . Этими значениям числовой промежуток [0;4] разбивается на пять отрезков (0, dL), (dL, dU), (dU, 4-dU), (4-dU, 4-dL), (4-dL, 4) (рис. 5.3). в) Выдвинутые гипотезы принимаются или отклоняются с вероятностью (1–) в зависимости от того, в какой отрезок попадет значение критерия d: (0, dL) – принимается H1, остатки имеют положительную корреляцию; (dL, dU) – зона неопределенности (dU, 4–dU) – принимается H0, автокорреляция остатков отсутствует; (4–dU, 4–dL) – зона неопределенности (4–dL, 4) – принимается H*1, остатки имеют отрицательную корреляцию. Применение критерия иллюстрирует рис. 5.2. Есть положительная автокорреляция остатков. H0 отклоняется. С вероятностью Р = (1–) принимается Зона неопределенности Нет оснований отклонять H0 (автокорреляция остатков отсутствует) Зона неопределенности H1 dL dU 2 4-dU Есть отрицательная автокорреляция остатков. H0 отклоняется. С вероятностью Р = (1-) принимается H1* 4-dL Рис. 5.3. Алгоритм проверки гипотезы о наличии автокорреляции остатков 4 82 К недостаткам критерия Дарбина-Уотсона относится наличие области неопределенности и то, что осуществляется проверка зависимости между ближайшими уровнями ряда. Другим методом проверки наличия автокорреляции остатков является тест серий (Бреуша-Годфри), основанный на оценке значимости коэффициентов авторегрессионного уравнения et  1et 1   2 et  2  ...   k et  k , (5.31) полученных методом наименьших квадратов. Наличие значимых коэффициентов говорит об имеющейся автокорреляции остатков и ее характере. Оценка точности модели тенденции заключается в оценке близости модельных значений тенденции к фактическим уровням ряда и осуществляется с помощью вычисления таких показателей, как: 2  дисперсия остатков  îñò ; 1 n y t  yˆ t  средняя ошибка аппроксимации A   ; n t 1 y t  коэффициент детерминации R2. 5.4. Моделирование периодических колебаний 5.4.1. Выделение периодической компоненты по методу скользящей средней Простейшим приемом выделения периодической компоненты основано на использовании сглаживания временного ряда по методу простой скользящей средней. Предварительно следует определиться с видом модели временного ряда – аддитивной или мультипликативной. Это можно сделать на основе анализа график временного ряда. Если амплитуда периодических колебаний примерно постоянна, то следует выбрать аддитивную модель Y = T + S + E, в которой амплитуда колебаний периодической компоненты предполагается постоянной, не зависящей от времени. Если амплитуда периодических колебаний возрастает с ростом уровней ряда, то следует выбрать мультипликативную модель временного ряда Y = T · S · E. Выделение периодической компоненты основывается на том, что если исходный временной ряд содержит периодическую компоненту с периодом g, то сглаженный по методу простой скользящей средней временной с интервалом сглаживания g такой компоненты уже не содержит. Таким образом, в случае аддитивной модели периодическая компонента выделяется путем нахождения разности между соответствующими уровнями исходного и сглаженного ряда. В случае мультипликативной модели периодическая компонента выделяется путем нахождения отношения между соответствующими уровнями исходного и 83 сглаженного ряда. Затем вычисляется средние значения, соответствующие наблюдениям внутри одного периода колебаний. 5.4.2. Моделирование сезонных колебаний с помощью фиктивных переменных Рассмотрим метод моделирования временного ряда, содержащего сезонные колебания, основанный на включении в модель фиктивных переменных. Количество фиктивных переменных принимается равным числу наблюдений в пределах одного цикла колебаний без единицы. Например, при моделировании поквартальных данных необходимо ввести три дополнительные переменные 1, весна, z1   0, не весна, 1, лето, z2   0, не лето, 1, осень, z3   0, не осень. (5.32) Зиме в этом случае соответствуют нулевые значения всех фиктивных переменных. Уравнение регрессии с учетом фиктивных переменных принимает вид y  a  b  t  c1  z1  c 2  z 2  c3  z 3   . (5.33) Коэффициенты ci характеризуют отклонение уровней первых трех сезонов по отношению к последнему. Поэтому модель с фиктивными переменными может рассматриваться как частный случай аддитивной модели временного ряда. 5.4.3 Моделирование сезонных колебаний с помощью гармонического анализа Согласно гармоническому анализу, временной ряд представляется как совокупность гармонических колебательных процессов. Для каждой точки этого ряда справедливо выражение 2 2 yt  f (t )   (ak cos(kt )  bk sin( kt )). (t  1, 2, ..., n) (5.34) n n k 1 Здесь уt – фактический уровень ряда в момент (интервал) времени t; f(t) – выравненный уровень ряда в тот же момент времени, аk, bk – параметры колебательного процесса (гармоники) с номером k, в совокупности оценивающие размах (амплитуду) отклонения от общей тенденции и сдвиг колебаний относительно начальной точки. Общее число колебательных процессов, которые можно выделить для ряда, состоящего из n уровней, равно n/2. Обычно ограничиваются меньшим числом наиболее важных гармоник. Параметры гармоники с номером k определяются по формулам: 84  t  y t  f (t ); 2 n 2 a k    t  cos(kt ); (k  1, 2, ..., n / k  1) n t 1 n bk  2 n 2  t  sin(kt ); (k  1, 2, ..., n / k  1)  n t 1 n (5.35) 1 n a n / 2    t  cos(t ); bn / 2  0. n t 1 Этот метод хорошо подходит для аналитического выражения сезонных колебаний, имеющих синусоидальную форму. Если ограничиться первой гармоникой, то модель периодических колебаний принимает вид 2 2 y t  a 0  a1 cos(t )  b1 sin(t ) , (5.36) n n где 2 n 2 2 n 2 a 0  y; a1   y t  cos(t ); b1   y t  sin(t ) . n t 1 n n t 1 n (5.37) 5.5. Прогнозирование уровней временного ряда на основе кривых роста 5.5.1. Метод аналитического выравнивания Построенная модель тенденции (кривая роста) может использоваться для прогнозирования. Кривая роста позволяет получить выровненные или теоретические значения уровней динамического ряда. Это те уровни, которые наблюдались бы в случае полного совпадения динамики явления с кривой. Процедура разработки прогноза с использованием кривых роста включает в себя следующие этапы: 1) на основе качественного анализа выбор одной или нескольких кривых, форма которых соответствует характеру изменения временного ряда (п. 5.3); 2) оценка параметров выбранных кривых; 3) оценка точности и проверка адекватности выбранных кривых прогнозируемому процессу и окончательный выбор кривой роста; 4) расчет точечного (по формуле (5.38)) и интервального прогнозов. Чтобы по имеющемуся временному ряду y1 , y 2 ,..., y n осуществить прогноз на L шагов вперед, необходимо в построенную модель тенденции (кривую роста) ŷ = f(t) подставить значение аргумента, соответствующее интервалу прогноза ŷn(+L) = f(tn+L). (5.38) Полученное значение ŷn(+L) называется точечным прогнозом. Следующим этапом является определение доверительного интервала прогноза, т. е. пределов, в которых лежит точное значение уровня явления с заданной вероятностью (степенью уверенности). Эта процедура называется вычисле- 85 нием интервального прогноза. Интервальный прогноз задает границы возможного изменения прогнозируемого показателя. Несовпадение фактических данных с точечным прогнозом, полученным путем экстраполяции тенденции по кривым роста, может быть вызвано: 1) субъективной ошибочностью выбора вида кривой; 2) погрешностью оценивания параметров кривых; 3) погрешностью, связанной с отклонением отдельных наблюдений от тренда, характеризующего некоторый средний уровень ряда на каждый момент времени. Погрешность, связанная со вторым и третьим источником, может быть отражена в виде доверительного интервала прогноза. Доверительный интервал для линейной тенденции по аналогии с парной регрессией вычисляется по формуле yˆ n (  L )  t1 ,n  2  s yˆ 1 (t n  L  t ) 2 , 1  n n 2  (t  t ) (5.39) t 1 где n – длина временного ряда; L – период упреждения; ŷn(+L) – точечный прогноз на момент n+L; t1 ,n  2 – значение t-статистики Стьюдента при уровне значимости α и числе степеней свободы n–2; s yˆ – средняя квадратическая ошибка оценки прогнозируемого показателя 1 n s yˆ  ( yˆ t  yt ) 2 ;  n  m t 1 (5.40) m – число параметров модели кривой роста (для линейной модели m = 2). Для линейной модели формулу (5.39) можно записать следующим образом 1 3(n  2 L  1) 2 yˆ n (  L )  t1 ,n  2  s yˆ 1   . (5.41) n n(n  1) Доверительный интервал для кривой роста в виде полинома второго или третьего порядка вычисляется по формуле yˆ n (  L )  t1 ,n  m  s yˆ t n2 L 1  1   n n 2 t n n t 1 t 1  t 4  2t n2 L  t 2  nt n4 L 2 , (5.42)   n t 4    t 2  t 1  t 1  t 1 где m – число параметров модели кривой роста. Для полинома второго порядка m = 3, для полинома третьего порядка m = 4. Ширина доверительного интервала зависит от уровня значимости, периода упреждения, среднего квадратического отклонения временного ряда от тренда и степени полинома (рис. 5.4). n n 86 yt yt=a0 + a1· t tα·S tα·S t Период наблюдения t Рис. 5.4. Доверительные интервалы прогноза для линейного тренда Чем выше степень полинома, тем шире доверительный интервал при одном и том же значении Sy, так как дисперсия уравнения тренда вычисляется как взвешенная сумма дисперсий соответствующих параметров уравнения. Доверительные интервалы прогнозов, полученных с использованием уравнения экспоненты, определяют аналогичным образом. Отличие состоит в том, что как при вычислении параметров кривой, так и при вычислении средней квадратической ошибки используют не сами значения уровней временного ряда, а их логарифмы. 5.6. Адаптивные модели прогнозирования 5.6.1. Понятие адаптивных методов прогнозирования При анализе временных рядов часто более важной бывает текущая тенденция (тенденция в данный момент времени, определяемая несколькими последними наблюдениями), а не тенденция, сложившая на длительном интервале времени. Соответственно, наиболее ценной является информация последнего периода. Исходя из этого в последнее время важное значение получили, так называемые, адаптивные методы прогнозирования. Адаптивными называются методы прогнозирования, позволяющие строить самокорректирующиеся (самонастраивающиеся) экономико-математические модели, которые способны оперативно реагировать на изменение условий путем учета результата прогноза, сделанного на предыдущем шаге, и учета различной информационной ценности уровней ряда. Особенностями адаптивных методов прогнозирования является: – способность учитывать информационную ценность уровней временного ряда (с помощью системы весов, придаваемых этим уровням); – использование рекуррентных процедур уточнения параметров модели по мере поступления новых данных наблюдений и тем самым адаптация модели применительно к новым условиям развития явления. Скорость (быстроту) реакции модели на изменения в динамике процесса характеризует, так называемый, параметр адаптации. Параметр адаптации должен быть выбран таким образом, чтобы обеспечивалось адекватное отображе- 87 ние тенденции при одновременной фильтрации случайных отклонений. Значение параметра адаптации может быть определено на основе эмпирических данных, выведено аналитическим способом или получено на основе метода проб. В качестве критерия оптимальности при выборе параметра адаптации обычно принимают минимум среднего квадрата ошибок прогнозирования. Благодаря указанным свойствам адаптивные методы особенно удачно используются при краткосрочном прогнозировании (при прогнозировании на один или несколько шагов вперед). Адаптивные методы, как правило, основаны на использовании процедуры экспоненциального сглаживания. 5.6.2. Экспоненциальное сглаживание Для экспоненциального сглаживания временного ряда уt используется рекуррентная формула S t   y t   S t 1 , (5.43) где St – значение экспоненциальной средней в момент t; уt – значение временного ряда в момент t; α – параметр сглаживания, α = const, 0< α < l; β = 1 – α . Совокупность значений St образует сглаженный временной ряд. Соотношение (5.43) позволяет выразить экспоненциальную среднюю St через предшествующие значения уровней временного ряда уt. При n → ∞ n S t     i y t i . (5.44) i 0 Таким образом, величина St оказывается взвешенной суммой всех членов ряда. Причем веса отдельных уровней ряда  i убывают по мере их удаления в прошлое соответственно экспоненциальной функции (в зависимости от «возраста» наблюдений). Например, при α = 0,4 вес текущего наблюдения уt будет равен α = 0,4, вес предыдущего уровня уt–1 будет соответствовать α ·β = 0,4·0,6 = 0,24; для уровня уt–2 вес составит α ·β2 = 0,144; для yt–3 – α ·β3 = 0,0864 и т. д. Доказано, что математические ожидания исходного ряда и экспоненциальной средней совпадают. В то же время дисперсия экспоненциальной средней D(St) меньше дисперсии временного ряда σ2. Чем меньше α, тем это отличие больше. Таким образом, с одной стороны, желательно увеличивать вес более свежих наблюдений, что может быть достигнуто повышением α (согласно (5.43)), с другой стороны, для сглаживания случайных отклонений величину α нужно уменьшить. Выбор параметра сглаживания α с учетом этих двух противоречивых требований составляет задачу оптимизации модели. В качестве начального значения S0 используется среднее арифметическое значение из всех имеющихся уровней временного ряда или из какой-то их части. Из выражения (5.44) следует, что вес, приписываемый этому значению, уменьшается по экспоненциальной зависимости по мере удаления от первого уровня. Поэтому для длинных временных рядов влияние неудачного выбора S0 погашается. 88 5.6.3. Использование экспоненциальной средней для краткосрочного прогнозирования При использовании экспоненциальной средней для краткосрочного прогнозирования предполагается, что модель ряда имеет вид (5.45) yt =  1,t + et, где  1,t – варьирующий во времени средний уровень ряда, et – случайные неавтокоррелированные отклонения с нулевым математическим ожиданием и дисперсией σ2. Прогнозная модель определяется соотношением yˆ τ (t )  ˆ1,t , (5.46) где ŷτ(t) – прогноз, сделанный в момент t на τ единиц времени (шагов) вперед; ̂ 1,t – оценка  1,t . Величина параметра модели ̂ 1,t принимается равной экспоненциальной средней St в момент t: aˆ1,t  S t ; (5.47) aˆ1,0  S 0 . Прогнозирование предполагает следующую последовательность действий: – на основании исходного временного ряда y1, y2, …, yn вычисление по формуле (5.43) сглаженных уровней ряда S1, S2, …, Sn; – вычисление ̂ 1,n = Sn; – осуществление прогноза на τ шагов вперед yˆ τ (n)  ˆ1,n . Перегруппировав члены выражение (5.43) можно записать по-другому: S t  S t 1   ( y t  S t 1 ) . Если величину ( y t  S t 1 ) рассматривать как погрешность прогноза, то новый прогноз St получается как результат корректировки предыдущего прогноза с учетом его ошибки. В этом и состоит адаптация модели. Экспоненциальное сглаживание является примером простейшей самообучающейся модели. Вычисления выполняются итеративно, причем вся прошлая информация заключена в единственном значении St–1. 5.6.4. Адаптивные полиномиальные модели Если для прогнозирования временного ряда, имеющего ярко выраженную линейную тенденцию, использовать подход (5.46) опирающийся на модель экспоненциального сглаживания, то модель, как правило, будет давать смещенные прогнозы, т. е. иметь систематическую ошибку. Для таких временных рядов целесообразно использовать модели линейного роста, в которых процедуре экспоненциального сглаживания подвергаются оценки коэффициентов адаптивной модели. В этих моделях прогноз может быть получен с помощью следующего выражения: yˆ τ (t )  ˆ1,t  ˆ 2,t , (5.48) 89 где ̂ 1,t и ̂ 2,t – текущие оценки коэффициентов; τ – время упреждения прогноза. Наиболее часто применяются три модели данного типа, отличающиеся рекуррентными выражениями для пересчета текущих оценок коэффициентов (параметры адаптации или параметры экспоненциального сглаживания 0 < α1, α2, α3, β < 1): – двухпараметрическая модель Ч. Хольта ˆ 1,t   1 y t  (1   1 )(ˆ 1,t 1  ˆ 2,t 1 ), (5.49) ˆ 2,t   2 (ˆ 1,t  ˆ 1,t 1 )  (1   2 )ˆ 2,t 1 ; – однопараметрическая модель Р. Брауна ˆ 1,t  ˆ 1,t 1  ˆ 2,t 1  (1   2 )et , ˆ 2,t  ˆ 2,t 1  (1   2 )et ; – трехпараметрическая модель Дж. Бокса и Г. Дженкинса ˆ 1,t   1 y t  (1   1 )(ˆ 1,t 1  ˆ 2,t 1 )   3 (et  et 1 ), (5.50) (5.51) ˆ 2,t   2 (ˆ 1,t  ˆ 1,t 1 )  (1   2 )ˆ 2,t 1 . Начальные значения коэффициентов ̂ 1,t и ̂ 2,t принимаются равными ко- эффициентам уравнения регрессии, построенного по начальным уровням ряда. В эконометрических пакетах чаще представлена модель Ч. Хольта с возможностью выбора оптимальных параметров по критерию минимума среднеквадратической ошибки путем перебора на сетке возможных значений. Рекуррентные формулы для оценки коэффициентов по этой модели могут быть записаны в виде, явно показывающем зависимость «корректирующего воздействия» от величины ошибки: ˆ 1,t  ˆ 1,t 1  ˆ 2,t 1   1et , (5.52) ˆ 2,t  ˆ 2,t 1   1 2 et , где et = yt – ŷ1(t–1) – ошибка прогноза. Из последних выражений видно, что модель Р. Брауна можно считать частным случаем модели Ч. Хольта. При этом единственный параметр β играет роль коэффициента дисконтирования наблюдений. 5.7. Исследование взаимосвязи двух временных рядов Модели, построенные на основе данных, характеризующих какой-либо объект за ряд последовательных моментов (периодов) времени, называются моделями временных рядов. Исследование взаимосвязи между переменными, заданными при помощи временных рядов имеет существенные особенности. Наличие в составе временных рядов тенденций и периодических компонент может при применении обычных методов корреляционного или регрессионного анализа привести к явлениям «ложной корреляции» или «ложной регрессии». В этом случае абсолютная величина коэффициента корреляции между переменными х и у, абсолютно не влияющими друг на друга, имеет высокое значение вследствие зависимости каждой из них от времени, либо коэффициент 90 детерминации свидетельствует о высоком качестве полученной между ними регрессии. Чтобы избежать этого, перед изучением взаимосвязи между переменными х и у необходимо предварительно исключить из уровней временных рядов влияние тенденции и периодической компоненты. Устранение периодической компоненты из уровней временного ряда можно проводить в соответствии с методикой параграфа 5.4. Для исключения тенденции применяются такие методы, как метод последовательных разностей, метод отклонений от тренда, метод явного включения в модель регрессии по временным рядам фактора времени. Метод отклонений от тренда. Рассмотрим два временных ряда хt и уt, каждый из которых содержит трендовую компоненту Т и случайную компоненту . Предположим, что проведено аналитическое выравнивание этих рядов и найдены параметры соответствующих уравнений тенденций x̂t = f1(t) и ŷt = f2(t). Вычитание расчетных значений уровней ряда x̂t и ŷt из фактических хt и уt позволяет устранить влияние тенденции в обоих рядах. Дальнейший анализ взаимосвязи рядов проводят с использованием отклонений от тренда ( xt  xˆ t ) и ( yt  yˆ t ), т. е. уравнение регрессии строится в виде yt  yˆ t  a  b  ( xt  xˆ t ). (5.53) Метод последовательных разностей. Если временной ряд содержит ярко выраженную полиномиальную тенденцию (имеющую вид полинома от времени t), то с целью устранения тенденции можно применить метод последовательных разностей, заключающийся в замене исходных уровней ряда последовательными разностями соответствующих порядков (порядок разности равен порядку полинома). Последовательными разностями первого порядка называются величины yt = уt – уt–1. Последовательными разностями второго порядка называются величины 2yt = уt – уt–1, и т. д. Замена исходных уровней ряда последовательными разностями первого порядка позволяет устранить линейную тенденцию, задаваемую уравнением у = a + b · t. Замена исходных уровней ряда последовательными разностями второго порядка позволяет устранить параболическую тенденцию, задаваемую уравнением в виде полинома второго порядка у = a + b · t + c · t2, и т. д. Если тенденция временного ряда характеризуется экспоненциальной зависимостью, то временной ряд из логарифмов исходных уровней будет иметь линейную тенденцию, что позволяет применить метод последовательных разностей к ряду логарифмов. С использованием первых разностей yt, xt уравнение регрессии находится в виде y t  a  b  x t или уt – уt–1 = a + b·( xt – xt–1). (5.54) Включение в модель регрессии фактора времени. Включение фактора времени в модель в качестве независимой переменной позволяет зафиксировать тенденцию с целью исключения ее влияния на параметры модели. 91 Уравнение парной регрессии в этом случае принимает следующий вид yt = a + b1 ·xt + b2 ·t + t. (5.55) Этот же прием может быть использован, если число факторов больше единицы. Параметры а, b1, b2 модели (5.55) с включением времени в качестве фактора определяются обычным МНК. Параметры уравнения регрессии (5.55) могут быть проинтерпретированы следующим образом: – параметр b1 показывает, насколько в среднем изменится значение результативного признака уt при увеличении фактора xt на единицу при неизменной величине других факторов; – параметр b2 показывает, насколько в среднем за период наблюдения изменится значение результативного признака уt за счет воздействия всех факторов, кроме фактора xt. 5.8. Коинтеграция временных рядов Не всегда наличие тенденции во временных рядах хt и уt приводит к недостоверности оценок параметров регрессии (5.56) y t  a  b  xt   t , полученных с помощью обычного МНК, так как наличие тенденции во временном ряде уt может являться следствием наличия тенденции во временном ряде хt. Если нестационарные временные ряды хt и уt являются коинтегрируемыми, то оценки параметров регрессии (5.45) оказываются состоятельными. Нестационарные временные ряды хt и уt называются коинтегрируемыми, если существует линейная комбинация этих рядов, представляющая собой стационарный временной ряд, т. е. существуют такие числа λ1 и λ2, что временной ряд 1 y t   2 xt является стационарным. Для тестирования временных рядов на коинтеграцию применяется критерий Энгеля-Грэнджера. Согласно этому критерию, исследуются остатки et уравнения регрессии (5.56), полученного обычным МНК, для которых рассчитываются параметры уравнения регрессии et  a e  be  et 1 , (5.57) et – где первые разности остатков. Фактическое значение t-статистики для параметра ae сравнивается с критическим значением критерия τ. Если фактическое значение меньше критического, то нулевая гипотеза об отсутствии коинтеграции отклоняется. Критические значения критерия τ для уровней значимости 0,01; 0,05 и 0,1 составляют соответственно 2,5899; 1,9439 и 1,6177. Таким образом, наличие коинтеграции нестационарных временных рядов позволяет при построении регрессионной модели использовать их исходные уровни хt и уt. Через коинтеграцию, к примеру, подтверждаются зависимости между уровнем инфляции, ВВП и денежной массой, ценами на акции и их доходностью, потреблением и уровнем дохода и многие другие экономические зависимости с шумящими переменными. Но следует отметить, что такой подход применим только к временным рядам, охватывающим достаточно длительные промежутки времени. 92 Контрольные вопросы 1. Что называют временным рядом? 2. Какие компоненты выделяют в составе экономического временного ряда? 3. В чем заключается основная задача эконометрического исследования временного ряда? 4. Охарактеризуйте понятие автокорреляции уровней временного ряда. 5. Какие методы применяются для проверки наличия тенденции временного ряда? 6. Как осуществляется сглаживание временного ряда по методу скользящей средней? 7. Что понимается под аналитическим выравниванием временного ряда? 8. Какие методы применяются для определения вида тенденции временного ряда? 9. Как осуществляется выбор вида тенденции на основе качественного анализа? 10. Как осуществляется оценка адекватности модели тенденции временного ряда? 11. Как осуществляется оценка точности модели тенденции временного ряда? 12. Для чего применяется критерий Дарбина–Уотсона? 13. Как осуществляется выделение периодической компоненты по методу скользящей средней? 14. Как осуществляется моделирование сезонных колебаний с помощью фиктивных переменных? 15. Как осуществляется прогнозирование уровней временного ряда на основе кривых роста? 16. Что понимается под точечным и интервальным прогнозом? 17. В чем заключаются особенности адаптивных методов прогнозирования? 18. В чем состоит процедура экспоненциального сглаживания временного ряда? 19. Какие сложности возникают при изучении взаимосвязи двух временных рядов? 20. Какие методы применяются для исключения тенденции из временного ряда? 21. Что понимается под коинтеграцией временных рядов? 22. Как проверяется наличие коинтеграции временных рядов? 93 6. Линейные модели стохастических процессов 6.1. Стационарные стохастические процессы 6.1.1. Основные понятия Уровни временного ряда х1, х2, ..., хn при наличии случайной составляющей могут рассматриваться как конкретные значения случайных величин X1, Х2,..., Хn, соответствующих моментам времени t1, t2, ..., tn, т. е. как отдельная реализация дискретного стохастического процесса. Cтохастическим процессом называется случайная функция X(t) вещественного аргумента t, принадлежащего некоторому подмножеству Ť множества действительных чисел. Иными словами, если каждому значению аргумента t  Ť  R поставлена в соответствие случайная величина Xt = X(t), то совокупность случайных величин {Xt}представляет собой стохастический процесс. Если множество определения Ť случайной функции X(t) дискретно, т. е. Ť = {ti}, то стохастический процесс называется дискретным. Дискретный стохастический процесс представляет собой последовательность случайных величин Xt, соответствующих моментам времени t1, t2, ..., tT, .... Характеристики случайного процесса X(t) в общем случае являются функциями от времени t: математическое ожидание μt = E[Xt] = μ(t); (6.1) дисперсия σ2t = D[Xt] = E[(Xt - μt)2] = σ2(t), (6.2) а автоковариация  t1t2  cov( X t1 , X t2 )  E[( X t1   t1 )( X t2   t2 )]   (t1 , t 2 ) (6.3) зависит от t1 и t2 . Стохастический процесс называется стационарным процессом в узком (сильном) смысле, если совместное распределение вероятностей случайных величин X t1 , X t2 ,..., X tn такое же, как и у случайных величин X t1 , X t2 ,..., X tn  при любых n, t и τ. Стохастический процесс называется стационарным процессом в широком (слабом) смысле, если математическое ожидание μt и дисперсия σ2t не зависят от времени (одинаковы для всех Xt), а автоковариация  t1t 2 зависит только от величины лага τ = t2–t1, т. е. μt = μ =const; (6.4) σ2t = σ2 = const;  t1t2  cov( X t1 , X t2 )  E[( X t1   )( X t1    )]   ( ) . Процесс называется нормальным, если совместное распределение случайных величин X, , Xt,..., Xt является n-мерным нормальным распределением. «Белым шумом» называется последовательность независимых, одинаково распределенных случайных величин at. Из определения «белого шума» следует, что μt = const = μ; Dt = σ2t = const = σ2;  t1t 2  0 , если t1 ≠ t2 . (6.5) 94 «Белый шум» является стационарным стохастическим процессом и играет важную роль при моделировании остатков стохастического процесса в уравнениях регрессии. Зависимость автоковариации γτ = γ(τ) от длины лага τ называется автоковариационной функцией. При τ = 0 ее значение равно дисперсии, т. е. γ0 = γ(τ) = σ2. Отношение автоковариации γτ = γ(τ) к дисперсии σ2 = γ0 называется автокорреляционной функций стационарного стохастического процесса:  τ  τ , (6.6) 0 причем  1   τ  1 . Стационарному стохастическому процессу Хt соответствует стационарный временной ряд xl, х2, ..., хn. Признаками стационарности временного ряда являются отсутствие тенденции и периодической составляющей, а также систематических изменений размаха колебаний и систематически изменяющихся взаимозависимостей между элементами временного ряда. Для распознавания стационарности временных рядов могут использоваться следующие подходы:  визуальный анализ графического представления временного ряда на наличие тенденции и периодической составляющей, на постоянство дисперсии и т. п.;  анализ временного ряда на наличие автокорреляции;  тесты на присутствие детерминистического тренда;  тесты на постоянство статистических характеристик;  тесты на наличие стохастического тренда, например, тесты на единичный корень. 6.1.2. Параметрические тесты стационарности Параметрические тесты применяются при относительно строгих предположениях относительно законов распределения временного ряда, его параметров. Они, как правило, оценивают меру близости между эмпирическими характеристиками распределения временного ряда и их теоретическими аналогами, на основании чего делается вывод о целесообразности принятия или отвержения гипотезы о соответствии свойств рассматриваемого ряда стационарному процессу. Для проверки гипотез о постоянстве математического ожидания и дисперсии на рассматриваемом интервале t=1, 2, ..., n могут быть использованы критерии Стьюдента и Фишера. Эти критерии применяются в предположении о нормальном законе распределения как значений временного ряда, так и его выборочных параметров, что является достаточно справедливым для многих реальных процессов. Тестирование математического ожидания. Интервал времени (1,n) (и, соответственно, временной ряд уt, t=1, 2, ..., n) разбивается на две части, не обязательно одинаковые по количеству содержащихся в них значений уt с количеством наблюдений n1 (n=1,2,..., n1) и n2 (n=n1+1,...,n), n2 =n–n1. 95 Для каждой из частей определяются оценки y1 и s12, y2 и s22 – выборочных математического ожидания и дисперсии переменной уt соответственно. Далее рассчитывается значение критерия Стьюдента по формуле  y1  y 2 2 1 2 2 s s  n1 n2 , (6.7) если предполагается, что значения дисперсий на этих участках не равны между собой, т. е. σ21 ≠ σ22, и по формуле  y1  y 2 s 2 n1 n 2 , n1  n 2 (6.8) если σ21 = σ22 = σ2. Если оказывается справедливым неравенство    кр ( , k ) , (6.9) где α – заданный уровень значимости (α=0,05; 0,01); k = n1+n2–2 – число степеней свободы;  кр ( , ) – критическое значение критерия Стьюдента, соответствующее значениям α и k, то нулевая гипотеза о постоянстве математического ожидания процесса уt принимается. Вероятность ошибки такого решения при этом составляет α. В противном случае, эта гипотеза отвергается. Можно интервал наблюдений разделить на несколько частей и проверять гипотезу о равенстве оценок средних значений ряда, рассчитанных на этих частях. Для этих целей используется критерий Фишера. Его расчетное значение в данном тесте определяется как отношение взвешенной суммы квадратов отклонений этих оценок от средней временного ряда в целом к средней дисперсии временного ряда: F k 1   n j ( y j  y) k  1 j 1 s 2 (k ) , (6.10) где k – число частей разбиения интервала (1,n); nj – число измерений переменной на j-й части (j=1, 2, ..., k); y – среднее значение временного ряда в целом; s 2 (k ) – средняя дисперсия, значение которой рассчитывается на основании следующей формулы k 1 s 2 (k )    (n j  1)  s j2 , t  k j 1 где s j2 – дисперсия, рассчитанная на j-й части интервала (1,n). Если оказывается справедливым соотношение F s2. 6.1.3. Непараметрические тесты стационарности Непараметрические тесты не выдвигают заранее каких-либо предположений о законе распределения тестируемого временного ряда, его параметрах. Они исследуют взаимосвязи между порядком следования образующих его значений, выявляют наличие или отсутствие закономерностей в продолжительности и (или) чередовании их серий, образованных, например, последовательностями единиц совокупности с одинаковыми знаками, сменой знаков у этих единиц и т. п. [10]. Тест Манна-Уитни применяется для тестирования постоянства математического ожидания. Рассмотрим две совокупности значений одного и того же временного ряда y11 , y 12 ,..., y 1n1 и y12 , y 22 ,..., y n22 и объединим их в один ряд длиной (n = n1+ n2) в порядке возрастания. Обозначим через u* число элементов первой совокупности (y1), предшествующих первому элементу из второй совокупности, плюс число элементов y1 первой совокупности, предшествующих второму элементу из второй совокупности, включая уже учтенные, плюс и т. д. до последнего элемента второй совокупности. Величину u* можно рассчитать через число сумму рангов элементов первой или второй совокупности R1 и R2, определяемых по общей совокупности: u*  R1  n1 (n1  1) , 2 (6.16) 97 u*  n1  n 2  n 2 (n 2  1)  R2 . 2 (6.17) Величина z z 1 2 , n1  n 2 (n1  n 2  1) 12 u * n1  n 2  (6.18) имеет стандартизированное нормальное распределение. В формуле (6.18) поправка 1/2 прибавляется, если z<0, и отнимается, если z>0. Гипотеза о стационарности процесса отвергается при уровне значимости α, если |z | > t1–α/2, где t1–α/2 – квантиль стандартизированного нормального распределения порядка 1–α/2. Тест Сиджела-Тьюки применяется для тестирования постоянства дисперсии временного ряда и основан на сопоставлении рангов элементов двух совокупностей из рассматриваемого интервала. Согласно тесту Сиджела-Тьюки исходный временной ряд y1 , y 2 ,..., y n центрируется относительно среднего значения ряда y (т. е. определяются значения ~y t  y t  y ) и разделяется на две части (желательно равные) y11 , y 12 ,..., y 1n1 и y12 , y 22 ,..., y n22 , которые затем объединяются в один ряд длиной (n = n1+ n2) в порядке возрастания. Элементы полученного ряда ранжируются по следующему правилу. Ранг 1 приписывается наименьшему отрицательному значению. Ранг 2 приписывается наибольшему положительному значению. Ранг 3 приписывается наименьшему значению из еще неранжированных (значению, следующему за наименьшим). Ранг 4 приписывается наибольшему значению из еще неранжированных (значению, следующему за наибольшим), и т. д. Величина z z n1  (n1  n 2  1) 1  2 2 n1  n 2 (n1  n 2  1) 12 R1  (6.19) имеет стандартизированное нормальное распределение. В формуле (6.19) поправка 1/2 прибавляется, если z<0, и отнимается, если z>0. Гипотеза о стационарности процесса отвергается при уровне значимости α, если |z | > t1–α/2, где t1–α/2 – квантиль стандартизированного нормального распределения порядка 1-α/2. 6.2. Линейные модели стационарных временных рядов. Процессы ARMA 6.2.1. Модели авторегрессии (AR) Авторегрессионным процессом порядка р (обозначается AR(p)) называется стохастический процесс Xt, определяемый соотношением Xt = α0 + α1Xt-1+ α2Xt-2 + …+ αpXt-p + εt, (6.20) 98 где εt – процесс типа «белый шум» с με = 0. Свободный член α 0 часто приравнивается нулю (т. е. рассматриваются центрированные процессы, средний уровень которых равен нулю). Авторегрессионная модель временного ряда основана на предположении, что поведение какого-либо экономического явления в будущем определяется только его текущим и предыдущими состояниями. AR-процесс является стационарным тогда и только тогда, когда комплексные решения (корни) его характеристического уравнения 1 – α 1z – α 2z2 –…– α pzp = 0 (6.21) лежат вне единичного круга, т. е. | z | > 1 (z — комплексное число). Процессы, у которых | z | = 1, называются процессами единичного корня и являются нестационарными. Для процесса AR(1) Xt = α0 + α1Xt-1 + εt характеристическое уравнение имеет вид 1 – α 1z = 0. Неравенство |z| > 1 выполняется, если |α1| < 1. Следовательно, соотношение |α1| < 1 есть условие стационарности процесса AR(1). Коэффициенты αi уравнения (6.20) могут быть выражены через коэффициенты автокорреляции ri. Умножим уравнение (6.20) последовательно на Xt-k (k = 1, …, p) и применим к его правой и левой частям операцию вычисления математического ожидания. В результате получим систему соотношений r1 = α 1+ α 2 r1 + α 3r2 …+ α p rр-1, r2 = α 1 r1+ α 2 + α 3 r1 …+ α p rр-2, (6.22) ………………………………. rp = α 1rр-1+ α 2 rр-2 + α 3rр-3…+ α p, называемых уравнениями Юла-Уокера. В частности, для p = 1 имеет место соотношение α1= r1. 6.2.2. Модели скользящего среднего (MA) В моделях скользящего среднего порядка среднее текущее значение стационарного стохастического процесса представляется в виде линейной комбинации текущего и прошедших значений ошибки εt, εt-1, …, εt-p, обладающей свойствами «белого шума». Процессом скользящего среднего порядка q (обозначается МА(q)) называется стохастический процесс Xt, определяемый соотношением Xt = εt – β1εt-1 – β2εt-2 –…– βqεt-q, где εt – процесс типа «белый шум» с με = 0, σ2ε = σ2. Процесс MA(q) обладает следующими свойствами: (6.23) 99 E[ X t ]  0; D[ X t ]   2 q   i2 ; i 0   q; 0, (6.24)  q   t ,t    2   0,1,..., q.    i  i  ,  i 0 Согласно (6.24) среднее значение, дисперсия и ковариация не зависят от времени, поэтому процесс MA стационарен в широком смысле. 6.2.3. Модели авторегрессии-скользящего среднего (ARMA) Комбинация процессов авторегрессии и скользящего среднего порядков р и q соответственно называется авторегрессионным процессом скользящего среднего (ARMA(p,q)) Xt = α0 + α1Xt-1+ α2Xt-2 +…+ αpXt-p + εt – β1εt-1– β2εt-2 –…– β qεt-q, (6.25) При очень общих условиях стационарный ARMA-процесс может быть представлен как бесконечный AR-процесс или как бесконечный MA-процесс: Xt = α0 + εt – β1εt-1– β2εt-2 –… Использование ARMA-процессов позволяет строить более компактные модели реальных временных рядов по сравнению со схожими по поведению AR- или MA-процессами. 6.3. Автокорреляционные функции 6.3.1. Автокорреляционная функция Автокорреляционная функция (ACF) процесса Xt, определяющая зависимость коэффициентов автокорреляции ρτ от величины лага τ, определяется с помощью соотношения (см. (6.3))  1  τ   ( )  τ  E[( X t   )( X t    )] . (6.26) 0 0 График ρτ называется коррелограммой. Для идентификации модели стационарного временного ряда, т. е. для определения типа и порядка процесса могут быть использованы следующие свойства автокорреляционной функции: а) Для процесса AR(p) коррелограмма представляет собой смесь экспоненциальной кривой и синусоиды. б) Для процесса MA(q) только первые q автокорреляционных коэффициентов значимо отличны от нуля. В качестве примера рассмотрим автокорреляционные функции процессов AR(1) и MA(1). Для процесса AR(1) без свободного члена и с α1 <1 Xt = α1Xt-1 + εt (6.27) 100 автокорреляционная функция определяется соотношениями ρ1 = α1, и ρk= α1k (рис. 6.1, а, б). Для процесса MA(1) Xt = εt – β1 ·εt-1 (6.28) автокорреляционная функция определяется соотношениями 1   1 , ρ2= 0, (1   12 ) ρ3 = 0, … (рис. 6.2, а, б). а) 1 0,8 0,6 0,4 0,2 -0,2 -0,4 -0,6 -0,8 -1 б) Лаг k 1 0,8 0,6 0,4 0,2 -0,2 -0,4 -0,6 -0,8 -1 Лаг k Рис. 6.1 Кореллограмма процесса AR(1) а) α1 > 0; б) α1 < 0 а) 1 0,8 0,6 0,4 0,2 -0,2 -0,4 -0,6 -0,8 -1 б) Лаг k 1 0,8 0,6 0,4 0,2 -0,2 -0,4 -0,6 -0,8 -1 Ла г k Рис. 6.2 Кореллограмма процесса MA(1) а) β1 < 0; б) β 1 > 0 6.3.2. Частная автокорреляционная функция Важную информацию о структуре модели стационарного стохастического процесса можно получить, используя частную автокорреляционную функцию. Рассмотрим аппроксимацию AR(k) стационарного стохастического процесса Xt X(k)t = α0k + α1kX(k)t-1+ α2kX(k)t-2 +…+ αkkX(k)t-k. (6.29) Коэффициент αkk называется коэффициентом частной автокорреляции Xt для величины лага k. 101 с различными k называется частной автокореляционной Ряд ррагt(k) = αkk функцией (PACF). Для процесса AR(p) значения частной автокореляционной функции ρрагt(τ) равны нулю для величины лага τ>р. а) б) 1 0,8 0,6 0,4 0,2 -0,2 -0,4 -0,6 -0,8 -1 Лаг k 1 0,8 0,6 0,4 0,2 -0,2 -0,4 -0,6 -0,8 -1 Лаг k Рис. 6.3 Частная автокорреляционная функция процесса AR(1) а) α1 > 0; б) α1 < 0 а) б) 1 0,8 0,6 0,4 0,2 -0,2 -0,4 -0,6 -0,8 -1 Лаг k 1 0,8 0,6 0,4 0,2 -0,2 -0,4 -0,6 -0,8 -1 Лаг k Рис. 6.4 Частная автокорреляционная функция процесса MA(1) а) β1 < 0; б) β 1 > 0 Для процессов MA(q) значения частной автокореляционной функции экспоненциально убывают с величиной лага q. В качестве значения частной автокореляционной функции ρрагt(k) при заданной величине лага k может быть использована оценка коэффициента άkk модели AR(k) (6.29), полученная с помощью МНК-оценивания. 6.4. Прогнозирование ARMA-процессов 6.4.1. AR-процессы Рассмотрим стационарную AR-модель Yt = α0 + α 1Yt–1 + α 2Yt–2+…+ α pYt–p + εt. (6.30) 102 Предположим, что прогноз ŶТ(h) строится на h шагов вперед, начиная с момента времени Т. Запишем уравнение (6.30) для момента времени T+h YT+h = α0 + α 1YT+h–1 + α 2YT+h–2 +…+ α pYT+h–p + εT+h. (6.31) При расчете прогнозного значения ŶТ(h) в правую часть (6.31) вместо YT+i (i > 0) следует подставлять вычисленное ранее прогнозное значение ŶТ(i). Тогда точечный прогноз будет определяться соотношениями: ŶТ(1) = α 0 + α 1YТ + α 2YТ–1 +…+ α pYТ–p+1, ŶТ(2) = α 0 + α 1ŶТ(1) + α 2YТ +…+ α pYТ–p+2, …… (6.32) ŶТ(p) = α 0 + α 1ŶТ(p–1) + α 2 ŶТ(p–2) +…+ α p–1 ŶТ(1) + α pYТ , ŶТ(h) = α 0 + α 1ŶТ(h–1) + α 2 ŶТ(h–2) +…+ α p ŶТ(h–p+1) при h > p. Доказано, что в бесконечном периоде математическое ожидание прогнозного значения ŶТ асимптотически сходится к математическому ожиданию процесса Yt, т. е. условное математическое ожидание ошибки прогноза равно нулю и оценка ŶТ(h) является несмещенной, а дисперсия прогноза сходится к дисперсии процесса Yt, т. е. к  Y2 . Для модели AR(2) Yt = α0 + α1Yt-1 + α2Yt-2+ εt формулы прогнозирования имеют вид: ŶТ(1) = α0 + α1YТ + α2Yt–1, ŶТ(2) = α0 + α1 ŶТ ŶТ(1) + α2Yt, ŶТ(h) = α0 + α1ŶТ(h–1) + α2 ŶТ(h–2) (6.33) при h ≥ 3. 6.4.2. MA-процессы Рассмотрим теперь стационарную MA-модель Yt = εt – β1εt–1– β2εt–2 –…– βqεt–q. (6.34) С учетом того, что величина εt для прогнозируемых моментов времени не известна точечный прогноз согласно модели (6.34) будет определяться соотношениями: ŶТ(1) = – β 1·εТ – β 2·εТ–1 – … – β q·εТ–q+1, ŶТ(2) = – β 2·εТ – … – β q·εТ-q+2, …… ŶТ(q) = ŶТ(h) = 0 (6.35) – β q·εТ, при h > q. Дисперсия ошибки прогноза определяется соотношениями var(eT(1)) = σ2ε; 103 σ2ε β 21); var(eT(2)) = (1+ …… var(eT(q-1)) = σ2ε(1+ β 21+…+ β 2q-1); var(eT(q)) = σ2ε(1+ β 21+…+ β 2q) = σ2Y Для процесса MA(2) Yt = εt – β1εt–1 – β2εt–2 формулы для прогнозирования имеют вид (6.36) для h > q. ŶТ(1) = – β 1·εТ – β 2·εТ–1 ŶТ(2) = – β 2·εТ ŶТ(h) = 0 при h ≥ 3, а дисперсии ошибки прогноза: var(eT(1)) = σ2ε; var(eT(2)) = σ2ε(1+ β 21); var(eT(h))= σ2ε(1+ β 21+ β 22) =σ2Y для h ≥ 3. (6.37) 6.4.3. ARMA-процессы Формулы прогнозирования для процессов ARMA(p,q) получаются объединением формул (6.32) и (6.35). Для модели ARMA (1,1) Yt = α0 + α1Yt-1 – β1 ·εt-1 формулы для прогнозирования имеют вид: ŶТ(+1) = α0 + α1YТ - β1 ·εT ŶТ(+h) = α0 + α1ŶТ(+h-1) при h ≥ 2. (6.38) При прогнозировании на практике реальные параметры ARMA-процесса  k и  j заменяются их оценками ˆ k è ˆ j , а случайные воздействия εt заменяются на остатки ˆt , полученные при оценивании модели, или на ошибки eT+h-–i предыдущих прогнозов. Отметим, что ошибка прогноза данных ARMA-моделей ограничена на бесконечности дисперсией процесса σх. 6.5. Нестационарные интегрируемые процессы 6.5.1. Нестационарные стохастические процессы. Нестационарные временные ряды Признаком нестационарного стохастического процесса является нарушение одного из условий стационарности (6.4). Конкретная реализация нестационарного стохастического процесса представляет собой нестационарный временной ряд. Признаками нестационарности временного ряда могут служить наличие тенденции, систематических изменений дисперсии, периодической составляющей, систематически изменяющихся взаимозависимостей между элементами временного ряда. Заметим, что, как правило, значения, характеризующие изменение экономических показателей во времени, образуют нестационарные временные ряды. 104 Рассмотрим авторегрессионный процесс первого порядка, определяемый моделью Yt = α0 + α1·Yt–1 + εt, (6.39) где εt – процесс типа «белый шум» с με = 0. При | α1| < 1 случайный процесс Yt будет стационарным. Процесс, определяемый соотношением (6.39) при α1 = 1 Yt = Yt–1 + εt. (6.40) является нестационарным и называется «случайным блужданием». Такие нестационарные процессы называют процессами единичного корня. Среднее процесса Yt постоянно E(Yt) = Е(Yt–1)+ E(εt) = μ = const, а дисперсия var(Yt) = tσ2 неограниченно возрастает с течением времени. Первые разности Yt являются «белым шумом» εt и стационарны: ∆Y t = Y t – Y t–1 = εt. Как показывает практика, рассматриваемые в эконометрических исследованиях нестационарные временные ряды чаще всего относятся именно к этому типу и проблема выявления нестационарности временного ряда сводится к проверке α1 = 1 в модели (6.39). Соответствующие тесты называются «тестами единичного корня». 6.5.2. Тесты Дики-Фуллера Тест Дики-Фуллера (Dickey-Fuller test, DF-тест) основан на оценке параметра λ = α1 – 1 уравнения ΔYt = λ ·Yt–1 + εt, (6.41) эквивалентного уравнению авторегрессии (6.39). Его называют также тестом на единичный корень. Нулевая H0 и ей альтернативная H1 гипотезы определяются соотношениями: H0: λ = 0; H1: λ < 0. Если значение t-статистики Стьюдента для параметра λ меньше нижнего порогового значения DF-статистики, то нулевую гипотезу λ =0 (о наличии единичного корня α1=1) следует отклонить и принять альтернативную о стационарности процесса Yt. Таблицы теста Дики-Фуллера (DF-теста) рассчитаны для уровней значимости в 1, 5, 10 %. Указанные в таблице значения DF-теста – отрицательные. DF-тест применим также для тестирования на единичный корень случайных процессов со смещением и со смещением и линейным детерминистическим трендом определяемых уравнениями: ∆Yt = α0 + α1·Yt–1 + ε t, (6.42) ∆Yt = α0 + α1·Yt–1 + α2·t + ε t, (6.43) где α0 – константа, называемая смещением. При этом используются соответствующие таблицы критических значений DF-теста. Отметим, что на практике трудно различить ситуации, когда следует применять DF-тест, а когда – DF-тест со смещением. 6.5.3. Модификации теста Дики-Фуллера для случая автокорреляции При наличии автокорреляции в остатках εt используется обобщенный тест Дики-Фуллера (ADF-mecm), согласно которому в правую часть уравнения рег- 105 рессии в качестве дополнительных факторов включаются лаговые значения переменной из левой части ∆yt-i k y t  a1 y t 1   a i 1 y t i   t . (6.44) i 1 Процедура тестирования, как и ранее, сводится к оценке значения t-критерия Стьюдента для параметра a1 и сравнении его с критическими значениями для ADF-теста, которые совпадают с критическими значениями обычного DF-теста. Такой же подход, может быть применен и в случаях тестирования на единичный корень случайного процесса со смещением и случайного процесса со смещением и линейным детерминистическим трендом: k y t  a 0  a1 y t 1   a i 1 y t i   t ; (6.45) i 1 k y t  a 0  a1 y t 1   a i 1 y t i  a k  2  t   t . (6.46) i 1 Как и ранее, критические значения для ADF-теста те же самые, что и для обычного DF-теста. 6.5.4. Метод разностей и интегрируемость Для практики большой интерес представляют, так называемые, интегрируемые нестационарные процессы. Это процессы, для которых с помощью последовательного применения операции взятия последовательных разностей из нестационарных временных рядов можно получить стационарные ряды. Последовательные разности стохастического процесса определяются соотношениями: ∆Yt = Yt – Yt–1 – первые последовательные разности 2 ∆ Yt = ∆Yt – ∆Yt–1 – вторые последовательные разности и т. д. Если первые разности нестационарного ряда Yt стационарны, то ряд Yt называется интегрируемым первого порядка. Стационарный временной ряд называется интегрируемым нулевого порядка. Если первые разности нестационарного ряда нестационарны, а вторые разности стационарны, то ряд Yt называется интегрируемым второго порядка. Если первый стационарный ряд получается после k-кратного взятия разностей, то ряд Yt называется интегрируемым k-го порядка. 6.6. Модели ARIMA 6.6.1. Определение и идентификация модели Рассмотрим интегрируемый порядка d нестационарный процесс Xt. Если при этом процесс Yt = ∆dXt, составленный из первых разностей d-порядка исходного процесса, является процессом АRМА(р,q), т. е. Yt = α0 + α1Yt–1+ α2Yt–2 +…+ αpYt–p + εt – β1εt–1– β2εt–2 –…– β qεt–q, (6.47) 106 тогда Xt называется процессом ARIMA(p,d,q). На практике свободный член α0 часто опускается (приравнивается к нулю). Можно считать, что большинство эмпирических временных рядов является реализациями процессов ARIMA. Основная проблема в анализе временных рядов заключается в определении порядка модели ARIMA(p,d,q). Необходимо оценить три основных параметра: d – порядок интегрируемости, порядок р компоненты AR и порядок q компоненты MA. Для экономических временных рядов параметр d обычно равен 1, возможны также значения 0 или 2. При определении параметров р и q используются характеристики автокорреляционной функции (ACF) и частной автокорреляционной функции (PACF). При этом предпочтение отдается моделям с наименьшим числом параметров. 6.6.2. Прогнозирование ARIMA-процессов Для прогнозирования ARIMA-процессов Хt могут быть применены два подхода: 1) Получение прогнозных значений YˆT ( h ) ARMA-процесса Yt  d X t по методике прогнозирования ARMA-процессов (см. разд. 6.4) с последующим последовательным вычислением прогнозных значений d 1 Xˆ T (h) , d  2 Xˆ T (h) и т. д., пока не будут получены Xˆ T (h) . 2) Построение прогнозной формулы с помощью модификации уравнения (6.47) путем подстановки разностей d X t вместо Yt и последующего разрешения полученного уравнения относительно Xt. В результате, будет получена ARMA-модель нестационарного процесса, которая может быть преобразована в формулу для прогнозирования на h шагов вперед величин Xˆ T (h) с началом отсчета в момент времени Т по методике, описанной в разделе 6.4. Рассмотрим ARIMA(0,1,0)–модель случайного блуждания Yt = ΔXt = εt или в преобразованном виде Xt = Xt–1 + εt. Формула экстраполяции имеет вид XT+h = XT+h–1 + εt, (6.48) а формула прогноза дается соотношением Xˆ T (h)  X T , для h ≥ 1. (6.49) 2 Дисперсия ошибки прогноза var(eT(h))= h·σ ε. увеличивается с ростом h. Ширина доверительного интервала прогноза возрастает пропорционально h . Если Xt – случайное блуждание со сдвигом Xt = Xt–1 + α0 + εt, (6.50) тогда формула для прогнозирования имеет вид Xˆ T (  h )  X T  h 0 , (6.51) что соответствует простому линейному тренду. Дисперсия ошибки прогноза такая же, как и в предыдущем случае с α0 = 0. Рассмотрим ARIMA(1,1,1)-модель 107 ∆Xt – α1 ∆Xt–1 = Xt – Xt–1 - α 1·(Xt–1 - Xt–2) = α 0 + εt – β1 ·εt–1, которая после преобразования принимает вид Xt = α0 + (1+ α1 )Xt–1 – α1 Xt–2 + εt – β 1 ·εt–1. (6.52) Формулы для прогнозирования в момент t = Т + h определяются соотношениями Xˆ T (1)   0  (1   1 ) X T   1 X T 1  1 T , Xˆ T (2)   0  (1   1 ) Xˆ T (1)   1 X T , (6.53) Xˆ T (h)   0  (1   1 ) Xˆ T (h  1)   1 X T (h  2) для h ≥ 3. Контрольные вопросы 1. Дайте определение стохастического процесса. 2. Дайте определение стационарного стохастического процесса в слабом (широком) смысле. 3. Какой стохастический процесс называется нормальным? 4. Какой стохастический процесс называется «белый шумом»? 5. Какими параметрами характеризуется стационарный процесс? 6. Дайте определение автоковариационной функции. 7. Какие методы применяются для распознавания стационарности временных рядов? 8. Приведите примеры параметрических тестов проверки временных рядов на стационарность? 9. Приведите примеры непараметрических тестов проверки временных рядов на стационарность? 10. Охарактеризуйте процессы AR. 11. В каких случаях процессы AR являются стационарными? 12. Охарактеризуйте процессы MA. 13. Охарактеризуйте процессы ARMA. 14. Опишите модель ARMA(3,2). 15. Как используется автокорреляционная функция для идентификации модели стационарного стохастического процесса? 16. Как используется частная автокорреляционная функция для идентификации модели стационарного стохастического процесса? 17. Как осуществляется прогнозирование ARMA-процессов? 18. Что может служить признаком нестационарности временного ряда? 19. Для чего применяются Тесты Дики-Фуллера? 20. Охарактеризуйте процессы ARIMA. 21. Как осуществляется прогнозирование ARMA-процессов? 108 7. Динамические эконометрические модели 7.1. Общая характеристика динамических моделей При изучении поведения экономических процессов на достаточно длительном промежутке времени есть все основания предполагать о наличии определенных взаимосвязей между их последовательными состояниями. Т. е. состояние экономического явления в данный момент или период времени определяется, в том числе, и его состояниями, а также состояниями окружающей среды в предшествующие моменты или периоды времени. Данное обстоятельство является следствием наличия запаздывания в действии факторов либо инерционностью изучаемых процессов. Модели, связывающие состояния экономических явлений в последовательные моменты (периоды) времени, принято называть динамическими. Такие модели позволяют изучать явления в динамике, в развитии. Аналитическое представление динамических моделей включает значения переменных, относящиеся как к текущему, так и к предыдущим моментам (периодам) времени. Эконометрические модели, включающие в качестве факторов значения факторных переменных в предыдущие моменты времени, называются моделями с распределенным лагом. y t  a  b0  x t  b1  x t 1  b2  x t  2  ...  b p  x t  p   t (7.1) Моделями этого типа описываются ситуации, когда влияние причины (независимых факторов) на следствие (зависимую переменную) проявляется с некоторым запаздыванием. Например, при изучении зависимости объемов выпуска продукции от величины инвестиций, выручки от расходов на рекламу и т. п. Эконометрические модели, включающие в качестве факторов значения результативной переменной в предыдущие моменты времени. Эти модели называются моделями авторегрессии. y t  a  b0  xt  c1  y t 1  c 2  y t  2  ...  c q  y t  q   t . (7.2) Моделями такого типа предполагают наличие определенной инерционности в изменении рассматриваемого явления, когда уровень изучаемого явления существенно зависит от его уровней, достигнутых в предыдущих периодах. Например, уровень спроса на товар либо уровень ВВП в данном периоде во многом определяется уровнями, достигнутыми в предшествующем периоде. Применение находят также и различные комбинации упомянутых выше моделей. Отдельную группу динамических моделей составляют модели, учитывающие ожидаемые уровни переменных, которые определяются экономическими субъектами на основе информации, которой они располагают в текущий и предыдущий момент времени. Например, модели адаптивных ожиданий или частичной корректировки. Включенные в модель в качестве факторов значения переменных в предыдущие моменты времени называются лаговыми переменными. Значениями лаговых переменных являются временные ряды исходных уровней, сдвинутые назад на один или более моментов времени. Величина этого сдвига называется лагом. Включение в эконометрическую модель лаговых значений зависимой пе- 109 ременной осложняет проблему получения несмещенных и эффективных оценок ее параметров. Во-первых, наличие нескольких лаговых переменных yt–1, yt–2, ... либо xt–1, xt–2, ... , зачастую сильной коррелирующих между собой, ведет к потере качества модели вследствие ухудшения точности оценок ее параметров, снижению их эффективности и устойчивости к незначительным колебаниям исходной информации, ошибкам округления. Во-вторых, как правило, существует сильная корреляционная зависимость между переменными yt–1, yt–2, ... и ошибкой εt, ведущая к появлению смещения в оценках параметров при использовании МНК. В-третьих, временной ряд ошибки модели εt часто характеризуется наличием автокорреляционной связи, вследствие чего оценки параметров модели, полученные непосредственно на основе МНК, являются неэффективными. Отметим, что важным этапом при построении моделей с распределенным лагом и моделей авторегрессии является выбор оптимальной величины лага и определение его структуры. 7.2. Модели с распределенным лагом Рассмотрим модель с распределенным лагом порядка p (7.1) yt  a  b0  xt  b1  xt 1  b2  xt 2  ...  b p  xt  p   t . Основную проблему при оценке параметров составляет, как правило, сильная корреляция между факторами xt, xt–1, xt–2, … . Для ее преодоления применяется преобразование лаговых переменных, либо делаются определенные предположения о характере коэффициентов регрессии. 7.2.1. Оценка параметров модели с распределенным лагом методом Койка В методе Койка предполагается, что коэффициенты при лаговых переменных убывают в геометрической прогрессии y t  a  b  xt  b    xt 1  b   2  xt  2  b   3  xt 3  ...   t . (7.3) Модель (7.3) включает три параметра a, b и γ, для определения которых применяется нелинейный метод наименьших квадратов. Согласно этому методу: а) Задаются границы изменения параметра γ (в простейшем случае 0 и 1) и определяются всевозможные значения параметра γ с достаточно малым шагом (например, 0,01). Для каждого значения параметра γ вычисляются значения новой переменной z z t  xt    xt 1   2  xt  2  ...   p  xt  p , (7.4) где величина p выбирается такой, чтобы воздействием последующих лаговых значений xt–p+i можно пренебречь; б) Затем оценивается уравнение регрессии yt  a  b  zt  ut . (7.5) в) Далее выбирается такое значение параметра γ, которому соответствует наибольший коэффициент детерминации R2 при оценке уравнения (7.5). Полу- 110 ченные при этом оценки параметров a и b принимаются в качестве оценок параметров исходного уравнения (7.3). Другой подход к определению параметров уравнения (7.3) основан на так называемом преобразовании Койка. Запишем модель (7.3) для периода t – 1 y t 1  a  b  x t 1  b    x t  2  b   2  xt 3  b   3  xt 3  ...   t 1 . Умножив обе части этого уравнения на γ и вычтя их из уравнения (7.3) после некоторого преобразования получим следующее соотношение y t  a (1   )  b  x t 1    y t 1   t     t 1 . (7.6) Полученное уравнение представляет собой авторегрессионную модель первого порядка. Оценив параметры этого уравнения, можно получить оценки параметров и a, b и γ исходного уравнения (7.3). Заметим, что применение в данном случае для оценки параметров обычного метода наименьших квадратов даст смещенные и несостоятельные оценки вследствие зависимости фактора yt–1 от одной их составляющих случайного члена εt–1. 7.2.2. Оценка параметров модели с распределенным лагом методом Алмон. В методе Алмон для преодоления сильной корреляции между факторами xt, xt–1, xt–2, … используется переход к k+1 новым переменным zj с меньшей корреляционной зависимостью по формулам z jt  a j 0  xt  a j1  xt 1  ...  a jp  xt  p , (j = 0, 1, 2, …, k) (7.7) где коэффициенты подобраны соответствующим образом. Согласно методу Алмон? коэффициенты представляют в виде полиномов заданной степени k от величины лага j bj = с0 + c1j + c2 j2 +…+ сk jk . (7.8) В частности: для полинома первой степени (при k = 1): bj = с0 + c1j; для полинома второй степени (при k = 2): bj = с0 + c1j + с2 j2 и т. д. Выражения для коэффициентов bj модели (7.1) принимают вид: b0 = с0; b1 = с0 + c1 + …+ сk; b2 = с0 + 2c1 + 4c2 +…+ 2kсk; (7.9) ………………………………… bp = с0 + pc1 + p2c2 +…+ p kсk; Подставив в (7.1) найденные соотношения для bj, и вводя новые переменные zj с помощью соотношений (7.11), представим исходное уравнение (7.1) в следующем виде y t  a  c0  z 0  c1  z1  c 2  z 2  ...  c k  z k   t , (7.10) где 111 p z 0  xt  xt 1  ...  xt  p   xt  j ; j 0 p z1  xt 1  2 xt 2  ...  p  xt  p   j  xt  j ; j 1 p z 2  xt 1  4 xt 2  ...  p  xt  p   j 2  xt  j ; 2 (7.11) j 1 ............. p z k  xt 1  2 k xt 1  ...  p k  xt  p   j k  xt  j . j 1 После определения численных значений параметров сj модели (7.10) коэффициенты исходной модели bj находятся из соотношений (7.9). Применение метода Алмон для расчета параметров модели с распределенным лагом предполагает предварительное определение максимальной величины лага p и степени полинома k. Оптимальную величину лага можно приближенно определить на основе априорной информации экономической теории или проведенных ранее эмпирических исследований. Приближенно в качестве величины лага можно взять значение максимального лага, для которого парный коэффициент корреляции между y и лаговыми переменными xt, xt–1, xt–2, … остается значимым. Можно также построить несколько уравнений регрессии с разной величиной лага и выбрать наилучшее. Что касается степени полинома k, то на практике обычно ограничиваются рассмотрением полиномов второй и третьей степени. Величину k также можно определять путем сравнения моделей, построенных для различных значений k. Следует отметить, что при наличии сильной корреляционной связи между исходными лаговыми переменными xt, xt–1, xt–2, … переменные zj, представляющие собой их линейные комбинации, также будут коррелировать между собой. Однако коэффициенты в формулах (7.11) подобраны таким образом, что такая зависимость будет существенно меньше. Метод Алмон имеет следующие достоинства: он достаточно универсален и с помощью введения небольшого количества вспомогательных переменных zj в уравнении (7.10) (k = 2, 3) позволяет построить модели с распределенным лагом любой длины. 7.2.3. Интерпретация параметров Из соотношения (7.1) следует, что изменение независимой переменной х в каком-либо периоде времени t влияет на значение переменной у в данном периоде и в течение p следующих периодов времени. В последующие периоды это влияние проявляться не будет. Таким образом, временной интервал влияния конечен и ограничен p+1 периодом. Коэффициент регрессии b0 при переменной xt называют краткосрочным мультипликатором. Он характеризует среднее абсолютное изменение yt при 112 изменении xt на одну единицу своего измерения в некотором периоде времени t, без учета воздействия лаговых значений фактора х. Величины (b0 + b1), (b0 + b1 + b2) и т. д. называются промежуточными мультипликаторами. Они характеризует изменение yt в течение двух, трех и т. д. периодов после изменения xt на одну единицу. Величина b = b0 + b1 +...+ bl. (7.12) показывает максимальное суммарное изменение результирующей переменной у, которое будет достигнуто (по окончании текущего и p следующих периодов) под влиянием изменения фактора х на единицу в каком-либо периоде, и называется долгосрочным мультипликатором. Например, для модели yt = 100 + 70xt +25xt–1 +5xt–2 краткосрочный мультипликатор равен 70, т. е. увеличение xt на 1 единицу ведет в среднем к росту показателя yt на 70 единиц в том же периоде. В течение двух периодов показатель yt возрастет на 70 + 25 = 95 единиц, а долгосрочный мультипликатор равен b= (b0 + b1 + b2) = 70+25+5 =100, и, следовательно, суммарное изменение показателя yt составит 100 единиц. 7.3. Модели авторегрессии 7.3.1. Интерпретация параметров Рассмотрим модель авторегрессии первого порядка y t  a  b0  x t  c1  y t 1   t . (7.13) Коэффициент b0, как и ранее, характеризует краткосрочное изменение yt под воздействием изменения xt на единицу в том же периоде. Изменение yt на b0 в данном периоде в силу соотношения (7.13) повлечет в следующем периоде изменение yt+1 на величину b0·c1. В периоде t + 2 изменение yt+2 составит b0  c12 и т. д. Долгосрочный мультипликатор в модели авторегрессии рассчитывается как бесконечная сумма b  b0  b0 c1  b0 c12  b0 c13 ... (7.14) Если выполняется условие | c1| < 1, то сумма в правой части (7.14), т. е. величина долгосрочного мультипликатора, будет конечная b где | c1| < 1. (7.15) b  b0  (1  c1  c12  c13 ...)  0 , 1  c1 Напомним, что неравенство | c1| < 1 является условием стационарности авторегрессионного процесса первого порядка АR(1), определяемого уравнением (7.13). В модельном примере yt = 200 + 50xt +0,6 yt-1, краткосрочный мультипликатор равен 50, следовательно, увеличение xt на 1 единицу приводит к росту yt в том же периоде в среднем на 50 единиц. Долгосрочное изменение yt составит b = 50 /(1–0,6) = 125 единиц, т. е. изменение xt на 113 1 единицу в каком-либо периоде приведет к изменению yt в долгосрочной перспективе в среднем на 125 единиц. 7.3.2. Оценка параметров моделей авторегрессии Рассмотрим модель авторегрессии первого порядка (7.16) y t  a  b0  x t  c1  y t 1   t . Одна из основных проблем при построении моделей авторегрессии (при оценке параметров) связана с наличием корреляционной зависимости между переменной yt-1 и остатками εt в уравнении регрессии, что приводит при применении обычного МНК к получению смещенной оценки параметра при переменной yt-1. Для преодоления этой проблемы обычно используется метод инструментальных переменных, согласно которому переменная yt–1 из правой части модели заменяется на новую переменную ŷt–1, которая, во-первых, должна тесно коррелировать с yt–1, и, во-вторых, не коррелировать с ошибкой модели εt. В качестве такой переменной можно взять регрессию переменной yt–1 на переменную xt–1, определяемую соотношением yˆ t 1  d 0  d1  xt 1 , (7.17) где константы d1, d2 являются коэффициентами уравнения регрессии yt 1  d 0  d1  xt 1  u t , (7.18) полученными с помощью обычного МНК. Формула (7.17) получена в предположении о наличии зависимости yt–1 от xt–1, как следствия предполагаемой зависимости yt от xt. Переменная yˆ t 1 , вопервых, тесно коррелирует с yt–1, во-вторых, она не будет коррелировать с ошибкой εt, так как она линейно зависит от xt–1, некоррелирующей с εt по предположению. В результате, для оценки параметров уравнения (7.16) используется уравнение y t  a  b0  x t  c1  yˆ t 1   t , (7.19) где значения переменной yˆ t 1 рассчитаны по формуле (7.17). Заметим, что функциональная связь между переменными yˆ t 1 и xt–1 (7.13) приводит к появлению высокой корреляционной связи между переменными yˆ t 1 и xt. Для преодоления этой проблем в модель (7.16) и, соответственно, в модель (7.19) можно включить фактор времени в качестве независимой переменной. Модель при этом примет вид (7.20) yt  a  b0  xt  c1  yˆ t 1  c 2  t   t . Для проверки гипотезы об автокорреляции остатков в моделях авторегрессии (7.16) используется критерий h Дарбина. Фактическое значение критерия вычисляется по формуле h  (1  d n ) , 2 1  n V (7.21) где d – фактическое значение критерия Дарбина–Уотсона для данной модели; n – число наблюдений в модели; V – квадрат стандартной ошибки при лаговой результативной переменной. 114 В качестве критических значений критерия при уровне значимости α берутся значения tα/2 и t1–α/2 квантилей порядка α/2 и1–α/2 для стандартизованного нормального распределения. Нулевая гипотезы об отсутствии автокорреляции не отвергается, если выполняется условие tα/2 < h < t1–α/2. (7.22) Заметим, что этот критерий применим, если n·V < 1. 7.4. Модель частичной корректировки В модели частичной корректировки предполагается, что под воздействием объясняющей переменной xt формируется не фактическое значение переменной yt , а ее «желаемый» уровень y*t [4] y *t  a  b  x t . (7.23) А фактическое приращение зависимой переменной yt – yt–1 пропорционально разнице y*t – yt–1 между ее желаемым уровнем и значением в предыдущий период (0 ≤ λ ≤ 1) (7.24) y t  y t 1   ( y *t  y t 1 )   t , где νt – случайный член. Записав выражение (7.24) как y t   y *t  (1   ) y t 1   t , (0 ≤ λ ≤ 1) (7.25) получим, что фактическое значение переменной yt представляет собой взвешенное среднее желаемого уровня и фактического значения переменной yt в предыдущем периоде. Чем больше значение λ, тем быстрее происходит корректировка. При λ=1 корректировка происходит за один период. Модель, задаваемая соотношениями (7.19) и (7.21), называется моделью частичной (неполной) корректировки. Объединяя соотношения (7.19) и (7.21), получим соотношение y t  a   b  x t  ( 1   ) y t 1   t , (7.26) представляющее собой уравнение авторегрессии первого порядка, удовлетворяющее предположению Койка о характере изменения коэффициентов модели с распределенным лагом с параметром γ = 1–λ. Так как, в уравнении (7.26) переменная yt–1 не коррелирует со случайным членом νt, то обычный МНК позволяет получить состоятельные оценки его параметров. Используя эти оценки, можно получить и все параметры модели частичной корректировки a, b и λ. Другой подход основан на применении обратного преобразования Койка и использовании нелинейного МНК. Примером использования модели частичной корректировки является модель выплаты дивидендов подробно рассмотренная Дж. Линтнером [4]. Предполагается, что у фирм имеется целевая долгосрочная доля выплат γ и что желаемый объем дивидендов D*t соотносится с текущей прибылью Пt как D*t = γПt. (7.27) Реальный объем дивидендов D*t частично корректируется Dt   ( D *t  Dt 1 )   t . (7.28) Соотношение (7.26) принимает вид Dt  Ï t  (1   ) Dt 1   t . (7.29) 115 По данным о деятельности корпоративного сектора США за период1918– 1941 гг. Дж. Линтнером было получено уравнение регрессии (7.30) Dˆ t  352,3  0,15 Ï t  0,70 Dt 1 . Откуда следует, что коэффициент скорости корректировки λ = 0,3; а оценка для доли выплат γ = 0,5. 7.5. Модель адаптивных ожиданий В модели адаптивных ожиданий предполагается, что фактическое значение переменной yt формируется под воздействием ожидаемого значения объясняющей переменной xet+1 в следующий момент времени [4] y t  a  b  x te1   t , (7.31) а размер корректировки ожидаемого значения пропорционален разности между фактическим и ожидаемым значениями объясняющей переменной x te1  x te   ( x t  x te ) . (0 ≤ λ ≤ 1) (7.32) Соотношение (7.28) можно переписать в виде x te1   x t  (1   ) x te , (0 ≤ λ ≤ 1) (7.33) т. е. ожидаемый уровень объясняющей переменной представляет собой взвешенную сумму фактического и ожидаемого уровня в момент t. Для исключения ожидаемого значения xet из модели запишем уравнение (7.31) для момента t–1 y t 1  a  b  x te   t 1 (7.34) и уравнение (7.27) с учетом соотношения (7.29) y t  a  b   x t  b  (1   ) x te   t . (7.35) e Исключая x t из последних двух уравнений получим следующее уравнение модели (7.36) y t  a    b   x t  (1   ) y t 1  u t , где u t   t  (1   ) t 1 . (7.37) Модель (7.36) представляет собой модель авторегрессии первого порядка, в которой динамика случайного члена подчинена закону скользящей средней первого порядка МА(1). В этой модели факторная переменная yt-1 коррелирует со случайным членом ut, поэтому для определения параметров следует использовать нелинейный МНК после предварительного выполнения обратного преобразования Койка. Первым примером использования модели адаптивных ожиданий считается модель гиперинфляции Ф. Кейгана. Объясняемой (зависимой) переменной в этой модели является спрос на реальные денежные остатки y t  log( M t / Pt ) , где Mt – номинальное количество денег в обращении, Pt – уровень цен. Величина M t / Pt называется денежными остатками. Ф. Кейган предположил, что спрос на реальные денежные остатки в период гиперинфляции определяется ожидаемым уровнем инфляции xet+1 в момент времени t+1 116 y t  a  b  x te1   t , (7.38) e а корректировка ожидаемого значения инфляции x t+1 осуществляется по схеме x te1  x te   ( x t  x te ) . (0 ≤ λ ≤ 1) (7.39) По данным для семи периодов гиперинфляции, имевших место между 1921 и 1956 гг., были получены следующие значения параметров b = 4,86; λ = 0,20. Другим известным примером модели адаптивных ожиданий является модель потребления, основанная на гипотезе Фридмена о постоянном доходе [4]. Контрольные вопросы 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Какие эконометрические модели называются динамическими? Что представляют из себя модели авторегрессии? Что представляют из себя модели с распределенным лагом? Что является значениями лаговых переменных? Как интерпретируются параметры модели с распределенным лагом? Как интерпретируются параметры модели авторегрессии? В чем заключается метод Койка? В чем заключается метод Алмон? Как осуществляется оценка параметров моделей авторегрессии? В чем заключается модель частичной корректировки? В чем заключается модель адаптивных ожиданий? Приведите пример модели частичной корректировки. Приведите пример модели адаптивных ожиданий. 117 8. Информационные технологии эконометрических исследований На современном этапе невозможно представить эконометрическое исследование без применения компьютеров. В настоящее время исследователю доступно большое количество разнообразных программных продуктов, которые могут быть использованы для решения эконометрических задач. Сюда относятся, естественно, и все статистические программные пакеты. Практика их использования позволила сформулировать следующие общие требования, предъявляемые к программному обеспечению, применяемому в эконометрических исследованиях:  наличие удобных средств для работы с исходными данными;  расчет статистических характеристик;  поддержка методов построения моделей взаимосвязей;  поддержка методов оценки адекватности моделей;  реализация методов анализа и моделирования временных рядов;  реализация методов прогнозирования;  реализация статистических критериев;  обеспечение возможности создания и сохранения сценария исследования, представляющего описание последовательно применяемых процедур;  визуализация промежуточных и конечных результатов исследования. Наиболее важными для исследователя являются средства автоматизации процесса моделирования и оценка адекватности полученных моделей. С точки зрения эффективности использования рабочего времени важное значение имеют такие возможности по работе с исходными данными, как  удобный ввод данных;  накопление и хранение эконометрических данных;  фильтрация и поиск информации;  предварительная обработка данных. Удобный ввод данных подразумевает наличие средств копирования данных из других приложений (созданных другими программными продуктами) в табличном виде либо возможности загрузки данных из файлов стандартных форматов (.xml, .xls, .txt). Важное значение имеет также возможность графического представления исходных данных и результатов средствами 2D и 3D-графики. Применяемое в эконометрических исследованиях программное обеспечение можно разделить на следующие группы:  Программы, реализующие технологию электронных таблиц MS Excel, OpenOffice.org Calc и др. Используют представление данных в табличном виде и позволяют решать простейшие эконометрические задачи.  Статистические пакеты общего назначения: SPSS, STATISTIСA, STATGRAPHICS и др.  Программы, ориентированные на решение эконометрических задач: Econometric Views, STADIA, Matrixer 3.4 и др. 118  Специализированные статистические пакеты, предназначенные для решения ограниченного круга задач ЭВРИСТА, МЕЗОЗАВР, ОЛИМП, Forecast Expert и др.;  Математические пакеты общего назначения Mathcad, Matlab, Maple, Mathematica и др. 8.1. Электронные таблицы Excel К достоинствам электронных таблиц Excel относится:  доступность, так как они входят в состав наиболее используемого пакета Microsoft Office;  наличие обширного методического обеспечения с примерами использования в эконометрике;  широкая известность, так как, как правило, Excel изучается в курсе информатики;  эффективность на этапе обучения эконометрическим методам;  электронные таблицы согласуются с большинством статистических пакетов прикладных программ. Электронные таблицы Excel предоставляют исследователю следующие возможности:  проведение расчетов с использованием большого количества математических и статистических функций: вычисление распределений случайных величин; вычисление статистических характеристик; вычисление критических значений статистических гипотез. С помощью статистической функции «Линейн» можно получить расчеты основных характеристик всех эконометрических моделей;  использование пакета «Анализ данных», реализующего некоторые статистические методы:  однофакторный дисперсионный анализ;  двухфакторный дисперсионный анализ;  корреляция;  ковариация;  описательная статистика;  экспоненциальное сглаживание;  двухвыборочный f-тест для дисперсии;  анализ Фурье;  скользящее среднее;  регрессия;  парный двухвыборочный t-тест для средних;  двухвыборочный t-тест с одинаковыми дисперсиями;  двухвыборочный t-тест с различными дисперсиями;  двухвыборочный z-тест для средних;  имеется также возможность составления программ для реализации различных эконометрических моделей. 119 8.2. Статистический пакет общего назначения STATISTICA Статистический пакет общего назначения STATISTICA разработан фирмой StatSoft Incorporation. В данный момент в продаже имеется русскоязычная версия STATISTICA 6 и англоязычная версия STATISTICA 9. Стандартную комплектацию пакета STATISTICA составляют три модуля. Базовый пакет (STATISTICA Base) предоставляет обширный выбор основных статистик в едином пакете в сочетании с мощностью, производительностью и простотой использования технологии STATISTICA. Линейные и нелинейные модели (STATISTICA Advanced Linear/Non-Linear Models) включает большой набор самых современных инструментов для моделирования и прогнозирования, включающий возможность автоматического выбора модели и расширенные интерактивные средства визуализации. Многомерные разведочные технологии анализа (STATISTICA Multivariate Exploratory Techniques) содержит широкий выбор разведочных технологий анализа различных типов данных в сочетании с богатыми интерактивными средствами визуализации. Иерархическое меню характеризует возможности программы: Основные статистики и таблицы. Множественная регрессия. Дисперсионный анализ (ДА). Непараметрическая статистика. Подгонка распределений. Углубленные методы анализа:  общие линейные модели;  обобщенные линейные и нелинейные модели;  общие регрессионные модели;  общие модели частных наименьших квадратов;  компоненты дисперсии;  анализ выживаемости;  нелинейное оценивание;  множественная нелинейная регрессия;  логлинейный анализ таблиц частот;  временные ряды и прогнозирование;  моделирование структурными уравнениями. Многомерный разведочный анализ:  кластерный анализ;  факторный анализ;  анализ главных компонент и классификация;  канонический анализ;  надежность и позиционный анализ;  деревья классификации;  анализ соответствий;  многомерное шкалирование; 120  дискриминантный анализ;  общие модели дискриминантного анализа. Анализ мощности, оценка объема выборки. Нейронные сети. Добыча данных:  добытчик данных – все процедуры;  добытчик данных – чистка и фильтрация;  добытчик данных – бурение и расслоение данных;  добытчик данных – углубленные методы классификации;  добытчик данных – разведчик общих многомерных;  добытчик данных – обобщенное прогнозирование;  добытчик данных – нейросетевой разведчик;  нейронные сети;  анализ независимых компонент;  обобщенные методы кластерного анализа;  правила связи;  общие деревья классификации;  общие CHAID модели;  интерактивные деревья (C&RT, CHAID);  растущие деревья классификации и регрессии;  обобщенные аддитивные модели;  многомерные адаптивные сплайны (NAP-сплайны);  процедура обучения (Байесовские, ближайшего соседа …);  быстрое построение прогноза;  качество подгонки, классификации, прогноза;  отсеивание признаков;  объединение групп (классов). Добыча данных в управлении качеством. Текстовая добыча и сканирование Web. Блоковые статистики. Вероятностный калькулятор. Широкому распространению пакета STATISTICA способствуют удобный понятный интерфейс, развитые методы визуализации результатов, возможности обмена данными с электронными таблицами Excel и вызова непосредственно из Excel функций пакета STATISTICA. Для поддержки русскоязычных пользователей имеется вэб-страница «Статистический Портал StatSoft» [28]. 8.3. Эконометрические программные пакеты. Matrixer 5.1 В настоящее время через Интернет доступен отечественный специализированный эконометрический пакет Matrixer (автор А. Циплаков). Программа предназначена для анализа и обработки данных, проведения эконометрических и статистических расчетов. 121 Matrixer может использоваться для преподавания эконометрики и проведения эконометрических исследований среднего объема. В программе реализованы многие классические и современные эконометрические методы и модели:  Линейная регрессия;  Биномиальный логит и пробит;  Упорядоченный пробит;  Цензурированная (тобит) и усеченная регрессия;  Пуассоновская и отрицательно-биномиальная регрессия;  Регрессия с мультипликативной гетероскедастичностью;  Регрессия с ARMA-процессами в ошибке;  Модель Бокса-Дженкинса (ARIMA) с динамическими прогнозами;  GARCH-регрессия;  ARFIMA-FIGARCH (модели с долгосрочной памятью);  (Обобщенный) метод инструментальных переменных;  Непараметрическая регрессия;  Непараметрическое оценивание плотности;  Квантильная регрессия;  Системы одновременных уравнений – 2SLS, 3SLS и FIML;  Векторная авторегрессия;  Нелинейная регрессия;  Нелинейный метод инструментальных переменных;  Метод максимального правдоподобия. Программа предоставляет следующие возможности, помогающие обрабатывать и анализировать данные:  Описательные статистики (среднее, дисперсия и т. п.);  Различные графики данных;  Графическое описание данных (гистограмма, оценка спектральной плотности, автокорреляционная функция);  Таблица корреляций переменных;  Калькулятор функций распределения (нормальное, Стьюдента, хи-квадрат, Фишера);  Тест Дики-Фуллера;  Векторные и матричные вычисления (откуда и название);  Небольшой встроенный язык программирования для написания макросов;  Табличный редактор;  Быстрое построение графиков функций по формулам;  3-мерные графики;  Универсальный модуль импорта данных из текстовых;  Экспорт данных в нескольких популярных форматах;  История команд. 122 Matrixer работает со следующими типами объектов: матрицами, переменными (столбцами матриц), скалярами, строками, моделями. Имеется возможность обмена данными с электронными таблицами Excel. Управлять программой Matrixer можно с помощью: меню, «горячих клавиш», команд, запускаемых из командных окон. Программа Matrixer проста в обращении и эффективна. Большое достоинство заключается в том, что русскоязычная версия бесплатная. 8.4. Анализ временных рядов в системе ЭВРИСТА Система ЭВРИСТА является специализированным статистическим пакетом по исследованию временных рядов, который реализован для операционной системы WINDOWS. Разработчиком системы является ООО «Центр Статистических Исследований». Название системы ЭВРИСТА расшифровывается как «Экспериментальные Временные Ряды Интерактивный СТатистический Анализ». В системе ЭВРИСТА реализовано более 100 различных алгоритмов статистического анализа. Система может работать одновременно со 100 рядами данных, размер которых ограничен только вместимостью жесткого диска. Для удобства пользователя в системе также предусмотрены возможности построения графиков, работа с таблицей, экспорт и импорт данных, построение проектов и т.д. Данные можно импортировать из текстовых файлов, файлов формата DBASE , а также из любых приложений WINDOWS, которые имеют функцию экспорта в папку обмена. Ниже описаны возможности системы. Работа с данными Сравнение двух выборок критериями: Уилкоксона, Клотца, КолмогороваСмирнова, Хи-квадрат, Стьюдента, Фишера. Нормализация данных. Применение к заданным временным рядам преобразования Бокса-Кокса. Взятие сезонных и несезонных разностей. Вычисление автокорреляционной функции. Вычисление аддитивной и мультипликативной сезонной компоненты. Заполнение пропусков методом скользящего среднего. Анализ тренда Оценка тренда методом простого скользящего среднего. Оценка тренда методом полиномиального скользящего среднего. Оценка тренда по формулам Спенсера. Оценка полиномиального тренда и построение доверительных интервалов. Оценка 12 специальных нелинейных моделей тренда и построение доверительных интервалов. Закон распределения Моделирование ряда с заданным законом распределения (всего реализовано 15 законов). Построение гистограммы и эмпирической функции распределения выборок. 123 Тестирование выборок на соответствие заданному закону распределения по критерию Хи-квадрат Пирсона. Тестирование выборок на соответствие заданному закону распределения по критерию Колмогорова-Смирнова. Автоматическое определение закона распределения и его параметров, наиболее подходящих к данной выборке. Прогнозирование Построение прогнозов временных рядов по методу Брауна. Построение прогнозов сезонных временных рядов с помощью метода Хольта-Уинтерса. Построение прогнозов временных рядов и доверительных интервалов по 12 специальным нелинейным моделям тренда. Построение прогнозов временных рядов и доверительных интервалов по модели авторегрессии-скользящего среднего. Построение прогнозов временных рядов и доверительных интервалов по сезонной модели авторегрессии-скользящего среднего. Построение прогнозов временных рядов и доверительных интервалов по сезонным и несезонным ARCH моделям. Спектральный анализ Построение сглаженных оценок автокорреляционной функции временных рядов Построение периодограммы временных рядов по частотной или временной шкале Построение сглаженной периодограммы временных рядов по частотной или временной шкале ARMA модели Вычисление автокорреляционной и частной автокорреляционной функции для визуальной идентификации порядков модели. Автоматическая оценка порядков AR и ARMA модели для данного ряда. Оценка параметров модели авторегрессии методами Левинсона-Дурбина, Бурга, псевдо-наименьших квадратов и вычисление ее теоретических характеристик. Оценка параметров АРСС модели методом наименьших квадратов, вычисление стандартных отклонений параметров, проверка гипотез согласия для каждого из них и всей модели в целом, вычисление теоретических характеристик оцененной модели. Регрессионные модели Оценка линейной регрессионной модели ряда с некоррелированными ошибками, выдача регрессионной таблицы. Оценка линейной регрессионной модели ряда с некоррелированными ошибками с автоматическим подбором оптимального набора независимых переменных методом пошаговой регрессии, выдача регрессионной таблицы. Анализ интервенций Оценка параметров динамической модели интервенции методом наименьших квадратов, вычисление стандартных отклонений параметров, проверка гипотез согласия для каждого из них и всей модели в целом, вычисление теоретических характеристик оцененной модели. Порядки и вид интервенции могут за- 124 даваться вручную или вычисляться автоматически. Момент начала интервенции задается пользователем. Удаление интервенции из ряда. Гармонические модели Оценка параметров гармонической модели для заданного ряда методом Байеса, вычисление стандартных отклонений параметров, вычисление теоретических характеристик оцененной модели. Для оценки необходимо задать только размерность модели, все остальные параметры вычисляются автоматически. В настоящее время в экономической практике большое внимание уделяется анализу рыночных рисков. Программная система ЭВРИСТА предлагает широкий набор методов для применения в этих целях. Контрольные вопросы 1. Какие требования предъявляются к программному обеспечению эконометрических исследований? 2. Как можно классифицировать программное обеспечение, применяемое в эконометрических исследованиях? 3. Назовите статистические пакеты общего назначения. 4. Каковы основные возможности электронных таблиц MS Excel? 5. Каковы основные возможности статистического пакета STATISTIСA? 6. Каковы основные возможности статистического пакета Matrixer 5.1? 7. Каковы основные возможности статистического пакета ЭВРИСТА? 125 Глоссарий Автокорреляция – корреляция между временной переменной и лаговой переменной, составленной от той же переменной. Авторегрессия – регрессия зависимой временной переменной от лаговой переменной, составленной от той же переменной. Адаптивные полиномиальные модели – адаптивные модели временного ряда, основанные на представлении уровней ряда в виде полиномов от интервала прогнозирования Белый шум – стохастический процесс, представляющий собой последовательность независимых, одинаково распределенных случайных величин. Временной ряд (ряд динамики, динамический ряд) – упорядоченная во времени последовательность численных показателей {(yi,ti), i = 1, 2, ..., n}, характеризующих уровни развития изучаемого явления в последовательные моменты или периоды времени. Гетероскедастичность – неоднородность относительно дисперсии. Гомоскедастичность – однородность относительно дисперсии. Двухшаговый метод наименьших квадратов – применяется для оценки параметров сверхидентифицируемой системы уравнений. Интервальный прогноз – интервал, в котором с определенной вероятностью находится фактическое значение прогнозируемой переменной. Коинтеграция нестационарных временных рядов – возможность получить стационарную линейную комбинацию исходных нестационарных временных рядов. Корреляционная связь – зависимость, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков. Корреляционный анализ – раздел математической статистики, изучающий наличие и тесноту связи между переменными без разделения переменных на зависимые и объясняющие. Косвенный метод наименьших квадратов – применяется для оценки параметров идентифицируемой системы уравнений. Коэффициент детерминации R2 – представляет собой квадрат коэффициента корреляции, показывает, какая часть дисперсии результативного признака объяснена уравнением регрессии. Коэффициент эластичности Э – для зависимости y  f (x) вычисляется по x формуле Ý  f ' ( x) , показывает, на сколько процентов в среднем изменится y результативный признак у при изменении фактора х на 1 % от своего номинального значения. Критерий Стьюдента (t-критерий) – применяется для оценки статистической значимости коэффициентов полученного уравнения регрессии. Критерий Фишера (F-критерий) – применяется для оценки статистической значимости полученного уравнения регрессии в целом. 126 Критерий Энгеля-Грэнджера – применяется для тестирования временных рядов на коинтеграцию. Лаг – задержка. Обычно лаг рассматривают между причиной и следствием. Линейная аналитическая зависимость – зависимость, определяемая соотношением y  a  b1  x1  b2  x 2  ...  b p  x p   . Линейный коэффициент корреляции ryx – характеризует тесноту ли- нейной связи между переменными rxy  1  ( xi  x )( yi  y ) n i  x y  cov( x, y )  x y . Логистическая аналитическая зависимость – зависимость, определяеK . мая соотношением yˆ  1  a  e bt Ложная корреляция – высокое значение коэффициентов корреляции при отсутствии истинной зависимости между переменными. Метод Алмон – применяется для оценки коэффициентов модели с распределенным лагом. Согласно методу Алмон, коэффициенты представляются в виде полиномов заданной степени k от величины лага j: bj = с0 + c1j + c2 j2 +…+ сk jk . Метод аналитического выравнивания – заключается в нахождении аналитической функции ŷ = f(t), характеризующей основную тенденцию (тренд) изменения уровней временного ряда с течением времени. Метод включения – применяется при отборе факторов множественной регрессии. Согласно методу включения, сначала строится уравнение регрессии с одним наиболее влияющим фактором (фактор, которому соответствует большее значение парного коэффициента корреляции с результативным признаком ryxi ), затем уравнение регрессии с двумя наиболее влияющими факторами и т. д. Метод исключения – применяется при отборе факторов множественной регрессии. Согласно методу исключения сначала строится уравнение регрессии с полным набором факторов, из числа которых затем последовательно исключаются наименее значимые факторы. Метод Койка – применяется для оценки параметров модели с распределенным лагом. Основан на предположении, что коэффициенты при лаговых переменных убывают в геометрической прогрессии. Метод наименьших квадратов (МНК) – метод оценки параметров уравнения регрессии, основанный на минимизации суммы квадратов отклонений расчетных значений (по уравнению регрессии) зависимой переменной от ее наблюдаемых значений. Метод сравнения средних – применяется для выявления наличия монотонной тенденции на основе сравнения средних уровней двух отрезков временного ряда. Метод Фостера-Стюарта – непараметрический метод, применяемый для выявления наличия монотонной тенденции временного ряда. 127 Модели авторегрессии – динамические модели, определяемые соотношением y t  a  b0  xt  c1  y t 1  c 2  y t  2  ...  c q  y t  q   t . Модели с распределенным лагом – динамические модели, определяемые соотношением y t  a  b0  xt  b1  xt 1  ...  b p  xt  p   t . Модель адаптивных ожиданий – динамическая модель, основанная на предположении, что фактическое значение переменной yt формируется под воздействием ожидаемого значения объясняющей переменной xet+1 в следующий момент времени. Модель частичной корректировки – динамическая модель, основанная на предположении, что под воздействием объясняющей переменной xt формируется не фактическое значение переменной yt, а ее «желаемый» уровень y*t. Мультиколлинеарность – множественная линейная связь. Непараметрические тесты стационарности – тесты на стационарность, не выдвигающие каких-либо предположений о законе распределения тестируемого временного ряда, его параметрах. Обобщенный метод наименьших квадратов – метод оценки параметров уравнения регрессии, в котором МНК применяется к уравнению регрессии, преобразованному таким образом, чтобы исключить гетероскедастичность остатков. Остаточная дисперсия – величина, вычисляемая по формуле 1 2 Dîñò    yˆ i  y i  , где yˆ i , y i – расчетное и наблюдаемое значение зависиn мой переменной. Параметрические тесты стационарности – тесты на стационарность, основанные на относительно строгих предположениях относительно законов распределения временного ряда, его параметров. Показательная аналитическая зависимость – зависимость, определяемая соотношением ŷ = a·bx. Поле корреляций – совокупность точек на координатной плоскости, изображающих наблюдения. Полулогарифмическая аналитическая зависимость – зависимость, определяемая соотношением y  a  b1 ln x1  b2 ln x 2  ...  b p  ln x p . Предмет эконометрики – количественная оценка взаимосвязи между случайными событиями, признаками, показателями, факторами переменных экономических объектов. Приведенная форма модели – система одновременных уравнений, которая отражает зависимость эндогенных переменных только от предопределенных переменных. Регрессионный анализ – раздел математической статистики, изучающий форму зависимости характеристик стохастического процесса от одного или нескольких факторов. Регрессия – зависимость среднего значения какой-либо величины (y) от некоторой другой величины или от нескольких величин (хi). 128 Регрессия множественная – зависимость с несколькими зависимыми переменными. Регрессия парная – зависимость между двумя переменными. Результативный признак – признак, изменяющийся под действием факторных признаков. Случайное блуждание – стохастический процесс, определяемый соотношением Yt = Yt–1 + εt. Средняя квадратическая ошибка модели – величина, вычисляемая по 1 формуле  êâ   yˆ i  y i 2 , где yˆ i , yi – расчетное и наблюдаемое значение  n зависимой переменной. Стационарный стохастический процесс в широком (слабом) смысле – стохастический процесс, у которого математическое ожидание μt и дисперсия σ2t не зависят от времени (одинаковы для всех Xt), а автоковариация  t1t 2 зависит только от величины лага τ = t2–t1. Стационарный стохастический процесс в узком (сильном) смысле – стохастический процесс, для которого совместное распределение вероятностей случайных величин X t1 , X t2 ,..., X tn такое же, как у случайных величин X t1 , X t2 ,..., X tn  при любых n, t и τ. Степенная аналитическая зависимость – зависимость, определяемая соb отношением y  a  x1b1  x 2b2  ...  x pp   . Стохастическая связь – причинная зависимость, которая проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений. Стохастический – случайный, вероятностный. Стохастический процесс – случайная функция X(t) вещественного аргумента t. Структурная форма модели – исходная система одновременных уравнений, содержащая в качестве факторов зависимые переменные. Тенденция – изменение, определяющее общее направление развития, основную тенденцию временного ряда. Теорема Гаусса-Маркова – теорема, определяющая условия, при соблюдении которых оценки параметров линейной регрессии, полученные методом наименьших квадратов, будут несмещенными и эффективными в классе линейных несмещенных оценок Тест Глейзера – применяется для проверки остатков регрессии на гетероскедастичность. Проверяет существование функциональной зависимости следующего вида  i    xiγ . Тест Гольдфельда–Квандта – применяется для проверки остатков регрессии на гетероскедастичность. Проверяет равенство дисперсий остатков на двух интервалах изменения фактора. Тест Дики-Фуллера – применяется для тестирования временного ряда на нестационарность, основан на оценке параметра λ = α1–1 уравнения ΔYt=λ·Yt–1+εt. 129 Тест Манна-Уитни – непараметрический тест стационарности применяется для тестирования постоянства математического ожидания и основан на сопоставлении рангов элементов двух совокупностей из рассматриваемого интервала. Тест на единичный корень (тест Дики-Фуллера) – применяется для тестирования временного ряда на нестационарность, основан на оценке параметра λ = α1–1 уравнения ΔYt = λ·Yt–1 + εt. Тест ранговой корреляции Спирмена – применяется для проверки остатков регрессии на гетероскедастичность. Проверяет наличие монотонной зависимости между дисперсией ошибки и величиной фактора. Тест Сиджела-Тьюки – применяется для тестирования постоянства дисперсии временного ряда и основан на сопоставлении рангов элементов двух совокупностей из рассматриваемого интервала. Точечный прогноз – среднее прогнозное значение изучаемой переменной экономического объекта. Тренд – изменение, определяющее общее направление развития, основную тенденцию временного ряда. Трехшаговый метод наименьших квадратов – применяется для оценки параметров системы уравнений при нарушении предпосылок о независимости и гомоскедастичности остатков системы одновременных уравнений. Условия Гаусса-Маркова – условия, обеспечивающие состоятельность, несмещенность и эффективность оценок параметров уравнения регрессии с помощью МНК. Факторный признак – признак, обуславливающий изменение другого, связанного с ним признака. Фиктивные переменные – применяются для учета в модели влияния качественного фактора. Функциональная связь – связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Частные уравнения регрессии – характеризующие изолированное влияние одного из факторов хi на результативную переменную y при исключении влияния остальных факторов, входящих в общее уравнение регрессии. Экзогенные (внешние, независимые) переменные – переменные, значения которых определяются вне рассматриваемой модели, для которой они являются заданными. Эконометрика – раздел науки, изучающий конкретные количественные и качественные взаимосвязи экономических объектов и процессов с помощью математических и статистических методов и моделей. Экспоненциальная аналитическая зависимость – зависимость, опредеa b1 x1 b2  x2 ...b p  x p  ляемая соотношением y  e . Экспоненциальное сглаживание – сглаживание временного ряда уt на основе рекуррентной формулы S t   y t   S t 1 , где St – значение экспоненциальной средней в момент t; уt – значение временного ряда в момент t; α – параметр сглаживания, α = const, 0< α