Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по эконометрике
Эконометрика. Статистическая оценка достоверности выборочных показателей связи.Системы эконометрических уравнений

Эконометрика. Статистическая оценка достоверности выборочных показателей связи.Системы эконометрических уравнений

⌛ 2008 год
👀 571 просмотр
📌 542 загрузки
🏢️ РГАУ - МСХА имени К.А. Тимирязева

Выбери формат для чтения

Конспект лекции по дисциплине «Эконометрика. Статистическая оценка достоверности выборочных показателей связи.Системы эконометрических уравнений», doc

Загружаем конспект в формате doc

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Эконометрика. Статистическая оценка достоверности выборочных показателей связи.Системы эконометрических уравнений», Word формат

Министерство сельского хозяйства Российской Федерации Федеральное государственное образовательное учреждение высшего пРофессионального образования российский государственный аграрный университет – МСха имени К.А. Тимирязева (ФГОУ ВПО ргау - МСХА имени К.А. Тимирязева) УЧЕТНО-ФИНАНСОВЫЙ ФАКУЛЬТЕТ КАФЕДРА СТАТИСТИКИ Е.В. Шайкина, А.В. Уколова ЭКОНОМЕТРИКА КУРС ЛЕКЦИЙ МОСКВА 2008 УДК 330.43(075) ББК 65в631я7-1 Ш 17 РЕЦЕЗЕНТ: профессор кафедры экономического анализа и аудита РГАУ-МСХА имени К.А. Тимирязева, доктор экономических наук Н.Н. Карзаева Ш 17 Шайкина Е.В., Уколова А.В. Эконометрика: Курс лекций. Учеб. пособие. – М.: МСХА, 2008. – 119 с.: ил. Курс лекций разработан в соответствии с государственными образовательными стандартами по дисциплине Эконометрика для студентов, обучающихся по направлению 080100-Экономика. В учебном пособии рассмотрены основные эконометрические методы, которые могут применяться для моделирования экономики и прогнозирования ее развития. Пособие может быть использовано аспирантами, преподавателями, слушателями курсов повышения квалификации. © Авторский коллектив, 2008 © Издательство МСХА, 2008 Содержание Предисловие 6 Лекция 1. Предмет и метод эконометрики. Ковариация, дисперсия и корреляция 7 Аннотация. 7 Ключевые слова 7 Рассматриваемые вопросы 7 Модульная единица 1. Предмет и метод эконометрики. Ковариация, дисперсия и корреляция 7 Цели и задачи изучения модульной единицы 7 1.1. Предмет и метод эконометрики 7 1.2. Выборочная ковариация. 9 1.3. Основные правила расчета ковариации. 11 1.4. Теоретическая ковариация. 12 1.5. Выборочная дисперсия. Правила расчета дисперсии. 12 1.6. Коэффициент корреляции. 14 1.7. Коэффициент частной корреляции. 16 Вопросы для повторения 17 Резюме по модульной единице 1. 18 Лекция 2. Парная линейная регрессия. 18 Аннотация 18 Ключевые слова 19 Рассматриваемые вопросы 19 Модульная единица 2. Парная линейная регрессия 19 Цели и задачи изучения модульной единицы 19 2.1. Проблема оценивания линейной связи экономических переменных. 19 2.2. Модель парной линейной регрессии. 21 2.3. Регрессия по методу наименьших квадратов. 24 2.4. Интерпретация уравнения регрессии. 27 2.5. Качество оценки: коэффициент R2. 29 Вопросы для повторения 31 Резюме по модульной единице 2 32 Лекция 3. Статистическая оценка достоверности выборочных показателей связи. 32 Аннотация 32 Ключевые слова 33 Рассматриваемые вопросы 33 Модульная единица 3. Статистическая оценка достоверности выборочных показателей связи. 33 Цели и задачи изучения модульной единицы 33 3.1. Оценка достоверности уравнения регрессии в целом 33 3.2. Определение средней ошибки, предельной ошибки и доверительных границ коэффициента корреляции 36 3.3. Проверка гипотезы и интервальная оценка коэффициента регрессии. 37 3.4. Средняя ошибка уравнения и интервальная оценка отдельных значений результативного признака. 38 Вопросы для повторения 40 Резюме по модульной единице 3 41 Лекция 4. Нелинейная регрессия 41 Аннотация 41 Ключевые слова 42 Рассматриваемые вопросы 42 Модульная единица 4. Нелинейная регрессия 42 Цель и задачи изучения модульной единицы 42 4.1. Спецификация модели 42 4.2. Классификация нелинейных функций. 44 4.3. Отдельные виды нелинейных регрессий. 46 4.4.Коэффициенты эластичности в нелинейных регрессиях. 51 4.5. Корреляция для нелинейной регрессии. 52 Вопросы для повторения 54 Резюме по модульной единице 4 54 Лекция 5. Множественная регрессия и корреляция 56 Аннотация 56 Ключевые слова 56 Рассматриваемые вопросы 56 Модульная единица 5.1. Параметризация и спецификация уравнения множественной регрессии 56 Цели и задачи изучения модульной единицы 56 5.1.1. Понятие множественной регрессии, и ее графическая интерпретация 56 5.1.2. Отбор факторов при построении модели. 59 5.1.3. Коллинеарность факторов. Методы преодоления межфакторной связи 60 5.1.4. Параметризация уравнения множественной регрессии и его интерпретация 63 Вопросы для повторения по модульной единице 5.1 66 Резюме по модульной единице 5.1. 66 Модульная единица 5.2. Множественная и частная корреляция. Предпосылки МНК. 67 Цели и задачи изучения модульной единицы 67 5.2.1.Множественная корреляция. 67 5.2.2. Скорректированный индекс детерминации (корреляции). 70 5.2.3. Частная корреляция. 71 5.2.4. Частные F- тесты 72 5.2.5. Предпосылки МНК. 74 Вопросы для повторения: 79 Резюме по модульной единице 5.2. 79 Лекция 6. Моделирование динамических процессов 80 Аннотация 80 Ключевые слова 80 Рассматриваемые вопросы 80 Модульная единица 6. Моделирование одномерных временных рядов 80 Цели и задачи изучения модульной единицы 80 6.1. Элементы временного ряда 80 6.2. Автокорреляция 82 6.3. Выявление структуры временного ряда 83 6.4. Моделирование тенденции 85 6.5. Изучение взаимосвязи переменных по данным временных рядов 86 6.6. Критерий Дарбина-Уотсона 87 Вопросы для повторения: 89 Резюме по модульной единице 6. 90 Лекция 7. Системы эконометрических уравнений 90 Аннотация 90 Ключевые слова 90 Рассматриваемые вопросы: 91 Модульная единица 7.1. Виды систем эконометрических уравнений и их идентификация. Косвенный метод наименьших квадратов 91 Цели и задачи изучения модульной единицы. 91 7.1.1. Понятие и необходимость применения систем уравнений 91 7.1.2. Косвенный метод наименьших квадратов 94 7.1.3. Проблема идентификации 99 Вопросы для повторения 102 Резюме по модульной единице 7.1. 103 Модульная единица 7.2. Методы решения 103 сверхидентифицируемых систем 103 Цели и задачи изучения модульной единицы. 103 7.2.1. Двухшаговый метод наименьших квадратов 103 7.2.2. Понятие о трехшаговом методе наименьших квадратов 106 7.2.3. Применение систем уравнений 106 Контрольные вопросы 110 Резюме по модульной единице 7.2. 111 Словарь основных терминов и определений (глоссарий) 111 Контрольные вопросы итогового контроля 115 Предисловие Эконометрика является одной из базовых дисциплин современного экономического образования. Ее освоение позволяет приобрести как ряд общенаучных, так и профессиональных компетенций. Эффективное функционирование рыночной экономики невозможно без использования эконометрических методов для своевременного выявления влияния изменяющихся экономических условий и обоснования управленческих решений. Эти решения могут приниматься в любой сфере экономики: от оценки изменения показателей хозяйственной деятельности отдельных предприятий до разработки планов эффективных инвестиций, изменений в налогообложении, стратегий деятельности рыночных структур. Эконометрические методы широко применяются не только в экономике и бизнесе, но и в общественных науках для изучения различных социальных и политических процессов. Изучение дисциплины предлагается проводить по четырем тесно взаимосвязанным модулям: модуль 1 «Парная регрессия»; модуль 2 «Множественная регрессия»; модуль 3 «Моделирование динамических процессов» и модуль 4 « Системы эконометрических уравнений». Учебное пособие состоит из девяти лекций по названным модулям, контрольных вопросов к каждой модульной единице и по дисциплине в целом и глоссария. Учебное пособие подготовлено доцентами кафедры статистики РГАУ-МСХА имени К.А. Тимирязева, кандидатами экономических наук Шайкиной Е.В. – лекции по модулям 1-3, Уколовой А.В. – лекции по модулю 4. Лекция 1. Предмет и метод эконометрики. Ковариация, дисперсия и корреляция Аннотация. В данной лекции вводятся базовые понятия эконометрики, которые подготовят почву для предстоящего изложения идей и методов регрессионного анализа. Другой важной целью является демонстрация правил расчета выборочной ковариации и корреляции. Ключевые слова: ковариация, дисперсия, корреляция. Рассматриваемые вопросы: 1. Предмет и метод эконометрики 2. Выборочная ковариация 3. Основные правила расчета ковариации 4. Теоретическая ковариация 5. Выборочная дисперсия, правила расчета дисперсии 6. Коэффициент корреляции 7. Коэффициент частной корреляции Модульная единица 1. Предмет и метод эконометрики. Ковариация, дисперсия и корреляция Цели и задачи изучения модульной единицы. Основной целью изучения данного раздела является формирование у студентов практических навыков расчета основных показателей взаимосвязи переменных. Важно, чтобы студенты хорошо усвоили сущность и способы расчета показателей ковариации и корреляции, поскольку они будут часто использоваться в последующих темах. 1.1. Предмет и метод эконометрики Эконометрика как наука расположена на стыке экономики, статистики и математики. Она изучает экономические явления с количественной точки зрения. Эконометрика устанавливает и исследует количественные закономерности в экономике, используя понятия и методы теории вероятности и математической статистики, адаптированных к обработке экономических данных. Закономерности в экономике выражаются в виде связей и зависимостей экономических показателей. Если причинно-следственными связями в экономике занимается экономическая теория, то моделированием этих связей - эконометрика. Изучение экономических взаимосвязей осложнено тем, что они не являются строгими, функциональными зависимостями. Во-первых, всегда очень трудно выявить все основные факторы, влияющую на данную переменную. Во-вторых, многие такие взаимодействия являются случайными, то есть содержат случайную составляющую. В-третьих, экономисты, как правило, располагают ограниченным набором данных статистических наблюдений, которые к тому же содержат различного рода ошибки. Математическая статистика и ее применение в экономике - эконометрика - позволяют строить экономические модели и оценивать их параметры, что, в конечном счете, служит основой для экономического анализа и прогнозирования, создавая возможность для принятия обоснованных экономических решений. Один из ответов на вопрос «что такое эконометрика?» может звучать так: - это наука, связанная с эмпирическим выводом экономических законов, то есть мы используем данные эмпирических наблюдений, чтобы получить количественные зависимости экономических переменных. Во всей этой деятельности существенным является использование моделей. В большинстве случаев экономические законы выражаются в относительно простой математической форме. Рассмотрим, например, функцию потребления У = А +ВХ1 + СХ2 где У – потребление товара А; Х1 – индекс цен на продукцию; Х2 – доход на душу населения. Данная функция описывает в среднем поведение потребителя по отношению к покупке данного товара. Закон поведения будет найден, как только мы найдем значения коэффициентов В и С. Задача эконометрики в этом случае – определить (оценить) эти коэффициенты из подходящего набора наблюдений. Но это не единственная задача, здесь могут возникнуть и другие вопросы: - нет ли переменных, которые следовало бы дополнительно включить в уравнение (или исключить); - насколько корректно измерены наши данные (доход, индекс цен). Если они не отражают того, что должны отражать, то поведенческая модель потребителя теряет смысл; - верно ли, что модель линейна; - что нужно изучать: макроэкономическое уравнение (данные на уровне областей, регионов) или микроэкономическое (индивидуальные данные по конкретным людям); - является модель статической, когда используют данные одного периода, или динамической, поскольку спрос данного года может определяться не только доходом текущего периода, но и прошлых лет? Эконометрика рассматривает эти и многие другие возникающие вопросы и предлагает способы решения названных проблем. Становление и развитие эконометрического метода происходила на основе математической статистики, на основе законов теории вероятностей; на методах парной и множественной регрессии, полной, частной и множественной корреляции, на математическом анализе временных рядов; на статистическом оценивании достоверности полученных характеристик. Последняя позиция особенно важна в эконометрическом методе. Что такое «закон»? – это общее в явлении. Охватить же наблюдением все экономические явления на практике невозможно, поэтому исследователь чаще всего имеет дело с выборочными совокупностями. Из курса математической статистики известно, что любой выборке свойственна случайная ошибка. Отсюда возникает необходимость проверки достоверности полученных характеристик. Любое эконометрическое исследование всегда предполагает объединение теории (экономической модели) и практики (статистических данных). Эконометрика использует теоретические модели для описания и объяснения наблюдаемых процессов и собирает статистические данные с целью эмпирического построения и обоснования моделей. Современная экономическая наука характеризуется широким использованием математики. Эконометрические модели и методы сейчас - это не только мощный инструментарий для получения новых знаний в экономике, но и широко применяемый аппарат для принятия практических решений в прогнозировании, банковском деле, бизнесе и даже в исследованиях политических и социальных процессов. 1.2. Выборочная ковариация. Выборочная ковариация является мерой взаимосвязи между двумя переменными. Данное понятие будет проиллюстрировано на простом примере. Со времен нефтяного кризиса 1973 г. реальная цена на бензин, то есть цена бензина, отнесенная к уровню общей инфляции, значительно возросла, и это оказало заметное воздействие на потребительский спрос. В табл. 1.1 приведены данные о потребительском спросе и реальных ценах после нефтяного кризиса. Реальная цена вычислялась путем деления индекса номинальной цены на общий индекс потребительских цен и умножения результата на 100 (1972г.=100). Индекс реальной цены в табл. 1.1 (р) показывает повышение цены бензина относительно общей инфляции, начиная с 1972г. На рис. 1.1 эти данные показаны в виде диаграммы рассеяния. Можно видеть некоторую отрицательную связь между потребительским спросом на бензин и его реальной ценой. Показатель выборочной ковариации позволяет выразить данную связь единым числом. Для его вычисления мы сначала находим средние (для рассматриваемого выборочного периода) значения цены и спроса на бензин. Обозначив индекс реальной цены на бензин через р и спрос (млрд.долл.) - через у, мы, таким образом, определяем и , которые для этой выборки оказываются равными соответственно 143,36 и 26,27. Затем для каждого года вычисляем отклонение величин р и у от средних и перемножаем их. Проделаем это для всех годов выборки и возьмем среднюю величину, она и будет выборочной ковариацией (табл.1.1). Определение При наличии п наблюдений двух переменных (х и у) выборочная ковариация между ними задается формулой 1.1. Для различения ковариаций выборочной и генеральной совокупностей мы будем использовать обозначение Cov (x,y) c прописной буквы С применительно к выборочной ковариации и рор. соv (x,y ) - для ковариации между х и у в генеральной совокупности. Иногда последнюю будет удобно обозначать как ху. Аналогичные обозначения мы используем и для дисперсии: Var (x) - применительно к выборочной дисперсии и рор.var (x) - к дисперсии для генеральной совокупности (теоретической). Таблица 1.1 Наблюдения р у z 1973 103,5 26,2 865,3 -39,86 -0,07 2,79 1974 127,0 24,8 858,4 -16,36 -1,47 24,05 1975 126,0 25,6 875,8 -17,36 -0,67 11,63 1976 124,8 26,8 906,8 -18,56 0,53 -9,84 1977 124,7 27,7 942,9 -18,66 1,43 -26,68 1978 121,6 28,3 988,8 -21,76 2,03 -44,17 1979 149,7 27,4 1015,5 6,34 1,13 7,16 1980 188,8 25,1 1021,6 45,44 -1,17 -53,16 1981 193.6 25,2 1049,3 50,24 -1,07 -53,76 1982 173,9 25,6 1058,3 30,54 -0,67 -20,46 Сумма 1433,6 262,7 9582,7 х х -162,44 Среднее 143,36 26,27 958,2 х х -16,24 В примере с бензином вы должны заметить, что ковариация отрицательна. Так и должно быть. Рассмотрим причину этого. Диаграмма рассеяния наблюдений на рис.1.1 делится на четыре части вертикальной и горизонтальной линиями, проведенными через и соответственно. Пересечение этих линий образует точку, которая показывает среднюю цену и средний спрос за период времени, соответствующий нашей выборке. Используя аналогию из физики, можно сказать, что эта точка является центром тяжести совокупности точек, представляющих наблюдение. Для любого наблюдения, лежащего в квадранте А, значения реальной цены и спроса выше соответствующих средних значений. Для данных наблюдений как , так и являются положительными, а поэтому положительно и произведение этих наблюдений. Таким образом, наблюдения в квадранте А дают положительный вклад в ковариацию. Далее рассмотрим квадрант В. Здесь наблюдения имеют реальную цену ниже среднего , а спрос выше среднего. Поэтому наблюдения данного квадранта вносят отрицательный вклад в ковариацию. В квадранте С как цена, так и спрос ниже своих средних значений, поэтому отклонения этих переменных от своих средних будут отрицательны, а их произведение - положительно. Наконец, в квадранте D реальная цена выше средней, а спрос выше среднего и можно понять, что квадрант D вносит отрицательный вклад в ковариацию. Поскольку выборочная ковариация является средней величиной произведения для 10 наблюдений, она будет положительной, если положительные вклады будут доминировать над отрицательными, и отрицательной, если отрицательные вклады будут доминировать над положительными. Положительные вклады исходят из квадрантов А и С, и ковариация будет, скорее всего, положительной, если основной разброс пойдет по наклонной вверх. Точно также отрицательные вклады исходят из квадрантов B и D. Поэтому, если основное рассеяние идет по наклонной вниз, как в этом примере, то ковариация будет, скорее всего, отрицательной. 1.3. Основные правила расчета ковариации. Есть несколько важных правил, которые вытекают непосредственно из определения ковариации. Правило 1. Если у = а + b, то Cov (x,y ) = Cov (x ,а) + Cov (x , b) 1.2. Доказательство правила 1 Таким образом, мы доказали, что Соv (х,у) является суммой ковариаций Cov (x,a) и Cov (x ,b). Это правило можно пояснить на следующем примере. Допустим, х - доход семьи, у - расходы на питание и одежду, которые в свою очередь можно разбить на а - расходы на питание и b - расходы на одежду. Тогда, согласно правилу 1, ковариация доходов с общими расходами (у) может быть определена как сумма ковариации доходов с расходами на питание (а) и ковариации доходов с расходами на одежду (b). Правило 2 Если у = к с, где к - константа, то Cov ( х, у) = к Cov (х,с) 1.3. Доказательство правила 2 Правило 3 Если у = а, где а - константа, то Cov (х,у) = 0. 1.4. Доказательство правила 3 Это совсем просто. Поскольку а - константа, то . Отсюда и, следовательно, . Поэтому Cov ( х, а) = 0. Пользуясь этими основными правилами, вы можете упрощать значительно более сложные выражения с ковариациями. Например, если какая то переменная равна сумме трех переменных - u , v и w, то, пользуясь правилом 1 и разбив у на две части ( u и v + w ), получим : Cov (x , y) = Cov (x, u + v + w) = Cov (x, u ) + Cov (x , v + w ) = Cov (x ,u ) + Cov (x , v ) + Cov ( x , w ). Итак, выборочная ковариация между х и у определяется по формуле 1.1. Другим эквивалентным выражением является Cov (x, y) = 1.5. ( доказательство эквивалентности указанных уравнений здесь опускается). 1.4. Теоретическая ковариация. Если х и у - случайные величины, то теоретическая ковариация ху определяется как математическое ожидание произведения отклонений этих величин от их средних значений : рор.cov (х , у ) = ху = Е {(x - x ) (у - у)} 1.6. Если теоретическая ковариация неизвестна, то для ее оценки может быть использована выборочная ковариация, вычисленная по ряду наблюдений. К сожалению, оценка будет иметь отрицательное смещение, так как Е {Cov (x ,y)} = pop.cov (x , y ) 1.7. Причина заключается в том, что выборочные отклонения измеряются по отношению к выборочным средним значениям величин х и у и имеют тенденцию к занижению отклонений от истинных средних значений. Очевидно , мы можем рассчитать несмещенную оценку путем умножения выборочной оценки на п /п -1. Правила для теоретической ковариации точно такие же, как и для выборочной ковариации, но их доказательства мы опускаем, поскольку для этого требуется интегральное исчисление. Если х и у независимы, то их теоретическая ковариация равна нулю благодаря свойству независимости и факту, что Е (х) и Е(у) равняются соответственно  х и  у . Е {(x - x) (y -  y)} = E ( x -  x) ( y -  y ) = 0 x 0 1.8. 1.5. Выборочная дисперсия. Правила расчета дисперсии. До сих пор термин "дисперсия" использовался в смысле теоретической дисперсии, то есть относящейся ко всей генеральной совокупности. Для целей, которые прояснятся при обсуждении регрессионного анализа, целесообразно ввести понятие выборочной дисперсии. Для выборки из п наблюдений х1,...хп выборочная дисперсия определяется как среднеквадратичное отклонение в выборке : 1.9. Сделаем три важных замечания: 1. Определенная таким образом выборочная дисперсия представляет собой смещенную оценку теоретической дисперсии. Выборочная дисперсия, определенная как 1.10. является несмещенной оценкой 2. Отсюда следует, что ожидаемое значение величины Var (x) равно [(n - 1)/ n] 2 и что , следовательно, она имеет отрицательное смещение. Отметим, что если размер выборки п становится большим, то (п - 1)/п стремится к единице и, таким образом, математическое ожидание величины Var (x) стремится к 2. Можно показать, что ее предел по вероятности (plim) равен 2 и, следовательно, она является примером состоятельной оценки, которая смещена для небольших выборок. 2. Так как величина s2 является несмещенной, то в некоторых работах ее часто определяют как выборочную дисперсию и либо избегают ссылок на Var(x), либо дают ей какое-то другое название. В русскоязычной литературе величина Var (x) обычно называется выборочной дисперсией, а s2 -"исправленной" или несмещенной, выборочной дисперсией. К сожалению, общепринятой договоренности по этому поводу нет. 3. Поскольку указанная договоренность отсутствует, отсутствует и договоренность относительно условного обозначения данного понятия, и для этого используются самые различные символы. Мы условимся теоретическую (или генеральную) дисперсию переменной х обозначать как рор.var (x) или . Если ясно, о какой переменной идет речь, то нижний индекс может быть опущен. Выборочную дисперсию будем обозначать как Var (х). Почему выборочная дисперсия в среднем занижает значение теоретической дисперсии? Причина заключается в том, что она вычисляется как среднеквадратичное отклонение от выборочного среднего, а не от истинного значения. Так как выборочное среднее автоматически находится в центре выборки, то отклонения от него в среднем меньше отклонений от теоретического среднего значения. Существует несколько простых и очень полезных правил для расчета дисперсии, являющихся аналогами правил для ковариации, рассмотренных в разделе 2. Правило дисперсии 1. Если у = v + w , то Var (y) = Var (v) + Var (w) + 2 Cov (v,w) 1.11. Правило дисперсии 2. Если y = a z, где а является постоянной, то Var (y) = a2 Var (z) 1.12. Правило дисперсии 3. Если у = а, где а является постоянной, то Var (y) = 0 1.13. Правило дисперсии 4. Если у = v + a , где a является постоянной, то Var (y) = Var (v). 1.14. Кроме того, заметим, что дисперсия переменной х может рассматриваться как ковариация между двумя величинами х : 1.15. Учитывая это правило, мы можем воспользоваться правилами расчета выборочной ковариации, чтобы вывести правила расчета дисперсии. Кроме того, мы можем получить другую формулу для представления Var (x), используя соотношение (15) для выборочной ковариации. 1.16. Если две переменные независимы и, следовательно, их совокупная ковариация равняется нулю, то теоретическая дисперсия суммы этих переменных будет равна сумме их теоретических дисперсий: 1.17. Из данного результата можно получить общее правило о том, что теоретическая дисперсия суммы любого числа переменных равняется сумме их дисперсий при условии, что наблюдения независимы друг от друга. При этом можно показать, что если случайная переменная х имеет дисперсию 2, то дисперсия выборочного среднего будет равна 2/ п , где п - число наблюдений в выборке : 1.18. 1.6. Коэффициент корреляции. В этой лекции большое внимание уделено ковариации. Это объясняется тем, что она весьма удобна с математической точки зрения, а вовсе не тем, что ковариация является особенно хорошим измерителем взаимосвязи между величинами (ниже мы рассмотрим ее недостатки ). Более точной мерой зависимости является тесно связанный с ней коэффициент корреляции. Подобно дисперсии и ковариации, коэффициент корреляции имеет две формы - теоретическую и выборочную. Теоретический коэффициент корреляции традиционно обозначается греческой буквой , которая произносится как "ро" и соответствует латинской "r". Для переменных х и у этот коэффициент определяется следующим образом: 1.19. Если х и у независимы, то  равно нулю, так как равна нулю теоретическая ковариация. Если между переменными существует положительная зависимость, то xy , а следовательно, и ху будут положительными. Если существует строгая положительная линейная зависимость, то ху примет максимальное значение, равное 1. Аналогичным образом при отрицательной зависимости ху будет отрицательным с минимальным значением -1. Выборочный коэффициент корреляции r определяется путем замены теоретических дисперсий и ковариаций в выражении 1.19. на их несмещенные оценки. Мы показали, что такие оценки могут быть получены умножением выборочных дисперсий и ковариации на п / (п-1). Следовательно, 1.20. Множители п / (п-1) сокращаются, поэтому можно определить выборочную корреляцию как 1.21. Подобно величине  , r имеет максимальное значение, равное единице, которое получается при строгой линейной положительной зависимости между выборочными значениями х и у (когда на диаграмме рассеяния все точки лежат на восходящей прямой линии). Аналогичным образом r принимает минимальное значение -1, когда существует отрицательная линейная зависимость (точки лежат точно на нисходящей прямой линии). Величина r =0 показывает, что зависимость между наблюдениями х и у в выборке отсутствует. Разумеется, тот факт, что r =0 , необязательно означает, что  = 0 , и наоборот. Иллюстрация Для иллюстрации вычисления выборочного коэффициента корреляции мы используем пример о спросе на бензин из раздела 1. Мы уже вычислили Cov(р,y) (см. табл.1.1), которая составляет -16,24, поэтому нам теперь необходимы только Var (p) и Var (y). По данным табл. 1 можно найти, что и . Следовательно, Коэффициент корреляции является более подходящим измерителем зависимости, чем ковариация. Основная причина этого заключается в том, что ковариация зависит от единиц, в которых измеряются переменные х и у, в то время как коэффициент корреляции есть величина безразмерная. Это будет показано для выборочного коэффициента корреляции. Возвращаясь к примеру со спросом на бензин, мы исследуем, что может случиться, когда при вычислении индекса реальных цен в качестве базового года используется 1980 вместо 1972г. В этом случае ковариация изменится, а коэффициент корреляции - нет. При использовании 1972 г. в качестве базового года индекс реальных цен для 1980г. составил 188,8. Если теперь принять этот индекс за 100 для 1980г., то нужно пересчитать ряды путем перемножения на коэффициент 100/188,8 = 0,53. Новый ряд индексов реальной цены на бензин обозначим р1. Величина р1 численно меньше, чем р. Так как каждое отдельное наблюдение ряда цен было пересчитано с коэффициентом 0,53, то отсюда следует, что и среднее значение для р1 – – пересчитывается с этим же коэффициентом. Следовательно, в году t Это означает, что в году t и, следовательно, Cov (p1,y) = 0,53 Cov (p , y). Однако на коэффициент корреляции это изменение не повлияет. Коэффициент корреляции для р1 и у будет равен Числитель дроби был умножен на 0,53, но на ту же величину был умножен и знаменатель, так как Var (p1) = 0,532 Var (p). (Необходимо иметь в виду, что когда вы умножаете переменную величину на постоянную, ее дисперсия умножается на эту постоянную в квадрате.) Знаменатель умножается на 0,53 , а не на 0,532, так как из Var (p1) извлекается квадратный корень. 1.7. Коэффициент частной корреляции. Анализ критериев значимости для коэффициента корреляции будет дан позже, вместе с критериями значимости коэффициентов регрессии. Будет выяснено, что коэффициент корреляции в примере со спросом на бензин незначимо отличается от нуля, что кажется неправдоподобно с точки зрения здравого смысла. Одна из причин получения такого результата заключается в очень небольшом размере выборки. Возможно, что при большем размере выборки мы могли бы показать, что коэффициент корреляции значимо отличается от нуля. Здесь, однако, есть и еще одна причина для получения отрицательного результата: мы не учитывали влияние увеличения дохода на потребительский спрос в целом и на спрос на бензин в частности. Положительный эффект увеличения дохода в основном компенсировал отрицательный эффект роста цен, и, таким образом, спрос на бензин оставался стабильным. Следующий этап исследования состоит в выделении влияния этих двух факторов. Мы можем сделать это, используя так называемый коэффициент частной корреляции, который определяется следующим образом 1.22. где rху.z - коэффициент частной корреляции между х и у в случае постоянства воздействия величины z , а rху, rxz и ryz - обычные коэффициенты корреляции между х и у, между х и z, между у и z соответственно. В примере со спросом на бензин мы можем вычислить корреляцию между ценой и располагаемым личным доходом и между спросом и доходом, используя для этого данные табл.1.1. Результаты приблизительно составят 0,84 и 0,02. Подставляя эти значения в уравнение 1.22, мы оценим частный коэффициент корреляции для реальной цены и спроса на бензин как -0,91, что является намного более приемлемым результатом. Вопросы для повторения 1. Что является предметом изучения эконометрики ? 2. В чем суть метода эконометрики? 3. Существуют ли различия в формулах для определения выборочной и генеральной дисперсии? 4. Перечислите правила расчета ковариации. 5. Чему равна дисперсия постоянной величины? 6. На сколько измениться дисперсия величины х, если каждое индивидуальное значение разделить на 2? 7. Что означает термин «ковариация», и каковы способы ее расчета? 8. Что такое теоретическая ковариация? 9. Что показывает знак ковариации? 10. Почему ковариация не является хорошей мерой связи? 11. Как рассчитывается парный линейный коэффициент корреляции? 12. Как рассчитывается частный коэффициент корреляции? 13. Какая связь существует между ковариацией и коэффициентом корреляции? 14. Что произойдет с ковариацией величин х и у, если единица измерения величины х увеличится на 10? 15. Что произойдет с ковариацией величин х и у, если единица измерения величины х увеличится в 2 раза? 16. Влияет ли изменение масштаба переменных на величину коэффициента корреляции? 17. Во сколько раз изменится коэффициент корреляции переменных х и у, если каждое значение у умножить на 3? 18. В каких пределах коэффициент корреляции принимает свои значения? 19. Чем частный коэффициент корреляции отличается от парного коэффициента корреляции? 20. С чем связаны различия в способах расчета выборочного и теоретического коэффициентов корреляции? 21. Может ли частный коэффициент корреляции быть больше парного? 22. Какие данные – выборочные или генеральные – используется чаще всего в эконометрических исследованиях? 23. С какой целью рассчитывают коэффициент корреляции? 24. Чему равна дисперсия выборочного среднего? Резюме по модульной единице 1. Взаимосвязь переменных проявляется в их согласованной изменчивости. Количественной мерой взаимосвязи являются показатели ковариации и корреляции. Коэффициент корреляции является более устойчивой характеристикой связи по сравнению с показателем ковариации, поскольку не зависит от масштаба переменных. Коэффициент парной корреляции может преувеличивать (или преуменьшать) влияние данного фактора на результат, поскольку не учитывает параллельное влияние других значимых факторов. В этом случае частная корреляция является более точной оценкой взаимосвязи двух переменных. Лекция 2. Парная линейная регрессия. Аннотация. В данной лекции показано, как, используя соответствующие данные, можно получить количественное выражение гипотетического линейного соотношения между двумя переменными; объясняется важный принцип регрессионного анализа – метод наименьших квадратов; даются способы расчета параметров уравнения, а также их смысловая интерпретация. Ключевые слова: уравнение регрессии, остаток (случайный член уравнения), метод наименьших квадратов, коэффициент регрессии, коэффициент детерминации. Рассматриваемые вопросы 1. Проблема оценивания линейной связи экономических переменных 2. Модель парной линейной регрессии 3. Регрессия по методу наименьших квадратов 4. Интерпретация уравнения регрессии 5. Качество оценки: коэффициент R2 Модульная единица 2. Парная линейная регрессия. Цели и задачи изучения модульной единицы. В результате изучения данного раздела студенты должны уметь определять параметры уравнения регрессии, давать им смысловую интерпретацию, оценивать качество модели. 2.1. Проблема оценивания линейной связи экономических переменных. Проблема изучения взаимосвязей экономических показателей является одной из важнейших проблем экономического анализа. Любая экономическая политика заключается в регулировании экономических переменных, и она должна основываться на знании того, как эти переменные влияют на другие переменные, являющиеся ключевыми для принимающего решения политика. Так, в рыночной экономике нельзя непосредственно регулировать темп инфляции, но на него можно воздействовать средствами бюджетно-налоговой и кредитно-денежной политики. Поэтому, в частности, должна быть изучена зависимость между предложением денег и уровнем цен. Невозможно строить, проверять или улучшать экономические модели без статистического анализа их переменных с использованием реальных статистических данных. Вся сфера экономических исследований может быть в определенном смысле охарактеризована как изучение взаимосвязей экономических переменных, и инструментарием их базового анализа являются методы статистики и эконометрики. Изучение зависимостей двух экономических переменных начнем со случая двух переменных (обозначим их х и у). Этот случай наиболее прост и может быть рассмотрен графически. Предположим, что имеются ряды значений переменных, соответствующие им точки нанесены на график и соединены линией. Если это реальные статистические данные, то мы никогда не получим простую линию - линейную, квадратичную, экспоненциальную и т.д. Всегда будут присутствовать отклонения зависимой переменной, вызванные ошибками измерения, влиянием неучтенных величин или случайных факторов. Но если мы не получили, например, точную прямую линию, это еще не значит, что в основе рассматриваемой зависимости лежит нелинейная функция. Возможно, зависимость переменных линейна и лишь случайные факторы приводят к некоторым отклонениям от нее. То же самое можно сказать и про другой вид функции. Связь переменных, на которую накладывается воздействие случайных факторов, называется статистической связью. Наличие такой связи заключается в том, что изменение одной переменной приводят к изменению математического ожидания другой переменной. Можно указать два типа взаимосвязей между переменными х и у. В одном случае может быть неизвестно, какая из двух переменных является независимой, и какая - зависимой. В этом случае переменные равноправны, и имеет смысл говорить о статистической взаимосвязи корреляционного типа. Оценка и анализ парной корреляции уже рассматривались в прошлой лекции. Другая ситуация возникает, если две исследуемые переменные не равноправны, но одна из них рассматривается как объясняющая (или независимая), а другая как объясняемая (или зависящая от первой). Если это так, то изменение одной из переменных служит причиной изменения другой. Например, рост дохода ведет к увеличению потребления; снижение процентной ставки увеличивает инвестиции; увеличение валютного курса сокращает экспорт. Это - тот случай, когда должно быть оценено уравнение регрессии y=f(x) . Уравнение регрессии - это формула статистической связи между переменными. Если эта формула линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных - множественной регрессией. Выбор формулы связи переменных называется спецификацией уравнения регрессии; в данном случае выбрана линейная формула. Однако до тех пор, пока не оценены количественные значения параметров уравнения, не проверена надежность сделанных оценок, эта формула остается лишь гипотезой. Оценка значений параметров выбранной формулы статистической связи переменных называется параметризацией уравнения регрессии. Как же оценить значения параметров и проверить надежность оценок? Рассмотрим вначале рисунок 2.1. Здесь изображены три ситуации: 1) на графике (а) взаимосвязь х и у близка к линейной; прямая линия (1) здесь близка к точкам наблюдений, и последние отклоняются от нее лишь в результате небольших случайных воздействий ; 2) на графике (b) реальная взаимосвязь величин х и у описывается нелинейной функцией (2), и какую бы мы ни провели прямую линию (например,1), отклонения точек наблюдений от нее будут существенными и неслучайными; 3) на графике (с) явная взаимосвязь между переменными х и у отсутствует. Какую бы мы ни выбрали формулу связи, результаты ее параметризации здесь будут неудачными. В частности, прямые линии 1 и 2 , проведенные через "центр" "облака" точек наблюдений и имеющие противоположный наклон, одинаково плохи для того, чтобы делать выводы об ожидаемых значениях переменной у по значениям переменной х. В данной лекции показано, как, используя соответствующие данные, можно получить количественное выражение гипотетического линейного соотношения между двумя переменными. В лекции объясняется важный принцип регрессионного анализа — метод наименьших квадратов, а также выводятся формулы, выражающие коэффициенты регрессии. 2.2. Модель парной линейной регрессии. Коэффициент корреляции показывает, что две переменные связаны друг с другом, однако он не дает представления о том, каким образом они связаны. Рассмотрим более подробно те случаи, для которых мы предполагаем, что одна переменная зависит от другой. Сразу же отметим, что не следует ожидать получения точного соотношения между какими-либо двумя экономическими показателями, за исключением тех случаев, когда оно существует по определению. В учебниках по экономической теории эта проблема обычно решается путем приведения соотношения, как если бы оно было точным, и предупреждения читателя о том, что это аппроксимация. В статистическом анализе, однако, факт неточности соотношения признается путем явного включения в него случайного фактора, описываемого случайным остаточным членом. Начнем с рассмотрения простейшей модели: y= + x+u 2.1. Величина у, рассматриваемая как зависимая переменная, состоит из двух составляющих: 1) неслучайной составляющей  +  x , где x выступает как объясняющая (или независимая) переменная, а постоянные величины  и  — как параметры уравнения; 2) случайного члена и. На рис. 2.2 показано, как комбинация этих двух составляющих определяет величину у. Показатели х1, х2, х3, х4 - это четыре гипотетических значения объясняющей переменной. Если бы соотношение между у и х было точным, то соответствующие значения у были бы представлены точками Q1, Q2, Q3, Q4 на прямой. Наличие случайного члена приводит к тому, что в действительности значение у получается другим. Предполагалось, что случайный член возмущения положителен в первом и четвертом наблюдениях и отрицателен в двух других. Поэтому если отметить на графике реальные значения у при соответствующих значениях х, то мы получим точки P1, P2, P3, P4 . Рис. 2.2. Следует подчеркнуть, что точки Р — это единственные точки, отражающие реальные значения переменных на рис. 2. Фактические значения  и  и, следовательно, положения точек Q неизвестны, так же как и фактические значения случайного члена. Задача регрессионного анализа состоит в получении оценок  и  и, следовательно, в определении положения прямой по точкам Р. Очевидно, что чем меньше значения и, тем легче эта задача. Действительно, если бы случайный член отсутствовал вовсе, то точки Р совпали бы с точками Q и точно показали бы положение прямой. В этом случае достаточно было бы просто построить эту прямую и определить значения  и . Почему же существует случайный член? Имеется несколько причин. 1. Невключение объясняющих переменных. Соотношение между у и х почти наверняка является очень большим упрощением. В действительности существуют другие факторы, влияющие на у, которые не учтены в формуле 2.1. Влияние этих факторов приводит к тому, что наблюдаемые точки лежат вне прямой. В результате мы получаем то, что обозначено как и. Если бы мы точно знали, какие переменные присутствуют здесь, и имели возможность точно их измерить, то могли бы включить их в уравнение и исключить соответствующий элемент из случайного члена.. 2. Агрегирование переменных. Во многих случаях рассматриваемая зависимость — это попытка объединить вместе некоторое число микроэкономических соотношений. Например, функция суммарного потребления — это попытка общего выражения совокупности решений отдельных индивидов о расходах. Так как отдельные соотношения, вероятно, имеют разные параметры, любая попытка определить соотношение между совокупными расходами и доходом является лишь аппроксимацией. Наблюдаемое расхождение при этом приписывается наличию случайного члена. 3. Неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Здесь можно привести один из многих возможных примеров. Если зависимость относится к данным о временном ряде, то значение у может зависеть не от фактического значения х, а от значения, которое ожидалось в предыдущем периоде. Если ожидаемое и фактическое значения тесно связаны, то будет казаться, что между у и х существует зависимость, но это будет лишь аппроксимация. Расхождение вновь будет связано с наличием случайного члена. 4. Неправильная функциональная спецификация. Функциональное соотношение между у и х математически может быть определено неправильно. Например, истинная зависимость может не являться линейной, а быть более сложной. Безусловно, надо постараться избежать возникновения этой проблемы, используя подходящую математическую формулу, но любая самая изощренная формула является лишь приближением, и существующее расхождение вносит вклад в остаточный член. 5. Ошибки измерения. Если в измерении одной или более взаимосвязанных переменных имеются ошибки, то наблюдаемые значения не будут соответствовать точному соотношению, и существующее расхождение будет вносить вклад в остаточный член. Остаточный член является суммарным проявлением всех этих факторов. Очевидно, что если бы нас интересовало только измерение влияния х на у, то было бы значительно удобнее, если бы остаточного члена не было. Если бы он отсутствовал, мы бы знали, что любое изменение у от наблюдения к наблюдению вызвано изменением х, и смогли бы точно вычислить b. Однако в действительности каждое изменение у отчасти вызвано изменением и, и это значительно усложняет жизнь. 2.3. Регрессия по методу наименьших квадратов. Допустим, что вы имеете четыре наблюдения для х и у, представленные на рис. 2., и перед вами поставлена задача — определить значения  и  в уравнении 2.1. В качестве грубой аппроксимации вы можете сделать это, отложив четыре точки Р и построив прямую, в наибольшей степени соответствующую этим точкам. Это сделано на рис.2.3. Отрезок, отсекаемый прямой на оси у, представляет собой оценку  и обозначен а, а угловой коэффициент прямой представляет собой оценку  и обозначен b. С самого начала необходимо признать, что вы никогда не сможете рассчитать истинные значения  и  при попытке построить прямую и определить положение линии регрессии. Вы можете получить только оценки, и они могут быть хорошими или плохими. Иногда оценки могут быть абсолютно точными, но это возможно лишь в результате случайного совпадения, и даже в этом случае у вас не будет способа узнать, что оценки абсолютно точны. Это справедливо и при использовании более совершенных методов. Построение линии регрессии на глаз является достаточно субъективным. Более того, как мы увидим в дальнейшем, это просто невозможно, если переменная у зависит не от одной, а от двух или более независимых переменных. Возникает вопрос: существует ли способ достаточно точной оценки  и  алгебраическим путем? Первым шагом является определение остатка для каждого наблюдения. За исключением случаев чистого совпадения, построенная вами линия регрессии не пройдет точно ни через одну точку наблюдения. Например, на рис. 2.4 при х = x1 соответствующей ему точкой на линии регрессии будет R1 со значением у, которое мы обозначим вместо фактически наблюдаемого значения у1. Величина описывается как расчетное значение у, соответствующее х1 . Разность между фактическим и расчетным значениями (у1 -) определяемая отрезком P1R1,, описывается как остаток в первом наблюдении. Обозначим его е1. Соответственно, для других наблюдений остатки будут обозначены как е2,, е3 и е4. Очевидно, что мы хотим построить линию регрессии таким образом, чтобы эти остатки были минимальными. Очевидно также, что линия, строго соответствующая одним наблюдениям, не будет соответствовать другим, и наоборот. Необходимо выбрать такой критерий подбора, который будет одновременно учитывать величину всех остатков. Существует целый ряд возможных критериев, одни из которых «работают» лучше других. Например, бесполезно минимизировать сумму остатков. Сумма будет автоматически равна нулю, если вы сделаете равным , а равным нулю, получив горизонтальную линию . В этом случае положительные остатки точно уравновесят отрицательные, но строгой зависимости при этом не будет. Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов S. Для рис. 2.4 верно такое соотношение: S = 2.2. Величина S будет зависеть от выбора а и b, так как они определяют положение линии регрессии. В соответствии с этим критерием, чем меньше S, тем строже соответствие. Если S=0, то получено абсолютно точное соответствие, так как это означает, что все остатки равны нулю. В этом случае линия регрессии будет проходить через все точки, однако, вообще говоря, это невозможно из-за наличия случайного члена. Существуют и другие достаточно разумные решения, однако при выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки  и . По этой причине метод наименьших квадратов является наиболее популярным в вводном курсе регрессионного анализа. После построения линии регрессии стоит более детально рассмотреть общее выражение для остатка в каждом наблюдении. Логика этого рассмотрения является достаточно простой. Однако на первый взгляд она может показаться абстрактной, поэтому более наглядно графическое представление. На рис. 5 линия регрессии 2.3. построена по выборке наблюдений. Для того чтобы не загромождать график, показано только одно такое наблюдение: наблюдение i, представленное точкой Р c координатами (xi,,yi). Когда х=хi линия регрессии предсказывает значение у= что соответствует точке R на графике, где = a + bxi 2.4. Используя условные обозначения, принятые на рис.5, это уравнение можно переписать следующим образом: RT = ST + RS 2.5. так как отрезок ST равен а, а отрезок RS равен bxi Остаток PR — это разность между РТ и RT: PR = PT - RT = PT - ST - RS 2.6. Используя обычную математическую запись, представим формулу (6) в следующем виде: ei = yi - = yi - a - bxi. 2.7. Если бы в примере, показанном на графике (рис. 2.5) мы выбрали несколько большее значение а или несколько большее значение b, то прямая прошла бы ближе к Р, и остаток ei был бы меньше. Однако это повлияло бы на остатки всех других наблюдений, и это необходимо учитывать. Минимизируя сумму квадратов остатков, мы попытаемся найти некоторое равновесие между ними. Рассмотрим случай, когда имеется п наблюдений двух переменных х и у. Предположив, что у зависит от х, мы хотим подобрать уравнение: = a + bx 2.8. Расчетное значение зависимой переменной и остаток ei, для наблюдения i заданы уравнениями (2.4) и (2.7). Мы хотим выбрать а и b, чтобы минимизировать величину S, где S = ei2. Можно доказать, что величина S минимальна, когда 2.9.1 и 2.10.1 Варианты выражения для b. Так как 2.11. и 2.12. мы можем получить следующие выражения для b: 2.13. b = 2.14. В дальнейшем будет использоваться первоначальное определение b=Cov(х,y)/Var(х) и это выражение, вероятно, легче всего запомнить. На практике для вычисления коэффициентов регрессии используется компьютер, поэтому нет смысла запоминать альтернативные выражения. Зная определения выборочной дисперсии и ковариации, вы всегда сможете вывести эти выражения. 2.4. Интерпретация уравнения регрессии. Интерпретации уравнения регрессии состоит в словесном истолковании уравнения так, чтобы это было понятно человеку, не являющемуся специалистом в области статистики. Проиллюстрируем это моделью регрессии для функции спроса, т. е. регрессией между расходами потребителя на питание (у) и располагаемым личным доходом (x) по данным для США за период с 1959 по 1983 г. Данные представлены в виде графика (рис.2.6). Предположим, что истинная модель описывается следующим выражением: у =  + х + и 2.15. и оценена регрессия = 55,3 + 0,093х . 2.16. Полученный результат можно истолковать следующим образом. Коэффициент при х (коэффициент наклона) показывает, что если х увеличивается на одну единицу, то у возрастает на 0,093 единицы. Как х, так и у измеряются в миллиардах долларов в постоянных ценах; таким образом, коэффициент наклона показывает, что если доход увеличивается на 1 млрд. долл., то расходы на питание возрастают на 93 млн. долл. Другими словами, из каждого дополнительного доллара дохода 9,3 цента будут израсходованы на питание. Что можно сказать о постоянной в уравнении, равной 55,3? Формально говоря, она показывает прогнозируемый уровень у, когда х = 0. Иногда это имеет ясный смысл, иногда нет. Если х = 0 находится достаточно далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам; даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантии, что так же будет при экстраполяции влево или вправо (рис.2.6). В рассматриваемом случае экстраполяция к вертикальной оси приводит к выводу о том, что если доход был бы равен нулю, то расходы на питание составили бы 55,3 млрд. долл. Такое толкование может быть правдоподобным в отношении отдельного человека, так как он может израсходовать на питание накопленные или одолженные средства. Однако оно не имеет никакого смысла применительно к совокупности. В данном случае константа выполняет единственную функцию: она позволяет определить положение линии регрессии на графике. Можно привести пример постоянной, которая имеет ясный смысл. По этим же данным (приложение 1) можно определить регрессионную зависимость расходов на питание у от времени, определенного как t = 1 для 1959 г., t =2 для 1960 г. и т.д. Она задана уравнением: = 95,3 + 2,53 t. 2.17. В этом уравнении постоянную 95,3 можно объяснить как расходы на питание при t = 0 для 1958 г. При интерпретации уравнения регрессии чрезвычайно важно помнить о трех вещах. Во-первых, а является лишь оценкой , а b — оценкой . Поэтому вся интерпретация в действительности представляет собой лишь оценку. Во-вторых, уравнение регрессии отражает только общую тенденцию для выборки. При этом каждое отдельное наблюдение подвержено воздействию случайностей. В-третьих, верность интерпретации зависит от правильности спецификации уравнения. В сущности, мы построили довольно наивную зависимость для функции спроса. Мы будем неоднократно возвращаться к этому в следующих разделах, уточняя как определение, так и статистические методы, используемые для оценки коэффициентов уравнения. Подводя итог сказанному, можно представить интерпретацию линейного уравнения регрессии в виде реализации следующих шагов. Во-первых, можно сказать, что увеличение х на одну единицу (в единицах измерения переменной х) приведет к увеличению значения у на b единиц (в единицах измерения переменной y). Вторым шагом является проверка, каковы действительно единицы измерения х и у, и замена слова «единица» фактическим количеством. Третьим шагом является проверка возможности более простого выражения результата, который может оказаться не вполне удобным. В примере, приведенном в данном разделе, в качестве единицы измерения для х и у использовались миллиарды долларов, что позволило произвести очевидные упрощения. Постоянная а дает прогнозируемое значение y (в единицах y), если х= 0. Это может иметь или не иметь ясного смысла в зависимости от конкретной ситуации. 2.5. Качество оценки: коэффициент R2. Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким — в других. Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var (у). В парном регрессионном анализе мы пытаемся объяснить поведение у путем определения регрессионной зависимости у от выбранной независимой переменной х. После построения уравнения регрессии мы можем разбить значение уi в каждом наблюдении на две составляющих — и еi. yi = + ei 2.18. Величина — расчетное значение у в наблюдении i — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствии случайного фактора. Это, иными словами, величина у, спрогнозированная по значению x в данном наблюдении. Остаток ei есть расхождение между фактическим и спрогнозированным значениями величины y. Это та часть у, которую мы не можем объяснить с помощью уравнения регрессии. Используя уравнение (2.18), разложим дисперсию у: Var (y) = Var (+ e ) = Var ( ) + Var(e) + 2Cov (,e) 2.19. Далее, Cov (,е) должна быть равна нулю. Следовательно, мы получаем: Var (y) = Var () + Var (e) 2.20. Это означает, что мы можем разложить Var (у) на две части: Var () — часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и Var (е) — «необъясненную» часть. Согласно (2.20), Var ()/ Var (у) — это часть дисперсии y, объясненная уравнением регрессии. Это отношение известно как коэффициент детерминации, и его обычно обозначают R 2. 2.21. что равносильно 2.22. Слова «объясненный» и «необъясненный» взяты в кавычки, так как объяснение, в сущности, может быть мнимым. В действительности у может зависеть от какой-то другой переменной z, и х может действовать как величина, замещающая z . Поэтому вместо слова «объясненный» здесь лучше употреблять выражение «представляющийся объясненным». Максимальное значение коэффициента детерминации равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что = уi для всех i и все остатки равны нулю. Тогда Var () = Var (у), Var (е) = О и R2 = 1. Если в выборке отсутствует видимая связь между у и х, то коэффициент R2 будет близок к нулю. При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициентов а и b, чтобы максимизировать R2. Не противоречит ли это нашему критерию, в соответствии с которым а и b должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков? Нет, легко показать, что эти критерии эквивалентны, если 2.22. используется как определение коэффициента R2. Отметим сначала, что ei = yi - = yi - a -bxi 2.23. откуда, беря среднее значение еi по выборке и используя уравнение 2.10, получим: 2.24. Следовательно, 2.25. Отсюда следует, что принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков при условии выполнения 2.10. Однако если мы минимизируем Var(e), то при этом в соответствии с 2.22. автоматически максимизируется коэффициент R.2. Альтернативное представление коэффициента R2 На интуитивном уровне представляется очевидным, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений y, и наоборот. Покажем, что R2 фактически равен квадрату такого коэффициента корреляции между у и , который мы обозначим (заметим, что Cov (е, у) = 0). 2.26. Вопросы для повторения 1. Раскройте понятие уравнения регрессии. 2. Что такое «остатки» в регрессионной модели, и каковы причины их существования? 3. Поясните сущность метода наименьших квадратов. 4. Как выглядит система нормальных уравнений в случае парной линейной регрессии? 5. Какие способы определения коэффициента регрессии Вы знаете? 6. Какова интерпретация коэффициента регрессии? 7. Есть ли смысловая интерпретация у свободного члена уравнения парной линейной регрессии? 8. Что показывает коэффициент детерминации? 9. Напишите смысловую формулу коэффициента детерминации. 10. Как связан коэффициент детерминации с линейным коэффициентом корреляции? Резюме по модульной единице 2. Простейшей математической моделью корреляционной связи является линейная связь между двумя признаками – парная линейная регрессия. Среди множества факторов, определяющих вариацию результативного признака, выделяют основной (главный) фактор. Линейная форма связи имеет наиболее широкое применение потому, что многие зависимости, нелинейные на большом протяжении значений фактора, близки к линейным на реально наблюдаемом интервале. Кроме того, парная корреляция рассматривается как начальный этап в изучении сложных многофакторных связей. Лекция 3. Статистическая оценка достоверности выборочных показателей связи. Аннотация. С помощью регрессионного анализа мы можем получить оценки параметров зависимости переменных. Однако они являются лишь оценками. В связи с этим возникает вопрос о том, насколько они надежны. В данной лекции рассматриваются способы проверки гипотезы об истинном значении оцениваемого параметра связи. Ключевые слова. Достоверность параметра связи, F-тест, средняя и предельная ошибки параметра, доверительный интервал параметра, доверительный интервал прогноза. Рассматриваемые вопросы. 1. Оценка достоверности уравнения регрессии в целом 2. Определение средней ошибки, предельной ошибки и доверительных границ коэффициента корреляции 3. Определение средней ошибки, предельной ошибки и доверительных границ коэффициента регрессии 4. Определение средней ошибки уравнения и доверительных границ отдельных значений результативного признака (определение ошибки прогноза). Модульная единица 3. Статистическая оценка достоверности выборочных показателей связи. Цели и задачи изучения модульной единицы: освоение методик оценки надежности параметров связи, полученных по выборочным данным, а также методов точечного и интервального прогноза. 3.1. Оценка достоверности уравнения регрессии в целом В корреляционно-регрессионном анализе наиболее точные характеристики связи можно получить лишь в том случае, если исследователь опирается на всю совокупность фактов и событий определенного рода, то есть если удалось провести сплошное наблюдение генеральной совокупности. Многие экономические совокупности являются бесконечными по своей численности (это совокупности фактов купли-продажи товаров, совокупность решений покупателей и т.д.), что делает сплошное наблюдение невозможным или труднореализуемым. Если же уравнение регрессии определено по выборочным данным, то важно помнить о том, что вся интерпретация уравнения в действительности представляет собой лишь оценку реальных соотношений взаимосвязанных признаков в генеральной совокупности. Кроме того, уравнение регрессии отражает только общую закономерность для выборки. При этом каждое отдельное наблюдение подвержено воздействию случайностей. Поэтому, если выборочные характеристики связи необходимо распространить на генеральную совокупность, то следует провести статистическую оценку их достоверности или существенности. Определение. Достоверным (существенным) показателем связи называют тот, величина которого сформировалась под действием закономерности, имеющей место в генеральной совокупности; под достоверностью в математической статистике понимают вероятность того, что значение проверяемого показателя связи не равно нулю и не включает в себя величины противоположных знаков. Недостоверный (несущественный) показатель формируется под влиянием случайных причин. Статистическую оценку достоверности выборочных показателей связи обычно проводят в определенной последовательности. Первая процедура проводится на основе дисперсионного анализа с помощью F-критерия Фишера. Данная процедура получила название F-теста уравнения регрессии. Ее назначение - сделать вывод о правильности выбора вида взаимосвязи и дать характеристику достоверности всего уравнения регрессии в целом. Рассмотрим данную процедуру более подробно. Непосредственному расчету F-критерия предшествует анализ вариации зависимой переменной. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части – «воспроизведенную регрессией» и «остаточную»: = + 3.1. ↓ ↓ ↓ Общая сумма Сумма квадратов Остаточная сумма квадратов отклонений, квадратов отклонений воспроизведенная отклонений регрессией Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат у. Любая сумма квадратов отклонений связана с числом степеней свободы (df – degrees of freedom), то есть с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности п и с числом определяемых по ней констант. Число степеней свободы показывает, сколько независимых отклонений из п возможных требуется для образования данной суммы квадратов отклонений. Так, для общей суммы квадратов требуется (п –1) независимых отклонений, ибо по совокупности из п единиц после расчета среднего уровня свободно варьируют лишь (п –1) число отклонений. При расчете «объясненной» суммы квадратов используются теоретические (расчетные) значения результативного признака, найденные по линии регрессии = а + вх. Параметр а можно определить как . Подставив выражение параметра а в линейную модель, получим: . Отсюда видно, что при заданном наборе переменных у и х расчетное значение является в линейной регрессии функцией только одного параметра – коэффициента регрессии. Соответственно и регрессионная сумма квадратов отклонений имеет число степеней свободы, равное 1. В общем случае для воспроизведенного (регрессионного, факторного) объема вариации число степеней свободы определяется как число неизвестных параметров уравнения при объясняющих переменных. Так, в случае двухфакторной линейной регрессии (= а + вх1+сх2 ) dfрегр.=2. Число степеней свободы для остаточной вариации находят по остаточному принципу, то есть как разность между общим и регрессионным числом степеней свободы: dfост. = dfобщ. – dfрегр.. Для парной линейной регрессии dfост= (п-1) – 1 = п – 2. Итак, имеем два равенства: = + dfобщ = dfрегр + dfост 3.2. Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или что тоже самое, дисперсию на одну степень свободы s2: ; ; 3.3. Определение дисперсии на одну степень свободы приводит дисперсии к сопоставимому виду. Общая дисперсия s2общ. дает количественную оценку средней изменчивости результативного признака под влиянием всех факторов; s2регр. – под влиянием фактора (факторов), включенных в уравнение связи; s2ост. – под влиянием всех прочих неучтенных в уравнении (случайных) причин. Если уравнение регрессии построено по выборочным данным, то вполне логичным является опасение: не является ли «объясненная» вариация в действительности мнимым объяснением, то есть следствием случайной выборки, а не влиянием изучаемого фактора? Для того чтобы ответить на этот вопрос, необходимо сопоставить регрессионную и остаточную дисперсии. Отношение этих дисперсий дает фактическое значение критерия Фишера (F-критерия): 3.4. где F- это критерий для проверки нулевой гипотезы Н0: s2регр.= s2ост. Если нулевая гипотеза справедлива, то регрессионная и остаточная дисперсии не отличаются друг от друга. Для опровержения нулевой гипотезы необходимо, чтобы регрессионная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений (Fтабл.) при разном уровне существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности суждения. Фактическое (вычисленное) значение F-критерия признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза о случайном характере связи изучаемых признаков отклоняется и делается вывод о достоверности такой связи Fфакт.> Fтабл., , Н0 отклоняется. Если же величина окажется меньше табличной Fфакт.≤ Fтабл, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически недостоверным, Н0 не отклоняется. 3.2. Определение средней ошибки, предельной ошибки и доверительных границ коэффициента корреляции В корреляционно-регрессионном анализе обычно оценивается достоверность не только уравнения в целом, но и отдельных параметров связи. Статистическая оценка выборочного коэффициента корреляции, как и других параметров, проводится только в том случае, если выборочная совокупность формировалась в случайном порядке. Алгоритм оценки достоверности выборочных коэффициентов корреляции предусматривает расчет критериев достоверности t-Стьюдента (для малых выборок) и t-нормального распределения (для больших выборок) как отношения выборочного коэффициента корреляции к его средней ошибке tr = 3.5. Средняя или стандартная ошибка коэффициента корреляции mr покажет, на какую величину в среднем по всем возможным выборкам равного объема выборочные коэффициенты корреляции (оценки) r будут отличаться от истинного (генерального) коэффициента корреляции . Величина стандартной ошибки коэффициента корреляции в случае парной линейной связи определяется по формуле 3.6. Тогда фактическое значение t-критерия определяется как 3.7. Сравнив полученное фактическое значение критерия с его критическим (табличным) значением, можно сделать вывод о достоверности выборочного коэффициента корреляции. Например, по результатам случайной выборки семей (п = 20) был определен выборочный коэффициент корреляции между доходом семьи и потреблением товара А: ryx = 0,88. а) Выдвинем нулевую гипотезу, что данная величина выборочного коэффициента корреляции явилась следствием случайных колебаний выборочных данных, на основании которых он исчислен, а генеральный коэффициент корреляции равен нулю – Н0: =0. б) Определим среднюю ошибку выборочного коэффициента корреляции : = в) Рассчитаем фактическое значение критерия t –Стьюдента: tr = =. г) По таблице значений критерия t –Стьюдента определим его критическое значение при уровне значимости 0,05 и числе степеней свободы dfост = п-2=18: tst = 2,1009. д ) Сопоставим критическое и фактическое значения критерия Стьюдента: tфакт.> tst (7,86>2,1009). Сделаем вывод. С вероятностью 0,95 мы отвергаем нулевую гипотезу о равенстве коэффициента корреляции в генеральной совокупности нулю. Выборочный показатель связи обеспечивает точечную оценку рассматриваемого параметра, но при этом вероятность того, что истинное значение будет в точности равно этой оценке, ничтожно мала. Доверительный интервал дает так называемую интервальную оценку параметра, то есть диапазон значений, который будет включать истинное значение с высокой, заранее определенной вероятностью. Для расчета доверительного интервала необходимо найти предельную ошибку коэффициента корреляции по формуле = tst ∙mr = 2,1009∙0,112=0,235. Предельная ошибка покажет, на какую максимальную величину для данного уровня вероятности выборочный коэффициент корреляции может отличаться от генерального. Доверительный интервал для коэффициента корреляции определяется как 3.8. для нашего примера: 0,88 -0,2350,88 + 0,235. Учитывая, что коэффициент корреляции принимает значения от 0 до 1, сделаем вывод: с уровнем вероятности 0,95 можно утверждать, что коэффициент корреляции между доходом семьи и потреблением товара А в генеральной совокупности находится в интервале от 0,645 до 1. 3.3. Проверка гипотезы и интервальная оценка коэффициента регрессии. Процедура оценивания достоверности коэффициента регрессии не отличается от рассмотренной выше для коэффициента корреляции. Сначала выдвигается нулевая гипотеза об отсутствии связи между признаками и равенстве коэффициента регрессии в генеральной совокупности нулю – Н0: β =0.Средняя (стандартная) ошибка коэффициента регрессии для парной линейной связи определяется по формуле 3.9. Для оценки достоверности коэффициента регрессии его выборочная оценка сравнивается с величиной стандартной ошибки, то есть определяется фактическое значение t-критерия Стьюдента tфакт.= 3.10. которое потом сравнивается с табличным значением tтабл. при определенном уровне значимости λ и остаточном числе степеней свободы dfост.. Нулевая гипотеза отклоняется при tфакт.> tтабл. Доверительный интервал для коэффициента регрессии определяется как в - tтабл.∙ т в ≤ β ≤ в + tтабл.∙ т в 3.11. Поскольку коэффициент регрессии в линейном уравнении связи имеет четкую смысловую интерпретацию, то доверительные границы коэффициента не должны содержать противоречивых значений, например -0,8 ≤ β ≤ 1,2. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит отрицательные и положительные величины и даже ноль, чего не может быть. 3.4. Средняя ошибка уравнения и интервальная оценка отдельных значений результативного признака. Важным направлением использования уравнений связи является их применение для прогнозирования ожидаемых результатов при заданном уровне факторов для целей управления исследуемой совокупностью. Использование регрессионной модели для прогнозирования состоит в подстановке в уравнение регрессии ожидаемых значений факторных признаков для расчета точечного прогноза результативного признака и его доверительного интервала с заданной вероятностью. Поскольку не все значения результативного признака лежат на линии регрессии, то использование уравнения регрессии для прогнозирования приведет к некоторой погрешности (ошибке) в оценке анализируемого показателя. Можно назвать два источника возникновения этой погрешности. Во-первых, решенное по выборочным данным уравнение регрессии является всего лишь одним из множества возможных по воле случая подобных уравнений. Каждое из них является лучшим или худшим приближением к истинной (генеральной) линии связи. Во-вторых, уравнение регрессии не воспроизводит общую вариацию результативного признака в полном объеме; остаточная вариация вносит свой вклад в величину погрешности (ошибки) прогноза. Ошибка точечного прогноза или ошибка положения линии регрессии покажет, на какую величину в среднем точечные прогнозы по всем возможным выборочным линиям регрессии будут отличаться от прогнозного значения результативного признака, определенного по истинной (генеральной) линии связи. Чтобы понять, как строится формула ошибки, обратимся к уравнению линейной регрессии: . Учитывая, что , уравнение примет вид: . Отсюда вытекает, что стандартная ошибка зависит от ошибки выборочной средней и ошибки коэффициента регрессии: . Из теории выборки известно, что . Используя в качестве оценки σ2у остаточную дисперсию s2ост. и учитывая вышеприведенную формулу стандартной ошибки коэффициента регрессии (п.3.3), имеем выражение: =. 3.12. Из данной формулы видно, что ошибка положения линии регрессии в прогнозной точке зависит от ошибок отдельных параметров уравнения и от того, как сильно значение признака-фактора отклоняется от его среднего значения. Чем больше разность , тем больше ошибка , с которой предсказывается значение для заданного значения х. Доверительные интервалы положения линии регрессии при заданном х определяются выражением 3.13. где а – уровень значимости. На рисунке 3.1. доверительные границы для представлены гиперболами, расположенными по обе стороны от выборочной линии регрессии. Однако фактические значения yi отклоняются от уравнения регрессии на величину случайной ошибки , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы s2ост. Поэтому ошибка прогноза индивидуального значения yi должна учитывать не только ошибку положения линии регрессии, но и остаточную вариацию. Средняя ошибка прогнозируемого индивидуального значения результативного признака yi(х) составит 3.14. . Доверительный интервал индивидуального прогноза дает возможность в каждом отдельном случае с определенной вероятностью указать, что величина результативного признака окажется в определенном интервале относительно значения, вычисленного по уравнению связи. Вопросы для повторения 1. Раскройте понятие «достоверность» применительно к параметрам взаимосвязи переменных. 2. Всегда ли необходима процедура оценки достоверности результатов регрессионного анализа? 3. С какой целью проводится F-тест уравнения регрессии? 4. Что такое «число степеней свободы», и как оно определяется для факторной и остаточной сумм квадратов? 5. На какие части раскладывается общий объем вариации результативного признака в ходе дисперсионного анализа регрессионной модели? 6. Как рассчитать остаточный объем вариации результативного признака? 7. Назовите причины существования остаточной вариации. 8. Что показывает табличное (критическое) значение критерия Фишера? 9. Чем определяется табличное значение критерия Фишера? 10. В каком случае уравнение регрессии признается достоверным в целом? 11. Как формулируется нулевая гипотеза при проверке достоверности коэффициента корреляции (регрессии)? 12. С какой целью в регрессионном анализе используется критерий t-Стьюдента? 13. Что показывает средняя ошибка коэффициента корреляции (регрессии) и как ее рассчитать? 14. Что показывает предельная ошибка коэффициента корреляции (регрессии) и как ее рассчитать? 15. Что показывает доверительный интервал параметра связи? 16. Как определить доверительный интервал коэффициента регрессии? 17. Чем отличается процедура проверки достоверности параметров связи для больших и малых выборок? 18. В каком случае принимается гипотеза о достоверности коэффициента регрессии? 19. Назовите источники возникновения ошибки прогноза результативного признака. 20. Что такое «точечный прогноз»? 21. Чем отличается доверительный интервал положения линии регрессии от доверительного интервала индивидуального прогноза? Резюме по модульной единице 3. Применение регрессионного метода в условиях малочисленных или выборочных наблюдений предполагает последующую оценку достоверности полученных параметров связи. Предлагаемые в данном разделе методики дают возможность выявить случайную или закономерную природу зависимости между факторами и результатами хозяйственной деятельности. Только наличие устойчивой зависимости дает возможность проводить нормативные и прогнозные расчеты и тем самым получать верные выводы о развитии экономических явлений и процессов. Лекция 4. Нелинейная регрессия Аннотация. Большинство экономических процессов имеют нелинейный характер взаимосвязей переменных. В данной лекции рассматриваются возможности применения линейного регрессионного анализа для некоторых явно нелинейных соотношений; даются примеры решения и интерпретации наиболее часто используемых в анализе нелинейных регрессий. Ключевые слова. Спецификация модели, линеаризация переменных, парабола, гипербола, степенная функция, коэффициенты эластичности, индекс корреляции. Рассматриваемые вопросы 1. Спецификация модели 2. Классификация нелинейных функций 3. Отдельные виды нелинейных регрессий: 3.1. парабола; 3.2. равносторонняя гипербола; 3.3. степенная функция. 4. Коэффициенты эластичности в нелинейных регрессиях. 5. Корреляция для нелинейной регрессии. Модульная единица 4. Нелинейная регрессия. Цель и задачи изучения модульной единицы. Студенты должны уметь выбирать наилучшую форму уравнения регрессии, обосновывать свой выбор, находить и интерпретировать параметры нелинейных регрессионных моделей. 4.1. Спецификация модели Эконометрика как система специфических методов начала развиваться с осознания своей главной задачи – отражения связей экономических переменных. Многие экономические процессы наилучшим образом описываются нелинейными соотношениями, например, функциями спроса и производственными функциями. С этой целью в уравнение регрессии начали включаться переменные не только в первой, но и второй степени – с целью отразить свойства оптимальности экономических переменных, то есть наличия значений, при которых достигается минимальное или максимальное воздействие на зависимую переменную. Таково, например, влияние внесения удобрений на урожайность (до определенного уровня насыщение почвы удобрениями способствует росту урожайности, а по достижении оптимального уровня насыщение его дальнейшее наращивание может привести к снижению урожайности). То же можно сказать о воздействии многих социально-экономических переменных, например, влияния дохода на потребление некоторых продуктов питания. В условиях конкретной выборки данных нелинейность влияния переменных может и не подтвердиться, если эти данные варьируют в узких пределах, то есть являются однородными. Предполагая, что ошибки измерения переменных сведены к минимуму, основное внимание в эконометрических исследованиях уделяется ошибкам спецификации модели, то есть ошибкам, вызванным неверным видом уравнения регрессии. В парной регрессии выбор вида математической функции, моделирующей связь переменных, может быть осуществлен тремя методами: 1) графическим; 2) аналитическим, то есть исходя из теории изучаемой взаимосвязи; 3) экспериментальным. При изучении зависимости между двумя признаками наиболее наглядным является графический метод подбора уравнения. Он основан на построении поля корреляции. Основные типы кривых, используемых при количественной оценке связей, представлены на рис. 4.1. Класс математических функций для описания связи двух переменных достаточно широк. Кроме указанных, используются и другие типы кривых. Значительный интерес представляет аналитический метод выбора типа уравнения регрессии. Он основан на изучении материальной природы связи исследуемых переменных. Пусть, например, изучается потребность предприятия в электроэнергии у в зависимости от объема выпускаемой продукции х. Все потребление электроэнергии можно подразделить на две части: 1) не связанное с производством продукции (а); 2) непосредственно связанное с объемом выпускаемой продукции, пропорционально возрастающее с увеличением объема выпуска . Тогда зависимость потребления электроэнергии от объема продукции можно выразить уравнением регрессии вида у = а + вх. 4.1. Если затем разделить обе части уравнения на величину объема выпуска продукции (х), то получим выражение зависимости удельного расхода электроэнергии на единицу продукции z = у/х от объема выпущенной продукции (х) в виде уравнения равносторонней гиперболы z = в + а/х. 4.2. Аналогично, текущие производственные затраты предприятия могут быть подразделены на условно-постоянные и условно-переменные, и тогда зависимость себестоимости единицы продукции от объемов производства также характеризуется равносторонней гиперболой. Выбор вида уравнения регрессии экспериментальным методом обычно осуществляется при обработке информации на компьютере путем сравнения величины остаточной дисперсии, рассчитанной при разных моделях. Чем меньше величина остаточной дисперсии, тем в меньшей мере наблюдается влияние прочих, не учитываемых в уравнении регрессии факторов, тем лучше уравнение регрессии подходит к исходным данным. Если остаточная дисперсия оказывается примерно одинаковой для нескольких функций, то на практике предпочтение отдается более простым видам функций, ибо они в лучшей степени поддаются интерпретации и требуют меньшего объема наблюдений. Число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров при переменной х. Значит, если мы выбираем параболу второй степени у = а + вх + сх2 4.3. то требуется объем информации не менее 14 наблюдений. Учитывая, что эконометрические модели часто строятся по данным рядов динамики, ограниченным по протяженности (10, 20, 30 лет), то при выборе спецификации модели предпочтительнее модель с меньшим числом параметров при х. 4.2. Классификация нелинейных функций. Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций. В общем случае линейное уравнение выглядит так, что каждый объясняющий элемент, за исключением постоянной величины, записан в виде произведения переменной и коэффициента у =  + 1х1 + 2х2 + ... 4.4. Уравнения вида у =  + 4.5. и у =  х  4.6. являются нелинейными. Зависимости (4.5) и (4.6) считаются приемлемыми для описания кривых Энгеля, характеризующих соотношение между спросом на определенный товар (у) и общей суммой дохода (х). Как можно определить параметры  и  в каждом уравнении, зная значения у и х ? В конечном счете в обоих случаях можно применить линейный регрессионный анализ, для этого потребуется лишь небольшая подготовка. Во-первых, заметим, что уравнение (4.4.) является линейным в двух смыслах. Правая часть линейна по переменным, если определить их в представленном виде, а не как функции. Следовательно, она состоит из взвешенной суммы переменных, а параметры являются весами. Правая часть также линейна по параметрам, так как она состоит из взвешенной суммы параметров. Отсюда различают два класса нелинейных регрессий: 1) регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам. Примером этого класса моделей могут служить полиномы разных степеней у = а + вх + сх2; у = а + вх + сх2+ dх3, а также равносторонняя гипербола у = в + а/х. 2) нелинейные регрессии по оцениваемым параметрам: • степенная у = а хв • показательная у = а вх • экспоненциальная у = е а+ вх. Первый класс моделей (нелинейных по переменным) не таит каких-либо сложностей в оценке ее параметров. Она определяется, как и в линейной регрессии, методом наименьших квадратов (МНК), ибо эти функции линейны по параметрам. Так, в параболе у = а + вх + сх2 , заменяя переменные х1=х, а х2=х2 , получаем двухфакторное уравнение линейной регрессии у = а + вх1 + сх2. Соответственно для полинома третьего порядка получим трехфакторную модель линейной регрессии и так далее. Следовательно, полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров. Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени, в отдельных случаях – полином третьего порядка. Ограничения в использовании полиномов более высоких степеней связаны с требованием однородности совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и, соответственно, тем менее однородна совокупность по результативному признаку. Для равносторонней гиперболы мы можем заменить 1/х на z и получим линейное уравнение регрессии, оценка параметров которого может быть дана МНК. Иначе обстоит дело со вторым классом моделей, то есть с регрессией, нелинейной по оцениваемым параметрам. Данный класс нелинейных моделей можно разделить на два типа: а) нелинейные модели внутренне линейные и б) нелинейные модели внутренне нелинейные. Если модель внутренне линейна, то она с помощью соответствующих преобразований может быть приведена к линейному виду. Пример – степенная функция у = а хв. Данная модель нелинейна относительно оцениваемых параметров, так как включает параметры а и в неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование данного уравнения приводит его к линейному виду. Соответственно оценки параметров а и в могут быть найдены МНК. Внутренне нелинейной будет модель вида у = а + вхс, так как ее невозможно превратить в линейный вид никакими преобразованиями переменных. В нашем начальном курсе эконометрики мы будем рассматривать только модели нелинейные по переменным (то есть первый класс моделей) и модели, нелинейные по параметрам, но внутренне линейные (то есть второй класс, первый тип). 4.3. Отдельные виды нелинейных регрессий. 4.3.1. Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную, или обратная на прямую. В этом случае определяется значение фактора, при котором достигается минимальное или максимальное значение результативного признака. Для этого приравнивают к нулю первую производную параболы второй степени у = а +вх+сх2, , то есть в+2сх=0 и Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, и поэтому форму связи можно заменить другими нелинейными моделями. Если в0 и с0, то кривая симметрична относительно высшей точки, то есть точки перелома кривой, изменяющей рост на падение. В анализе таких функций часто определяется значение фактора, при котором достигается максимум результата. Например, предполагая, что зависимость урожайности от дозы внесения удобрений характеризуется уравнением вида у = 5 + 1,5х – 0,1х2, мы найдем величину дозы удобрений, обеспечивающую максимальную урожайность. Приравнивая к нулю первую производную, имеем 1,5 – 2∙0,1х = 0 Максимальная урожайность достигается при дозе удобрений х = 1,5/0,2 = 7,5. При в0 и с0 парабола второго порядка симметрична относительно своей низшей точки. Это позволяет определить минимум функции в точке, меняющей направление связи, то есть снижение на рост (например, найти выпуск продукции, при котором достигаются минимальные удельные затраты). Чаще всего исследователь имеет дело лишь с отдельными сегментами параболы, а не с полной симметричной параболической формой. Поэтому если график зависимости не демонстрирует четко выраженной смены направленности связи признаков, то она может быть выражена другой нелинейной функцией (например, степенной). 4.3.2. Равносторонняя гипербола. Среди класса нелинейных функций, параметры которой без особых затруднений оцениваются МНК, следует назвать хорошо известную в эконометрике равностороннюю гиперболу. Для нее, заменив 1/х на z, получим линейное уравнение регрессии у = а + вz Гипербола может быть использована не только для характеристики удельных затрат с объемами производства, как уже указывалось ранее. Примером ее использования может служить также взаимосвязь доли расходов на определенные группы товаров (продовольственные, непродовольственные, товары длительного пользования) с общей суммой доходов. Подобного рода взаимосвязи получили название кривых Энгеля. В 1857 году немецкий статистик Энгель сформулировал закономерность – с ростом дохода доля затрат на продовольствие уменьшается. Соответственно, возрастает доля расходов на непродовольственные товары. Допустим, вы исследуете соотношение между ежегодным потреблением бананов и годовым доходом, и наблюдения приведены в табл.4. 1, где собраны наблюдения для 10 семей. Таблица 4.1 Семья Бананы (в фунтах) (у) Доход (в 1000 долл.) (х) ( z ) 1 1,93 1 1,000 2 7,13 2 0,500 3 8,78 3 0,333 4 9,69 4 0,250 5 10,09 5 0,200 6 10,42 6 0,167 7 10,62 7 0,143 8 10,71 8 0,125 9 10,79 9 0,111 10 11,13 10 0,100 На рис.4.2. представлено облако точек, соответствующих наблюдениям, а также график уравнения регрессии между у и х = 5,09 + 0,73 х ; R2= 0,64. 4.7. Стандартные ошибки (1,23) (0,20) Из рисунка видно, что график уравнения регрессии не вполне соответствует точкам наблюдений, несмотря на то, что коэффициент при х существенно отличается от нуля при однопроцентном уровне значимости. Очевидно, что точки наблюдений лежат на кривой, тогда как уравнение регрессии характеризуется прямой. В данном случае нетрудно заметить, что функциональная зависимость между у и х определена неправильно. В том случае, если вы не можете представить зависимость в графическом виде ( например, если вы используете множественный регрессионный анализ), понять, что где то допущена ошибка, можно с помощью анализа остатков. В данном случае значения остатков приведены в таблице 4.2. Таблица 4.2 Семья у е 1 2 3 4 1 1,93 5,82 - 3,90 2 7,13 6,56 0,57 3 8,78 7,29 1,49 4 9,69 8,03 1,67 5 10,09 8,76 1,33 Продолжение табл. 4.2. 1 2 3 4 6 10,42 9,50 0,93 7 10,62 10,23 0,39 8 10,71 10,97 - 0,26 9 10,79 11,70 - 0,91 10 11,13 12,43 - 1,31 Положительные или отрицательные, большие или малые остатки должны чередоваться случайным образом. Здесь же, как видно из таблицы, сначала остатки отрицательны, затем они становятся положительными, достигают максимума, а потом снова уменьшаются и становятся отрицательными: это представляется сомнительным. В данном примере соотношение имеет вид: у = 12 - 4.8. где х принимает целые значения от 1 до 10. Если мы знаем это и определим z = 1/ х, то уравнение примет линейный вид (4.7.) . Значение z для каждой семьи уже подсчитано в таблице 4.1. Оценив регрессию между y и z , получим = 12, 08 - 10, 08 z ; R2 = 0, 9989 Стандартные ошибки (0, 04) (0,12 ) 4.9. Подставив z = 1 / x , имеем 4.10. С учетом высокого качества оцененного уравнения 4.9. неудивительно, что соотношение (4.10) близко к истинному уравнению 4.8 На рис. 4.3 и 4.4 показаны регрессионная зависимость и точки наблюдений для у, х и z. Улучшение качества уравнения, измеряемого с помощью коэффициента R2, отражено в более полном соответствии графиков. Сравните графики на рис. 4.2. и 4.4. 4.3.3. Степенная функция. Рассмотрим далее функции вида у = х  4.11. которые являются нелинейными как по параметрам, так и по переменным. Данное соотношение может быть преобразовано в линейное уравнение путем использования логарифмов, знакомых вам из курса математики. Ниже приведем основные свойства логарифмов, которые помогут вам в преобразованиях нелинейных уравнений. Основные правила гласят : 1. Если у = х z , то log y = log x + log z . 2. Если y = x / z , то log y = log x - log z. 3. Если y = x n, то log y = n log x. Эти правила могут применяться вместе для преобразования более сложных выражений. Например, если у =  х  , то по правилу 1 : log y = log  + log x  и по правилу 3 = log  +  log x. Если обозначить у1 = log (y) , z = log x и  1 = log  , то уравнение (4.11) можно переписать в следующем виде: у 1 = 1 +  z 4.12. Процедура оценивания регрессии теперь будет следующей. Сначала вычислим у 1 и z для каждого наблюдения путем взятия логарифмов от исходных значений. Вы можете сделать это на компьютере с помощью имеющейся статистической программы. Затем оценим регрессионную зависимость у1 от z. Коэффициент при z будет представлять собой непосредственную оценку . Постоянный член является оценкой 1, то есть log . Для получения оценки  необходимо взять антилогарифм, то есть выполнить обратное действие. 4.4.Коэффициенты эластичности в нелинейных регрессиях. Степенная функция используется в эконометрических исследованиях очень широко. Связано это с тем, что параметр b в ней имеет четкое экономическое истолкование, то есть он является коэффициентом эластичности. Это значит, что величина коэффициента b показывает, на сколько процентов изменится в среднем результат, если фактор изменится на 1%. ПРИМЕР Кривая Энгеля была построена для расходов на питание в США за период с 1959 по 1983 г. с использованием тех же данных, что и в лекции «Парная линейная регрессия», однако вместо линейной функции в данном случае использовалась нелинейная, приведенная к линейному виду путем взятия логарифмов. Преобразованное выражение имело вид : y = 1,20 + 0,55 log x Выполнив обратные преобразования, получим = е 1,20х 0,55 = 3,32 х 0,55 Если уравнение (4.6.) представляет собой правильную формулу зависимости ( в действительности, это, безусловно, сильно упрощено), то полученный результат предполагает, что эластичность спроса на продукты питания по доходу составляет 0,55, что означает, что увеличение личного располагаемого дохода на 1% приведет к увеличению расходов на питание на 0,55%. Коэффициент 3,32 не имеет простого толкования. Он помогает прогнозировать значения у при заданных значениях х, приводя их к единому масштабу. О правомерности подобного истолкования параметра b можно судить, если рассмотреть формулу расчета коэффициента эластичности Э= 4.13. где - первая производная, характеризующая соотношение приростов результата и фактора для соответствующей формы связи. Для степенной функции она составит . Соответственно коэффициент эластичности окажется равным Э = 4.14. Коэффициент эластичности можно определить и для других форм связи, но только для степенной функции он представляет собой постоянную величину, равную параметру b. В других функциях коэффициент эластичности зависит от значения фактора х. Так, для линейной регрессии у=а+bх коэффициент эластичности определяется по формуле Э= 4.15. так как . В силу того, что для линейной функции коэффициент эластичности не является величиной постоянной, а зависит от соответствующего значения х, то обычно рассчитывается средний показатель эластичности по формуле 4.16. Для параболы второго порядка у=а+bx+cx2 первая производная функции , а коэффициент эластичности также зависит от величины х 4.17. Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в %. Например, не имеет смысла определять в % такие признаки, как возраст, число комнат, тарифный разряд рабочего и др. В такой ситуации степенная функция не может быть экономически интерпретирована, поэтому даже если она оказывается наилучшей по формальным математическим соображениям (минимальная остаточная дисперсия), значительно больший интерес для интерпретации может иметь линейная регрессия с меньшим коэффициентом корреляции. 4.5. Корреляция для нелинейной регрессии. Уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателем тесноты связи, а именно – индексом корреляции R 4.18. где -общая дисперсия результативного признака; - остаточная дисперсия. Учитывая связь дисперсии с объемом вариации, можно легко доказать, что индекс корреляции через объемы вариации определяется следующим образом: 4.19. Нам уже известно, что величина данного показателя находится в пределах от нуля до единицы. Чем он ближе к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. Парабола второй степени, как и полином более высокого порядка, при линеаризации принимает вид уравнения множественной регрессии. Если же нелинейное относительно объясняющей переменной уравнение регрессии при линеаризации принимает форму линейного уравнения парной регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции, величина которого совпадет с индексом корреляции. (Доказательство дано в учебнике Елисеевой И.И. «Эконометрика») Обратимся к равносторонней гиперболе . Заменив на z, имеем регрессию вида , для которой может быть определен линейный коэффициент корреляции . По своей величине он будет равен коэффициенту корреляции между у и х , то есть ryч. Иначе обстоит дело, когда преобразование уравнения в линейную форму связаны с зависимой переменной. В этом случае линейный коэффициент корреляции по преобразованным значениям признаков дает лишь приближенную оценку тесноты связи и численно не совпадает с индексом корреляции. Так, для степенной функции после перехода к логарифмически линейному уравнению loqy=loqa+bloqx может быть найден линейный коэффициент корреляции не для фактических значений переменных у и х, а для их логарифмов (то есть rloqy.loqx). Квадрат линейного коэффициента корреляции будет характеризовать отношение факторной суммы квадратов отклонений к общей, но не для у, а для его логарифмов. Между тем при расчете индекса корреляции используются суммы квадратов отклонений именно у, а не их логарифмов. Квадрат индекса корреляции (i2) называют индекс детерминации, он имеет тот же смысл, что и линейный коэффициент детерминации, то есть представляет собой отношение факторной и общей суммы квадратов отклонений. Индекс детерминации используется для проверки существенности уравнения нелинейной регрессии в целом по F-критерию Фишера F = 4.20. где п – число наблюдений; т – число параметров при переменных х. Величина m характеризует число степеней свободы для факторной дисперсии, а (n – m – 1) – число степеней свободы для остаточной суммы квадратов. Для степенной функции т=1 и формула F-критерия примет тот же вид, что и при линейной парной зависимости 4.21. Для параболы второй степени m=2 и 4.22. Расчет критерия Фишера можно вести и в таблице дисперсионного анализа результатов регрессии, как это было показано для линейной функции (лекция 3). Индекс детерминации можно сравнивать с коэффициентом детерминации для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем меньше значение линейного коэффициента детерминации по сравнению с индексом детерминации. Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически если величина i2-r2≤0.1 , то предположение о линейной форме связи считается оправданным. Иными словами, если нет уверенности в правильности выбора нелинейной функции, то в целях лучшей интерпретации связи она может быть заменена уравнением прямой. Вопросы для повторения 1. Какие есть способы выбора вида математической функции в случае парной связи переменных? 2. В чем сущность экспериментального метода выбора вида уравнения? 3. Назовите виды функций, нелинейных относительно объясняющих переменных. 4. Параметризацию каких видов нелинейных регрессий можно выполнить методом наименьших квадратов? 5. С какой целью проводится линеаризация переменных в уравнениях регрессии? 6. Назовите область применения равносторонней гиперболы в эконометрических исследованиях. 7. В чем особенность параболической регрессионной зависимости? 8. Раскройте содержание «кривых Энгеля». 9. Какова интерпретация показателя степени в степенной функции? 10. Назовите показатели корреляции, используемые при нелинейных соотношениях изучаемых признаков. Резюме по модульной единице 4. Возможность построения нелинейных моделей значительно повышает универсальность регрессионного анализа, но и усложняет задачу исследователя – возникает проблема выбора. Выбор модели с максимальным коэффициентом детерминации не всегда возможен. В частности, нельзя сравнивать эти показатели для линейного и логарифмического вариантов модели. В большинстве случаев лучшей следует признать модель, которая при достоверных параметрах имеет меньший объем остаточной вариации, легче интерпретируется и требует меньшего объема наблюдений. Лекция 5. Множественная регрессия и корреляция Аннотация. Регрессионный анализ по методу наименьших квадратов обобщается здесь для случая, когда вместо одной независимой переменной в модель включается несколько независимых переменных. В лекции рассматриваются также методы обоснования состава переменных; разграничения эффектов отдельных факторов, способы оценки достоверности полученных результатов. Ключевые слова: коллинеарность (мультиколлинеарность) факторов, коэффициенты чистой регрессии, стандартизованные коэффициенты регрессии, модель спроса (потребления), функция Кобба-Дугласа, множественная и раздельная детерминация, полная и частная корреляция, общий и частный F-тесты, необходимые свойства выборочных оценок параметров регрессии, предпосылки МНК. Рассматриваемые вопросы 1. Понятие множественной регрессии, и ее графическая интерпретация 2. Отбор факторов при построении модели. 3. Коллинеарность факторов. Методы преодоления межфакторной связи 4. Параметризация уравнения множественной регрессии и его интерпретация 5. Множественная корреляция. 6. Скорректированный индекс детерминации (корреляции). 7. Частная корреляция. 8. Частные F- тесты 9. Предпосылки МНК. Модульная единица 5.1. Параметризация и спецификация уравнения множественной регрессии Цели и задачи изучения модульной единицы. В результате изучения данного раздела студенты должны уметь обосновывать состав включаемых переменных, форму связи; выявлять и преодолевать мультиколлинеарность факторов; определять и интерпретировать параметры множественной регрессии. 5.1.1. Понятие множественной регрессии, и ее графическая интерпретация Множественный регрессионный анализ является развитием парного регрессионного анализа применительно к случаям, когда зависимая переменная гипотетически связана с более чем одной независимой переменной. Большая часть анализа будет непосредственным расширением парной регрессионной модели, но здесь мы сталкиваемся с двумя новыми проблемами. Во-первых, при оценке влияния данной независимой переменной на зависимую переменную нам придется решать проблему разграничения ее воздействия и воздействий других независимых переменных. Во-вторых, мы должны будем решить проблему спецификации модели. Часто предполагается, что несколько переменных могут оказывать влияние на зависимую переменную, с другой стороны, некоторые переменные могут не подходить для модели. Мы должны решить, какие из них следует включить в уравнение регрессии, а какие - исключить из него, и какова форма связи изучаемых переменных? В большинстве ситуаций мы ограничимся основным случаем, где используются только две независимые переменные. Начнем с рассмотрения примера, в котором определяются факторы совокупного спроса на продукты питания. Расширим первоначальную модель, включив учет влияния ценовых изменений на спрос, и допустим, что истинную зависимость можно выразить следующим образом: у =  + 1х + 2 р + и, 5.1.1. где у - общая величина расходов на питание, х - располагаемый личный доход, а р - цена продуктов питания. Это, разумеется, является значительным упрощением как с точки зрения состава независимых переменных, включенных в зависимость, так и с точки зрения математической формулы связи. Для геометрической иллюстрации этой зависимости необходима трехмерная диаграмма с отдельными осями для у, х и р (рис. 5.1.1). Рис. 5.1.1. Основание диаграммы содержит оси для х и р, и если пренебречь текущим влиянием случайного члена, то наклонная плоскость над ним показывает величину у , соответствующую любому сочетанию х и р, измеренную расстоянием по вертикали от данной точки до этой плоскости. Так как расходы на питание могут увеличиваться с ростом доходов и уменьшаться с увеличением цены, изображение на диаграмме было построено на основе допущения о том, что величина 1 является положительной, а величина 2 - отрицательной. Конечно, нереально было бы предположить, что одна из величин х и р могла бы быть равной нулю, но если бы обе величины х и р оказались равными нулю, то величина у равнялась бы . При сохранении р = 0 уравнение (5.1.1) означает, что для любого положительного дохода величина у будет равна ( + 1х), и на рис. 5.1 приращение 1х обозначено как "чистый эффект дохода". При сохранении х = 0 уравнение означает, что для любой положительной цены величина у будет равной ( + 2р), приращение 2 р на рисунке обозначено как "чистый эффект цены". Поскольку 2 на практике является отрицательной величиной, отрицательным будет и этот эффект. Показан также комбинированный эффект дохода и цены (1х + 2р). До сих пор мы пренебрегали случайным членом. Если он отсутствует на данный момент в уравнении (5.1.1), то значения у в выборке наблюдений для у, х и р будут находиться точно на наклонной плоскости и будет довольно просто вывести точные значения 1 и 2. Учет случайного члена приводит к тому, что фактические значения у будут лежать несколько выше или ниже значений, соответствующих наклонной плоскости. Следовательно, теперь мы имеем трехмерный аналог для двухмерной задачи, рассмотренной в теме «Парная линейная регрессия». Вместо нахождения линии, соответствующей двухмерному рассеянию точек, мы теперь должны расположить плоскость так, чтобы она соответствовала трехмерному рассеянию. Уравнение для выбранной плоскости будет иметь вид: 5.1.2. и ее расположение будет зависеть от выбора величин а , b1 и b2 , являющихся, соответственно, оценками  , 1 и 2. Используя данные для США за 1959 - 1983 гг. по затратам на питание, располагаемому личному доходу и ценам, мы получим уравнение регрессии: ; R2 =0,99, 5.1.3. где у и х измерены в долларах США в постоянных ценах 1972 г., а р является индексом относительной цены, вычисленной путем деления неявного дефлятора цен на продукты питания на неявный дефлятор общих расходов ( равный 100 в 1972 г.) и умноженным на 100. Полученное уравнение следует интерпретировать следующим образом. При каждом увеличении располагаемого личного дохода на 1 млрд. долл. (при сохранении постоянных цен) расходы на питание увеличатся на 112 млн.долл. На каждую единицу увеличения индекса цен ( при сохранении постоянных доходов) эти расходы уменьшаться на 739 млн. долл. Чистый эффект в любой момент времени будет зависеть не только от этих коэффициентов , но и от размеров изменений х и р. Например, в период 1975-1980 гг. располагаемый личный доход увеличился на 145,8 млрд. долл., и, согласно уравнению (5.3), это привело к увеличению расходов на питание на 16,3 млрд. долл. В течение указанного периода индекс цен упал со 111,9 до 109,7, т.е. на 2,2 пункта, и это привело к дальнейшему увеличению у на 1,6 млрд. долл. Совместный эффект, прогнозируемый уравнением (5.3), таким образом, составил увеличение затрат на питание в размере 17,9 млрд. долл. Фактическое увеличение оказалось несколько больше, а именно 20,3 млрд. долл. Даже если спецификация модели оказалась бы верной, то между прогнозируемым изменением и полученным результатом будет наблюдаться расхождение. Прежде всего, оценки 1 и 2 подвержены влиянию ошибки выборки. Кроме того, фактические уровни затрат на питание в 1975 и 1980 гг. определялись не только экономической зависимостью, но и случайным членом и в тот и в другой годы, а следовательно, измеренное приращение в течение этого периода имеет, наряду с экономической составляющей, также и случайную составляющую. 5.1.2. Отбор факторов при построении модели. Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также их совокупное влияние на результативный признак. Построение уравнения множественной регрессии, как и в случае парной зависимости признаков, начинается с проблемы спецификации модели. Эта проблема включает в себя два круга вопросов – отбор факторов и выбор вида уравнения регрессии. Их решение при построении модели множественной регрессии имеет некоторую специфику. Отбор факторов. 1. Отбор факторов производится на основе качественного теоретико-экономического анализа, то есть включение в уравнение тех или иных факторов должно опираться на понимание природы взаимосвязи экономических переменных. 2. Факторы должны быть количественно измеримы. Если исследователь хотел бы включить в модель качественный фактор (например, район города как фактор цены на квартиру), то нужно придать этому фактору количественную определенность. В зависимости от целей модели район города можно ранжировать по экологической ситуации, или по удаленности от центра и в модель включить уже порядковый номер района в ранжированном ряду. 3. Каждый из факторов не может быть частью другого. 4. Число включаемых факторов должно быть как минимум в 6-7 раз меньше объема совокупности, по которой изучается регрессия. 5. Каждый дополнительно включенный в уравнение регрессии фактор должен увеличивать множественный коэффициент детерминации, то есть доля объясненной вариации результативного признака за счет включенного фактора должна увеличиваться, а, соответственно, доля остаточной вариации должна уменьшаться. Если до включения фактора в модель и после его включения коэффициенты множественной детерминации мало отличаются друг от друга, то данный фактор является лишним в модели. Насыщение модели лишними факторами приводит к статистической недостоверности параметров регрессии по критерию Стьюдента. 6. Факторы, включенные в модель, должны быть независимы друг от друга, то есть они не должны быть интеркоррелированы друг с другом и, тем более, находиться в жесткой функциональной связи. Если между самими факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результат и параметры уравнения тогда невозможно интерпретировать. Проблема коррелированности факторов является наиболее серьезной проблемой множественной регрессии, поэтому рассмотрим ее подробнее. 5.1.3. Коллинеарность факторов. Методы преодоления межфакторной связи Предположим, что у =  +1х1 +2х2 + и и допустим, что величины 1и 2 положительны и х1 и х2 положительно коррелированы. Что произойдет, если оценить парную регрессию между у и х1? По мере увеличения х1: 1) у имеет тенденцию к росту, поскольку коэффициент 1 положителен; 2) х2 имеет тенденцию к росту, так как х1 и х2 положительно коррелированы ; 3) у получит ускорение из-за увеличения х2 и благодаря тому, что коэффициент 2 положителен. Другими словами, изменения у будут преувеличивать влияние текущих значений х1 , так как отчасти они будут связаны с изменениями х2 . В результате оценка значения 1 будет смещена Считается, что факторы явно коллинеарны (то есть находятся между собой в линейной зависимости), если коэффициент парной линейной корреляции между ними rx1x2  0,7. Коллинеарность факторов нарушает условие независимости объясняющих переменных и приводит к тому, что факторы дублируют друг друга. Коэффициенты интеркорреляции (то есть коэффициенты корреляции между самими факторами) позволяют исключать из модели какой-то из дублирующих факторов. Оставлять в модели следует не тот фактор, который теснее связан с результатом, а тот, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. Рассмотрим пример. Таблица 5.1. Коэффициенты парной корреляции между переменными у х1 х2 Х3 у 1 х1 0,78 1 х2 0,69 0,73 1 Х3 0,57 0,49 0,12 1 Очевидно, что факторы х1 и х2 дублируют друг друга. В модель целесообразно включить фактор х2 , а не х1,, так как у него значительно слабее связь с третьим фактором. Наибольшие трудности в аппарате множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более двух факторов связаны между собой тесной линейной зависимостью, то есть имеет место совокупное воздействие факторов друг на друга. Включение мультиколлинеарных факторов в модель приводит к следующим негативным последствиям: 1) такие факторы всегда будут действовать в унисон, поэтому затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом виде», параметры линейной множественной регрессии теряют экономический смысл; 2) оценки параметров связи становятся ненадежными, обнаруживают большие стандартные ошибки, что делает модель непригодной для анализа и прогнозирования. Существует ряд методов, которые позволяют преодолеть сильную межфакторную связь. Первый метод основан на последовательном анализе коэффициентов множественной детерминации, где в качестве зависимой переменной рассматривается каждый из факторов (R2x1/x2x3…, R2x2 /x1x3 и т.п.). Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов, можно выделить переменные, ответственные за мультиколлинеарность и исключить их из модели. В уравнении останутся факторы с минимальной величиной межфакторной связи. Второй метод связан с преобразованием факторов, при котором уменьшается корреляция между ними. Этот метод наиболее часто используется при анализе корреляции в динамических рядах экономических показателей. При построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней , чтобы исключить влияние тенденции (мы подробнее познакомимся с этим методом позднее в теме «корреляция в рядах динамики»). Третий метод – построение совмещенных уравнений регрессии. Совмещенными называют уравнения, которые отражают не только влияние факторов, но и их взаимодействие. Так, если у=f(x1,x2,x3), то возможно построение следующего совмещенного уравнения y=a+b1x1+b2 x2+b3x3+b12x1x2+b13 x1x3+b23 x2x3 Если дисперсионный анализ совмещенного уравнения по критерию Фишера доказал статистическую значимость взаимодействия только первого и третьего факторов, то уравнение регрессии будет иметь вид: y=a+b1x1+b2 x2+b3x3+2+b13 x1x3 Взаимодействие факторов (первого и третьего) можно продемонстрировать на рисунке 5.1.2. Если взаимодействие есть, то на разных уровнях третьего фактора влияние первого фактора будет неодинаково (б). И наоборот, параллельные линии влияния первого фактора на результат при разных уровнях третьего фактора означают отсутствие взаимодействия самих факторов (а). Четвертый метод преодоления мультиколлинеарности факторов – переход к уравнениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения. Пусть, например, рассматривается двухфакторная регрессия у =  +1х1 +2х2, для которой факторы обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместо этого, можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии вместе с другим уравнением, где второй фактор рассматривается как зависимая переменная х2 = А + Ву+ Сх3.. Далее можно подставить правую часть данного равенства (А + Ву+ Сх3) вместо х2 в исходную модель. Итак, мы имели следующие проблемы: первый и второй фактор одновременно включать было нельзя из-за тесной их связи; второй фактор был также функционально связан с третьим фактором, что также не давало возможности их одновременного включения. Выразив второй фактор через третий, мы включили его действие в модель, избежав при этом корреляции самих факторов. 5.1.4. Параметризация уравнения множественной регрессии и его интерпретация Установив перечень признаков-факторов, и предварительно оценив форму связи, можно записать соответствующее математическое уравнение теоретической линии множественной регрессии. Так, например, в случае двухфакторной линейной регрессии нахождение неизвестных параметров по методу наименьших квадратов предполагает решение системы нормальных уравнений: Комментируя решенное уравнение, следует помнить о том, что существует различие в интерпретации коэффициента регрессии в парных и множественных моделях. В уравнениях парной регрессии коэффициент в называют коэффициентом полной регрессии. Он показывает, как в среднем изменится у при изменении х на единицу, при условии, что влияние других факторов не учтено. В уравнениях множественной регрессии коэффициент вi называют коэффициентом чистой регрессии. Он измеряет среднее изменение у при изменении фактора хi на единицу, но при условии, что действие других факторов, включенных в уравнение регрессии, учтено и зафиксировано на среднем уровне. Коэффициенты регрессии в уравнении связи несопоставимы друг с другом в силу разных единиц измерения. Для целей сравнения и определения приоритетности факторов определяют стандартизованные коэффициенты регрессии: коэффициенты эластичности и бета-коэффициенты. Коэффициенты эластичности для линейной связи определяются по формулам и т.д. 5.1.4. Они показывают, на сколько процентов изменится признак-результат, если признак-фактор изменится на один процент. Формулы для расчета бета-коэффициентов имеют вид 5.1.5. Величина бета-коэффициента показывает, на сколько средних квадратических отклонений изменится у, если хi изменится на одно среднее квадратическое отклонение. Стандартизованные коэффициенты регрессии позволяют выделить приоритетные факторы, в изменении которых заложены наибольшие возможности в управлении изменением результативного признака. Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров уравнения наиболее широко используются линейные и степенные функции. Линейная модель в форме 5.1.1. является аддитивной. Это означает, что в основе модели лежит гипотеза о том, что каждый фактор что-то добавляет или отнимает от значения результативного признака. Например, если у – это урожайность сельскохозяйственной культуры, а х1, х2 и х3 – агротехнические факторы: дозы удобрений, число прополок, поливов и т.п., то каждый из этих факторов либо повышает, либо понижает величину урожайности, причем последняя могла бы существовать и без этих факторов. Также часто линейная регрессионная модель используется в функциях потребления (спроса), где у – потребление товара или группы товаров, а факторами могут быть доход семьи в текущем и предшествующем периоде, размер семьи, цены, прошлые привычки потребления, то есть потребление товара в предшествующем периоде. Параметр а в таком уравнении не подлежит экономической интерпретации, а коэффициенты регрессии рассматриваются как характеристики склонности к потреблению. Например, функция потребления имеет вид Пt = a +b1Dt + b2Dt-1 5.1.6. где потребление в период времени t зависит от дохода того же периода Dt и от дохода предшествующего периода Dt-1. Коэффициент в1 называют краткосрочной предельной склонностью к потреблению. Он показывает, на сколько увеличится потребление товара при увеличении доходов текущего периода на единицу. Общим эффектом возрастания как текущего, так и предыдущего дохода будет рост потребления на величину b = b1 + b2. Коэффициент в рассматривается здесь как долгосрочная склонность к потреблению. Пример: П (потребление) = 38 + 0,47Дт +0,23Дт-1. Краткосрочная склонность к потреблению составляет здесь 0,47, а долгосрочная склонность 0,47+0,23=0,7. Однако аддитивная модель пригодна не для любых связей в экономике. Если, например, изучается зависимость объема продукции предприятия от занимаемых площадей, числа работников, стоимости основных фондов (или всего капитала), то каждый из факторов является необходимым для существования результата, а не добавлением к нему. В таких ситуациях нужно исходить из гипотезы о мультипликативной форме модели: 5.1.7. Такая модель по ее первым создателям получила название модель Кобба-Дугласа. Это степенная функция и, как мы уже знаем, показатели степени при факторах являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1 процент при неизменности других факторов. Решение степенной функции методом наименьших квадратов требует предварительной ее линеаризации. Как было рассмотрено ранее (лекция 4), линеаризация степенных функций проводится с помощью логарифмирования ее переменных. Степенные множественные функции часто используются как производственные функции, где результатом выступают объемы производства, а факторами – используемые ресурсы (трудовые ресурсы, основные производственные фонды, машины, текущие затраты и т.п.). Экономический смысл здесь имеют не только коэффициенты эластичности по каждому фактору, но и их сумма B = b1+b2 5.1.8. Эта величина фиксирует обобщенную характеристику эластичности производства (показывает, на сколько процентов в среднем увеличиваются объемы производства при увеличении всех факторов на 1%). Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии. Например, экспонента 5.1.9. или гипербола 5.1.10. Стандартные компьютерные программы обработки регрессионного анализа позволяют перебирать различные функции и выбирать ту из них, для которой остаточная дисперсия и ошибка аппроксимации минимальные. Однако следует помнить, что чем сложнее сама функция, тем менее интерпретируемы ее параметры. При сложных полиномиальных функциях необходимо соблюдать соотношение между числом объясняющих переменных и объемом совокупности. Так, полином второй степени с двумя факторами y = a + b1x1 + b2x2 +b11x12+ b22 x2 2+ b12x1x2 5.1.11. требует не менее 40-50 наблюдений. Вопросы для повторения по модульной единице 5.1: 1. Назовите условия отбора факторных показателей в уравнение множественной регрессии. 2. Раскройте сущность мультиколлинеарности факторов в модели. 3. Каковы последствия наличия мультиколлинеарных факторов в модели? 4. Назовите методы устранения мультиколлинеарности факторов. 5. Что показывают чистые коэффициенты регрессии? 6. Раскройте назначение стандартизованных коэффициентов регрессии. 7. Как рассчитать средний коэффициент эластичности, и какова его интерпретация? 8. Что показывает бета-коэффициент и как его рассчитать? 9. Как выявить приоритетный фактор(ы) в формировании уровня результативного признака? 10. Функция потребления: сущность, способ решения и интерпретация параметров. 11. Производственная функция: сущность, способ решения и интерпретация параметров. Резюме по модульной единице 5.1. Данная тема занимает центральное место в курсе эконометрики, поскольку именно многофакторность свойственна экономическим системам. Многофакторные модели служат основным средством прогнозирования экономических результативных признаков, а также средством оценки роли каждого отдельного фактора в изменении уровня результативного признака. Модульная единица 5.2. Множественная и частная корреляция. Предпосылки МНК. Цели и задачи изучения модульной единицы. После изучения данного раздела обучающиеся должны уметь оценивать множественную и частную корреляцию и детерминацию, выявлять лишние факторы в модели, обосновывать целесообразность дополнительного включения факторов, а также соблюдать условия использования МНК в регрессионном анализе. 5.2.1.Множественная корреляция. Наиболее общим показателем тесноты связи всех входящих в уравнение регрессии факторов с результативным признаком является коэффициент множественной детерминации R2. Принципиальное содержание множественного коэффициента детерминации, как и парного, раскрывается формулой 5.2.1. Это отношение части вариации результативного признака, объясняемой за счет вариации входящих в уравнение факторов к общей вариации результативного признака за счет всех факторов. Для случая двухфакторной линейной связи коэффициент множественной детерминации можно вычислить из парных коэффициентов детерминации по формуле 5.2.2. Кроме определения показателя общей тесноты связи результативного признака со всеми факторами, включенными в уравнение, множественный корреляционно-регрессионный анализ дает возможность измерить долю каждого фактора в общей вариации результативного признака. Для этого рассчитывают коэффициенты раздельной (частной) детерминации по одной из формул 1) , где 5.2.3. 2) 5.2.4. Сумма коэффициентов раздельной детерминации дает множественный коэффициент детерминации 5.2.5. Качество уравнения множественной регрессии, а также его практическая значимость оценивается с помощью показателей множественной корреляции и детерминации, которые измеряют тесноту совместного влияния факторов на результат. Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции, что предполагает решение уравнения множественной регрессии и определения на его основе остаточной дисперсии 5.2.6. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции 5.2.7. При правильном включении факторов в регрессионный анализ величина индекса множественной корреляции будет существенно отличаться от индекса парной корреляции. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем и далее знаках). Таким образом, сравнивая индексы множественной и парной корреляции, можно делать вывод о целесообразности включения в уравнение регрессии того или иного фактора. При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением 5.2.8. где β – стандартизованные коэффициенты регрессии, а r - парные коэффициенты корреляции результата с каждым фактором. При трех переменных для двухфакторного линейного уравнения регрессии величина множественного коэффициента корреляции может быть определена по формуле 5.2.9. Индекс множественной корреляции равен коэффициенту множественной корреляции в двух случаях: 1) при линейной зависимости рассматриваемых признаков; 2) при криволинейной зависимости, нелинейной по переменным, но линейной по параметрам. Пример. Модель прибыли для фирмы имеет вид y = a + b1x1 + b2 loq x2 5.2.10. где у – прибыль, х1 – расходы на рекламу, х2 – капитал фирмы. Тогда независимо от того, что фактор х1 задан линейно, а фактор х2 – как логарифм, оценка тесноты связи может быть произведена с помощью линейного коэффициента множественной корреляции. Так, если бета-коэффициенты βх1 = - 0,4 и βх2= 0,5, а парные коэффициенты корреляции rух1 и rуloqx2 = 0,7, то коэффициент множественной детерминации окажется равным R2 yx1x2 = -0,4(-0,6) + 0,5 (0,7) = 0,59. Тот же результат даст и индекс множественной детерминации, определенный через соотношение воспроизведенной и общей дисперсии результативного признака. Иначе обстоит дело с криволинейной регрессией, нелинейной по параметрам. Рассмотрим производственную функцию Кобба-Дугласа: где у - объем продукции; х1 - затраты труда; х2 - величина капитала. Логарифмируя ее, получим линейное в логарифмах уравнение loq y = loq a + b1loq x1 + b2loq x2 Определив параметры этого уравнения по МНК, можно найти теоретические значения объема продукции и соответственно остаточную сумму квадратов отклонений , которая используется в расчете индекса детерминации (корреляции). Величина индекса множественной корреляции, определенная таким образом, не будет совпадать с линейным коэффициентом множественной корреляции, который может быть рассчитан для линейного в логарифмах уравнения регрессии. Это объясняется тем, что в данном случае МНК применяется не к исходным данным, а к их логарифмам, поэтому на факторную и остаточную сумму квадратов отклонений раскладывается не зависимая переменная, а ее логарифм. 5.2.2. Скорректированный индекс детерминации (корреляции). В рассмотренных показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме п. Таким образом, чем больше параметров при х, тем ближе остаточная дисперсия к нулю и, тем ближе коэффициент (индекс) корреляции приблизится к единице даже при слабой связи фактора с результатом. Для того, чтобы не допускать возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной корреляции. Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, а именно: остаточная сумма квадратов делится на число степеней свободы остаточной вариации, а общая сумма квадратов делится на число степеней свободы в целом по совокупности 5.2.11. Поскольку , то величину скорректированного индекса детерминации можно представить в виде 5.2.12. Чем больше т, тем сильнее различия между и R2. Для линейной зависимости признаков скорректированный коэффициент множественной корреляции определяется как корень квадратный из скорректированного коэффициента детерминации. Отличие состоит лишь в том, что в линейной регрессии под т понимают число факторов, включенных в модель, а в криволинейной зависимости т – число параметров при х и их преобразованиях (х2, loq x и др.). Так, для функции y = a + b1x1 + c1x21+ b2x2 + c2x22 m = 4. При заданном объеме наблюдений с увеличением числа факторов скорректированный коэффициент множественной детерминации убывает Его величина может стать и отрицательной при слабых связях результата с факторами, в этом случае он должен считаться равным нулю. Чем больше объем совокупности, тем ближе значения и R2. В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректированный коэффициент (индекс) корреляции (детерминации). Величина коэффициента детерминации применяется для оценки качества модели. Низкое значение показателя означает, что в модель не включены существенные факторы – с одной стороны, а с другой – форма связи не отражает реальные соотношения между переменными. Требуется дальнейшая работа по улучшению качества модели. 5.2.3. Частная корреляция. Ранжирование факторов, участвующих в множественной линейной регрессии, может быть проведено с помощью стандартизованных коэффициентов регрессии, коэффициентов раздельной детерминации, а также с помощью частных коэффициентов корреляции для линейных связей, с помощью частных индексов детерминации для нелинейных связей. Частные коэффициенты (или индексы) корреляции, в отличие от полных, характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии. Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в анализ нового фактора к остаточной дисперсии, имевшей место до введения его в модель. Пусть - остаточная дисперсия до введения фактора х2 в модель, а – остаточная дисперсия после его введения. Тогда сокращение остаточной дисперсии за счет дополнительного введения фактора составит - . Чем больше доля этого сокращения в остаточной вариации до введения этого фактора, тем сильнее его воздействие на результат при постоянном действии ранее включенного фактора. Следовательно, чистое влияние фактора х2 на результат можно определить по формуле 5.2.13. А чистое влияние на результат фактора х1 5.2.14. Если выразить остаточную дисперсию через показатель детерминации s ост2 = σу 2 (1 – r2), то формула коэффициента частной корреляции примет вид 5.2.15. Частные коэффициенты корреляции подтверждают ранг факторов по их воздействию на результат, проведенную на основе стандартизованных коэффициентов. Если из стандартизованного уравнения мы получаем, что , то тот же порядок факторов определяется и по соотношению частных коэффициентов корреляции. В эконометрике частные коэффициенты корреляции в основном используют на стадии формирования модели в процедуре отсева факторов. Так, строя многофакторную модель методом исключения переменных 1) определяется уравнение регрессии с полным набором факторов; 2) рассчитывается матрица частных коэффициентов корреляции; 3) отбирается фактор с наименьшей и несущественной по критерию Т-Стьюдента величиной показателя частной корреляции, он исключается из модели; 4) строится новое уравнение регрессии и процедура повторяется до тех пор, пока не окажется, что все оставшиеся факторы существенно отличаются от нуля. Если исключен несущественный фактор, то множественные коэффициенты детерминации на двух смежных шагах построения модели почти не отличаются друг от друга. 5.2.4. Частные F- тесты Достоверность уравнения множественной регрессии в целом, как и парной, оценивается с помощью критерия Фишера 5.2.16. где Wобщ.=п×σу 2 ; Wрегр.= Wобщ×R2 ; ; Wост..= Wобщ×(1-R2)= Wобщ.- Wрегр Оценивается также значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Мерой для оценки включения фактора в модель служит частный критерий Фишера. Частный F - критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора с остаточной дисперсией на одну степень свободы по регрессионной модели, включающей полный набор факторов 5.2.17. Так как прирост факторной суммы квадратов отклонений обусловлен дополнительным включением в модель одного исследуемого фактора, то число степеней свободы для него равно dfx1 = 1. Для остаточного объема вариации число степеней свободы dfост = n-m-1. Соотношение числа степеней свободы приведено в формуле частного F-критерия в виде дроби . Дисперсионный анализ такой модели отличается от анализа, проводимого нами ранее. Источник вариации «регрессия» раскладывается здесь на две составляющие: 1) обусловленная влиянием фактора х1; 2) обусловленная дополнительным включением в модель фактора х2. Соответственно для двухфакторной линейной регрессии число степеней свободы для регрессии, равное двум, также раскладывается на число степеней свободы для каждого фактора, то есть 1 для фактора х1 и 1 для фактора х2. Сумма квадратов за счет регрессии Wрегр распадается здесь на две суммы. Сумма квадратов, обусловленная включением в модель фактора х1 (Wрегр х1), определяется в предположении, что построено лишь парное уравнение регрессии ух1=а + вх1. Эта величина может быть определена следующим образом Wрегрх1 = rух12× Wобщ. Сумму квадратов, обусловленную дополнительным включением фактора х2, после того, как в модель включен фактор х1, определим как разность суммы квадратов за счет регрессии по двум факторам и за счет регрессии только фактора х1. Далее по известным нам формулам определяется дисперсии на одну степень свободы и критерии Фишера. Если величина частного критерия Фишера оказывается меньше табличного, то включение в модель такого фактора нецелесообразно. 5.2.5. Предпосылки МНК. При оценке параметров уравнения регрессии мы применяем метод наименьших квадратов (МНК). В модели у =  + 1х + 2 р + е, случайная составляющая (е) представляет собой «необъясненную или ненаблюдаемую величину». После того, как произведено решение модели, то есть дана оценка параметрам, мы можем определить величину остатков в каждом конкретном случае как разность между фактическими и теоретическими значениями результативного признака еi=yi-. Поскольку это не есть реальные остатки, то мы их считаем лишь выборочной реализацией неизвестного остатка заданного уравнения. При изменении спецификации модели, добавления в нее новых наблюдений, выборочные оценки остатков могут меняться, поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений, то есть остаточных величин. В предыдущих разделах мы останавливались на формально-математических проверках статистической достоверности коэффициентов регрессии и корреляции с помощью Т-критерия Стьюдента и критерия Фишера. При использовании этих критериев делаются предположения относительно поведения остатков: предполагают, что 1) остатки представляют собой независимые случайные величины и их среднее значение равно нулю; 2) остатки имеют постоянную дисперсию и подчиняются закону нормального распределения. Пока мы не построим модель, остатки определены быть не могут, и поэтому мы не можем проверить, обладают ли они этими свойствами или нет. Таким образом, проверяя статистическую достоверность параметров связи, мы опираемся всего лишь на непроверенные предпосылки о распределении случайной составляющей уравнения регрессии. Но после построения уравнения регрессии мы уже можем определить остатки и проверить у них наличие тех свойств, которые предполагались вначале. С чем связана необходимость проверки таких свойств? Связано это с тем, что выборочные оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют важное практическое значение в использование результатов регрессии и корреляции. Несмещенные оценки означают, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оценок коэффициента регрессии в найденный параметр по результатам одной выборки можно рассматривать как среднее значение из большого числа несмещенных оценок. Оценки считаются эффективными, если они характеризуются меньшей дисперсией (то есть мы имеем минимальную вариацию выборочных оценок). Оценки считаются состоятельными, если их точность увеличивается с увеличением объема выборки. Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии. Предпосылки МНК: 1- случайный характер остатков; 2- гомоскедастичность – дисперсия остатков одинакова для всех значений фактора; 3- отсутствие автокорреляции остатков (то есть остатки распределены независимо друг от друга); 4- остатки подчиняются нормальному закону распределения. В тех случаях, когда эти предпосылки выполняются, оценки, полученные по МНК, будут обладать вышеназванными свойствами, если же некоторые предпосылки не выполняются, то необходимо корректировать модель. Итак, проверяем случайный характер остатков. С этой целью строится график зависимости остатков от теоретических значений результативного признака (рис.5.2.1.) Если на графике получена горизонтальная полоса, то остатки представляют собой случайные величины и МНК оправдан. Возможны иные случаи (рис.5.2.2): а) – остатки носят систематический характер, то есть отрицательные значения соответствуют низким значениям расчетных «у», а положительные – высоким; б) – преобладание положительных остатков над отрицательными. В этих случаях необходимо применять либо другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки не будут случайными величинами. Вторая предпосылка МНК требует, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность. Наличие гомо- или гетероскедастичности можно видеть по графику зависимости остатков от теоретических значений результативного признака (рис. 5.2.3.): а) большая дисперсия остатков для больших значений «у» (гетероскедастичность); б) большая дисперсия остатков для средних значений «у» (гетероскедастичность); в) – большая дисперсия для меньших значений результата (гетероскедастичность); г) – равная дисперсия (гомоскедастичность). Наличие гетероскедастичности приводит к смещенным оценкам коэффициентов регрессии, а также уменьшает их эффективность. В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии, которая предполагает единую дисперсию остатков. Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомо- или гетероскедастичности. Однако, чтобы убедиться в наличии этих качеств, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят также ее количественное подтверждение. При малом объеме выборки, что характерно для эконометрических исследований для этих целей используется метод Гольдфельда –Квандта, который включает в себя следующие шаги: 1. Упорядочение наблюдений по мере возрастания фактора х. 2. Исключение из наблюдений нескольких центральных наблюдений (С). При этом должно выполняться условие, что (N – С)/2 должно быть больше р – число параметров в модели. 3. Распределение оставшихся наблюдений на две равные группы с малыми и большими значениями факторного признака. 4. Решение уравнения регрессии для каждой группы (имеем два уравнения). 5. Определение остаточной суммы квадратов отклонений для каждой группы и определение их отношения (отношение большей к меньшей). 6. Сравнение этого отношения с табличным значением критерия Фишера (d f = n - C – 2p/2). Если это отношение меньше табличного значения F- критерия, то мы имеем гомоскедастичные остатки. Чем больше это отношение превышает табличное, тем больше нарушена предпосылка о равенстве дисперсий остаточных величин. Следующая предпосылка МНК – это отсутствие автокорреляции остатков. Это означает, что остатки распределены независимо друг от друга. Автокорреляция – это наличие тесной корреляционной зависимости между остатками текущих и предшествующих наблюдений, если наблюдения упорядочены по фактору х. Автокорреляционная зависимость определяется по линейному коэффициенту корреляции между текущими и предшествующими наблюдениями (более подробно с этой проблемой мы ознакомимся в теме «Моделирование рядов динамики»). Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Соответствие распределение остатков нормальному закону распределения можно проверить с помощью критерия Пирсона как критерия согласия (изучалось в курсе «Математическая статистика»). При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять или исключать некоторые факторы, преобразовывать исходные данные. В частности, при нарушении гомоскедастичности и наличии автокорреляции остатков рекомендуется традиционный МНК, который проводится по исходным данным, заменять обобщенным методом наименьших квадратов, который проводится по преобразованным данным. Вопросы для повторения: 1. Какова связь коэффициентов раздельной (частной) детерминации с множественной детерминацией? 2. В каких случаях индекс множественной корреляции равен линейному коэффициенту множественной корреляции? 3. С какой целью определяется скорректированный коэффициент множественной корреляции? 4. Чем отличается частный коэффициент корреляции от полного коэффициента корреляции? 5. Каково назначение частной корреляции при построении модели множественной регрессии? 6. Чем отличается дисперсионный анализ парной регрессионной модели от дисперсионного анализа множественной модели? 7. Что такое частный F-тест? Раскройте его назначение и сущность. 8. Раскройте понятия «несмещенности, состоятельности и эффективности» выборочных оценок параметров регрессии. 9. Перечислите предпосылки МНК. 10. С какой целью в множественной регрессии используется графический анализ остатков? 11. Раскройте назначение и сущность метода Гольдфельда – Квандта. Резюме по модульной единице 5.2. Рассмотрев понятия и способы оценки множественной и частной корреляции, а также предпосылки МНК, мы понимаем теперь, что только многофакторные модели с достаточно высокой детерминацией и надежными коэффициентами регрессии позволяют применять эти методы и в анализе, и в прогнозе. Лекция 6. Моделирование динамических процессов Аннотация. До сих пор мы строили эконометрические модели, используя данные, характеризующие совокупность объектов, существующих одномоментно. Такие модели называют пространственными, они отражают закономерные связи переменных на определенной территории. Если эконометрические модели используют данные, характеризующие один и тот же объект в разные периоды времени, То они отражают закономерности изменения переменных во времени и называются динамическими. В данном разделе мы будем знакомиться со специальными методами оценки параметров динамических моделей. Ключевые слова: тенденция, тренд, автокорреляция уровней, лаг, коррелограмма, ложная корреляция, автокорреляция остатков. Рассматриваемые вопросы 1. Элементы временного ряда 2. Автокорреляция 3. Выявление структуры временного ряда 4. Моделирование тенденции 5. Изучение взаимосвязи переменных по данным временных рядов 6. Критерий Дарбина-Уотсона Модульная единица 6. Моделирование одномерных временных рядов Цели и задачи изучения модульной единицы. В результате изучения данного раздела обучающиеся должны уметь определять тип основной тенденции изменения уровней ряда динамики или констатировать ее отсутствие; определять параметры уравнения тренда и уметь их интерпретировать; исследовать причинно-следственные связи экономических переменных в рядах динамики. 6.1. Элементы временного ряда Как нам уже известно из курса статистики, временной ряд (он же ряд динамики) – это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени. Показателя временного ряда называются уровнями ряда динамики. Каждый уровень ряда динамики формируется под воздействием целого комплекса факторов. Во-первых, большинство временных рядов имеет тенденцию. Тенденция может быть возрастающей или убывающей. Она отражает совокупное долговременное воздействие множества факторов на динамику изучаемого показателя. Очевидно, что факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на результат, однако их совокупное воздействие, их равнодействующая, формирует положительную или отрицательную тенденцию. Во-вторых, изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезонный характер, то есть изменяться по временам года (цены на овощи ниже летом и осенью, а зимой и весной выше; интенсивность использования техники и трудовых ресурсов в сельском хозяйстве выше в весеннее – летний период). Циклические колебания могут носить и долговременный характер. Так, советский ученый-экономист 20-ых годов с мировым именем Кондратьев Н.Д. исследовал природу кризисов в капиталистическом (рыночном) производстве. Он доказал, что кризис представляет собой лишь одну фазу целого капиталистического цикла (подъем – кризис – депрессия), то есть капиталистическая экономика развивается волнообразно и, зная закон этого развития, можно предсказывать кризисные периоды в экономике. Его капитальные исследования в области закономерностей экономической динамики принесли Кондратьеву мировую известность и, и во всем мире эти циклы известны под именем «циклы Кондратьева». Понятно, что для выявления таких закономерностей требовалась информация за очень длительный период времени. Некоторые временные ряды не содержат тенденции и циклической компоненты, а их уровни образуются как сумма среднего уровня ряда и некоторой (положительной или отрицательной) случайной компоненты. Очевидно, что реальные данные временного ряда могут складываться при одновременном влиянии всех трех перечисленных компонент. Итак, факторы уровней временного ряда по характеру воздействия можно условно разбить на три группы: 1) факторы, формирующие тенденцию ряда (Т); 2) факторы, формирующие циклические колебания ряда (S); 3) случайные факторы (E). В большинстве случаев фактический уровень временного ряда можно представить как сумму или произведение трендовой, циклической и случайной компонент. Модель, в которой временной ряд представлен как сумма компонент, называется аддитивной. Модель, в которой временной ряд представлен как произведение перечисленных компонент, называется мультипликативной. Основные задачи эконометрического исследования временных рядов сводятся: 1) к выявлению и количественному определению перечисленных компонент с тем, чтобы использовать полученную модель для прогнозирования будущих значений ряда; 2) к построению модели взаимосвязи двух или более временных рядов. 6.2. Автокорреляция Если временной ряд содержит только случайную компоненту, то уровни временного ряда будут независимы друг от друга. Если же временной ряд содержит тенденцию или циклические колебания, то значения каждого последующего уровня зависят от предыдущих. Корреляционную зависимость между последовательными уровнями временного ряда называют автокорреляцией уровней ряда. Автокорреляцию можно измерить количественно. Для этого рассчитывают линейный коэффициент корреляции между уровнями исходного временного ряда и уровнями этого же ряда, сдвинутыми на один или несколько шагов во времени. Например, разумно предположить, что доходы домохозяйства в текущем году зависят от доходов домохозяйства предыдущих лет. Определим коэффициент корреляции между ними. Известна рабочая формула линейного коэффициента корреляции 6.1.1. В качестве фактора мы рассмотрим доходы предшествующего периода (уt-1), а в качестве результата – доходы текущего периода (уt), тогда приведенная выше формула примет вид 6.1.2. где - средний уровень по исходному ряду динамики, определенный без учета первого уровня, а - это средний уровень по ряду динамики, сдвинутому на одну дату. Расстояние между уровнями временного ряда, для которых определяется коэффициент корреляции, называется лагом. Приведенная выше формула определяет величину автокорреляции между соседними уровнями, то есть при лаге = 1, поэтому этот коэффициент называют коэффициентом автокорреляции первого порядка. Допустим, r1 = 0,98. Полученное значение свидетельствует об очень сильной зависимости между доходами текущего и предшествующего периода и, следовательно, о наличии в ряду сильной линейной тенденции. Аналогично можно определить коэффициенты автокорреляции второго и более высоких порядков. Коэффициент автокорреляции второго порядка характеризует тесноту связи между уровнями со сдвигом на две даты, то есть с лагом 2 и т.д. С увеличением лага число пар, по которым рассчитывается коэффициент автокорреляции, уменьшается и, следовательно, снижается достоверность коэффициентов. Поэтому для обеспечения статистической достоверности лаг не должен быть больше, чем п / 4, где п – число уровней. При анализе коэффициентов автокорреляции следует помнить следующее: 1) он определяется по формуле линейного коэффициента корреляции, таким образом, он измеряет тесноту только линейной связи текущего и предыдущего уровней временного ряда. Для временных, рядов, имеющих сильную нелинейную тенденцию, коэффициент автокорреляции уровней может быть близким к нулю; 2) Знак коэффициента автокорреляции не указывает на направление тенденции в исходном ряду данных (возрастание или убывание). Большинство временных рядов экономических переменных содержат положительную автокорреляцию уровней, но при этом сам ряд может иметь и отрицательную тенденцию. Если расположить коэффициенты по величине лага (то есть коэффициенты первого порядка, второго, третьего и т.д.), то мы получим автокорреляционную функцию временного ряда. График зависимости величины коэффициента автокорреляции от лага называют коррелограммой. 6.3. Выявление структуры временного ряда Анализ автокорреляционной функции и коррелограммы позволяет выявить структуру временного ряда. Выявить структуру временного ряда – это значит выявить наличие или отсутствие его основных компонент (Т – трендовой компоненты и S – сезонной или циклической компоненты). Ряд может состоять только из трендовой и случайной компонент; или циклической и случайной; может содержать только случайную компоненту или все три компоненты одновременно (рис. 6.1.1). Если наиболее высоким оказался коэффициент первого порядка, то исследуемый ряд содержит только тенденцию (табл. 6.1.1, вариант А). Таблица 6.1.1 Варианты автокорреляционной функции Лаг Коэффициенты автокорреляции Варианты А Б В Г 1 0,98 0,43 0,63 0,09 2 0,95 0,97 0,38 0,12 3 0,94 0,51 0,72 0,07 4 - 0,92 0,97 0,10 5 - - 0,55 - 6 - - 0,40 - Если наиболее высоким оказался коэффициент автокорреляции порядка К, то ряд содержит циклические колебания с периодичностью в К моментов времени, Так, например, если при анализе временного ряда наиболее высокими оказались коэффициенты автокорреляции второго порядка, то ряд имеет циклы в два периода времени, то есть имеет так называемую пилообразную структуру (вариант Б). Наиболее высокий коэффициент четвертого порядка указывает на наличие в ряду цикла в четыре момента (периода) времени (вариант В). Если ни один из коэффициентов не является статистически значимым (вариант Г), то можно сделать следующие предположения: 1) ряд не содержит ни тенденции, ни циклов, а состоит только из случайной компоненты; 2) ряд содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ. 6.4. Моделирование тенденции Один из наиболее распространенных способов моделирования тенденции временного ряда – это подбор и решение математического уравнения, которое бы отражало зависимость уровней ряда от фактора времени. Такие функции называются трендами, а способ построения такой функции – это способ аналитического выравнивания временного ряда. Зависимость от времени может принимать разные формы, поэтому, как и в случае регрессионных уравнений, для построения трендов могут быть выбраны разные функции: линейный тренд ; гипербола ; экспонента , где е = 2,71828; степенная функция ; парабола и другие. Параметры таких функций могут быть определены обычным МНК. Параметризация нелинейных трендов требует предварительной их линеаризации. Как определить форму тренда? Существует несколько способов решения этой проблемы. Самый простой способ – это визуальный анализ графика зависимостей уровней ряда от времени. Второй способ – это определение основных показателей динамики. Если цепные абсолютные приросты для всего ряда примерно равны друг другу, то это линейный тренд; если примерно равны друг другу цепные коэффициенты роста, то функция может быть степенной или показательной. Третий способ определения формы тренда – это анализ коэффициентов автокорреляции. Если временной ряд имеет линейную тенденцию, то его соседние уровни тесно коррелированны, и в этом случае коэффициент автокорреляции первого порядка должен быть очень высокий. Если есть подозрение на существование нелинейной зависимости, то следует прологарифмировать исходный ряд данных и определить коэффициент автокорреляции первого порядка по логарифмам уровней. Чем сильнее выражена нелинейная тенденция, тем выше будет автокорреляция логарифмов по сравнению с автокорреляцией исходных данных. Если форму связи всеми перечисленными способами определить достаточно трудно, то перебирают все основные формы трендов, учитывая при этом соотношение числа наблюдений и числа определяемых параметров. Для каждого уравнения определяют коэффициент детерминации и выбирают уравнение с максимальным его значением (экспериментальный способ). Реализация этого метода предполагает компьютерную обработку данных. Наиболее простую экономическую интерпретацию имеют параметры линейного и показательного трендов. Параметры линейного тренда интерпретируются следующим образом: Параметр а – начальный уровень временного ряда в момент времени t = 0; b – средний абсолютный прирост уровней ряда за один период. Уравнение показательного тренда имеет вид . Параметр а – начальный уровень временного ряда в момент времени t = 0, а показатель степени t - это средний за единицу времени коэффициент роста уровней ряда. Если форма тренда описывается параболой, то качественный анализ такого тренда предполагает определение поворотных точек в динамике, замедления или ускорения темпов изменения, начиная с определенного момента времени под влиянием ряда факторов. В случае, если уравнение тренда выбрано неверно, то результаты анализа и прогнозирования динамики временного ряда с использованием выбранного уравнения будут недостоверными вследствие ошибок спецификации. Для оценки пригодности уравнения тренда для прогноза, также как и для регрессионной модели, может быть рассчитана средняя ошибка аппроксимации (%) 6.1.3. Если ее величина не превышает 8-10%, то уравнение тренда может быть использовано в прогнозировании будущих значений результативного признака. 6.5. Изучение взаимосвязи переменных по данным временных рядов Изучение взаимосвязи экономических переменных по данным временных рядов осложнено тем, что в этих рядах может быть тенденция. Если в ряду динамики переменной у и в ряду динамики х есть компонента «Т», то в результате мы получим тесную связь между у и х. Однако из этого факта еще нельзя делать вывод о том, что изменение х есть причина изменения у, то есть что между этими изменениями есть причинно-следственная связь. Например, за последние 10 – 15 лет в Российской Федерации сократилось поголовье КРС и увеличилось число крестьянских (фермерских) хозяйств. Коэффициент корреляции между уровнями этих рядов динамики высок по величине; знак указывает на обратную связь. Однако это не означает, что рост численности фермерских хозяйств явился фактором снижения поголовья. Чтобы выявить причинно-следственную зависимость между переменными, необходимо устранить ложную корреляцию между ними, вызванную наличием тенденции. Существует несколько способов исключения тенденции в рядах динамики. Первый способ называется метод отклонений от тренда. Пусть имеется уt= Т + е и хt= Т + е. Проводится аналитическое выравнивание каждого ряда: и , где Ту и Тх – это оценки трендовых компонент. Затем определяется остаток в каждом наблюдении и , так как остаточная компонента не содержит тенденции. Далее изучается зависимость между самими остатками еу=f(ех). Если между переменными есть связь, то она проявится в согласованном изменении остатков. Недостатком данного способа является то, что содержательная интерпретация параметров такой модели затруднительна. Однако модель может быть использована для прогнозов и, кроме того, коэффициент парной корреляции между остатками отразит связь переменных. Второй способ преодоления тенденции в рядах динамики – это метод последовательных разностей. Если временной ряд содержит ярко выраженную линейную тенденцию, то для ее устранения можно заменить исходные уровни разностями первого порядка, то есть цепными абсолютными приростами: и . Далее прирост у рассматривается как функция прироста х: . Рассмотрим математическое доказательство исключения тенденции в этом случае. Доказательство =(а+bt+et)-(a+b(t-1)+et-1)=b+( et - et-1). Мы видим, что величина исключает фактор времени, так как b – константа, а остатки по предпосылкам МНК не должны содержать тенденции, то есть должны быть случайными и независимыми. Недостатком второго способа является потеря информации (приростов на единицу меньше, чем уровней), что в условиях малого числа наблюдений крайне нежелательно. Достоинством является возможность интерпретации параметров. Коэффициент регрессии b покажет изменение прироста результата при единичном изменении прироста фактора. Третьим способом является включение в модель регрессии фактора времени: yt= a+b1x1+ b2 t. В данном случае коэффициенты чистой регрессии легко интерпретируются, имеют естественные единицы измерения. Коэффициент b1 покажет на сколько единиц изменится результат при единичном изменении фактора при условии существования неизменной тенденции; коэффициент b2 отразит влияние всех прочих факторов, формирующих тенденцию, кроме x1. Однако данный способ построения регрессионной модели требует большего объема наблюдений, так как в модели появляется еще один параметр. Если тренды признаков являются экспонентами (или показательными функциями), то вместо корреляции абсолютных отклонений от трендов можно применить метод корреляции цепных темпов роста уровней, поскольку именно темпы роста – основной параметр экспоненциальных и показательных трендов. 6.6. Критерий Дарбина-Уотсона Ранее мы сказали, что по данным временных рядов могут быть исследованы причинно-следственные связи переменных. Первые два метода исключения тенденции приводят к тому, что вместо исходных уровней ряда мы исследуем зависимость между остатками в рядах динамики, оговариваясь при этом, что остатки не должны содержать тенденции. В противном случае ее присутствие вызвало бы ложную корреляцию. Однако при моделировании временных рядов встречаются ситуации, когда остатки содержат тенденцию или цикличность (рис.6.1.2). В этом случае остатки не являются независимыми, каждое последующее значение остатка зависит от предыдущего. Это явление получило название автокорреляция остатков. Назовем причины существования автокорреляции остатков: 1) в модель не включен фактор, оказывающий существенной воздействие на результат; его влияние будет отражаться в остатках, то есть они могут быть автокоррелированы; 2) модель не учитывает влияние нескольких второстепенных факторов, совместное влияние которых может быть существенным (если их тенденции совпадают или фазы цикличности совпадают); 3) автокорреляция остатков может заключаться в неверной функциональной спецификации модели. Существуют два способа определения автокорреляции в остатках. Первый заключается в визуальном анализе графика зависимостей остатков от времени (см. рис. 6.1.2). Второй способ предполагает использование критерия Дарбина-Уотсона. Величину критерия (d) можно определить по одной из формул 6.1.4. либо d 2(1 – re1) , 6.1.5. где re1 – коэффициент автокорреляции остатков первого порядка. Если в остатках существует полная положительная автокорреляция, то re1=1 и d = 0. Если в остатках полная отрицательная автокорреляция, то re1=-1 и d = 4. Если автокорреляция остатков отсутствует, то re1=0 и d = 2. На практике используется следующий алгоритм проверки гипотезы об автокорреляции остатков: 1. выдвигается нулевая гипотеза об отсутствии автокорреляции в остатках; 2. определяется фактическое значение критерия Дарбина – Уотсона (d); 3. по специальным таблицам (приложение учебника по эконометрике) находят критические значения критерия dL и du , где п –число наблюдений, k- независимых переменных в модели, - уровень значимости; 4. числовой промежуток всех возможных значений d разбивается на 5 отрезков Есть положи-тельная автокорре-ляция остатков Зона неопределен-ности Автокорреля-ция остатков отсутствует Зона неопределен-ности Есть отрицательная автокорреля-ция остатков 0 d L d u 2 4- d u 4 - d L 4 5. если d - фактическое попадает в зону неопределенности, то предполагают существование автокорреляции в остатках. В последнем случае исследовать причинно-следственные связи переменных по остаткам нельзя, получим ложную корреляцию. Вопросы для повторения: 1. Перечислите основные элементы временного ряда. 2. Что такое автокорреляция уровней временного ряда? 3. Дайте определение тренда. 4. Перечислите основные виды трендов. 5. Какова интерпретация линейного и показательного трендов? 6. Что такое ложная корреляция и как ее избежать. 7. Перечислите основные методы исключения тенденции, назовите их достоинства и недостатки. 8. Какова методика построения модели регрессии по первым разностям? 9. Какова методика построения уравнения регрессии с учетом фактора времени? 10. Какова методика построения уравнения регрессии по отклонениям от трендов? 11. Какова интерпретация параметров в модели с включенным фактором времени? 12. Раскройте понятие автокорреляции в остатках. 13. С какой целью используется критерий Дарбина – Уотсона? Изложите алгоритм его применения. Резюме по модульной единице 6. Моделирование временных рядов имеет определенную специфику. При развитии любого процесса, в том числе экономического, каждый уровень развития всегда в какой-то мере зависит от уровней того же процесса за предыдущие периоды или моменты времени. Исследование автокорреляции уровней позволяет определить основные группы факторов, формирующих этот процесс. Анализ автокорреляции в остатках позволяет выявить ложную корреляцию и дает возможность изучения истинных связей переменных в рядах динамики. Лекция 7. Системы эконометрических уравнений Аннотация В данной лекции рассмотрены вопросы, связанные с применением систем эконометрических уравнений в моделировании экономики. Приведены примеры практического использования систем эконометрических уравнений. Детально рассмотрены наиболее часто используемые методы оценки параметров уравнений в структурной и приведенной формах. Ключевые слова Система эконометрических уравнений; система независимых уравнений; система рекурсивных уравнений; система одновременных уравнений; структурная и приведенная формы систем одновременных уравнений; идентифицируемая система уравнений; неидентифицируемая система уравнений; сверхидентифицируемая система уравнений; косвенный метод наименьших квадратов; двухшаговый метод наименьших квадратов; трехшаговый метод наименьших квадратов. Рассматриваемые вопросы: 1. Понятие, необходимость применения и виды систем уравнений 2. Косвенный метод наименьших квадратов 3. Проблема идентификации 4. Двухшаговый метод наименьших квадратов 5. Понятие о трехшаговом методе наименьших квадратов 6. Применение систем уравнений Модульная единица 7.1. Виды систем эконометрических уравнений и их идентификация. Косвенный метод наименьших квадратов Цели и задачи изучения модульной единицы. Целью изучения данной модульной единицы является приобретение теоретических знаний и получение практических навыков по моделированию экономических процессов с использованием систем эконометрических уравнений. В связи с поставленной целью необходимо изучить виды систем эконометрических уравнений, изучить и получить навыки их оценивания косвенным методом наименьших квадратов. 7.1.1. Понятие и необходимость применения систем уравнений При использовании уравнений регрессии (линейных и нелинейных, парных и множественных) вида 7.1.1. предполагалось, что y – случайная, а х – неслучайные (детерминированные) переменные. То есть, значения переменных х мы задаем, фиксируем, а затем наблюдаем получающиеся значения у. Данное допущение является одним из требований применения метода наименьших квадратов для оценки параметров уравнения регрессии, поскольку оно обеспечивает отсутствие корреляции регрессоров х и случайных ошибок регрессии и позволяет получить несмещенные и состоятельные оценки. Если рассматривая модель имеет стохастические регрессоры, то оценки параметров, полученные методом наименьших квадратов: - несмещенные и состоятельные, если объясняющие переменные и ошибки регрессии не коррелируют; - состоятельные, но смещенные, если объясняющие переменные коррелируют с ошибками регрессии в более ранние моменты времени, но не коррелируют в один и тот же момент времени; - смещенные и несостоятельные, если объясняющие переменные и ошибки регрессии коррелируют в том числе и в одинаковые моменты времени. Одной из причин коррелированности регрессоров со случайными членами могут служить факторы, действующие одновременно и на сами регрессоры, и на объясняемые переменные при фиксированных значениях регрессоров. Значения объясняемых переменных и регрессоров в этом случае формируются одновременно под воздействием некоторых внешних факторов. Одна и та же переменная рассматривается как факторная, независимая, а с другой – как результативная, случайная величина. Например, если существует зависимость: 7.1.2. и одновременно , 7.1.3. коэффициенты и значимо отличаются от нуля. Тогда в модели 7.1.1. факторы – коллинеарные. Если же рассматривать только модель: , 7.1.4. то возникает коррелированность регрессора и ошибок регрессии , поскольку фактор действует одновременно и на у, и на, что приводит к смещенным и несостоятельным оценкам метода наименьших квадратов. Поэтому естественным выходом из подобных ситуаций является построение не отдельных уравнений регрессии, а их систем, для оценивания которых применяются специальные методы (3 вопрос лекции). Случайные переменные называют эндогенными, т.е. внутренними, так как они формируют свои значения внутри модели. Признаки, считающиеся заданными, известными, неслучайными получили название экзогенных, или внешних для данной системы. Один и тот же признак может быть эндогенным в одной задаче и экзогенным – в другой. С точки зрения математической статистики, главное отличие между ними в том, что экзогенные переменные не коррелируют с ошибками регрессии. Если объединить в систему уравнения 7.1.1 и 7.1.2, эндогенными переменными будут у и х1, экзогенной – х2. Далее будем обозначать экзогенные переменные х, а эндогенные – у. В зависимости от характера взаимосвязей между эндогенными и экзогенными переменными выделяют системы рекурсивных (рекуррентных) и совместных, одновременных, взаимосвязанных уравнений. Если представить графически связи между переменными, то на рис. 7.1.1 представлен граф связей системы одновременных уравнений, на рис. 7.1.2 – рекурсивных. Система одновременных уравнений в структурной форме: (7.1.5) Структурная форма модели содержит при эндогенных переменных коэффициенты , экзогенных переменных – , которые называются структурными коэффициентами модели. Все переменные в модели выражены в отклонениях от среднего уровня: 7.1.6. Поэтому свободные члены в системе отсутствуют. Рис. 7.1.1 соответствует модель: 7.1.7. В общем виде модель системы рекурсивных уравнений будет иметь вид: 7.1.8. Рис. 7.1.2 соответствует модель: 7.1.9. В системе рекурсивных уравнений хоты бы одна эндогенная переменная должна определятся только лишь набором независимых переменных. Если все эндогенные переменные расположены в левой части, а экзогенные – в правой, то такая система называется системой независимых уравнений. Для решения систем независимых и рекурсивных переменных используется метод наименьших квадратов. Методы оценивания параметров систем одновременных уравнений рассмотрим далее. 7.1.2. Косвенный метод наименьших квадратов Препятствие к применению метода наименьших квадратов, которое заключается в коррелированности эндогенных переменных со случайными членами легко преодолеть, если: 1) привести систему к виду, чтобы в правой части оставались только экзогенные переменные. Такая форма называется приведенной; 2) затем применить метод наименьших квадратов к каждому уравнению в приведенной форме и получить оценки ее параметров; 3) перейти от приведенной формы к структурной, проведя процедуру обратного преобразования параметров. Эта методика получила название косвенного метода наименьших квадратов и позволяет получать состоятельные и несмещенные оценки параметров системы одновременных уравнений в структурной форме. Пример. Рассмотрим самую простую структурную форму системы одновременных уравнений: 7.1.10. Пусть модель реализуется по следующим данным: 7.1.1 Исходные данные № п/п Y1 Y2 X1 X2 1 2 10 150 1 2 3 12 200 2 3 5 15 150 4 4 4 16 140 3 5 6 25 300 5 6 3 16 190 2 7 5 20 250 5 8 8 30 450 9 9 3 11 170 2 В среднем 4,3 17,2 222,2 3,7 Найдем отклонения от средних значений по каждой переменной (табл. 7.1.2): Перейдем от структурной к приведенной форме, для этого выразим из первого уравнения у2: 7.1.11. 7.1.2. Отклонения от средних уровней № п/п y1 y2 x1 x2 1 -2,3 -7,2 -72,2 -2,7 2 -1,3 -5,2 -22,2 -1,7 3 0,7 -2,2 -72,2 0,3 4 -0,3 -1,2 -82,2 -0,7 5 1,7 7,8 77,8 1,3 6 -1,3 -1,2 -32,2 -1,7 7 0,7 2,8 27,8 1,3 8 3,7 12,8 227,8 5,3 9 -1,3 -6,2 -52,2 -1,7 Тогда система одновременных уравнений будет иметь вид: 7.1.12. Приравняем правые части и выразим у1: ; ; . 7.1.13. Получившееся уравнение является первым уравнением системы в приведенной форме. Аналогичным образом поступим для получения второго уравнения. Из второго уравнения структурной формы выразим y1: . 7.1.14. Подставим правую часть тождества в первое структурное уравнение: . Выразим y2: 7.1.15. Таким образом, мы получили систему приведенных уравнений: 7.1.16 Обозначим для удобства восприятия получившиеся нелинейные коэффициенты при независимых переменных как : 7.1.17. Получим систему приведенных уравнений: 7.1.18. Решим систему приведенных уравнений, используя данные табл. 7.1.2, методом наименьших квадратов: 7.1.19. Теперь нужно перейти к структурной форме, т.е.: Сопоставив первое уравнение приведенной и структурных форм видим, что для перехода к структурному виду следует переменную х2 представить как комбинацию переменных у2 и х1. Это можно сделать, выразив х2 из второго уравнения приведенной формы: . 7.1.20. Подставим х2 в первое уравнение системы приведенной формы: 7.1.21. Мы получили первое уравнение системы структурной формы. Теперь выразим переменную х1 из первого уравнения приведенной формы: 7.1.22. и подставим х1 во второе уравнение системы приведенной формы: 7.1.23. Получим, таким образом, второе уравнение системы структурной формы: 7.1.24. Мы получили систему одновременных, структурных уравнений: 7.1.25. Чтобы перейти от отклонений переменных от средних к их значениям (от значений табл. 7.1.2 к табл. 7.1.1), нужно определить свободные члены для каждого из уравнений. Рассчитываются они по формулам: 7.1.26. Подставим средние значения (табл. 7.1.1) и коэффициенты при переменных в структурной форме: 7.1.27. Тогда система структурных уравнений примет вид: 7.1.28. Полученные оценки являются состоятельными и несмещенными, в отличие от оценок метода наименьших квадратов, если применить его к каждому уравнению в отдельности, то получим уравнения множественной регрессии: 7.1.29. Как видно, различия значительны, особенно во втором уравнении, где имеется даже несовпадение знаков коэффициента при у1. 7.1.3. Проблема идентификации В рассмотренном примере (7.1.10) уравнения были однозначно разрешимы относительно исходных параметров, что позволило найти их состоятельные оценки. Такая ситуация не всегда имеет место. Возникает проблема идентификации, то есть однозначности определения параметров структурной модели по приведенной формы. Переход необходим, поскольку экономический смысл и интерпретацию имеют только параметры структурной формы. Структурный параметр называется идентифицируемым, если он может быть однозначно определен с помощью метода наименьших квадратов. Уравнение идентифицируемо, если идентифицируемы все входящие в него структурные параметры. Модель 7.1.10 – точно идентифицируемая, при переходе от приведенной к структурной форме мы получили единственно возможные оценки. Структурный параметр называется неидентифицируемым, если его значение невозможно получить, даже зная точные значения параметров приведенной формы. Полная форма структурной модели (7.1.5), где присутствуют все переменные, всегда неидентифицируема. Структурный параметр называется сверхидентифицируемым, если косвенный метод наименьших квадратов дает несколько различных его оценок. Модель: 7.1.30. будет сверхидентифицируемой, поскольку по восьми коэффициентам приведенной формы нельзя однозначно определить семь – структурной формы. Сверхидентифицируемая система в отличие от неидентифицируемой практически решаема, но не косвенным методом наименьших квадратов, а специальными методами. Для проверки структурной модели на идентификацию, нужно проверить каждое уравнение системы: 1) модель считается идентифицируемой, если каждое уравнение системы идентифицируемо; 2) если хотя бы одно уравнение неидентифицируемо, то вся модель считается неидентифицируемой; 3) если в модели нет неидентифицируемых уравнений, но присутствует хотя бы одно сверхидентифицируемое, то модель – сверхидентифицируемая. Условия идентифицируемости проверяются для каждого уравнения в отдельности. Чтобы уравнение было идентифицируемым, нужно, чтобы: 1+nx=ny (необходимое условие), где nx – число экзогенных переменных, содержащихся в системе, но отсутствующих в данном уравнении системы; ny – число эндогенных переменных в данном уравнении. Если 1+nxny, то уравнение сверхидентифицируемо. Пример 1. Проверим систему: 7.1.31. на идентификацию. В первом уравнении системы отсутствует только одна экзогенная переменная х2, тогда: nx=1, ny=2 и 1+nx= 2 = ny=2, то есть первое уравнение идентифицируемо; Во втором нет переменной х4: nx=1, ny=2 и 1+nx= 2 = ny=2, второе уравнение также идентифицируемо, а, следовательно, модель идентифицируема и может быть решена косвенным методом наименьших квадратов. Пример 2. Если в нашем примере коэффициент при х1 во втором уравнении будет равен нулю: 7.1.32. Тогда в втором уравнении отсутствуют две экзогенные переменные: х1, х4,: nx=2, ny=2 и 1+nx= 3 > ny=2, второе уравнение сверхидентифицируемо; Следовательно, система в целом сверхидентифицируема. Пример 3. Система: 7.1.33. будет неидентифицируемой, поскольку в первом уравнении присутствуют все переменные системы: nx=0, ny=2 и 1+nx= 1 < ny=2. Ранговое условие идентифицируемости (достаточное): Для разрешимости системы структурных уравнений достаточно, чтобы ранг матрицы, составленной из коэффициентов эндогенных и экзогенных переменных, отсутствующих в данном уравнении, но присутствующих в других уравнениях системы, был не меньше, чем число эндогенных переменных в системе без одного, а определитель этой же матрицы не был равен нулю. Пример. Имеется система структурных уравнений: 7.1.34. Проверим ее на идентификацию Первое уравнение. Необходимое (счетное) условие: nx=2 (отсутствуют х2, х3), ny=3, 1+nx=ny – уравнение идентифицируемо. Составим матрицу коэффициентов при отсутствующих переменных (х2 и х3): Уравнение х2 х3 2 а22 а23 3 Определитель матрицы коэффициентов равен нулю, ранг матрицы равен единице, он меньше числа эндогенных переменных в системе без одного (3-1=2). Достаточное условие не выполняется, уравнение нельзя признать идентифицируемым по ранговому правилу. Для второго уравнения выполняются необходимое и достаточное условия идентификации. Счетное правило: nx=1 (отсутствует х1), ny=2, 1+nx=ny – уравнение идентифицируемо. Матрица коэффициентов: Уравнение у3 х1 1 b13 а11 3 1 а31 Определитель матрицы не равен нулю. Ранг матрицы равен двум, он равен числу экзогенных переменных в системе без одного (3-1=2). Итак, второе уравнение системы точно идентифицируемо. Для третьего уравнения выполняется необходимое условие: nx=2 (отсутствуют х2 и х3), ny=3, 1+nx= ny. Матрица коэффициентов: Уравнение х2 х3 1 2 а22 а23 Определитель матрицы равен нулю. Ранг матрицы равен единице, он меньше числа экзогенных переменных в системе без одного (3-1=2). Итак, третье уравнение системы неидентифицируемо по ранговому правилу. Наша система идентифицируема по счетному правилу (необходимое условие идентификации), но ее нельзя признать идентифицируемой по достаточному условию (ранговое правило не выполняется для первого и третьего уравнений системы). Оценить параметры можно только для идентифицируемых и сверхидентифицируемых систем. Для однозначно идентифицируемых систем применяется косвенный метод наименьших квадратов. Найти параметры сверхидентифицируемой системы позволяет двухшаговый метод наименьших квадратов. Вопросы для повторения 1. Из-за чего возникает необходимость применения систем эконометрических уравнений? 2. Что понимают под системой одновременных уравнений? 3. Каковы свойства оценок обычного метода наименьших квадратов, примененного к системе одновременных, взаимосвязанных уравнений? 4. В чем причина смещенности и несостоятельности оценок метода наименьших квадратов в случае его применения для одновременных систем уравнений? 5. Почему случайные переменные называются эндогенными? 6. Почему неслучайные переменные называются экзогенными? 7. В чем главное отличие экзогенных переменных от эндогенных с точки зрения математической статистики? 8. Чем отличаются системы рекурсивных и одновременных уравнений? 9. Почему в моделях структурной формы отсутствует свободный член? 10. В чем суть косвенного метода наименьших квадратов? 11. Что понимают под приведенной формой систем одновременных уравнений? 12. В чем суть проблемы идентификации? 13. Какие требования выдвигает к системе необходимое (счетное) условие идентифицируемости? 14. Какие требования выдвигает к системе достаточное (ранговое) условие идентифицируемости? Резюме по модульной единице 7.1. Использование систем одновременных эконометрические уравнений позволяет строить более реалистичные модели, поскольку отражают взаимосвязи между экономическими переменными. Одна и та же экономическая переменная может рассматриваться и как факторная и как результативная. Использование систем совместных уравнений позволяет решать проблемы, связанные с мультиколлинеарностью факторов в уравнениях множественной регрессии. При оценке параметров системы одновременных уравнений исследователь сталкивается с проблемой идентификации. Точно идентифицируемые системы могут оцениваться косвенным методом наименьших квадратов. Модульная единица 7.2. Методы решения сверхидентифицируемых систем Цели и задачи изучения модульной единицы. Целью данной модульной единицы является изучение и получение навыков решения сверхидентифицируемых систем эконометрических уравнений, а также знакомство с наиболее значимыми моделями, применяемыми на практике. Необходимо освоить двухшаговый и трехшаговый методы наименьших квадратов. После изучения данной модульной единицы студенты также должны знать основные виды экономических моделей, представленных в виде систем структурных уравнений, и интерпретацию их коэффициентов. 7.2.1. Двухшаговый метод наименьших квадратов Двухшаговый метод наименьших квадратов является универсальным, позволяет решать как точно идентифицируемые, так и сверхидентифицируемые системы структурных уравнений. Значимость этого метода определяется тем, что он позволяет находить параметры сверхидентифицируемых систем, оценить которые косвенным методом нельзя. Сверхидентифицируемые системы бывают двух типов: • все уравнения системы сверхидентифицируемы; • система содержит наряду со сверхидентифицируемыми точно идентифицируемые уравнения. Для второго типа в отношении идентифицируемых уравнений может применяться косвенный метод наименьших квадратов, для сверхидентифицируемых уравнений и систем, где все уравнения сверхидентифицируемы, следует применять двухшаговый метод наименьших квадратов. Двухшаговый метод наименьших квадратов реализуется в следующей последовательности: 1) сначала, так же, как и при косвенном методе нужно привести систему к приведенной форме; 2) затем применить метод наименьших квадратов к каждому уравнению в приведенной форме и получить оценки ее параметров; 3) найти расчетные значения эндогенных переменных, подставляя значения экзогенных переменных в соответствующие приведенные уравнения по всем единицам совокупности. 4) подставить в структурную форму фактические значения экзогенных переменных и тех эндогенных переменных, которые находятся в левой части, и расчетные значения эндогенных переменных, находящихся в правой части системы, а затем применить метод наименьших квадратов. Замена фактических значений эндогенных переменных, находящихся в правой части системы, решает проблему их коррелированности с ошибками регрессии. Покажем, что двухшаговый метод наименьших квадратов дает такие же оценки, как и косвенный метод. Применим этот метод к системе 7.1.10. Отметим, что первые два этапа нами уже реализованы. Перейдем к третьему этапу метода. Подставим фактические значения экзогенных переменных (табл. 7.1.2) последовательно в каждое из уравнений приведенной формы: и определим расчетные значения эндогенных переменных, и , результаты запишем в табл. 7.2.3 7.2.3. Расчетные значения эндогенных переменных № п/п 1 -2,1 -6,2 2 -1,4 -3,4 3 0,5 -1,1 4 -0,3 -3,0 5 0,9 4,1 6 -1,3 -3,6 7 1,1 2,9 8 3,9 14,4 9 -1,3 -4,1 Теперь, подставив в правую часть структурной модели расчетные данные эндогенных переменных и фактические значения экзогенных переменных, найдем структурные параметры. Итак, исходные данные для первого и второго структурных уравнений будут следующие (табл. 7.2.4). 7.2.4. Исходные данные № п/п Первое уравнение Второе уравнение y1 x1 y2 x2 1 -2,3 -6,2 -72,2 -7,2 -2,1 -2,7 2 -1,3 -3,4 -22,2 -5,2 -1,4 -1,7 3 0,7 -1,1 -72,2 -2,2 0,5 0,3 4 -0,3 -3,0 -82,2 -1,2 -0,3 -0,7 5 1,7 4,1 77,8 7,8 0,9 1,3 6 -1,3 -3,6 -32,2 -1,2 -1,3 -1,7 7 0,7 2,9 27,8 2,8 1,1 1,3 8 3,7 14,4 227,8 12,8 3,9 5,3 9 -1,3 -4,1 -52,2 -6,2 -1,3 -1,7 Применив к каждому из массивов метод наименьших квадратов, получим ту же оценку параметров структурной формы, что и косвенным методом наименьших квадратов (7.1.25): Таким образом, мы доказали идентичность методов для идентифицируемых систем. Аналогичным образом применяется двухшаговый метод наименьших квадратов для сверхидентифицируемых систем. Для оценки надежности параметров структурной формы может применяться дисперсионный анализ. В нашем случае и первое и второе уравнения структурной формы оказались значимы: значимость фактического значения F-критерия Фишера составила всего 0,003% для первого уравнения и 0,099% – для второго. Следовательно, система в целом значима на уровне 0,1%. Проверку значимости целесообразно проводить еще на стадии получения системы приведенных уравнений. Продолжать реализацию косвенного и двухшагового методов следует лишь в случае получения значимых приведенных уравнений. 7.2.2. Понятие о трехшаговом методе наименьших квадратов Трехшаговый метод наименьших квадратов был предложен впервые Зельнером и Тейлом в качестве оценивания всех уравнений структурной формы с учетом возможной взаимной коррелированности регрессионных остатков различных уравнений системы. В трехшаговом МНК первые четыре этапа расчета выполняются так же, как и в двухшаговом методе, а затем проводится пятый этап: применяется обобщенный метод наименьших квадратов, и окончательные оценки параметров модели получаются с учетом этого метода. Трехшаговый МНК оказывается эффективнее двухшагового, если случайные остатки структурных уравнений оказываются взаимно коррелированными. Хотя стоит отметить, что и в случае коррелированности остатков оценки двухшагового метода наименьших квадратов остаются состоятельными. 7.2.3. Применение систем уравнений Наиболее важным этапом при построении систем одновременных уравнений является спецификация модели. Ввиду большого числа факторов, влияющих на экономические переменные, как правило, нельзя быть уверенным в точности предлагаемой модели для описания экономических процессов. Поэтому использование моделей сопряжено с рядом сложностей, которые связаны с ошибками спецификации модели. Сверхидентифицируемую модель можно превратить в точно идентифицируемую, изменяя набор переменных. Если правильная спецификация дает неидентифицируемую модель, то переходят к сверх- и точно идентифицируемым моделям, характер связей при этом несколько упрощается. Отсюда возникает множество прикладных моделей для решения одного и того же класса задач. Наиболее ярко это проявляется при построении макроэкономических моделей, когда одна и та же экономическая категория может описываться разным набором переменных. Рассмотрим основные направления практического использования эконометрических систем уравнений. Наиболее широко системы одновременных уравнений применяются для моделирования макроэкономики. Большинство из них построено на основе кейнсианских моделей. Статическая модель Кейнса для описания народного хозяйства страны в наиболее простом варианте имеет следующий вид (в современных показателях системы национального счетоводства России): 7.2.1. где С – конечное потребление в постоянных ценах; у – валовой располагаемый национальный доход (ВРНД) в постоянных ценах; – случайная составляющая; I – валовые инвестиции в постоянных ценах (валовое сбережение). Второе уравнение является тождеством, поэтому структурный коэффициент b не может быть больше 1. Он характеризует предельную склонность к потреблению. Так, если b=0,5, то из каждого дополнительного рубля дохода на потребление расходуется 50 копеек и 50 копеек инвестируется. Если b>1, то y < C+I – на потребление расходуются не только доходы, но и сбережения прошлых лет. Система приведенных уравнений: 7.2.2. Приведенная форма модели содержит мультипликаторы: - инвестиционный мультипликатор потребления: ; (7.2.3) - инвестиционный мультипликатор национального дохода: . (7.2.4) Мультипликаторы интерпретируются как коэффициенты линейной регрессии, т.е. они показывают, на сколько единиц изменится эндогенная переменная, если экзогенная переменная изменится на единицу. Например, если b=0,5, то . Из чего следует, что при росте инвестиций на 1 рубль, потребление так же увеличится на 1 рубль. , т.е. дополнительные инвестиции в размере 1 рубля приведут при прочих равных условиях к дополнительному росту чистого национального дохода на 2 рубля. Кроме статических моделей широко применяются для моделирования экономики динамические модели. Динамическая модель Кейнса: (7.2.5) где – валовой располагаемый национальный доход; – конечное потребление домашних хозяйств; – валовой национальный доход; – (ВРНД) предыдущего года t; – конечное потребление государственных учреждений; – валовое накопление основного капитала; – изменение запасов материальных оборотных средств и чистое приобретение ценностей; – сальдо платежного баланса (чистые трансферты, полученные от «остального мира»). Параметр а отражает влияние других, не учтенных факторов потребления. Первое уравнение является сверхидентифициуемым, второе и третье – тождествами. Динамические модели обязательно содержат в правой части лаговые переменные. А также возможен учет тенденции, т.е. в модель может быть включен фактор времени. Например, модель Клейна в упрощенном варианте рассматривается как конъюнктурная модель: (7.2.6) где – конечное потребление домашних хозяйств; – оплата труда наемных работников; – валовая прибыль и валовые смешанные доходы; – валовая прибыль и валовые смешанные доходы в предыдущий период; – ВРНД; – ВРНД в предыдущий период; t – время; – чистые трансферты и чистые доходы от собственности; – валовые инвестиции в постоянных ценах (валовое сбережение); – конечное потребление государственных учреждений. Модель содержит пять эндогенных переменных, расположенных в левой части: – ,, , и , определяемую по первому тождеству; три экзогенные переменные – , , t и две предопределенных, лаговых переменных – и . Как и большинство моделей такого типа, данная модель сверхидентифицируема и решается двухшаговым методом наименьших квадратов. Для интерпретации параметров и прогнозных целей используется, как и в модели Кейнса, приведенная форма модели: (7.2.7) Коэффициенты этой системы при обычных переменных и являются мультипликаторами. Коэффициенты – мультипликаторы чистых трансфертов () относительно конечного потребления домашних хозяйств (), валового сбережения (), оплаты труда (), ВРНД () и валовой прибыли и валовых смешанных доходов (). А коэффициенты являются мультипликаторами соответствующих эндогенных переменных. Рассмотрим пример динамической модели открытой экономики с экономической активностью со стороны государства: (7.2.8) где эндогенные переменные: – конечное потребление домашних хозяйств в период времени t; – частные чистые инвестиции в отрасли экономики; – импорт; – чистый располагаемый национальный доход. Экзогенные предопределенные переменные: – конечное потребление домашних хозяйств в предыдущий период времени; – чистая прибыль и чистые смешанные доходы до налогообложения; – импорт за предыдущий период времени; Экзогенная переменная – конечное потребление государственных учреждений плюс чистые капиталовложения в экономику страны (по этому же сектору) плюс изменение запасов минус чистые налоги плюс экспорт. Первые три уравнения – сверхидентифицируемые, четвертое – тождество. Системы эконометрических уравнений широко используются для моделирования спроса и предложения. В простейшем виде модель спроса и предложения может быть представлена следующим образом: (7.2.9) Здесь I – доход. Рынок является равновесным: . В этом случае P – цена равновесия, которая формируется одновременно со спросом и предложением. Следовательно, P и Q – эндогенные, а I – экзогенная переменная. Первое уравнение системы неидентифицируемо, чтобы практически реализовать эту модель следует изменить спецификацию и во второе уравнение ввести еще одну экзогенную переменную, например, налоги (N), которые выплачивают производители и продавцы. Если предположить, что исходные данные представлены временными рядами и величина налогов меняется со временем, то получим модель с учетом налога: (7.2.10) Модель спроса и предложения в таком варианте точно идентифицируема и может быть решена косвенным методом наименьших квадратов. Контрольные вопросы 1. Можно ли применять косвенный метод наименьших квадратов для сверхидентифицируемых систем? 2. Для каких систем применяется двухшаговый метод наименьших квадратов? 3. Какова последовательность двухшагового метода наименьших квадратов? 4. Сколько раз применяется метод наименьших квадратов в процедуре двухшагового метода? 5. В чем отличие оценок параметров систем уравнений, полученных двухшаговым и обычным методом наименьших квадратов? 6. Какой метод применяется в случае взаимной коррелированности регрессионных остатков? 7. Приведите пример моделей кейнсианского типа. 8. Приведите пример динамической модели экономики. 9. Приведите пример модели спроса и предложения? 10. Каково понятие «мультипликатор»? 11. Как интерпретируются мультипликаторы в модели Кейнса? 12. Как интерпретируются мультипликаторы в модели Клейна? 13. Каково понятие лаговых переменных? Резюме по модульной единице 7.2. Для оценки параметров сверхидентифицируемых систем применяется двухшаговый метод наименьших квадратов. Его оценки являются несмещенными и состоятельными. Если в модели одновременных уравнений коррелируют случайные ошибки, то трехшаговый метод эффективнее двухшагового метода наименьших квадратов. Хотя оценки двухшагового метода остаются состоятельными и для таких моделей. Системы одновременных уравнений широко используются для моделирования макроэкономики. Например, разработаны модели для описания экономики страны, спроса и предложения и т.д. Словарь основных терминов и определений (глоссарий) автокорреляция – корреляция текущих уровней временного ряда с предшествующими уровнями автокорреляция остатков – корреляционная зависимость между значениями остатков за текущий и предыдущие моменты времени автокорреляционной функции – ряд коэффициентов автокорреляции с последовательно возрастающим лагом авторегрессионная модель временного ряда – уравнение, которое описывает уровни ряда как функцию от уровней предшествующих периодов аддитивная модель – результативный признак представлен как простая или взвешенная сумма факторов аппроксимация (приближение) – состоит в достаточно точном воспроизведении фактических данных аналитической функцией вариация общая – изменчивость результативного признака под влиянием всех факторов вариация объясненная - изменчивость результативного признака под влиянием факторов, включенных в уравнение регрессии вариация необъясненная (остаточная) - изменчивость результативного признака под влиянием факторов, не включенных в уравнение регрессии временной ряд (ряд динамики) – ряд статистических показателей, меняющихся во времени гетероскедастичность – неравенство дисперсии остатков при разных значениях факторного признака гомоскедастичность – равенство дисперсии остатков на всем протяжении значений факторного признака двухшаговый метод наименьших квадратов применяется для решения сверхидентифируемых систем одновременных уравнений дисперсия – показатель вариации, определяется как средний квадрат отклонений индивидуальных значений признака от его среднего значения доверительная вероятность – вероятность, которую исследователь признает достаточной для суждения о надежности выборочных характеристик доверительные границы – границы, выход за пределы которых данной характеристикой вследствие случайных колебаний имеет незначительную вероятность доверительный интервал – интервал возможных значений генерального показателя связи для принятой доверительной вероятности достоверный параметр – его величина существенно отлична от нуля идентификация – проблема определения уравнения регрессии, наилучшим образом аппроксимирующего изучаемое явление индекс корреляции – количественная мера тесноты связи при криволинейной зависимости ковариация – совместная изменчивость двух переменных, проявляющаяся в их согласованных отклонениях от своих средних значений коллинеарность – достаточно тесная неслучайная линейная корреляция одних факторов с другими коррелограмма – график автокорреляционной функции, отражает зависимость величины коэффициента автокорреляции от лага корреляционная связь – частный случай статистической связи, когда разным значениям одной переменной соответствуют различные средние значения другой косвенный метод наименьших квадратов применяется для решения точно идентифицируемых систем одновременных уравнений коэффициент детерминации – доля (процент) общей вариации результативного признака, обусловленная влиянием изучаемого фактора (ов) коэффициент корреляции – показатель интенсивности (силы) линейной связи коэффициент регрессии – выражается в абсолютных единицах измерения признаков, показывает величину абсолютного изменения результата при единичном изменении фактора коэффициент регрессии стандартизованный – выражается не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака; показывает, на сколько среднеквадратических отклонений изменится результат при изменении фактора на одно свое среднеквадратическое отклонение коэффициент частной детерминации – показывает, на какую долю уменьшается необъясненная вариация уже имеющимися в модели факторами при дополнительном включении в модель данного фактора коэффициент чистой регрессии – величина изменения результата при условии, что данный фактор изменяется на принятую единицу измерения, а другие факторы остаются постоянными на средних уровнях коэффициент эластичности (средний) – показывает, на сколько процентов в среднем по совокупности изменится результат от своей средней величины при изменении фактора на один процент от своей средней величины кривая Энгеля – гиперболическая функция, отражающая взаимосвязь доли расходов на определенные группы товаров и суммы доходов критерий Дарбина-Уотсона – используется для проверки гипотезы о наличии автокорреляции остатков лаг – сдвиг во времени между уровнями временного ряда линеаризация – переход от нелинейных связей к линейной путем преобразования переменных ложная корреляция – корреляционная связь между уровнями временных рядов, вызванная наличием тенденции в каждом ряде метод Гольдфельда – Квандта – процедура оценки гетероскедастичности модели метод наименьших квадратов – метод параметризации уравнения регрессии, при котором обеспечивается минимальная сумма квадратов отклонений фактических значений зависимой переменной от расчетных по уравнению регрессии множественная корреляция – исследует зависимость одного результативного признака от двух и более факторных признаков мультиколлинеарность – тесная линейная связь одного фактора с комплексом других факторов мультипликативная модель – результативный признак представлен как произведение факторов несмещенность оценки означает, что математическое ожидание остатков равно нулю отрицательная связь - рост факторного признака приводит к снижению результативного признака оценка – показатель связи переменных, рассчитанный по выборочным данным ошибка аппроксимации – среднее процентное расхождение между фактическими и расчетными по уравнению регрессии значениями результативного признака параметризация уравнения регрессии – нахождение параметров уравнения связи парная корреляция – отражает связь между двумя признаками предельная ошибка параметра – максимальное для доверительной вероятности расхождение выборочных оценок (по выборкам равного объема) от истинного значения параметра приведенные уравнения – получают путем подстановки взамен эндогенной переменной в правую часть уравнения ее выражения из другого уравнения, где эта эндогенная переменная находится в левой части прогноз точечный – прогноз, рассчитанный путем подстановки в уравнение регрессии ожидаемого значения фактора прогноз интервальный – показывает интервал возможных значений результативного признака при заданном значении фактора (ов) для доверительной вероятности производственная функция – регрессионные уравнения, где зависимыми переменными выступают результаты производства, а факторами – используемые ресурсы или условия производства регрессионная связь – причинная корреляционная зависимость вариации результативного признака от вариации факторного признака (признаков) результативный (эндогенный) признак – зависимый признак сезонность – повторяющиеся из года в год колебания уровней временного ряда, связанные со сменой времен года система одновременных эконометрических уравнений – множество уравнений, в котором одни и те же эндогенные переменные в одних уравнениях являются результативными признаками, а в других уравнениях играют роль факторов наряду с факторными экзогенными переменными состоятельность оценки – точность оценки увеличивается с увеличением объема выборки спецификация модели – формулировка вида уравнения регрессии, то есть определение формы связи и состава переменных средняя ошибка параметра - среднее расхождение всех возможных выборочных оценок (по выборкам равного объема) и истинного значения параметра статистическая связь – разным значениям одной переменной соответствуют разные распределения значений другой переменной тенденция – закономерное изменение изучаемого показателя во времени, вызванное совокупным долговременным воздействием множества факторов тренд – математическое уравнение, отражающее тенденцию изменения уровня временного ряда трехшаговый метод наименьших квадратов применяется для оценивания систем одновременных уравнений с учетом возможной взаимной коррелированности регрессионных остатков различных уравнений системы уравнение регрессии – математическое уравнение, отражающее причинно-следственную корреляционную зависимость переменных уровень временного ряда – показатель, относящийся к определенному моменту (периоду) времени факторный (экзогенный) признак – признак, от которого зависит величина другого признака фиктивные переменные - градации качественного признака, закодированные числовыми значениями форма связи – тип аналитической формулы, выражающей зависимость между признаками F-тест общий – оценивает достоверность регрессионной модели в целом F-тест частный – оценивает целесообразность дополнительного включения фактора в модель функциональная связь – полная и точная связь, когда значению одной переменной соответствует одно или несколько точно заданных значений другой переменной функция Кобба – Дугласа – множественная степенная модель зависимости объема производства от затрат труда и величины капитала, один из видов производственных функций функция потребления – уравнение зависимости потребления от доходов, цен, размера семьи и прочих факторов частная корреляция – характеризует зависимость между результативным и одним факторным признаком при фиксированном значении других факторных признаков эффективность оценки характеризуется ее наименьшей дисперсией Контрольные вопросы итогового контроля 1. Предмет эконометрики. 2. Особенности эконометрического метода. 3. Понятие о функциональной и статистической связи. 4. Понятие и способы расчета дисперсии. 5. Что означает термин «ковариация», и каковы способы ее расчета? 6. Коэффициент парной линейной корреляции и коэффициент частной корреляции. 7. Приемы выявления взаимосвязей между признаками. 8. Виды корреляционной связи по форме и по направлению. 9. Раскройте понятие уравнения и остатков регрессии 10. Сущность метода наименьших квадратов (МНК). 11. Понятие генерального и выборочного уравнения регрессии 12. Способы расчета коэффициента полной регрессии. 13. Интерпретация параметров уравнения регрессии. 14. Коэффициент детерминации как показатель качества уравнения регрессии 15. Раскройте понятие «достоверность» применительно к параметрам взаимосвязи переменных. 16. Методика оценки существенности уравнения регрессии в целом. 17. Методика оценки существенности коэффициентов регрессии. 18. Содержание доверительных пределов коэффициентов регрессии. 19. Использование F-критерия Фишера в оценке качества модели. 20. Использование t – критерия Стьюдента в регрессионном анализе. 21. Чем отличается процедура проверки достоверности параметров связи для больших и малых выборок? 22. Интервальная оценка параметров генерального уравнения регрессии и генерального коэффициента корреляции 23. Средняя ошибка аппроксимации. Оценка пригодности уравнения регрессии для прогноза. 24. Выбор лучшего уравнения регрессии. 25. Назовите источники возникновения ошибки прогноза результативного признака. 26. Что такое «точечный прогноз»? 27. Чем отличается доверительный интервал положения линии регрессии от доверительного интервала индивидуального прогноза? 28. Нелинейная регрессия. Преобразование переменных. 29. Какие есть способы выбора вида математической функции в случае парной связи переменных? 30. В чем сущность экспериментального метода выбора вида уравнения? 31. Основные виды нелинейных регрессий. Область их применения в эконометрических исследованиях. 32. Нелинейная регрессия. Линеаризация переменных (раскройте назначение и приведите примеры линеаризации ). 33. Параметризацию каких видов нелинейных регрессий можно выполнить методом наименьших квадратов? 34. Назовите область применения равносторонней гиперболы в эконометрических исследованиях. 35. В чем особенность параболической регрессионной зависимости? 36. Сферы применения степенной модели 37. Раскройте содержание «кривых Энгеля». 38. Какова интерпретация показателя степени в степенной функции? 39. Показатели корреляции, используемые при нелинейных соотношениях изучаемых признаков. 40. Уравнение множественной линейной регрессии. Интерпретация его параметров 41. Назовите условия отбора факторных показателей в уравнение множественной регрессии. 42. Раскройте сущность мультиколлинеарности факторов в модели. Каковы последствия наличия мультиколлинеарных факторов в модели? 43. Назовите методы устранения мультиколлинеарности факторов. 44. Показатели множественной корреляционной связи, их интерпретация. 45. Стандартизованные коэффициенты регрессии, их интерпретация и способы расчета. 46. Оценка целесообразности включения дополнительного фактора в модель множественной регрессии. 47. Сравнительная оценка роли факторов в формировании результативного признака. 48. Функция потребления: сущность, способ решения и интерпретация параметров. 49. Производственная функция Кобба-Дугласа: сущность, способ решения и интерпретация параметров. 50. Какова связь коэффициентов раздельной (частной) детерминации с множественной детерминацией? 51. Скорректированный коэффициент множественной корреляции: цель и способ расчета 52. Каково назначение частной корреляции при построении модели множественной регрессии? 53. Чем отличается дисперсионный анализ парной регрессионной модели от дисперсионного анализа множественной модели? 54. Что такое частный F-тест? Раскройте его назначение и сущность. 55. Раскройте понятия «несмещенности, состоятельности и эффективности» выборочных оценок параметров регрессии. 56. Перечислите предпосылки МНК. 57. С какой целью в множественной регрессии используется графический анализ остатков? 58. Понятие гетеро- и гомоскедастичности остатков 59. Раскройте назначение и сущность метода Гольдфельда – Квандта. 60. Спецификация уравнения регрессии: сущность и решение проблемы. 61. Перечислите основные элементы временного ряда. 62. Аддитивная модель временного ряда. Методика построения. 63. Мультипликативная модель временного ряда. Методика построения. 64. Что такое автокорреляция уровней временного ряда? 65. Понятие и основные виды трендов. 66. Что такое ложная корреляция и как ее избежать. 67. Перечислите основные методы исключения тенденции, назовите их достоинства и недостатки. 68. Модели с включенным фактором времени 69. Раскройте понятие автокорреляции в остатках. 70. Автокорреляционная функция 71. С какой целью используется критерий Дарбина – Уотсона? Изложите алгоритм его применения. 72. Моделирование тенденции временного ряда. 73. Выбор лучшего уравнения тренда 74. Интерпретация параметров линейного тренда. 75. Автокорреляция уровней временного ряда и выявление его структуры. 76. Особенности моделирования взаимосвязей между признаками по данным временных рядов. 77. Необходимость применения систем эконометрических уравнений 78. Что понимают под системой одновременных уравнений? 79. Каковы свойства оценок обычного метода наименьших квадратов, примененного к системе одновременных, взаимосвязанных уравнений? 80. Понятие экзогенных и эндогенных переменных 81. В чем главное отличие экзогенных переменных от эндогенных с точки зрения математической статистики? 82. Чем отличаются системы рекурсивных и одновременных уравнений? 83. Почему в моделях структурной формы отсутствует свободный член? 84. В чем суть косвенного метода наименьших квадратов? 85. Что понимают под приведенной формой систем одновременных уравнений? 86. В чем суть проблемы идентификации? 87. Какие требования выдвигает к системе необходимое (счетное) условие идентифицируемости? 88. Какие требования выдвигает к системе достаточное (ранговое) условие идентифицируемости? 89. Можно ли применять косвенный метод наименьших квадратов для сверхидентифицируемых систем? 90. Для каких систем применяется двухшаговый метод наименьших квадратов? 91. Какова последовательность двухшагового метода наименьших квадратов? 92. В чем отличие оценок параметров систем уравнений, полученных двухшаговым и обычным методом наименьших квадратов? 93. Какой метод применяется в случае взаимной коррелированности регрессионных остатков? 94. Приведите пример моделей кейнсианского типа. 95. Приведите пример динамической модели экономики. 96. Приведите пример модели спроса и предложения? 97. Каково понятие «мультипликатор»? 98. Как интерпретируются мультипликаторы в модели Кейнса? 99. Как интерпретируются мультипликаторы в модели Клейна? 100. Каково понятие лаговых переменных?

Авторы лекции