Справочник от Автор24
Эконометрика

Конспект лекции
«Эконометрика. Задачи и модели.»

Справочник / Лекторий Справочник / Лекционные и методические материалы по эконометрике / Эконометрика. Задачи и модели.

Выбери формат для чтения

doc

Конспект лекции по дисциплине «Эконометрика. Задачи и модели.», doc

Файл загружается

Файл загружается

Благодарим за ожидание, осталось немного.

Конспект лекции по дисциплине «Эконометрика. Задачи и модели.». doc

txt

Конспект лекции по дисциплине «Эконометрика. Задачи и модели.», текстовый формат

Содержание Содержание 3 ВВЕДЕНИЕ 4 I. ПАРНАЯ РЕГРЕССИЯ. 5 1.1. Спецификация модели. 5 1.2. Оценка параметров линейной регрессии. 10 1.3. Предпосылки МНК (условия Гаусса-Маркова) 15 1.4. Оценка существенности параметров 16 линейной регрессии и корреляции. 16 1.5. Интервалы прогноза по линейному уравнению регрессии. 22 1.6. Нелинейная регрессия 25 II. МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ 32 2.1. Оценка параметров линейного уравнения множественной регрессии 35 2.2. Частные уравнения регрессии 41 2.3. Анализ качества эмпирического уравнения множественной 43 линейной регрессии 43 2.4. Спецификация модели 51 2.5. Гетероскедастичность 61 2.6. Автокорреляция остатков 67 2.7. Фиктивные переменные в регрессионных моделях 74 III. СИСТЕМЫ ЭКОНОМЕТРИЧЕСКИХ УРАВНЕНИЙ 81 3.1. Структурная и приведенная формы модели. 82 3.2. Проблема идентификации 83 3.3. Оценивание параметров структурной модели 87 3.4. Применение систем эконометрических уравнений. 91 IV. ВРЕМЕННЫЕ РЯДЫ В ЭКОНОМЕТРИЧЕСКИХ ИССЛЕДОВАНИЯХ 95 4.1. Выявление структуры временного ряда 95 4.2. Динамические эконометрические модели 110 СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ 118 ВВЕДЕНИЕ Эконометрика – это наука, в которой на базе реальных статистических данных строятся, анализируются и совершенствуются математические модели реальных экономических явлений. Эконометрика позволяет найти количественное подтверждение либо опровержение того или иного экономического закона либо гипотезы. Эконометрика как научная дисциплина зародилась и получила развитие на основе слияния экономической теории, математической экономики и экономической и математической статистики. По словам Р. Фриша: «… каждая их трех отправных точек - статистика, экономическая теория и математика-необходимое, но не достаточное условие для понимания количественных соотношений в современной экономической жизни. Это единство всех трех составляющих. И это единство образует эконометрику». Таким образом, эконометрика - это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Предметом эконометрики являются экономические явления. Однако, в отличие от экономической теории, эконометрика делает упор на количественные, а не на качественные аспекты этих явлений. Например, известно, что спрос на товар с ростом его цены падает. Однако, как быстро и по какому закону это происходит, в экономической теории не определяется. Это в каждом конкретном случае делает эконометрика. С другой стороны, математическая экономика строит и анализирует модели экономических процессов без использования реальных числовых значений. Эконометрика же изучает модели на базе эмпирических данных. Наконец, в эконометрике широко используется аппарат математической статистики, особенно при установлении связей между экономическими показателями. В то же время в экономике невозможно проведение управляемого эксперимента, и эконометристы используют свои собственные приемы анализа, которые в математической статистике не встречаются. Основными целями эконометрики являются: 1.Прогноз экономических и социально-экономических показателей, характеризующих состояние и развитие анализируемой системы. 2.Имитация различных возможных сценариев социально-экономического развития. Основные задачи эконометрики: 1.Постороение эконометрических моделей, т.е. представление экономических моделей в математической форме, удобной для проведения эмпирического анализа (спецификация модели). 2.Оценка параметров построенной модели, делающих выбранную модель наиболее адекватной реальным данным (параметризация). 3.Проверка качества найденных параметров модели и самой модели в целом (верификация). 4.Использование построенных моделей для объяснения поведения экономических показателей, прогнозирования и предсказания, а также для осмысленного проведения экономической политики. Этапы эконометрического моделирования: 1.Постановочный этап: определение конечных целей моделирования, набора факторов и показателей. 2.Априорный этап: предмодельный анализ экономической сущности изучаемого явления. 3.Параметризация: собственно моделирование, т.е. выбор общего вида модели, состава и формы входящих в нее связей. 4.Информационный этап: сбор статистической информации. 5.Идентификация модели: статистический анализ модели и оценивание неизвестных параметров модели. 6.Верификация модели: сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных. I. ПАРНАЯ РЕГРЕССИЯ. 1.1. Спецификация модели. Регрессия представляет собой зависимость среднего значения какой – либо величины от некоторой другой величины или от нескольких величин. В отличие от функциональной зависимости, когда каждому значению независимой переменной х соответствует одно определенное значение величины y, при регрессионной связи одному и тому же значению х могут соответствовать в зависимости от случая различные значения величины y. В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии. Простая регрессия представляет собой регрессию между двумя переменными – y и x,т.е. модель вида: (1) где y – зависимая переменная (результативный признак); x - независимая, или объясняющая переменная (признак – фактор, или регрессор). Множественная регрессия представляет собой регрессию результативного признака с двумя и большим числом факторов, т.е. модель вида: (2) Любое эконометрическое исследование начинается со спецификации модели, т.е. с формулировки вида модели, исходя из соответствующей теории связи между переменными. Из всего круга факторов, влияющих на результативный признак, необходимость выделить наибольшие существенно влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Например, выдвигается гипотеза о том, что величина спроса y на товар находится в обратной зависимости от цены x, т.е. Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как закономерность лишь в среднем по совокупности наблюдений. (Например, если зависимость спроса y от цены x: означает, что с ростом цены на 1 д.е. спрос в среднем уменьшается на 2 д.е.). В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи. В каждом отдельном случае величина y складывается из двух слагаемых: , где фактическое значение результативного признака; - значение признака, найденное из математической функции связи y и x, т.е. из уравнения регрессии; - случайная величина, характеризующая отклонение реального значения признака от найденного по уравнению регрессии. Случайная величина ε называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее порождают 3 источника: спецификация модели, выборочный характер исходных данных и ошибки измерения. Например, зависимость спроса от цены точнее следует записывать так: В данном случае слева записано просто y, что означает фактическое значение, а не , отвечающее значению, рассчитанному по уравнению регрессии. Ошибки спецификации. Это прежде всего неправильно выбранная форма модели. В частности, зависимость спроса от цены может быть выражена линейно , но возможны и другие соотношения, например , , . Ошибки спецификации тем меньше, чем в большей мере теоретические значения признака подходят к фактическим данным y. К ошибкам спецификации относится также недоучет в уравнении регрессии какого-либо существенного фактора, т.е. использование парной регрессии вместо множественной. Например, спрос на конкретный товар может определяться не только ценой, но и доходом на душу населения. Ошибки выборки. Исследователь при установлении связи между признаками имеет дело с выборочными данными. При изучении экономических процессов данные в исходной совокупности часто являются неоднородными. В этом случае уравнение регрессии не имеет практического смысла. Поэтому для получения хорошего результата из выборки исключают единицы с аномальными значениями исследуемых признаков. Ошибки измерения. Представляют наибольшую опасность в практическом использовании методов регрессии. Ошибки спецификации можно уменьшить, изменяя форму модели, ошибки выборки - увеличивая объем исходных данных, ошибки измерения сводят на нет все усилия по количественной оценке связи между признаками. Например, статистическое измерение дохода на душу населения может иметь ошибку в результате наличия сокрытых доходов. Другой пример: органы государственной статистики получают балансы предприятий, достоверность которых никто не подтверждает. В эконометрических исследованиях предполагается, что ошибки измерения сведены к минимуму. Поэтому основное внимание уделяется ошибкам спецификации модели. В парной регрессии выбор вида математической функции (1) может быть осуществлен тремя методами: графическим, аналитическим и экпериментальным. Графический метод достаточно нагляден. Он основан на поле корреляции. Рассмотрим типы кривых. Используются и другие типы кривых: ; ; ; ; ; . Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков. Пусть, например, изучается потребность предприятия в электроэнергии y в зависимости от объема выпускаемой продукции x. Все потребление электроэнергии можно подразделить на 2 части: • не связанное с производством продукции a; • непосредственно связанное с объемом выпускаемой продукции, пропорционально возрастающее с увеличением объема выпуска bx; Тогда зависимость потребления электроэнергии от объема продукции можно выразить уравнением регрессии вида Разделив на x, получим удельный расход электроэнергии на единицу продукции : Это равносторонняя гипербола. Аналогично затраты предприятия могут быть условно-переменные, изменяющиеся пропорционально изменению объема продукции (расход материала, оплата труда и др.) и условно-постоянные, не изменяющиеся с изменением объема производства (арендная плата, содержание администрации и др.). Соответствующая зависимость затрат на производство y от объема продукции x характеризуется линейной функцией. , а зависимость себестоимости единицы продукции zx от объема продукции – равносторонней гиперболой: Экспериментальный метод используется при обработке информации на компьютере путем сравнения величины остаточной дисперсии , рассчитанной на разных моделях. В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении регрессии факторов: Чем меньше , тем меньше наблюдается влияние прочих факторов, тем лучше уравнение регрессии подходит к исходным данным. При обработке данных на компьютере разные математические функции перебираются в автоматическом режиме, и из них выбирается та, для которой является наименьшей. Если примерно одинакова для нескольких функций, то на практике выбирают более простую, так как она в большей степени поддается интерпретации и требует меньшего объема наблюдений. Результаты многих исследований подтверждают, что число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров при переменной x. Это означает, что искать линейную регрессию, имея менее 7 наблюдений, вообще не имеет смысла. Если вид функции усложняется, то требуется увеличение объема наблюдений. Для рядов динамики, ограниченных по протяженности – 10, 20, 30 лет – предпочтительна модель с меньшим числом параметров при x. 1.2. Оценка параметров линейной регрессии. Линейная регрессия сводится к нахождению уравнения вида (или) (3) Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x. На графике теоретические значения лежат на прямой, которая представляют собой линию регрессии. Построение линейной регрессии сводится к оценке ее параметров- а и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений от теоретических минимальна: или (4) Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров - а и b - и приравнять их к нулю. (5) Преобразуем, получаем систему нормальных уравнений: (6) В этой системе n- объем выборки, суммы легко рассчитываются из исходных данных. Решаем систему относительно а и b, получаем: (7) . (8) Выражение (7) можно записать в другом виде: (9) где ковариация признаков, дисперсия фактора x. Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала уравнение парной линейной регрессии достаточно распространенным в эконометрических исследованиях. Формально a- значение y при x=0. Если x не имеет или не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при a 0. Интерпретировать можно лишь знак при параметре a. Если a 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:  при  0,  0  Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений: , (10) где , . При этом свободный член равен нулю, что и отражено в выражении (10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами . При этом в выражении (8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена. Рассмотрим в качестве примера по группе предприятий, выпускающих один вид продукции, регрессионную зависимость издержек от выпуска продукции Табл. 1. Выпуск продукции тыс.ед.() Затраты на производство, млн.руб.() 1 30 30 1 900 31,1 2 70 140 4 4700 67,9 4 150 600 16 22500 141,6 3 100 300 9 10000 104,7 5 170 850 25 28900 178,4 3 100 300 9 10000 104,7 4 150 600 16 22500 141,6 Итого: 22 770 2820 80 99700 770,0 Система нормальных уравнений будет иметь вид: Решая её, получаем a= -5,79, b=36,84. Уравнение регрессии имеет вид: Подставив в уравнение значения х, найдем теоретические значения y (последняя колонка таблицы). Величина a не имеет экономического смысла. Если переменные x и y выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится: , где , . В качестве другого примера рассмотрим функцию потребления в виде: , где С- потребление, y –доход, K,L-параметры. Данное уравнение линейной регрессии обычно используется в увязке с балансовым равенством: , где I– размер инвестиций, r - сбережения. Для простоты предположим, что доход расходуется на потребление и инвестиции. Таким образом, рассматривается система уравнений: Наличие балансового равенства накладывает ограничения на величину коэффициента регрессии, которая не может быть больше единицы, т.е. . Предположим, что функция потребления составила: . Коэффициент регрессии характеризует склонность к потреблению. Он показывает, что из каждой тысячи рублей дохода на потребление расходуется в среднем 650 руб., а 350 руб. инвестируется. Если рассчитать регрессию размера инвестиций от дохода, т.е. , то уравнение регрессии составит . Это уравнение можно и не определять, поскольку оно выводится из функции потребления. Коэффициенты регрессии этих двух уравнений связаны равенством: 0,65+0,35=1. Если коэффициент регрессии оказывается больше единицы, то , и на потребление расходуются не только доходы, но и сбережения. Коэффициент регрессии в функции потребления используется для расчета мультипликатора: . Здесь m≈2,86, поэтому дополнительные вложения 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу 2,86 тыс. руб. При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции r: (11) Его значения находятся в границах: . Если b  0, то при b 0 . По данным примера , что означает очень тесную зависимость затрат на производство от величины объема выпускаемой продукции. Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации как квадрат линейного коэффициента корреляции r2. Он характеризует долю дисперсии результативного признака y, объясняемую регрессией, в общей дисперсии результативного признака: (12) Величина характеризует долю дисперсии y, вызванную влиянием остальных, не учтенных в модели факторов. В примере . Уравнением регрессии объясняется 98,2 % дисперсии , а на прочие факторы приходится 1,8 %, это остаточная дисперсия. 1.3. Предпосылки МНК (условия Гаусса-Маркова) Как было сказано выше, связь между y и x в парной регрессии является не функциональной, а корреляционной. Поэтому оценки параметров a и b являются случайными величинами, свойства которых существенно зависят от свойств случайной составляющей ε. Для получения по МНК наилучших результатов необходимо выполнение следующих предпосылок относительно случайного отклонения (условия Гаусса – Маркова): 10. Математическое ожидание случайного отклонения равно нулю для всех наблюдений: . 20. Дисперсия случайных отклонений постоянна: . Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсии отклонений) 30. Случайные отклонения εi и εj являются независимыми друг от друга для : Выполнимость этого условия называется отсутствием автокорреляции. 40. Случайное отклонение должно быть независимо от объясняющих переменных. Обычно это условие выполняется автоматически, если объясняющие переменные в данной модели не являются случайными. Кроме того, выполнимость данной предпосылки для эконометрических моделей не столь критична по сравнению с первыми тремя. При выполнимости указанных предпосылок имеет место теорема Гаусса-Маркова: оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок. Таким образом, при выполнении условий Гаусса-Маркова оценки (7) и (8) являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными, т.е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин yi. Именно понимание важности условий Гаусса-Маркова отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты. 1.4. Оценка существенности параметров линейной регрессии и корреляции. После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров. Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y. Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части – объясненную и необъясненную: (13) или, соответственно: Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной. В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю. Однако на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y.Это равносильно тому, что коэффициент детерминации будет приближаться к единице. Число степеней свободы. (df-degrees of freedom)- это число независимо варьируемых значений признака. Для общей СКО требуется (n-1) независимых отклонений, т.к. что позволяет свободно варьировать (n-1) значений, а последнее n-е отклонение определяется из общей суммы, равной нулю. Поэтому Факторную СКО можно выразить так: Эта СКО зависит только от одного параметра b,-поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы: (14) Таким образом, можем записать: Из этого баланса определяем, что =n-2. Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы: (15) (16) (17) Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим - критерий для проверки нулевой гипотезы, которая в данном случае записывается как (18) Если справедлива, то дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности и различных числах степеней свободы. Табличное значение F- критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная n-2. Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного т.е. Fфактич>Fтабл(α;1;n-2). В этом случае отклоняется и делается вывод о существенности превышения Dфакт над Dостат.,т.е. о существенности статистической связи между y и x. Если , то вероятность выше заданного уровня (например, 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, не отклоняется. В рассмотренном примере: - это общая СКО. - это факторная СКО. - остаточная СКО. ;;; ; . На любом уровне значимости , и можно сделать вывод о значимости уравнения регрессии. Статистическая связь между y и x доказана. Величина F- критерия связана с коэффициентом детерминации. , (19) В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. Стандартная ошибка коэффициента регрессии определяется по формуле: , (20) - остаточная дисперсия на одну степень свободы (то же, что и D­остат). В рассмотренном примере Величина стандартной ошибки совместно с t- распределением Стьюдента при n-2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов. Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t- критерия Стьюдента , (21) которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы (n-2). Здесь проверяется нулевая гипотеза в виде Н0:b=0, также предполагающая несущественность статистической связи между y и х, но только учитывающая значение b, а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Однако общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия. Если tb>tтабл(α;n-2), то гипотеза Н0:b=0 должна быть отклонена, а статистическая связь y с х считается установленной. В случае tb<tтабл(α;n-2) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным. В рассмотренном примере Для двустороннего α=0,05 и n-2=5 tтабл=2,57, tb>tтабл , поэтому гипотезу о несущественности b следует отклонить. Существует связь между и : Отсюда следует, что (22) . Доверительный интервал для b определяется как , (23) где - рассчитанное (оцененное) по МНК значение коэффициента регрессии. 95%-ные границы в примере составят: т.е. Это означает, что с вероятностью 0,95 истинное значение b находится в указанном интервале. Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Они не должны включать нуль. Стандартная ошибка параметра определяется по формуле: (24) Процедура оценивания существенности a не отличается от таковой для параметра b. При этом фактическое значение t-критерия вычисляется по формуле: (25) Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях |r|. В этом случае гипотеза об отсутствии корреляционной связи между y и х H0:r=0 проверяется на основе статистики , (26) которая при справедливости H0 приблизительно распределена по закону Стьюдента с (n-2) степенями свободы. Если , то гипотеза H0 отвергается с вероятностью ошибиться, не превышающей α. Из (19) видно, что в парной линейной регрессии . Кроме того, , поэтому . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Однако при малых выборках и значениях r, близких к , следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу. Чтобы обойти это затруднение, используется так называемое z-преобразование Фишера: , (27) которое дает нормально распределенную величину z, значения которой при изменении r от –1 до +1 изменяются от -∞ до +∞. Стандартная ошибка этой величины равна: (28) Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r. Для z выдвигается нуль-гипотеза H0:z=0, состоящая в том, что корреляция отсутствует. В этом случае значения статистики , (29) которая распределена по закону Стьюдента с (n-2) степенями свободы, не превышает табличного на соответствующем уровне значимости. Для каждого значения z можно вычислить критические значения r. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно. 1.5. Интервалы прогноза по линейному уравнению регрессии. Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х. Такой прогноз называется точечным. Он не является точным, поэтому дополняется расчетом стандартной ошибки ; получается интервальная оценка прогнозного значения : (30) Преобразуем уравнение регрессии: ошибка зависит от ошибки и ошибки коэффициента регрессии т.е. Из теории выборки известно, что Используем в качестве оценки остаточную дисперсию на одну степень свободы получаем: Ошибка коэффициента регрессии из формулы (20): Таким образом, при получаем: (31) Как видно из формулы, величина достигает минимума при и возрастает по мере удаления от в любом направлении. Для нашего примера эта величина составит: При . При Для прогнозируемого значения 95% - ные доверительные интервалы при заданном определены выражением: (32) т.е. при или При прогнозное значение составит - это точечный прогноз. Прогноз линии регрессии лежит в интервале: Мы рассмотрели доверительные интервалы для среднего значения при заданном Однако фактические значения варьируются около среднего значения они могут отклоняться на величину случайной ошибки ε, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы Поэтому ошибка прогноза отдельного значения должна включать не только стандартную ошибку , но и случайную ошибку S. Таким образом, средняя ошибка прогноза индивидуального значения составит: (33) Для примера: Доверительный интервал прогноза индивидуальных значений при с верностью 0,95 составит: или Пусть в примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики затраты на производство 8 тыс. ед. продукции не превысят 250 млн. руб. Означает ли это изменение найденной закономерности или затраты соответствуют регрессионной модели? Точечный прогноз: Предполагаемое значение - 250. Средняя ошибка прогнозного индивидуального значения: Сравним ее с предполагаемым снижением издержек производства, т.е. 250–288,93=–38,93: Поскольку оценивается только значимость уменьшения затрат, то используется односторонний t- критерий Стьюдента. При ошибке в 5 % с , поэтому предполагаемое уменьшение затрат значимо отличается от прогнозируемого значения при 95 % - ном уровне доверия. Однако, если увеличить вероятность до 99%, при ошибке 1 % фактическое значение t – критерия оказывается ниже табличного 3,365, и различие в затратах статистически не значимо, т.е. затраты соответствуют предложенной регрессионной модели. 1.6. Нелинейная регрессия До сих пор мы рассматривали лишь линейную модель регрессионной зависимости y от x (3). В то же время многие важные связи в экономике являются нелинейными. Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т.п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары – с другой). При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение. Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени: , (34) к которой обычный МНК можно применять без всякой предварительной линеаризации. Рассмотрим указанную процедуру применительно к параболе второй степени: (35) Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями. Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т.е. трем: (36) Решать эту систему можно любым способом, в частности, методом определителей. Экстремальное значение функции наблюдается при значении фактора, равном: . Если b>0, c<0, имеет место максимум, т.е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При b<0, c>0 парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции. В нелинейных зависимостях, не являющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей. Зависимости гиперболического типа имеют вид: (37) Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля. Другим примером зависимости (37) являются кривые Энгеля, формулирующие следующую закономерность: с ростом доходов доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае b<0, а результативный признак в (37) показывает долю расходов на непродовольственные товары. Линеаризация уравнения (37) сводится к замене фактора z=1/x, и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z: (38) К такому же линейному уравнению сводится полулогарифмическая кравая: (39) которая может быть использована для описания кривых Энгеля. Здесь ln(x) заменяется на z, и получается уравнение (38). Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде: (40) или в виде (41) Возможна и такая зависимость: (42) В регрессиях типа (40) – (42) применяется один и тот же способ линеаризации – логарифмирование. Уравнение (40) приводится к виду: (43) Замена переменной сводит его к линейному виду: , (44) где . Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (40) оцениваются по МНК из уравнения (44). Уравнение (41) приводится к виду: , (45) который отличается от (43) только видом свободного члена, и линейное уравнение выглядит так: , (46) где . Параметры А и b получаются обычным МНК, затем параметр a в зависимости (41) получается как антилогарифм А. При логарифмировании (42) получаем линейную зависимость: , (47) где , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (42) получается как антилогарифм коэффициента В. Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида: (48) особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х. Преобразуя (48) путем логарифмирования, получаем линейную регрессию: (49) где . Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость: (50) Проводя замену u=1/y, получим: (51) Наконец, следует отметить зависимость логистического типа: (52) Графиком функции (52) является так называемая «кривая насыщения», которая имеет две горизонтальные асимптоты y=0 и y=1/a и точку перегиба , а также точку пересечения с осью ординат y=1/(a+b): Уравнение (52) приводится к линейному виду заменами переменных . Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции: (53) Здесь - общая дисперсия результативного признака y, - остаточная дисперсия, определяемая по уравнению нелинейной регрессии . Следует обратить внимание на то, что разности в соответствующих суммах и берутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. По-другому (53) можно записать так: (54) Величина R находится в границах , и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессий, а также с равносторонней гиперболой (37). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, в пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости. Иначе обстоит дело в случае, когда преобразование проводится также с величиной y, например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (54) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (54), вычисленным по исходному нелинейному уравнению. Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R2 для нелинейных связей называют индексом детерминации. Оценка существенности индекса корреляции проводится так же, как и оценка надежности надёжности коэффициента корреляции. Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера: , (55) где n-число наблюдений, m-число параметров при переменных х. Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m=1, для полиномов (34) m=k, т.е. степени полинома. Величина m характеризует число степеней свободы для факторной СКО, а (n-m-1) – число степеней свободы для остаточной СКО. Индекс детерминации R2 можно сравнивать с коэффициент детерминации r2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R2 и r2. Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R2-r2) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t-критерий Стьюдента: (56) Здесь в знаменателе находится ошибка разности (R2-r2), определяемая по формуле: (57) Если , то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна. В заключение приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии: Вид уравнения регрессии Коэффициент эластичности II. МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. Например, спрос на некоторое благо определяется не только ценой данного блага, но и ценами на замещающие и дополняющие блага, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии рассматривается множественная регрессия (1) Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и в ряде других вопросов экономики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основной целью множественной регрессии является построение модели с большим числом факторов, а также определение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель. Множественный регрессионный анализ является развитием парного регрессионного анализа в случаях, когда зависимая переменная связана более чем с одной независимой переменной. Большая часть анализа является непосредственным расширением парной регрессионной модели, но здесь также появляются и некоторые новые проблемы, из которых следует выделить две. Первая проблема касается исследования влияния конкретной независимой переменной на зависимую переменную, а также разграничения её воздействия и воздействий других независимых переменных. Второй важной проблемой является спецификация модели, которая состоит в том, что необходимо ответить на вопрос, какие факторы следует включить в регрессию (1), а какие – исключить из неё. В дальнейшем изложение общих вопросов множественного регрессионного анализа будем вести, разграничивая эти проблемы. Поэтому вначале будем полагать, что спецификация модели правильна. Самой употребляемой и наиболее простой из моделей множественной регрессии является линейная модель множественной регрессии: (2) По математическому смыслу коэффициенты в уравнении (2) равны частным производным результативного признака y по соответствующим факторам: ,,…,. Параметр α называется свободным членом и определяет значение y в случае, когда все объясняющие переменные равны нулю. Однако, как и в случае парной регрессии, факторы по своему экономическому содержанию часто не могут принимать нулевых значений, и значение свободного члена не имеет экономического смысла. При этом, в отличие от парной регрессии, значение каждого регрессионного коэффициента равно среднему изменению y при увеличении xj на одну единицу лишь при условии, что все остальные факторы остались неизменными. Величина ε представляет собой случайную ошибку регрессионной зависимости. Попутно отметим, что наиболее просто можно определять оценки параметров , изменяя только один фактор xj, оставляя при этом значения других факторов неизменными. Тогда задача оценки параметров сводилась бы к последовательности задач парного регрессионного анализа по каждому фактору. Однако такой подход, широко используемый в естественнонаучных исследованиях, (физических, химических, биологических), в экономике является неприемлемым. Экономист, в отличие от экспериментатора – естественника, лишен возможности регулировать отдельные факторы, поскольку не удаётся обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. Получение оценок параметров уравнения регрессии (2) – одна из важнейших задач множественного регрессионного анализа. Самым распространенным методом решения этой задачи является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной y от её значений , получаемых по уравнению регрессии. Поскольку параметры являются неизвестными константами, вместо теоретического уравнения регрессии (2) оценивается так называемое эмпирическое уравнение регрессии, которое можно представить в виде: (3) Здесь - оценки теоретических значений , или эмпирические коэффициенты регрессии, е – оценка отклонения ε. Тогда расчетное выражение имеет вид: (4) Пусть имеется n наблюдений объясняющих переменных и соответствующих им значений результативного признака: (5) Для однозначного определения значений параметров уравнения (4) объем выборки n должен быть не меньше количества параметров, т.е. . В противном случае значения параметров не могут быть определены однозначно. Если n=p+1, оценки параметров рассчитываются единственным образом без МНК простой подстановкой значений (5) в выражение (4). Получается система (p+1) уравнений с таким же количеством неизвестных, которая решается любым способом, применяемым к системам линейных алгебраических уравнений (СЛАУ). Однако с точки зрения статистического подхода такое решение задачи является ненадежным, поскольку измеренные значения переменных (5) содержат различные виды погрешностей. Поэтому для получения надежных оценок параметров уравнения (4) объём выборки должен значительно превышать количество определяемых по нему параметров. Практически, как было сказано ранее, объём выборки должен превышать количество параметров при xj в уравнении (4) в 6-7 раз. Для проведения анализа в рамках линейной модели множественной регрессии необходимо выполнение ряда предпосылок МНК. В основном это те же предпосылки, что и для парной регрессии, однако здесь нужно добавить предположения, специфичные для множественной регрессии: 50.Спецификация модели имеет вид (2). 60.Отсутствие мультиколлинеарности: между объясняющими переменными отсутствует строгая линейная зависимость, что играет важную роль в отборе факторов при решении проблемы спецификации модели. 70.Ошибки имеют нормальное распределение . Выполнимость этого условия нужна для проверки статистических гипотез и построения интервальных оценок. При выполнимости всех этих предпосылок имеет место многомерный аналог теоремы Гаусса – Маркова: оценки , полученные по МНК, являются наиболее эффективными (в смысле наименьшей дисперсии) в классе линейных несмещенных оценок. 2.1. Оценка параметров линейного уравнения множественной регрессии Рассмотрим три метода расчета параметров множественной линейной регрессии. 1. Матричный метод. Представим данные наблюдений и параметры модели в матричной форме. - n – мерный вектор – столбец наблюдений зависимой переменной; - (p+1) – мерный вектор – столбец параметров уравнения регрессии (3); - n – мерный вектор – столбец отклонений выборочных значений yi от значений , получаемых по уравнению (4). Для удобства записи столбцы записаны как строки и поэтому снабжены штрихом для обозначения операции транспонирования. Наконец, значения независимых переменных запишем в виде прямоугольной матрицы размерности : Каждому столбцу этой матрицы отвечает набор из n значений одного из факторов, а первый столбец состоит из единиц, которые соответствуют значениям переменной при свободном члене. В этих обозначениях эмпирическое уравнение регрессии выглядит так: (6) Отсюда вектор остатков регрессии можно выразить таким образом: (7) Таким образом, функционал , который, собственно, и минимизируется по МНК, можно записать как произведение вектора – строки е’ на вектор – столбец е: (8) В соответствии с МНК дифференцирование Q по вектору В приводит к выражению: (9) которое для нахождения экстремума следует приравнять к нулю. В результате преобразований получаем выражение для вектора параметров регрессии: 10) Здесь - матрица, обратная к . Пример. Бюджетное обследование пяти случайно выбранных семей дало следующие результаты (в тыс. руб.): Семья Накопления, S Доход, Y Имущество, W 1 3 40 60 2 6 55 36 3 5 45 36 4 3,5 30 15 5 1,5 30 90 Оценить регрессию S на Y и W. Введем обозначения: S=[3;6;5;3,5;1,5]’ – вектор наблюдений зависимой переменной; B=[a;b1;b2]’ – вектор параметров уравнения регрессии; - матрица значений независимых переменных. Далее с помощью матричных операций вычисляем (используем табличный процессор MS Excel и функции ТРАНСП, МУМНОЖ и МОБР в нем): Регрессионная модель в скалярном виде: 2. Скалярный метод. При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии: (11) Решить эту систему можно любым подходящим способом, например, методом определителей или методом Гаусса. При небольшом количестве определяемых параметров использование определителей предпочтительнее. Рассмотрим пример, приведенный выше. Здесь для двух факторов, Y и W, система нормальных уравнений запишется так: Рассчитываем значения сумм, получаем: Рассчитаем значения определителей этой системы, используем функцию МОПРЕД в Excel: Отсюда получим оценки параметров модели: Обратите внимание, что коэффициенты в левой части системы нормальных уравнений совпадают с соответствующими элементами матрицы . 3. Регрессионная модель в стандартизованном масштабе. Уравнение регрессии в стандартизованном масштабе имеет вид: (12) где - стандартизованные переменные: (13) для которых среднее значение равно нулю: , а среднее квадратическое отклонение равно единице: ; βj – стандартизованные коэффициенты регрессии, или β – коэффициенты (не следует путать их с параметрами уравнения (2)). Применяя МНК к уравнению (12), после соответствующих преобразований получим систему нормальных уравнений: (14) В этой системе - элементы расширенной матрицы парных коэффициентов корреляции или, другими словами, коэффициенты парной корреляции между различными факторами или между факторами и результативным признаком. Имея измеренные значения всех переменных, вычислить матрицу парных коэффициентов корреляции на компьютере не составляет большого труда, используя, например, табличный процессор MS Excel или программу Statistica. Решением системы (14) определяются β – коэффициенты. Эти коэффициенты показывают, на сколько значений с.к.о. изменится в среднем результат, если соответствующий фактор хj изменится на одну с.к.о. при неизменном среднем уровне других факторов. Поскольку все переменные заданы как центрированные и нормированные, β – коэффициенты сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии, в отличие от коэффициентов обычной регрессии, которые несравнимы между собой. Пусть функция издержек производства y (тыс. руб.) характеризуется уравнением вида: где факторами являются основные производственные фонды (тыс. руб.) и численность занятых в производстве (чел.). Отсюда видно, что при постоянной занятости рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение числа занятых на одного человека при неизменной технической оснащенности приводит к росту затрат в среднем на 1,1 тыс. руб.. Однако это не означает, что первый фактор сильнее влияет на издержки производства по сравнению со вторым. Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Пусть оно выглядит так: Это означает, что с ростом первого фактора на одно с.к.о. при неизменном числе занятых затраты на продукцию увеличиваются в среднем на 0,5 с.к.о. Так как β1<β2 (0,5<0,8), то можно заключить, что большее влияние на производство продукции оказывает второй фактор, а не первый, как кажется из уравнения регрессии в натуральном масштабе. В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции r. Подобно тому, как в парной зависимости коэффициенты регрессии и корреляции связаны между собой, так и во множественной регрессии коэффициенты «чистой» регрессии bj связаны с β – коэффициентами: (15) Это позволяет от уравнения регрессии в стандартизованном масштабе: (16) переходить к уравнению регрессии в натуральном масштабе (4). Параметр а определяется так: (17) Свободный член в уравнении (16) отсутствует, поскольку все стандартизованные переменные имеют нулевое среднее значение. Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет использовать их при отсеве факторов – из модели исключаются факторы с наименьшим значением βj. Компьютерные программы построения уравнения множественной регрессии в зависимости от использованного в них алгоритма решения позволяют получить либо только уравнение регрессии для исходных данных, либо, кроме того, уравнение регрессии в стандартизованном масштабе. В заключение приведем расчет стандартизованного уравнения регрессии по данным рассмотренного выше числового примера. Используя функцию КОРРЕЛ в Excel, рассчитаем расширенную матрицу парных коэффициентов корреляции: в которой последний столбец состоит из элементов и соответственно, а неединичные элементы в первых двух столбцах соответствуют . Эта матрица является расширенной матрицей системы уравнений для определения β – коэффициентов: Решаем систему методом определителей, получаем: Δ=0,926291; Δ1=0,688461; Δ2=-0,44504; β1=0,688461/0,926291=0,743245; β2=-0,44504/0,926291=-0,48045; Тогда стандартизованное уравнение регрессии запишется так: Отсюда видно, что первый фактор оказывает большее воздействие на результат, чем второй (|β1|>|β2|), однако эта разница не так велика, как для коэффициентов в натуральном масштабе (0,1229 и –0,0294). От этого уравнения можно перейти к уравнению в натуральном масштабе. Для этого с помощью функции СТАНДОТКЛОН в Excel определим стандартные отклонения всех переменных: а с помощью функции СРЗНАЧ – средние значения: Далее определяем оценки параметров: Эти значения оценок совпадают с оценками, полученными ранее. 2.2. Частные уравнения регрессии На основе уравнения (3) можно найти частные уравнения регрессии: которые связывают результат с одним из факторов при закреплении других факторов на среднем уровне. Они имеют следующий вид: Это фактически парные уравнения регрессии, которые можно записать так: Свободные члены этих выражений легко определяются из следующего равенства: В отличие от парной регрессии, частные уравнения регрессии характеризуют изолированное влияние фактора на результат, поскольку другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности: (18) Предположим, что по ряду регионов регрессионная зависимость величины импорта на определенный товар от отечественного его производства х1 , изменения запасов х2 и потребления на внутреннем рынке х3 оказалась следующей: При этом средние значения составили: На основе данной информации могут быть найдены средние по совокупности показатели эластичности: (19) Для данного примера они окажутся равными: Отсюда видно, что с ростом величины отечественного производства на 1% размер импорта в среднем по совокупности регионов возрастет на 1,053% при неизменных запасах и потреблении. По аналогии интерпретируются и другие показатели эластичности. Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат. В рассматриваемом примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара х3, а наименьшее – изменение запасов х2. В каждом отдельно взятом регионе имеет место своё сочетание значений факторов. Поэтому на основе выражений (18) для каждого региона могут быть определены частные коэффициенты эластичности. Перед этим построим частные уравнения регрессии по каждому фактору: или, конкретно для заданных значений: Пусть, например, для одного из регионов . Тогда частные коэффициенты эластичности по этому региону составят: Как видим, частные коэффициенты эластичности для региона несколько отличаются от аналогичных средних показателей по совокупности регионов. Они могут быть использованы при принятии решений относительно развития конкретных регионов. 2.3. Анализ качества эмпирического уравнения множественной линейной регрессии Проверка статистического качества оцененного уравнения регрессии проводится, с одной стороны, по статистической значимости параметров уравнения, а с другой стороны, по общему качеству уравнения регрессии. Кроме этого, проверяется выполнимость предпосылок МНК. Сначала рассмотрим первые два вида проверок и связанные с ними вопросы. Некоторые предпосылки МНК и проверки их выполнимости будем рассматривать отдельно. Как и в случае парной регрессии, статистическая значимость параметров множественной линейной регрессии с р факторами проверяется на основе t – статистики: (20) где величина называется стандартной ошибкой параметра . Она определяется так. Обозначим матрицу: и в этой матрице обозначим j – й диагональный элемент как . Тогда выборочная дисперсия эмпирического параметра регрессии равна: (21) а для свободного члена выражение имеет вид: (21’) если считать, что в матрице индексы изменяются от 0 до р. Здесь S2 – несмещенная оценка дисперсии случайной ошибки ε: (22) Стандартные ошибки параметров регрессии равны (23) Полученная по выражению (20) t – статистика для соответствующего параметра имеет распределение Стьюдента с числом степеней свободы (n-p-1). При требуемом уровне значимости α эта статистика сравнивается с критической точкой распределения Стьюдента t(α; n-p-1) (двухсторонней). Если |t|>t(α; n-p-1), то соответствующий параметр считается статистически значимым, и нуль – гипотеза в виде Н0:bj=0 или Н0:а=0 отвергается. В противном случае (|t|<t(α; n-p-1)) параметр считается статистически незначимым, и нуль – гипотеза не может быть отвергнута. Поскольку bj не отличается значимо от нуля, фактор хj линейно не связан с результатом. Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Не оказывая какого – либо серьёзного влияния на зависимую переменную, он лишь искажает реальную картину взаимосвязи. Поэтому после установления того факта, что коэффициент bj статистически незначим, переменную хj рекомендуется исключить из уравнения регрессии. Это не приведет к существенной потере качества модели, но сделает её более конкретной. Строгую проверку значимости параметров можно заменить простым сравнительным анализом. Если , т.е. , то коэффициент статистически незначим. Если , т.е. , то коэффициент относительно значим. В данном случае рекомендуется воспользоваться таблицей критических точек распределения Стьюдента. Если , то коэффициент значим. Это утверждение является гарантированным при (n-p-1)>20 и . Если |t|>3, то коэффициент считается сильно значимым. Вероятность ошибки в данном случае при достаточном числе наблюдений не превосходит 0,001. К анализу значимости коэффициента bj можно подойти по – другому. Для этого строится интервальная оценка соответствующего коэффициента. Если задать уровень значимости α, то доверительный интервал, в который с вероятностью (1-α) попадает неизвестное значение параметра , определяется неравенством: (24) или (24’) Если доверительный интервал не содержит нулевого значения, то соответствующий параметр является статистически значимым, в противном случае гипотезу о нулевом значении параметра отвергать нельзя. Для проверки общего качества уравнения регрессии используется коэффициент детерминации R2, который в общем случае рассчитывается по формуле: (25) Он показывает, как и в парной регрессии, долю общей дисперсии у, объясненную уравнением регрессии. Его значения находятся между нулем и единицей. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение у. Для множественной регрессии R2 является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2. Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. В формуле (25) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону уменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объёме наблюдений n. Если число параметров (р+1) приближается к n, то остаточная дисперсия будет близка к нулю и коэффициент детерминации приблизится к единице даже при слабой связи факторов с результатом. Поэтому в числителе и знаменателе дроби в (25) делается поправка на число степеней свободы остаточной и общей дисперсии соответственно: (26) Поскольку величина (25), как правило, увеличивается при добавлении объясняющей переменной к уравнению регрессии даже без достаточных на то оснований, скорректированный коэффициент (26) компенсирует это увеличение путем наложения «штрафа» за увеличение числа независимых переменных. Перепишем (26) следующим образом: (27) По мере роста р увеличивается отношение р/(n-p-1) и, следовательно, возрастает размер корректировки коэффициента R2 в сторону уменьшения. Из (27) очевидно, что при р>1. С ростом р растет медленнее, чем R2. Другими словами, он корректируется в сторону уменьшения с ростом числа объясняющих переменных. При этом только при R2=1. может даже принимать отрицательные значения (например, при R2=0). Поэтому для корректировки (26) нет строгого математического обоснования. Доказано, что увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t – статистика для этой переменной по модулю больше единицы. Из этого отнюдь не следует, как можно было бы предположить, что увеличение означает улучшение спецификации уравнения. Тем не менее добавление в модель новых факторов осуществляется до тех пор, пока растет скорректированный коэффициент детерминации. Обычно приводятся данные как по R2 , так и по , являющиеся суммарными мерами общего качества уравнения регрессии. Однако не следует абсолютизировать значимость коэффициентов детерминации. Существует немало примеров неправильно построенных моделей, имеющих высокие коэффициенты детерминации. Поэтому коэффициент детерминации в настоящее время рассматривается лишь как один из ряда показателей, которые нужно проанализировать, чтобы уточнить строящуюся модель. Анализ статистической значимости коэффициента детерминации проводится на основе проверки нуль – гипотезы Н0: R2=0 против альтернативной гипотезы Н1: R2>0. Для проверки данной гипотезы используется следующая F – статистика: (28) Величина F при выполнении предпосылок МНК и при справедливости нуль – гипотезы имеет распределение Фишера. Из (28) видно, что показатели F и R2 равны или не равны нулю одновременно. Если F=0, то R2=0, и линия регрессии является наилучшей по МНК, и, следовательно, величина у линейно не зависит от . Для проверки нуль – гипотезы при заданном уровне значимости α по таблицам критических точек распределения Фишера находится критическое значение Fтабл(α; p; n-p-1). Если F>Fтабл, нуль – гипотеза отклоняется, что равносильно статистической значимости R2, т.е. R2>0. Эквивалентный анализ может быть предложен рассмотрением другой нуль – гипотезы, которая формулируется как . Эту гипотезу можно назвать гипотезой об общей значимости уравнения регрессии. Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех р объясняющих переменных на зависимую переменную у можно считать статистически несущественным, а общее качество уравнения регрессии невысоким. Проверка такой гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсий, т.е. нуль – гипотеза формулируется как Н0:Dфакт=Dост против альтернативной гипотезы Н1:Dфакт>Dост. При этом строится F – статистика: (29) Здесь в числителе – объясненная (факторная) дисперсия в расчете на одну степень свободы (число степеней свободы равно числу факторов, т.е. р). В знаменателе – остаточная дисперсия на одну степень свободы. Её число степеней свободы равно (n-p-1). Потеря (р+1) степени свободы связана с необходимостью решения системы (р+1) линейных уравнений при определении параметров эмпирического уравнения регрессии. Если учесть, что число степеней свободы общей дисперсии равно (n-1), то число степеней свободы объясненной дисперсии равна разности (n-1) – (n-p-1), т.е. р. Следует отметить, что выражение (29) эквивалентно (28). Это становится ясно, если числитель и знаменатель (29) разделить на общую СКО: Поэтому методика принятия или отклонения нуль – гипотезы для статистики (29) ничем не отличается от таковой для статистики (28). Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R2 должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым. Например, пусть при оценке регрессии с двумя объясняющими переменными по 30 наблюдениям R2 =0,65. Тогда По таблицам критических точек распределения Фишера найдем F(0,05; 2; 27)=3,36; F(0,01; 2; 27)=5,49. Поскольку Fнабл=25,05>Fкр как при 5% - ном, так и при 1% - ном уровне значимости, то нулевая гипотеза в обоих случаях отклоняется. Если в той же ситуации R2=0,4, то Предположение о незначимости связи отвергается и здесь. Другим важным направлением использования статистики Фишера является проверка гипотезы о равенстве нулю не всех коэффициентов регрессии одновременно, а только некоторой части этих коэффициентов. Это позволяет оценить обоснованность исключения или добавления в уравнение регрессии некоторых наборов факторов, что особенно важно при совершенствовании линейной регрессионной модели. Пусть первоначально построенное по n наблюдениям уравнение регрессии имеет вид (4), и коэффициент детерминации для этой модели равен . Исключим из рассмотрения k объясняющих переменных. Не нарушая общности, предположим, что это будут k последних переменных. По первоначальным n наблюдениям для оставшихся факторов построим другое уравнение регрессии: (30) для которого коэффициент детерминации равен . Очевидно, , т.к. каждая дополнительная переменная объясняет часть рассеивания зависимой переменной. Проверяя гипотезу , можно определить, существенно ли ухудшилось качество описания поведения зависимой переменной. Для этого используют статистику: (31) В случае справедливости Н0 приведенная статистика имеет распределение Фишера с числом степеней свободы k и (n-p-1). Здесь - потеря качества уравнения в результате отбрасывания k факторов; k – число дополнительно появившихся степеней свободы; - необъясненная дисперсия первоначального уравнения. Если величина (31) превосходит критическое на требуемом уровне значимости α, то нуль – гипотеза должна быть отклонена. В этом случае одновременное исключение из рассмотрения k объясняющих переменных некорректно, т.к. существенно превышает . Это означает, что общее качество первоначального уравнения регрессии существенно лучше качества уравнения регрессии с отброшенными переменными, т.к. первоначальное уравнение объясняет гораздо большую долю разброса зависимой переменной. Если же, наоборот, Fнабл<Fкр, это означает что разность незначительна и можно сделать вывод о целесообразности одновременного отбрасывания k факторов, поскольку это не привело к существенному ухудшению общего качества уравнения регрессии. Тогда нуль – гипотеза не может быть отброшена. Аналогичные рассуждения можно использовать и для проверки обоснованности включения новых k факторов. В этом случае рассматривается следующая статистика: (32) Если она превышает критическое значение Fкр, то включение новых факторов объясняет существенную часть не объясненной ранее дисперсии зависимой переменной. Поэтому такое добавление оправдано. Добавлять переменные, как правило, целесообразно по одной. Кроме того, при добавлении факторов логично использовать скорректированный коэффициент детерминации, т.к. обычный R2 всегда растет при добавлении новой переменной, а в скорректированном одновременно растет величина р, уменьшающая его. Если увеличение доли объясненной дисперсии при добавлении новой переменной незначительно, то может уменьшиться. В этом случае добавление указанного фактора нецелесообразно. Кроме коэффициента детерминации R2, в уравнении множественной регрессии используется другой показатель, тесно связанный с R2. Это так называемый показатель множественной корреляции, равный корню квадратному из R2: (33) Границы его изменения те же, что и в парной регрессии: от 0 до 1. Чем ближе его значение к единице, тем теснее связь результативного признака со всем набором исследуемых факторов. Для линейного уравнения множественной регрессии формула индекса корреляции может быть представлена выражением: (34) где βj – стандартизованные коэффициенты регрессии, - парные коэффициенты корреляции результата с каждым из факторов. Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции, или совокупного коэффициента корреляции. При линейной зависимости определение совокупного коэффициента корреляции возможно без построения регрессии и оценки её параметров, а с использованием только матрицы парных коэффициентов корреляции: , (35) где Δr – определитель матрицы парных коэффициентов корреляции: (36) а Δr11 – определитель матрицы межфакторной корреляции: (37) Определитель (37) остаётся после вычеркивания из матрицы коэффициентов парной корреляции первого столбца и первой строки, что и соответствует матрице коэффициентов парной корреляции между факторами. 2.4. Спецификация модели Все предыдущие рассуждения и выводы, касающиеся классической множественной регрессии, основывались на предположении, что мы имеем дело с правильной спецификацией модели. Под спецификацией модели в данном случае (т.е. для модели линейной множественной регрессии при выполнении предпосылок МНК) будем понимать выбор объясняющих переменных. В этой связи важное значение приобретает рассмотрение двух вопросов, имеющих смысл именно во множественной регрессии, когда исследователь имеет дело с несколькими факторами: возможная мультиколлинеарность факторов и частная корреляция. Последняя особенно тесно связана с процедурами пошагового отбора переменных. Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям: 1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность. Например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть проранжированы. 2. Факторы не должны быть коррелированы между собой и тем более находиться в точной функциональной связи. Включение в модель факторов с высокой взаимной корреляцией, когда, например, , для зависимости может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми. Так, в приведенной зависимости с двумя факторами предполагается, что факторы х1 и х2 независимы друг от друга, т.е. . Тогда можно говорить, что параметр b1 измеряет силу влияния фактора х1 на результат у при неизменном значении фактора х2. Если же , то с изменением фактора х1 фактор х2 не может оставаться неизменным. Отсюда b1 и b2 нельзя интерпретировать как показатель раздельного влияния х1 и х2 на у. Как было сказано ранее, добавление нового фактора в регрессии приводит к возрастанию коэффициента детерминации и уменьшению остаточной дисперсии. Однако эти изменения могут быть незначительны, и не каждый фактор целесообразно вводить в модель. Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико – экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы, исходя из сущности проблемы; на второй – анализируется матрица показателей корреляции и устанавливается, какие из факторов наиболее тесно связаны с результатом, а какие – между собой. Здесь эконометрист чаще всего сталкивается с проблемой мультиколлинеарности. Под полной мультиколлинеарностью понимается существование между некоторыми из факторов линейной функциональной связи. Количественным выражением этого служит то обстоятельство, ранг матрицы Х меньше, чем (р+1), а матрица (Х’Х) будет вырожденной, т.е. её определитель равен нулю, а обратной матрицы к ней не существует. В практике статистических исследований полная мультиколлинеарность встречается достаточно редко, т.к. её несложно избежать уже на предварительной стадии анализа и отбора множества объясняющих переменных. Реальная (или частичная) мультиколлинеарность возникает в случаях существования достаточно тесных линейных статистических связей между объясняющими переменными. Точных количественных критериев для определения наличия или отсутствия реальной мультиколлинеарности не существует. Тем не менее, существуют некоторые эвристические рекомендации по выявлению мультиколлинеарности. В первую очередь анализируют матрицу парных коэффициентов корреляции: (38) точнее, ту её часть, которая относится к объясняющим переменным. Считается, что две переменные явно коллинеарны, если . В этом случае факторы дублируют друг друга, и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдаётся фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей: Очевидно, что факторы х1 и х2 дублируют друг друга (). Однако в модель следует включить фактор х2, а не х1, поскольку корреляция фактора х2 с у достаточно высокая (), а с фактором х3 слабая (). Другим методом оценки мультиколлинеарности факторов может служить определитель матрицы парных коэффициентов корреляции между факторами (37). Обоснованием данного подхода служат такие рассуждения. Если бы факторы не коррелировали между собой, то в определителе (37) все внедиагональные элементы равнялись бы нулю, а на диагонали стояли бы единицы. Такой определитель равен единице. Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты межфакторной корреляции равны единице, то определитель такой матрицы равен нулю. Следовательно, чем ближе к нулю определитель (37), тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице величина (37), тем меньше мультиколлинеарность факторов. Для оценки значимости мультиколлинеарности факторов выдвигается гипотеза Н0:Δr11=1. Доказано, что величина имеет приближенное распределение χ2 с степенями свободы. Если , то гипотеза Н0 отклоняется, мультиколлинеарность считается доказанной. Другим методом выявления мультиколлинеарности является анализ коэффициентов множественной детерминации факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Например, коэффициент рассчитывается по следующей регрессии: где первый фактор взят в качестве результативного признака, а остальные факторы – как независимые переменные, влияющие на первый фактор. Чем ближе такой R2 к единице, тем сильнее проявляется мультиколлинеарность факторов. Оставляя в уравнении регрессии факторы с минимальной R2, можно решить проблему отбора факторов. При этом рассчитывается статистика: (39) Если коэффициент статистически значим, то . В этом случае xj является линейной комбинацией других факторов, и его можно исключить из регрессии. Перечислим основные последствия мультиколлинеарности: 1. Большие дисперсии оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность. 2. Уменьшаются t – статистики коэффициентов, что может привести к неоправданному выводу о несущественности влияния соответствующего фактора на зависимую переменную. 3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т.е. они становятся неустойчивыми. 4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной. 5. Возможно получение неверного знака у коэффициента регрессии. Единого подхода к устранению мультиколлинеарности не существует. Существует ряд методов, которые не являются универсальными и применимы в конкретных ситуациях. Простейшим методом устранения мультиколлинеарности является исключение из модели одной или нескольких коррелированных переменных. Здесь необходима осторожность, чтобы не отбросить переменную, которая необходима в модели по своей экономической сущности, но зачастую коррелирует с другими переменными (например, цена блага и цены заменителей данного блага). Иногда для устранения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Это приведёт к сокращению дисперсии коэффициентов регрессии и увеличению их статистической значимости. Однако при этом можно усилить автокорреляцию, что ограничивает возможности такого подхода. В некоторых случаях изменение спецификации модели, например, добавление существенного фактора, решает проблему мультиколлинеарности. При этом уменьшается остаточная СКО, что приводит к уменьшению стандартных ошибок коэффициентов. В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных. Например, пусть эмпирическое уравнение регрессии имеет вид: где факторы коррелированы. Здесь можно попытаться определить отдельные регрессии для относительных величин: (40) Возможно, что в моделях, аналогичных (40), проблема мультиколлинеарности будет отсутствовать. Теперь рассмотрим другой вопрос, имеющий важное значение для проблем, связанных со спецификацией модели множественной регрессии. Это частная корреляция. С помощью частных коэффициентов корреляции проводится ранжирование факторов по степени их влияния на результат. Кроме того, частные показатели корреляции широко используются при решении проблем отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции. Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии. Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в модель нового фактора к остаточной дисперсии, имевшей место до введения его в модель. Высокое значение коэффициента парной корреляции между исследуемой зависимой и какой – либо независимой переменной может означать высокую степень взаимосвязи, но может быть обусловлено и другой причиной, например, третьей переменной, которая оказывает сильное влияние на две первые, что и объясняет их высокую коррелированность. Поэтому возникает задача найти «чистую» корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции. Коэффициенты частной корреляции определяются различными способами. Рассмотрим некоторые из них. Для простоты предположим, что имеется двухфакторная регрессионная модель: (41) и имеется набор наблюдений . Тогда коэффициент частной корреляции между у и, например, х1 после исключения влияния х2 определяется по следующему алгоритму: 1. Осуществим регрессию у на х2 и константу и получим прогнозные значения . 2. Осуществим регрессию х1 на х2 и константу и получим прогнозные значения . 3. Удалим влияние х2, взяв остатки и . 4. Определим выборочный коэффициент частной корреляции между у и х1 при исключении х2 как выборочный коэффициент корреляции между ey и e1 : (42) Значения частных коэффициентов корреляции лежат в интервале [-1,1], как у обычных коэффициентов корреляции. Равенство нулю означает отсутствие линейного влияния переменной х1 на у. Существует тесная связь между коэффициентом частной корреляции и коэффициентом детерминации R2: (43) где - обычный коэффициент корреляции. Описанная выше процедура обобщается на случай, когда исключается влияние нескольких переменных. Для этого достаточно переменную х2 заменить на набор переменных Х2, сохраняя определение (42) (при этом можно в число исключаемых переменных вводить и у, определяя частную корреляцию между факторами). Другой способ определения коэффициентов частной корреляции – матричный. Обозначив для удобства зависимую переменную как х0, запишем определитель матрицы парных коэффициентов корреляции в виде: (44) Тогда частный коэффициент корреляции определяется по формуле: , (45) где Rii - алгебраическое дополнение для элемента rii в определителе (44). Существует ещё один способ расчета – по рекуррентной формуле. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты более высоких порядков можно определить через коэффициенты более низких порядков по рекуррентной формуле: (46) Если исследователь имеет дело лишь с тремя – четырьмя переменными, то удобно пользоваться соотношениями (46). При больших размерностях задачи удобнее расчет через определители, т.е. по формуле (45). В соответствии со смыслом коэффициентов частной корреляции можно записать формулу: (47) При исследовании статистических свойств выборочного частного коэффициента корреляции порядка k следует воспользоваться тем, что он распределен точно так же, как и обычный парный коэффициент корреляции, с единственной поправкой: объём выборки надо уменьшить на k единиц, т.е. полагать его равным n-k, а не n. Пример. По итогам года 37 однородных предприятий легкой промышленности были зарегистрированы следующие показатели их работы: у – среднемесячная характеристика качества ткани (в баллах), х1 – среднемесячное количество профилактических наладок автоматической линии; х2 – среднемесячное количество обрывов нити. По исходным данным были подсчитаны выборочные парные коэффициенты корреляции: Проверка статистической значимости этих величин показала отсутствие значимой статистической связи между результативным признаком и каждым из факторов, что не согласуется с профессиональными представлениями технолога. Однако расчет частных коэффициентов корреляции дал значения: которые вполне соответствуют нашим представлениям о естественном характере связей между изучаемыми показателями. Теперь остановимся на специальных процедурах спецификации модели множественной регрессии, которые обычно называются процедурами пошагового отбора переменных. Иногда исследователь заранее знает характер зависимости исследуемых величин, опираясь на экономическую теорию, предыдущие результаты или априорные знания, и его задача состоит лишь в оценивании неизвестных параметров. Классическим примером является оценивание параметров производственной функции Кобба – Дугласа, где заранее известно, что в качестве факторов выступают капиталовложения и трудозатраты. Однако на практике чаще имеется большое число наблюдений различных независимых переменных, но нет априорной модели изучаемого явления. Возникает проблема, какие переменные включать в регрессионную схему. В компьютерные пакеты включены различные эвристические процедуры пошагового отбора факторов. Основными пошаговыми процедурами являются: • процедура последовательного присоединения; • процедура последовательного присоединения – удаления; • процедура последовательного удаления. Рассмотрим вкратце одну из широко применяемых процедур, которая относится к процедурам последовательного присоединения. Это процедура «всех возможных регрессий». Для заданного значения k (k=1,2,…,p-1) путем полного перебора всех возможных комбинаций из k объясняющих переменных, отобранных из исходного набора факторов , определяются такие переменные , для которых коэффициент детерминации с результатом был бы максимальным. Таким образом, на первом шаге процедуры (k=1) находят одну объясняющую переменную, которую можно назвать наиболее информативным фактором при условии, что в регрессионную модель допускается включить только одну переменную из первоначального набора. На втором шаге определяется уже наиболее информативная пара переменных из исходного набора, и эта пара будет иметь наиболее тесную статистическую связь с результатом. Вообще говоря, в состав этой пары может не войти переменная, объявленная наиболее информативной среди всех моделей с одной переменной. На третьем шаге (k=3) будет отобрана наиболее информативная тройка факторов, на четвертом (k=4) – наиболее информативная четверка объясняющих переменных и т.д. В качестве критерия останова этой процедуры, т.е. выбора оптимального числа k0 факторов, которые следует включить в модель, предлагается следующее. На каждом шаге вычисляется нижняя доверительная граница коэффициента детерминации (48) где - скорректированный коэффициент детерминации для k наиболее информативных факторов, - обычный коэффициент детерминации. В соответствии с критерием останова следует выбирать k0, при котором величина (48) достигает своего максимума. Следует признать, что пошаговые процедуры, вообще говоря, не гарантируют получения оптимального (в смысле критерия максимума коэффициента детерминации) набора факторов. Однако в подавляющем большинстве ситуаций получаемые с помощью пошаговой процедуры наборы переменных оказываются оптимальными или близкими к оптимальным. В заключение общих вопросов множественного регрессионного анализа рассмотрим краткий обзор некоторых часто встречаемых формул, которые применяются не только в обычном анализе регрессий, но и в процедурах отбора факторов. Для расчета стандартной ошибки коэффициента bj может применяться формула: , (49) где - коэффициент детерминации для уравнения множественной регрессии; - коэффициент детерминации для зависимости фактора xj от всех других факторов уравнения множественной регрессии. Для оценки значимости фактора, дополнительно вводимого в модель, используется частный F – критерий. Не каждый фактор, вошедший в модель, существенно увеличивает долю объясненной дисперсии в общей дисперсии результата. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Для частного F – критерия используется формула: , (50) которая является частным случаем формулы (32). Здесь в числителе – разность между коэффициентом детерминации модели с полным набором факторов и коэффициентом детерминации модели до введения в неё фактора xj. С помощью частного F – критерия можно проверить значимость всех коэффициентов регрессии в предположении, что соответствующий фактор xj вводился в уравнение регрессии последним. Процедура проверки не отличается от таковой для статистики (32). Зная величину , можно определить и t – критерий для коэффициента регрессии при xj: (51) Существует взаимосвязь между квадратом частного коэффициента корреляции и частным F – критерием: (52) Частный F – критерий широко используется при построении модели методом включения переменных Теперь, после рассмотрения общих вопросов множественного регрессионного анализа, будем рассматривать вопросы, связанные с выполнимостью некоторых предпосылок МНК (гетероскедастичность, автокорреляция остатков), а также использование фиктивных переменных в регрессионных моделях. 2.5. Гетероскедастичность Одной из ключевых предпосылок МНК является условие постоянства дисперсий случайных отклонений для любых наблюдений. Выполнимость данной предпосылки называется гомоскедастичностью; невыполнимость данной предпосылки называется гетероскедастичностью. В качестве примера реальной гетероскедастичности можно сказать, что люди с большим доходом не только тратят в среднем больше, чем люди с меньшим доходом, но и разброс в их потреблении также больше, поскольку они имеют больше простора для распределения дохода. При гетероскедастичности последствия применения МНК будут следующими: 1. Оценки параметров останутся по-прежнему несмещенными и линейными. 2. Оценки не будут эффективными, т.е. не будут иметь наименьшую дисперсию по сравнению с другими оценками данного параметра. Они не будут даже асимптотически эффективными. Увеличение дисперсии оценок снижает вероятность получения максимально точных оценок. 3. Дисперсии оценок параметров будут рассчитываться со смещением. 4. Все выводы, получаемые на основе соответствующих t – и F – статистик, а также интервальные оценки будут ненадежными. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а t – статистики завышены. Это может привести к признанию статистически значимыми коэффициентов, которые таковыми на самом деле не являются. В ряде случаев, зная характер исходных данных, можно предвидеть гетероскедастичность и попытаться устранить её ещё на стадии спецификации. Однако значительно чаще эту проблему приходится решать после построения уравнения регрессии. Графическое построение отклонений от эмпирического уравнения регрессии позволяет визуально определить наличие гетероскедастичности. В этом случае по оси абсцисс откладываются значения объясняющей переменной xi (для парной регрессии) либо линейную комбинацию объясняющих переменных: (для множественной регрессии), а по оси ординат либо отклонения ei, либо их квадраты . Если все отклонения находятся внутри горизонтальной полосы постоянной ширины, это говорит о независимости дисперсий от значений объясняющей переменной и выполнимости условия гомоскедастичности. В других случаях наблюдаются систематические изменения в соотношениях между значениями и квадратами отклонений : Такие ситуации отражают большую вероятность наличия гетероскедастичности для рассматриваемых статистических данных. В настоящее время для определения гетероскедастичности разработаны специальные тесты и критерии для них. Тест ранговой корреляции Спирмена. При использовании данного теста предполагается, что дисперсия отклонений будет либо увеличиваться, либо уменьшаться с увеличением значений х. Поэтому для регрессии, построенной по МНК, абсолютные величины отклонений |ei| и значения xi будут коррелированы. Затем определяется коэффициент ранговой корреляции: , (53) где di - разность между рангами xi и |ei|, n – число наблюдений. Например, если х20 является 25 – м по величине среди всех значений х, а e20 является 32 – м, то d20 = 25 – 32 = -7. Доказано, что при справедливости нуль – гипотезы статистика (54) имеет распределение Стьюдента с числом степеней свободы (n-2). Поэтому, если наблюдаемое значение статистики (54) превышает критическое , вычисленное по таблице критических точек распределения Стьюдента (двусторонних), то гипотезу о равенстве нулю коэффициента корреляции (53) следует отклонить и признать наличие гетероскедастичности. В противном случае нуль – гипотеза, которая соответствует отсутствию гетероскедастичности, принимается. В модели множественной регрессии проверка нуль – гипотезы может осуществляться с помощью t – статистики по каждому фактору отдельно. Тест Голдфелда – Квандта. В данном случае предполагается, что стандартное отклонение пропорционально значению переменной xj, т.е. . Предполагается, что остатки имеют нормальное распределение и отсутствует автокорреляция остатков. Тест состоит в следующем: 1. Все n наблюдений упорядочиваются по величине xj. 2. Вся упорядоченная выборка разбивается на три подвыборки размерностей k, n-2k и k соответственно. 3. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k последних наблюдений). Если предположение о пропорциональности дисперсий отклонений значениям xj верно, то остаточная СКО по первой регрессии будет существенно меньше остаточной СКО по третьей регрессии 4. Для сравнения соответствующих дисперсий выдвигается нуль – гипотеза в виде которая предполагает отсутствие гетероскедастичности. Для проверки нуль – гипотезы строится следующая статистика (55) которая при справедливости нуль – гипотезы имеет распределение Фишера с (k-p-1, k-p-1) степенями свободы. 5. Если , то гипотеза об отсутствии гетероскедастичности отклоняется на уровне значимости α. По рекомендациям специалистов, объем исключаемых данных k должен быть примерно равен четверти общего объёма выборки n. Этот же тест может быть использован и при предположении об обратной пропорциональности между дисперсией и значениями объясняющей переменной. В этом случае статистика Фишера принимает вид: (56) При установлении гетероскедастичности возникает необходимость преобразования модели с целью устранения данного недостатка. Вид преобразования зависит от того, известны или нет дисперсии отклонений . В случае, если дисперсии отклонений известны для каждого наблюдения, применяется метод взвешенных наименьших квадратов (ВНК). Гетероскедастичность устраняется, если разделить каждое наблюдаемое значение на соответствующее ему значение дисперсии. Рассмотрим для простоты ВНК на примере парной регрессии: (57) Разделим обе части (57) на известное : (58) Сделаем замены переменных: (59) получим уравнение регрессии без свободного члена, но с двумя факторами и с преобразованным отклонением: (60) Можно показать, что для vi выполняется условие гомоскедастичности. Поэтому для модели (60) выполняются все предпосылки МНК, и оценки, полученные по МНК, будут наилучшими линейными несмещенными оценками. Таким образом, наблюдения с наименьшими дисперсиями получают наибольшие «веса», а наблюдения с наибольшими дисперсиями – наименьшие «веса». Поэтому наблюдения с меньшими дисперсиями отклонений будут более значимыми при оценке параметров регрессии, чем наблюдения с большими дисперсиями. При этом повышается вероятность получения более точных оценок. Полученные по МНК оценки параметров модели (60) можно использовать в первоначальной модели (57). Для применения ВНК необходимо знать фактические значения дисперсий отклонений . На практике такие значения известны крайне редко. Поэтому, чтобы применить ВНК, необходимо сделать реалистические предположения о значениях . Чаще всего предполагается, что дисперсии отклонений пропорциональны или значениям xi, или значениям . Если предположить, что дисперсии пропорциональны значениям фактора x, т.е. (61) тогда уравнение (57) преобразуется делением его левой и правой частей на : или (62) Здесь для случайных отклонений выполняется условие гомоскедастичности. Следовательно, для регрессии (62) применим обычный МНК. Следует отметить, что регрессия (62) не имеет свободного члена, но зависит от двух факторов. Оценив для (62) по МНК коэффициенты а и b, возвращаемся к исходному уравнению регрессии. Если в уравнении регрессии присутствует несколько объясняющих переменных, вместо конкретной переменной xj используется исходное уравнение множественной регрессии т.е. фактически линейная комбинация факторов. В этом случае получают следующую регрессию: (63) Если предположить, что дисперсии пропорциональны , то соответствующим преобразованием будет деление уравнения регрессии (57) на xi: или, если переобозначить остатки как : (64) Здесь для отклонений vi также выполняется условие гомоскедастичности. Применяя обычный МНК к регрессии (64) в преобразованных переменных , получим оценки параметров, после чего возвращаемся к исходному уравнению (57). Отметим, что в регрессии (64) по сравнению с исходным уравнением параметры поменялись ролями: свободный член а стал коэффициентом, а коэффициент b – свободным членом. 2.6. Автокорреляция остатков Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Отсутствие зависимости гарантирует отсутствие коррелированности между любыми отклонениями, т.е. и, в частности, между соседними отклонениями . Автокорреляция (последовательная корреляция) остатков определяется как корреляция между соседними значениями случайных отклонений во времени (временные ряды) или в пространстве (перекрестные данные). Она обычно встречается во временных рядах и очень редко – в пространственных данных. В экономических задачах значительно чаще встречается положительная автокорреляция , чем отрицательная автокорреляция . Чаще всего положительная автокорреляция вызывается направленным постоянным воздействием некоторых не учтенных в регрессии факторов. Например, при исследовании спроса у на прохладительные напитки в зависимости от дохода х на трендовую зависимость накладываются изменения спроса в летние и зимние периоды. Аналогичная картина может иметь место в макроэкономическом анализе с учетом циклов деловой активности. Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать не ежемесячно, а раз в сезон (зима – лето). Применение МНК к данным, имеющим автокорреляцию в остатках, приводит к таким последствиям: 1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Они перестают быть наилучшими линейными несмещенными оценками. 2. Дисперсии оценок являются смещенными. Часто дисперсии, вычисляемые по стандартным формулам, являются заниженными, что влечет за собой увеличение t – статистик. Это может привести к признанию статистически значимыми факторов, которые в действительности таковыми не являются. 3. Оценка дисперсии регрессии является смещенной оценкой истинного значения σ2, во многих случаях занижая его. 4. Выводы по t – и F – статистикам, возможно, будут неверными, что ухудшает прогнозные качества модели. Для обнаружения автокорреляции используют либо графический метод, либо статистические тесты. Рассмотрим два наиболее популярных теста. Метод рядов. По этому методу последовательно определяются знаки отклонений от регрессионной зависимости. Например, имеем при 20 наблюдениях (-----)(+++++++)(---)(++++)(-) Ряд определяется как непрерывная последовательность одинаковых знаков. Количество знаков в ряду называется длиной ряда. Если рядов слишком мало по сравнению с количеством наблюдений n, то вполне вероятна положительная автокорреляция. Если же рядов слишком много, то вероятна отрицательная автокорреляция. Пусть n – объём выборки, n1 – общее количество положительных отклонений; n2 – общее количество отрицательных отклонений; k – количество рядов. В приведенном примере n=20, n1=11, n2=5. При достаточно большом количестве наблюдений (n1>10, n2>10) и отсутствии автокорреляции СВ k имеет асимптотически нормальное распределение, в котором Тогда, если то гипотеза об отсутствии автокорреляции не отклоняется. Если , то констатируется положительная автокорреляция; в случае признается наличие отрицательной автокорреляции. Для небольшого числа наблюдений (n1<20, n2<20) были разработаны таблицы критических значений количества рядов при n наблюдениях. В одной таблице в зависимости от n1 и n2 определяется нижняя граница k1 количества рядов, в другой – верхняя граница k2. Если k1<k<k2, то говорят об отсутствии автокорреляции. Если , то говорят о положительной автокорреляции. Если ,то говорят об отрицательной автокорреляции. Например, для приведенных выше данных k1=6, k2=16 при уровне значимости 0,05. Поскольку k=5<k1=6, определяем положительную автокорреляцию. Критерий Дарбина – Уотсона. Это наиболее известный критерий обнаружения автокорреляции первого порядка. Статистика DW Дарбина – Уотсона приводится во всех специальных компьютерных программах как одна из важнейших характеристик качества регрессионной модели. Сначала по построенному эмпирическому уравнению регрессии определяются значения отклонений . Рассчитывается статистика (65) Далее по таблице критических точек Дарбина – Уотсона определяются два числа dl и du и осуществляются выводы по правилу: - положительная автокорреляция; - зона неопределенности; - автокорреляция отсутствует; - зона неопределенности; - отрицательная автокорреляция. Можно показать, что статистика DW тесно связана с коэффициентом автокорреляции первого порядка: (66) Связь выражается формулой: (67) Отсюда вытекает смысл статистического анализа автокорреляции. Поскольку значения r изменяются от –1 до +1, DW изменяется от 0 до 4. Когда автокорреляция отсутствует, коэффициент автокорреляции равен нулю, и статистика DW равна 2. DW=0 соответствует положительной автокорреляции, когда выражение в скобках равно нулю (r=1). При отрицательной автокорреляции (r=-1) DW=4, и выражение в скобках равна двум. Ограничения критерия Дарбина – Уотсона: 1. Критерий DW применяется лишь для тех моделей, которые содержат свободный член. 2. Предполагается, что случайные отклонения определяются по итерационной схеме (68) называемой авторегрессионной схемой первого порядка AR(1). Здесь vt - случайный член. 3. Статистические данные должны иметь одинаковую периодичность (не должно быть пропусков в наблюдениях). 4. Критерий Дарбина – Уотсона не применим к авторегрессионным моделям вида: (69) которые содержат в числе факторов также зависимую переменную с временным лагом (запаздыванием) в один период. Для авторегрессионных моделей предлагается h – статистика Дарбина , (70) где - оценка коэффициента автокорреляции первого порядка (66), D(c) – выборочная дисперсия коэффициента при лаговой переменной yt-1, n – число наблюдений. При большом n и справедливости нуль – гипотезы H0: ρ=0 h~N(0,1). Поэтому при заданном уровне значимости определяется критическая точка из условия , и h – статистика сравнивается с uα/2. Если |h|>uα/2, то нуль – гипотеза об отсутствии автокорреляции должна быть отклонена. В противном случае она не отклоняется. Обычно значение рассчитывается по формуле , а D(c) равна квадрату стандартной ошибки mc оценки коэффициента с. Cледует отметить, что вычисление h – статистики невозможно при nD(c)>1. Автокорреляция чаще всего вызывается неправильной спецификацией модели. Поэтому следует попытаться скорректировать саму модель, в частности, ввести какой – нибудь неучтенный фактор или изменить форму модели (например, с линейной на полулогарифмическую или гиперболическую). Если все эти способы не помогают и автокорреляция вызвана какими – то внутренними свойствами ряда {et}, можно воспользоваться преобразованием, которое называется авторегрессионной схемой первого порядка AR(1). Рассмотрим AR(1) на примере парной регрессии: (71) Тогда соседним наблюдениям соответствует формула: (72) (73) Если случайные отклонения определяются выражением (68), где коэффициент ρ известен, то можем получить (74) Сделаем замены переменных (75) получим с учетом (68): (76) Поскольку случайные отклонения vt удовлетворяют предпосылкам МНК, оценки а* и b будут обладать свойствами наилучших линейных несмещенных оценок. По преобразованным значениям всех переменных с помощью обычного МНК вычисляются оценки параметров а* и b, которые затем можно использовать в регрессии (71). Однако способ вычисления преобразованных переменных (75) приводит к потере первого наблюдения, если нет информации о предшествующих наблюдениях. Это уменьшает на единицу число степеней свободы, что при больших выборках не очень существенно, однако при малых выборках приводит к потере эффективности. Тогда первое наблюдение восстанавливается с помощью поправки Прайса – Уинстена: (77) Авторегрессионное преобразование может быть обобщено на произвольное число объясняющих переменных, т.е. использовано для уравнения множественной регрессии. Для преобразования AR(1) важно оценить коэффициент автокорреляции ρ. Это делается несколькими способами. Самое простое – оценить ρ на основе статистики DW: (78) где r берется в качестве оценки ρ. Этот метод хорошо работает при большом числе наблюдений. Существуют и другие методы оценивания ρ, например, метод Кокрена – Оркатта и метод Хилдрета – Лу. Они являются итерационными, и их рассмотрение выходит за рамки данного конспекта лекций. В случае, когда есть основания считать, что автокорреляция отклонений очень велика, можно использовать метод первых разностей. В частности, при высокой положительной автокорреляции полагают ρ=1, и уравнение (74) принимает вид или , (79) где . Из уравнения (79) по МНК оценивается коэффициент b. Параметр а здесь не определяется непосредственно, однако из МНК известно, что . В случае ρ=-1, сложив (72) и (73) с учетом (68), получаем уравнение регрессии: или . 2.7. Фиктивные переменные в регрессионных моделях В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, которые выражаются в виде фиктивных (искусственных) переменных, отражающих два противоположных состояния качественного фактора. Например, D=0, если потребитель не имеет высшего образования, D=1, если потребитель имеет высшее образование. Переменная D называется фиктивной, или двоичной переменной, а также индикатором. Таким образом, кроме моделей, содержащих только количественные переменные, в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые Di), либо те и другие одновременно. Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA – моделями (моделями дисперсионного анализа). Например, зависимость начальной заработной платы от образования может быть записана так: , где D=0, если претендент на рабочее место не имеет высшего образования, D=1, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна: а при его наличии При этом параметр а определяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициент g показывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициента g с помощью t – статистики, можно определить, влияет или нет наличие высшего образования на начальную заработную плату. Нетрудно заметить, что ANOVA – модели представляют собой кусочно – постоянные функции. Такие модели в экономике крайне редки. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называются ANCOVA – моделями (моделями ковариационного анализа). Сначала рассмотрим простую модель заработной платы сотрудника фирмы в зависимости от стажа работы х и пола сотрудника D: (80) где Тогда для женщин ожидаемое значение заработной платы будет а для мужчин - : Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициент g является статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. При g>0 она будет в пользу мужчин, при g<0 – в пользу женщин. На графике такие зависимости изображаются параллельными прямыми. В случае, когда качественная переменная принимает на два, а большее число значений, может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования k значений качественного признака используется ровно k бинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило: • если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных. Например, если качественная переменная имеет 3 уровня, то для моделирования достаточно двух фиктивных переменных D1 и D2. Тогда для обозначения третьего уровня достаточно принять, например, обе переменные равными нулю: D1=D2=0. В частности, для обозначения уровня экономического развития страны (развитая, развивающаяся или страна «третьего мира») можно использовать обозначения: Тогда D1=D2=0 означает страну «третьего мира». Нулевой уровень качественной переменной называется базовым или сравнительным. Кроме того, значения фиктивных переменных можно изменять на противоположные. Суть модели от этого не изменится. Изменится только знак коэффициента g в модели (80). Коэффициент g в модели (80) называется дифференциальным свободным членом, т.к. он показывает, на какую величину изменится свободный член модели при изменении значения фиктивной переменной. Возможны модели, в которых используются несколько фиктивных переменных, не связанных между собой по смыслу. Например, переменная D1 означает пол работника, а D2 – наличие или отсутствие у него высшего образования. Тогда возможны все комбинации значений различных качественных переменных, в которых регрессии отличаются лишь свободными членами. Подобные схемы можно распространить на произвольное число количественных или качественных факторов. При этом не следует забывать, что если качественный фактор имеет k альтернативных состояний, то для его описания можно использовать только k различных сочетаний значений (k-1) фиктивных переменных. Например, если качественная переменная имеет 4 уровня, то для её описания следует использовать 3 фиктивные (бинарные) переменные. Максимально возможное число сочетаний их значений равно восьми (два в третьей степени), однако в регрессии можно реально использовать только четыре из них. Влияние качественного фактора может сказываться не только на значении свободного члена, но и на угловом коэффициенте линейной регрессионной модели. Обычно это характерно для временных рядов экономических данных при изменении институциональных условий, введении новых правовых или налоговых ограничений. Тогда зависимость может быть выражена так: , (81) где В этой ситуации ожидаемое значение зависимой переменной определяется следующим образом: Коэффициенты g1 и g2 называются соответственно дифференциальным свободным членом и дифференциальным угловым коэффициентом. Фиктивная переменная разбивает зависимость на две части – до и после внесения изменений в условия её действия. Общая зависимость имеет вид кусочно – линейной функции, а изменения условий отображаются изменением угла наклона прямой к оси абсцисс (линии 1 – 2). Здесь исследователь должен принять решение, стоит ли разбивать выборку на части и строить для каждой из них уравнение регрессии (прямые 1 и 2) или ограничиться одной общей линией регрессии (линия 3). Для этого используют тест Чоу, который состоит в следующем. Вся выборка объёма n разбивается на две подвыборки объёмами n1 и n2 (n1+n2=n), и для каждой строится уравнение регрессии. Обозначим через s1 и s2 остаточные СКО для каждой из регрессий. Кроме того, строится общая регрессия для всех наблюдений (линия 3), и для неё определяется остаточная СКО, которую обозначим s3. Равенство s3=s1+s2 возможно лишь при совпадении коэффициентов регрессии для всех трёх уравнений. Если сумма s1+s2 будет значительно меньше, чем s3, то можно считать разбиение общей выборки на две подвыборки обоснованным. В этом смысле разность (s3-(s1+s2)) можно считать мерой улучшения качества модели при разбиении выборки на две части. Однако при разбиении уменьшается число степеней свободы каждой из подвыборок. Эта альтернатива между числом степеней свободы и уменьшением остаточной СКО выражается через статистику (82) где p – число факторов. Выражение (82) равно отношению уменьшения необъясненной дисперсии к необъясненной дисперсии кусочно – линейной модели. Если уменьшение дисперсии статистически незначимо, статистика (82) имеет распределение Фишера с (p+1, n-2p-2) степенями свободы. Если на заданном уровне значимости α , то нет смысла разбивать уравнение регрессии на части. В противном случае разбиение на подвыборки целесообразно с точки зрения улучшения качества модели. Если гипотеза о структурной стабильности выборки отклоняется, то исследуется вопрос о причинах структурных различий в подвыборках. Пусть данные в подвыборках описываются двумя уравнениями регрессии: Тогда возможны следующие варианты: 1. Различие между а1 и а2 является статистически значимым, а коэффициенты b1 и b2 статистически не различаются. При этом наблюдается скачкообразное изменение зависимости при сохранении наклона линии регрессии: 2. Различие между b1 и b2 статистически значимо, а различие между а1 и а2 статистически не значимо: 3. Статистически значимыми являются и различия между а1 и а2, и различия между b1 и b2: Для тестирования всех этих ситуаций применяется следующая методика, предложенная Гуйарати. Она основана на включении в модель регрессии фиктивной переменной D, которая равна 1 для всех x<x* и равна 0 для всех x>x*. Далее определяются параметры следующего уравнения регрессии: (83) Отсюда видно, что а1=(а+b); b1=(c+d) (D=1), a2=a; b2=b; (D=0). Следовательно, параметр b есть разница между a1 и а2, параметр d – разница между b1 и b2. Если в уравнении (83) b является статистически значимым, а d – нет, то имеем первый вариант структурной перестройки. Если, наоборот, статистически значимым является d, а b – незначим, имеем второй вариант структурных изменений. Наконец, третий вариант имеем в случае, если оба коэффициента b и d являются статистически значимыми. В заключение следует отметить, что преимущество метода Гуйарати перед тестом Чоу состоит в том, что нужно построить только одно, а не три уравнения регрессии. III. СИСТЕМЫ ЭКОНОМЕТРИЧЕСКИХ УРАВНЕНИЙ Объектом статистического изучения в социальных науках являются сложные системы. Построение изолированных уравнений регрессии недостаточно для описания таких систем и объяснения механизма их функционирования. Изменение одной переменной, как правило, не может происходить без изменения других. Поэтому важное место занимает проблема описания структуры связей между переменными системой так называемых одновременных уравнений. Так, если изучается модель спроса как отношение цен и количества потребляемых товаров, то одновременно для прогнозирования спроса необходима модель предложения товаров, в которой рассматривается также взаимосвязь между количеством и ценой предлагаемых благ. Это позволяет достичь равновесия между спросом и предложением. Системы уравнений здесь могут быть построены по – разному. Возможна система независимых уравнений, когда каждая зависимая переменная y рассматривается как функция одного и того же набора факторов x: (1) Набор факторов xj в каждом уравнении может варьироваться. Каждое уравнение может рассматриваться самостоятельно. Для нахождения его параметров используется МНК. По существу, каждое уравнение этой системы является уравнением регрессии. Наибольшее распространение в эконометрических исследованиях получила система одновременных (совместных, взаимозависимых) уравнений. В ней одни и те же зависимые переменные в одних уравнениях входят в левую часть, а в других уравнениях – в правую часть: (2) В эконометрике эта система уравнений называется также структурной формой модели. Для нахождения параметров каждого уравнения традиционный МНК неприменим, здесь используются специальные методы оценивания. В этом случае каждое из уравнений не может рассматриваться самостоятельно. 3.1. Структурная и приведенная формы модели. Система одновременных уравнений (т.е. структурная форма модели) обычно содержит эндогенные и экзогенные переменные. Эндогенные переменные – это зависимые переменные, число которых равно числу уравнений в системе. Они обозначаются через y Экзогенные переменные – это предопределенные переменные, влияющие на эндогенные переменные, но не зависящие от них. Они обозначаются через x. Простейшая структурная форма модели имеет вид: где y1,y2 - эндогенные переменные, x1,x2 - экзогенные. Классификация переменных на эндогенные и экзогенные зависит от теоретической концепции принятой модели. Экономические переменные могут выступать в одних моделях как эндогенные, а в других - как экзогенные переменные. Внеэкономические переменные (например, климатические условия) входят в систему как экзогенные переменные. В качестве экзогенных переменных можно рассматривать значения эндогенных переменных за предшествующий период времени (лаговые переменные). Например, потребление текущего года yt может зависеть также и от уровня потребления в предыдущем году yt-1. Структурная форма модели позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной переменной. Целесообразно в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регулирования. Меняя их и управляя ими, можно заранее иметь целевые значения эндогенных переменных. Коэффициенты при эндогенных и - при экзогенных переменных называются структурными коэффициентами модели. Все переменные в модели могут быть выражены в отклонениях и от среднего уровня, и тогда свободный член в каждом уравнении отсутствует. Использование МНК для оценивания структурных коэффициентов модели дает смещенные и несостоятельные оценки. Поэтому обычно для определения структурных коэффициентов модели структурная форма преобразуется в приведенную. Приведенная форма модели представляет собой систему линейных функций эндогенных переменных от экзогенных: (3) коэффициенты приведенной формы модели. По своему виду приведенная форма модели ничем не отличается от системы независимых уравнений, Применяя МНК, можно оценить , а затем оценить значения эндогенных переменных через экзогенные. Приведенная форма позволяет выразить значения эндогенных переменных через экзогенные, однако аналитически уступает структурной форме модели, т.к. в ней отсутствуют оценки взаимосвязи между эндогенными переменными. 3.2. Проблема идентификации При переходе от приведенной формы модели к структурной исследователь сталкивается с проблемой идентификации. Идентификация – это единственность соответствия между приведенной и структурной формами модели. Структурная модель (2) в полном виде, состоящая в каждом уравнении системы из n эндогенных и m экзогенных переменных, содержит n(n-1+m) параметров. Приведенная модель (3) в полном виде содержит nm параметров. Таким образом, в полном виде структурная модель содержит большее число параметров, чем приведенная форма модели. Поэтому n(n-1+m) параметров структурной модели не могут быть однозначно определены через nm параметров приведенной формы модели. Чтобы получить единственно возможное решение для структурной модели, необходимо предположить, что некоторые из структурных коэффициентов модели равны нулю. Тем самым уменьшится число структурных коэффициентов. С позиции идентифицируемости структурные модели можно подразделить на три вида: • идентифицируемые; • неидентифицируемые; • сверхидентифицируемые. Модель идентифицируема, если все структурные ее коэффициенты определяются однозначно, единственным образом по коэффициентам приведенной формы модели, т.е. число параметров структурной модели равно числу параметров приведенной формы модели. Модель неидентифицируема, если число приведенных коэффициентов меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели. Модель (2) в полном виде всегда неидентифицируема. Модель сверхидентифицируема, если число приведенных коэффициентов больше числа структурных коэффициентов. В этом случае на основе приведенных коэффициентов можно получить два или более значений одного структурного коэффициента. Сверхидентифицируемая модель, в отличие от неидентифицируемой, практически решаема, но требует для этого специальных методов исчисления параметров. Структурная модель всегда представляет собой систему совместных уравнений, каждое из которых требуется проверять на идентификацию. Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой. Сверхидентифицируемая модель содержит хотя бы одно сверхидентифицируемое уравнение. Обозначим Н – число эндогенных переменных в i- ом уравнении системы, D – число экзогенных переменных, которые содержатся в системе, но не входят в данное уравнение. Тогда условие идентифицируемости уравнения может быть записано в виде следующего счетного правила: D+1 = Н – уравнение идентифицируемо; D+1 < Н – уравнение неидентифицируемо; D+1 > Н – уравнение сверхидентифицируемо. Это счетное правило отражает необходимое, но не достаточное условие идентификации. Более точно условия идентификации определяются, если накладывать ограничения на коэффициенты матриц параметров структурной модели. Уравнение идентифицируемо, если по отсутствующим в нем переменным (эндогенным и экзогенным) можно из коэффициентов при них в других уравнениях системы получить матрицу, определитель которой не равен нулю, а ранг матрицы не меньше, чем число эндогенных переменных в системе без одного. Пример. Рассмотрим следующую макроэкономическую модель: где M – доля импорта в ВВП; N – общее число прошений об освобождении от таможенных пошлин; S – число удовлетворенных прошений; E – фиктивная переменная, означающая, является ли курс доллара искусственно завышенным или нет; Y – реальный ВВП; X – реальный объём чистого экспорта; t – текущий период; t-1 – предыдущий период. Проверим данную модель на идентификацию и определим, каким методом могут быть рассчитаны её коэффициенты (в случае, если модель сверх – или точно идентифицируема). Сначала рассмотрим общие характеристики структурной формы. Здесь три эндогенные переменные – Mt, Nt и St, они стоят в левых частях уравнений. Кроме того, в правых частях находятся четыре предопределенные переменные – одна лаговая (Mt-1) и три экзогенные – Et-1, Yt и Xt. Теперь проверим каждое уравнение. Уравнение I. В этом уравнении присутствуют три эндогенные переменные (Mt, Nt и St), но отсутствуют две предопределенные переменные - Yt и Xt. Поэтому Н=3, D=2, и необходимое условие идентификации выполняется, поскольку D+1=H. Это означает, что первое уравнение точно идентифицируемо. Уравнение II. В этом уравнении присутствуют три эндогенные переменные (Mt, Nt и St), но отсутствуют три экзогенные - Еt-1, Mt-1 и Xt. Поэтому Н=3, D=3, D+1>H и второе уравнение по необходимому условию является сверхидентифицируемым. Уравнение III. В этом уравнении, как и в других уравнениях, присутствуют все три эндогенные переменные, но отсутствуют три экзогенные - Еt-1, Mt-1 и Yt . Поэтому Н=3, D=3, D+1>H, и третье уравнение системы является сверхидентифицируемым. Проверим каждое уравнение на выполнение достаточного условия идентификации. Для этого сначала запишем расширенную матрицу системы в виде следующей таблицы: Уравнение Mt Nt St Et-1 Mt-1 Yt Xt I -1 b12 b13 b14 b15 II b21 -1 b23 b26 III b31 b32 -1 b37 Как видим, в эту матрицу включены коэффициенты при всех переменных и не включены свободные члены, поскольку они могут быть исключены из системы, если задавать все переменные в отклонениях от среднего значения. Кроме того, здесь все переменные перенесены в правые части уравнений. Достаточное условие идентификации для соответствующего уравнения будет выполнено, если ранг подматрицы, построенной только из коэффициентов при переменных, отсутствующих в этом уравнении, равен количеству эндогенных переменных в системе минус единица. Рассмотрим подробно этот процесс для первого уравнения системы. Первому уравнению соответствует первая строка расширенной матрицы, поэтому первую строку не следует включать в подматрицу. Из остальной части расширенной матрицы оставим только столбцы, которые имеют нули в первой строке. Получаем подматрицу: , определитель которой не равен нулю, поскольку . Таким образом, ранг подматрицы равен двум, т.е. числу эндогенных переменных в системе минус единица. Достаточное условие идентификации для первого уравнения выполнено. Аналогично рассмотрим другие уравнения. Подматрица для второго уравнения имеет вид: . Её ранг также равен двум, поскольку определитель, составленный, например, из первого и третьего столбцов, очевидно, не равен нулю. Подматрица для третьего уравнения имеет вид: . Она также имеет ранг, равный двум. Таким образом, достаточное условие идентификации выполнено для каждого уравнения системы. Поскольку среди уравнений системы нет неидентифицируемых, а второе и третье уравнения являются сверхидентифицированными, то и модель в целом сверхидентифицирована. Для определения параметров первого уравнения должен быть применен косвенный МНК (поскольку оно точно идентифицировано), а для других уравнений – двухшаговый МНК. Приведенная форма модели имеет вид: Здесь - случайные члены. Как обычно, в правой части приведенной формы стоят только предопределенные переменные. Для определения параметров ПФМ применяется обычный МНК. 3.3. Оценивание параметров структурной модели Коэффициенты структурной модели могут быть оценены разными способами в зависимости от вида системы одновременных уравнений. Наибольшее распространение получили два метода оценивания коэффициентов структурной модели: косвенный МНК и двухшаговый МНК. Косвенный МНК (КМНК) применим в случае точно идентифицируемой структурной модели. Процедура следующая: 1. Структурная модель преобразуется в приведенную форму. 2. Для каждого уравнения приведенной формы обычным МНК оцениваются коэффициенты δij 3. Коэффициенты приведенной модели трансформируются в параметры структурной модели. Рассмотрим применение КМНК для модели: Для построения модели имеем таблицу: № п/п 1 2 5 1 3 2 3 6 2 1 3 4 7 3 2 4 5 8 2 5 5 6 5 4 6 Средние 4 6,2 2,4 3,4 Приведенная форма модели имеет вид: где случайные ошибки приведенной формы модели. Для каждого уравнения приведенной формы применим традиционный МНК и определим δ- коэффициенты. Для простоты работаем в отклонениях, т.е. Тогда система нормальных уравнений для первого уравнения системы составит: Для приведенных данных система составит: Отсюда получаем первое уравнение ( и аналогично второе): Перейдем к структурной форме следующим образом: исключим из первого уравнения приведенной формы x2 , выразив его из второго уравнения приведенной формы и подставив в первое уравнение: Первое уравнение структурной формы: Аналогично исключим из второго уравнения x1 выразив его через первое уравнение и подставив во второе: второе уравнение структурной формы. Структурная форма модели имеет вид: Эту же систему можно записать, включив в нее свободный член уравнения, т.е. перейти от переменных в виде отклонений от среднего к исходным переменным и Тогда структурная модель имеет вид: Если к каждому уравнению структурной формы применить традиционный МНК, то результаты могут сильно отличаться. В данном примере будет: Двухшаговый МНК. ДМНК используется для сверхидентифицируемых систем. Основная идея ДМНК: на основе приведенной формы модели получить для сверхидентифицируемого уравнения теоретические значения эндогенных переменных, содержащихся в правой части уравнения. Далее, подставив их вместо фактических значений, можно применить обычный МНК к структурной форме сверхидентифицируемого уравнения. Здесь дважды используется МНК: на первом шаге при определении приведенной формы модели и нахождении на ее основе оценок теоретических значений эндогенной переменной и на втором шаге применительно к структурному сверхидентифицируемому уравнению при определении структурных коэффициентов модели по данным теоретических (расчетных) значений эндогенных переменных. Сверхидентифицируемая структурная модель может быть двух типов: - все уравнения системы сверхидентифицируемые; - система содержит также точно идентифицируемые уравнения. В первом случае для оценки структурных коэффициентов каждого уравнения используется ДМНК. Во втором случае структурные коэффициенты для точно идентифицируемых уравнений находятся из системы приведенных уравнений. Рассмотрим модель: Она получена из предыдущего примера наложением ограничения Поэтому первое уравнение стало сверхидентифицируемым. На первом шаге найдем приведенную форму модели. С использованием тех же исходных данных получим систему: На основе второго уравнения этой системы можно найти теоретические значения для эндогенной переменной т.е. Подставим в это уравнение значения и в форме отклонений от средних значений, запишем в виде таблицы: -1,4 -0,4 0,103 -1,297 -2 2,594 1,682 -0,4 -2,4 0,042 -0,358 -1 0,358 0,128 0,6 -1,4 -0,035 0,565 0,319 -0,4 1,6 0,02 -0,38 1 -0,38 0,144 1,6 2,6 -0,13 1,47 2 2,94 2,161 5,512 4,434 После того, как найдены оценки заменим в уравнении фактические значения их оценками найдем значения новой переменной Применим МНК к уравнению: . Получим: В целом рассматриваемая система будет иметь вид: Второе уравнение не изменилось по сравнению с предыдущим примером. ДМНК является наиболее общим и широко распространенным методом решения системы одновременных уравнений. Для точно идентифицируемых уравнений ДМНК дает тот же результат, что и КМНК. 3.4. Применение систем эконометрических уравнений. Наиболее широко системы одновременных уравнений используются при построении макроэкономических моделей экономики страны. В большинстве случаев это мультипликаторные модели кейнсианского типа. Статическая модель Кейнса народного хозяйства в самом простом виде следующая: где С - личное потребление; y - национальный доход в постоянных ценах; I - инвестиции в постоянных ценах. В силу наличия тождества в модели (второе уравнение системы) Он характеризует предельную склонность к потреблению. Если из каждой дополнительной тысячи рублей дохода на потребление расходуется в среднем 650 рублей и 350 рублей инвестируется. Если b>1 то y<C+I, и на потребление расходуются не только доходы, но и сбережения. Параметр a Кейнс истолковывал как прирост потребления за счет других факторов. Структурный коэффициент b используется для расчета мультипликаторов. По данной функции потребления можно определить два мультипликатора – инвестиционный мультипликатор потребления Mc и национального дохода My : т.е. при Это означает, что дополнительные вложения 1 тыс. руб. приведут при прочих равных условиях к дополнительному увеличению потребления на 1,857 тыс. руб. т.е. при , т.е. дополнительные вложения 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу 2,857 тыс. руб. Эта модель точно идентифицируема, и для получения применяется КМНК. Строится система приведенных уравнений: в которой а параметры и являются мультипликаторами, т.е. и . Для проверки подставим балансовое равенство в первое уравнение структурной модели: Аналогично поступим и со вторым уравнением структурной модели: Таким образом, приведенная форма содержит мультипликаторы, интерпретируемые как коэффициенты множественной регрессии, отвечающие на вопрос, на сколько единиц изменится значение эндогенной переменной, если экзогенная изменится на 1 единицу. Это делает модель удобной для прогнозирования. В более поздних исследованиях статическая модель Кейнса включала уже не только функцию потребления, но и функцию сбережений: где сбережения. Здесь три эндогенные переменные - и и одна экзогенная - Система идентифицируема: в первом уравнении Н=2 и D=2, во втором Н=1, D=0; рассматривается как предопределенная переменная. Наряду со статическими широкое распространение получили динамические модели экономики. Они содержат в правой части лаговые переменные, а также учитывают тенденцию. Например, модель Кейнса экономики США 1950-1960 гг. в упрощенном варианте: чистые трансферты в пользу администрации; кап. вложения; правительственные расходы; заработная плата в период ; прибыль; прибыль в период ; общий доход. Модель содержит 5 эндогенных переменных - ( в левой части системы) и (зависимая переменная, определяемая по первому тождеству), три экзогенные переменные - и две лаговые предопределенные переменные и Данная модель сверхидентифицируема и решается ДМНК. Для прогнозных целей используется приведенная форма модели: Здесь мультипликаторами являются коэффициенты при экзогенных переменных. Они отражают влияние экзогенной переменной на эндогенную переменную. Система одновременных уравнений нашла применение в исследованиях спроса и предложения. Линейная модель спроса и предложения имеет вид: Здесь 3 эндогенные переменные: и При этом, если и представляют собой эндогенные переменные, исходя из структуры самой системы, то является эндогенной по экономическому содержанию (цена зависит от спроса и предложения), а также в результате наличия тождества Приравняем уравнения, получим: Модель не содержит экзогенной переменной. Однако, чтобы модель имела статистическое решение и можно было убедиться в ее справедливости, в модель вводятся экзогенные переменные. Например, модель вида: где доход на душу населения; климатические условия (при спросе и предложении зерна). Переменные и экзогенные. Введя их в модель получаем идентифицированную структурную модель, где можно применить КМНК. IV. ВРЕМЕННЫЕ РЯДЫ В ЭКОНОМЕТРИЧЕСКИХ ИССЛЕДОВАНИЯХ 4.1. Выявление структуры временного ряда Временнóй ряд – это совокупность значений какого – либо показателя за несколько последовательных моментов или периодов времени. Каждое значение (уровень) временного ряда формируется под воздействием большого числа факторов, которые можно условно разделить на три группы: • факторы, формирующие тенденцию ряда; • факторы, формирующие циклические колебания ряда; • случайные факторы. Тенденция характеризует долговременное воздействие факторов на динамику показателя. Тенденция может быть возрастающей или убывающей. Циклические колебания могут носить сезонный характер или отражать динамику конъюнктуры рынка, а также фазу бизнес – цикла, в которой находится экономика страны. Реальные данные часто содержат все три компоненты. В большинстве случаев временной ряд можно представить как сумму или произведение трендовой , циклической и случайной компонент. В случае суммы имеет место аддитивная модель временного ряда: (1) в случае произведения – мультипликативная модель: (2) Основная задача эконометрического исследования отдельного временного ряда – выявление количественного выражения каждой из компонент и использование полученной информации для прогноза будущих значений ряда или построение модели взаимосвязи двух или более временных рядов. Сначала рассмотрим основные подходы к анализу отдельного временного ряда. Такой ряд может содержать, помимо случайной составляющей, либо только тенденцию, либо только сезонную (циклическую) компоненту, либо все компоненты вместе. Для того, чтобы выявить наличие той или иной неслучайной компоненты, исследуется корреляционная зависимость между последовательными уровнями временного ряда, или автокорреляция уровней ряда. Основная идея такого анализа заключается в том, что при наличии во временном ряде тенденции и циклических колебаний значения каждого последующего уровня ряда зависят от предыдущих. Количественно автокорреляцию можно измерить с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во времени. Коэффициент автокорреляции уровней ряда первого порядка измеряет зависимость между соседними уровнями ряда и т.е. при лаге 1. Он вычисляется по следующей формуле: (3) где в качестве средних величин берутся значения: (4) В первом случае усредняются значения ряда, начиная со второго до последнего, во втором случае - значения ряда с первого до предпоследнего. Формулу (3) можно представить как формулу выборочного коэффициента корреляции: (5) где в качестве переменной берется ряд а в качестве переменной ряд Если значение коэффициента (3) близко к единице, это указывает на очень тесную зависимость между соседними уровнями временного ряда и о наличии во временном ряде сильной линейной тенденции. Аналогично определяются коэффициенты автокорреляции более высоких порядков. Так, коэффициент автокорреляции второго порядка характеризует тесноту связи между уровнями и и определяется по формуле: (6) где в качестве одной средней величины берут среднюю уровней ряда с третьего до последнего, а в качестве другой - среднюю с первого уровня до (7) Число периодов, по которым рассчитывается коэффициент автокорреляции, называют лагом. С увеличением лага число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается. Для обеспечения статистической достоверности максимальный лаг, как считают некоторые известные эконометристы, не должен превышать четверти общего объема выборки. Коэффициент автокорреляции строится по аналогии с линейным коэффициентом корреляции, и поэтому он характеризует тесноту только линейной связи текущего и предыдущего уровней ряда. По нему можно судить о наличии линейной или близкой к линейной тенденции. Однако для некоторых временных рядов с сильной нелинейной тенденцией (например, параболической или экспоненциальной), коэффициент автокорреляции уровней ряда может приближаться к нулю. Кроме того, по знаку коэффициента автокорреляции нельзя делать вывод о возрастающей или убывающей тенденции в уровнях ряда. Большинство временных рядов экономических данных имеют положительную автокорреляцию уровней, однако при этом не исключается убывающая тенденция. Последовательность коэффициентов автокорреляции уровней различных порядков, начиная с первого, называется автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага называется коррелограммой. Анализ автокорреляционной функции и коррелограммы помогает выявить структуру ряда. Здесь уместно привести следующие качественные рассуждения. Если наиболее высоким является коэффициент автокорреляции первого порядка, очевидно, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка τ,ряд содержит циклические колебания с периодичностью в τ моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то либо ряд не содержит тенденции и циклических колебаний и имеет только случайную составляющую, либо ряд содержит сильную нелинейную тенденцию, для исследования которой нужно провести дополнительный анализ. Пример. Пусть имеются данные об объёмах потребления электроэнергии жителями района за 16 кварталов, млн. квт.-ч: t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 yt 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 9,0 6,6 7,0 10,8 Нанесем эти значения на график: Определим автокорреляционную функцию данного временного ряда. Рассчитаем коэффициент автокорреляции первого порядка. Для этого определим средние значения: С учетом этих значений можно построить вспомогательную таблицу: t yt 1 6,0 -1,0667 1,137778 2 4,4 -2,9867 -2,6667 3,185778 8,920178 7,111111 3 5,0 -2,3867 -2,0667 6,364444 5,696178 4,271111 4 9,0 1,6133 1,9333 -3,33422 2,602844 3,737778 5 7,2 -0,1867 0,1333 -0,36089 0,034844 0,017778 6 4,8 -2,5867 -2,2667 -0,34489 6,690844 5,137778 7 6,0 -1,3867 -1,0667 3,143111 1,922844 1,137778 8 10,0 2,6133 2,9333 -2,78756 6,829511 8,604444 9 8,0 0,6133 0,9333 1,799111 0,376178 0,871111 10 5,6 -1,7867 -1,4667 -1,66756 3,192178 2,151111 11 6,4 -0,9867 -0,6667 1,447111 0,973511 0,444444 12 11,0 3,6133 3,9333 -2,40889 13,05618 15,47111 13 9,0 1,6133 1,9333 6,345778 2,602844 3,737778 14 6,6 -0,7867 -0,4667 -1,52089 0,618844 0,217778 15 7,0 -0,3867 -0,0667 0,180444 0,149511 0,004444 16 10,8 3,4133 -0,22756 11,65084 Итог 9,813333 65,3173 54,0533 С помощью итоговых сумм подсчитаем величину коэффициента автокорреляции первого порядка: . Это значение свидетельствует о слабой зависимости текущих уровней ряда от непосредственно им предшествующих. Однако из графика очевидно наличие возрастающей тенденции уровней ряда, на которую накладываются циклические колебания. Продолжая аналогичные расчеты для второго, третьего и т.д. порядков, получим автокорреляционную функцию, значения которой сведем в таблицу и построим по ней коррелограмму: Лаг 1 2 3 4 5 6 7 8 0,16515 0,56687 0,11355 0,98302 0,11871 0,72204 0,00336 0,97384 Из коррелограммы видно, что наиболее высокий коэффициент корреляции наблюдается при значении лага, равном четырем, следовательно, ряд имеет циклические колебания периодичностью в четыре квартала. Это подтверждается и графическим анализом структуры ряда. В случае, если при анализе структуры временного ряда обнаружена только тенденция и отсутствуют циклические колебания (случайная составляющая присутствует всегда), следует приступать к моделированию тенденции. Если же во временном ряде имеют место и циклические колебания, прежде всего следует исключить именно циклическую составляющую, и лишь затем приступать к моделированию тенденции. Выявление тенденции состоит в построении аналитической функции, характеризующей зависимость уровней ряда от времени, или тренда. Этот способ называют аналитическим выравниванием временного ряда. Зависимость от времени может принимать разные формы, поэтому для её формализации используют различные виды функций: • линейный тренд: ; • гипербола: ; • экспоненциальный тренд: (или ); • степенной тренд: ; • параболический тренд второго и более высоких порядков: . Параметры каждого из трендов можно определить обычным МНК, используя в качестве независимой переменной время , а в качестве зависимой переменной – фактические уровни временного ряда yt (или уровни за вычетом циклической составляющей, если таковая была обнаружена). Для нелинейных трендов предварительно проводят стандартную процедуру их линеаризации. Существует несколько способов определения типа тенденции. Чаще всего используют качественный анализ изучаемого процесса, построение и визуальный анализ графика зависимости уровней ряда от времени, расчет некоторых основных показателей динамики. В этих же целях можно использовать и коэффициенты автокорреляции уровней ряда. Тип тенденции можно определить путем сравнения коэффициентов автокорреляции первого порядка, рассчитанных по исходным и преобразованным уровням ряда. Если временной ряд имеет линейную тенденцию, то его соседние уровни yt и yt-1 тесно коррелируют. В этом случае коэффициент автокорреляции первого порядка уровней исходного ряда должен быть высоким. Если временной ряд содержит нелинейную тенденцию, например, в форме экспоненты, то коэффициент автокорреляции первого порядка по логарифмам уровней исходного ряда будет выше, чем соответствующий коэффициент, рассчитанный по уровням ряда. Чем сильнее выражена нелинейная тенденция в изучаемом временном ряде, тем в большей степени будут различаться значения указанных коэффициентов. Выбор наилучшего уравнения в случае, если ряд содержит нелинейную тенденцию, можно осуществить путем перебора основных форм тренда, расчета по каждому уравнению скорректированного коэффициента детерминации и выбора уравнения тренда с максимальным значением этого коэффициента. Реализация этого метода относительно проста при компьютерной обработке данных. При анализе временных рядов, содержащих сезонные или циклические колебания, наиболее простым подходом является расчет значений сезонной компоненты методом скользящей средней и построение аддитивной или мультипликативной модели временнóго ряда в форме (1) или (2). Если амплитуда колебаний приблизительно постоянна, строят аддитивную модель (1), в которой значения сезонной компоненты предполагаются постоянными для различных циклов. Если амплитуда сезонных колебаний возрастает или уменьшается, строят мультипликативную модель (2), которая ставит уровни ряда в зависимость от значений сезонной компоненты. Построение модели (1) или (2) сводится к расчету значений Т, S или Е для каждого уровня ряда. Процесс построения модели включает в себя следующие шаги: 1. Выравнивание исходного ряда методом скользящей средней. 2. Расчет значений сезонной компоненты S. 3. Устранение сезонной компоненты из исходных уровней ряда и получение выровненных данных (Т+Е) в аддитивной или (Т·Е) в мультипликативной модели. 4. Аналитическое выравнивание уровней (Т+Е) или (Т·Е) и расчет значений Т с использованием полученного уравнения тренда. 5. Расчет полученных по модели значений (Т+S) или (Т·S) 6. Расчет абсолютных и относительных ошибок. Пример. Построение аддитивной модели временного ряда. Рассмотрим данные об объёме потребления электроэнергии жителями района из ранее приведенного примера. Из анализа автокорреляционной функции было показано, что данный временнóй ряд содержит сезонные колебания периодичностью в 4 квартала. Объёмы потребления электроэнергии в осенне – зимний период (I и IV кварталы) выше, чем весной и летом (II и III кварталы). По графику этого ряда можно установить наличие приблизительно равной амплитуды колебаний. Это говорит о возможном наличии аддитивной модели. Рассчитаем её компоненты. Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней. Поскольку циклические колебания имеют периодичность в 4 квартала, просуммируем уровни ряда последовательно за каждые 4 квартала со сдвигом на один момент времени и определим условные годовые объёмы потребления электроэнергии (колонка 3 в таблице 1). Разделив полученные суммы на 4, найдем скользящие средние (колонка 4 таблицы 1). Полученные таким образом выровненные значения уже не содержат сезонной компоненты. Поскольку скользящие средние получены осреднением четырех соседних уровней ряда, т.е. четного числа значений, они соответствуют серединам подынтервалов, состоящих из четверок чисел, т.е. должны располагаться между третьим и четвертым значениями четверок исходного ряда. Для того, чтобы скользящие средние располагались на одних временных отметках с исходным рядом, пары соседних скользящих средних ещё раз усредняются и получаются центрированные скользящие средние (колонка 5 таблицы 1). При этом теряются первые две и последние две отметки временного ряда, что связано с осреднением по четырем точкам. Таблица 1. № квартала Потребление электроэнергии yt Итого за четыре квартала Скользящая средняя за четыре квартала Центрированная скользящая средняя Оценка сезонной компоненты 1 2 3 4 5 6 1 6,0 2 4,4 3 5,0 24,4 6,10 6,25 -1,250 4 9,0 25,6 6,40 6,45 2,550 5 7,2 26,0 6,50 6,625 0,575 6 4,8 27,0 6,75 6,875 -2,075 7 6,0 28,0 7,00 7,1 -1,100 8 10,0 28,8 7,20 7,3 2,700 9 8,0 29,6 7,40 7,45 0,550 10 5,6 30,0 7,50 7,625 -2,025 11 6,4 31,0 7,75 7,875 -1,475 12 11,0 32,0 8,00 8,125 2,875 13 9,0 33,0 8,25 8,325 0,675 14 6,6 33,6 8,40 8,375 -1,775 15 7,0 33,4 8,35 16 10,8 Шаг 2. Найдем оценки сезонной компоненты как разность между фактическими уровнями ряда (колонка 2 таблицы 1) и центрированными скользящими средними (колонка 5). Эти значения помещаем в колонку 6 таблицы 1 и используем для расчета значений сезонной компоненты (таблица 2), которые представляют собой средние за каждый квартал (по всем годам) оценки сезонной компоненты Si. В моделях с сезонной компонентой обычно предполагается, что сезонные воздействия за период (в данном случае – за год) взаимопогашаются. В аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем точкам (здесь – по четырем кварталам) должна быть равна нулю. Таблица 2. Показатели Год № квартала, i I II III IV 1 - - -1,250 2,550 2 0,575 -2,075 -1,100 2,700 3 0,550 -2,025 -1,475 2,875 4 0,675 -1,775 - - Итого за i – й квартал (за все годы) 1,800 -5,875 -3,825 8,125 Средняя оценка сезонной компоненты для i – го квартала, 0,600 -1,958 -1,275 2,708 Скорректированная сезонная компонента, 0,581 -1,977 -1,294 2,690 Для данной модели сумма средних оценок сезонной компоненты равна: 0,6-1,958-1,275+2,708=0,075. Эта сумма оказалась не равной нулю, поэтому каждую оценку уменьшим на величину поправки, равной одной четверти полученного значения: Δ=0,075/4=0,01875. Рассчитаем скорректированные значения сезонной компоненты (они записаны в последней строке таблицы 2): (8) Эти значения при суммировании уже равны нулю: 0,581-1,977-1,294+2,69=0. Шаг 3. Исключаем влияние сезонной компоненты, вычитая её значения из каждого уровня исходного временного ряда. Получаем величины: T+E=Y-S (9) Эти значения рассчитываются в каждый момент времени и содержат только тенденцию и случайную компоненту (колонка 4 следующей таблицы): Таблица 3. t T T+S E2 1 2 3 4 5 6 7 8 1 6,0 0,581 5,419 5,902 6,483 -0,483 0,2332 2 4,4 -1,977 6,377 6,088 4,111 0,289 0,0833 3 5,0 -1,294 6,294 6,275 4,981 0,019 0,0004 4 9,0 2,69 6,310 6,461 9,151 -0,151 0,0228 5 7,2 0,581 6,619 6,648 7,229 -0,029 0,0008 6 4,8 -1,977 6,777 6,834 4,857 -0,057 0,0032 7 6,0 -1,294 7,294 7,020 5,726 0,274 0,0749 8 10,0 2,69 7,310 7,207 9,897 0,103 0,0107 9 8,0 0,581 7,419 7,393 7,974 0,026 0,0007 10 5,6 -1,977 7,577 7,580 5,603 -0,003 0,0000 11 6,4 -1,294 7,694 7,766 6,472 -0,072 0,0052 12 11,0 2,69 8,310 7,952 10,642 0,358 0,1278 13 9,0 0,581 8,419 8,139 8,720 0,280 0,0785 14 6,6 -1,977 8,577 8,325 6,348 0,252 0,0634 15 7,0 -1,294 8,294 8,512 7,218 -0,218 0,0474 16 10,8 2,69 8,110 8,698 11,388 -0,588 0,3458 Шаг 4. Определим трендовую компоненту данной модели. Для этого проведем выравнивание ряда (Т+Е) с помощью линейного тренда: Подставляя в это уравнение значения , найдем уровни Т для каждого момента времени (колонка 5 таблицы 3). Шаг 5. Найдем значения уровней ряда, полученные по аддитивной модели. Для этого прибавим к уровням Т значения сезонной компоненты для соответствующих кварталов, т.е. к значениям в колонке 5 таблицы 3 прибавим значения в колонке 3. Результаты операции представлены в колонке 6 таблицы 3. Шаг 6. В соответствии с методикой построения аддитивной модели расчет ошибки производим по формуле: (10) Это абсолютная ошибка. Численные значения абсолютных ошибок приведены в колонке 7 таблицы 3. По аналогии с моделью регрессии для оценки качества построения модели или для выбора наилучшей модели можно применять сумму квадратов полученных абсолютных ошибок. Для данной аддитивной модели сумма квадратов абсолютных ошибок равна 1,10. По отношению к общей сумме квадратов отклонений уровней ряда от его среднего уровня, равной 71,59, эта величина составляет чуть более 1,5%. Следовательно, можно сказать, что аддитивная модель объясняет 98,5% общей вариации уровней временного ряда потребления электроэнергии за последние 16 кварталов. Пример. Построение мультипликативной модели временного ряда. Пусть имеются поквартальные данные о прибыли компании за последние четыре года: Таблица 4. Квартал Год I II II IV 1 72 100 90 64 2 70 92 80 58 3 62 80 68 48 4 52 60 50 30 График временного ряда свидетельствует о наличии сезонных колебаний периодичностью 4 квартала и общей убывающей тенденции уровней ряда: Прибыль компании в весенне – летний период выше, чем в осенне – зимний период. Поскольку амплитуда сезонных колебаний уменьшается, можно предположить существование мультипликативной модели. Определим её компоненты. Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней. Методика, применяемая на этом шаге, полностью совпадает с методикой аддитивной модели. Результаты расчетов оценок сезонной компоненты представлены в таблице: Таблица 5. № квартала Прибыль компании Итого за четыре квартала Скользящая средняя за четыре квартала Центрированная скользящая средняя Оценка сезонной компоненты 1 2 3 4 5 6 1 72 2 100 3 90 326 81,500 81,250 1,108 4 64 324 81,000 80,000 0,800 5 70 316 79,000 77,750 0,900 6 92 306 76,500 75,750 1,215 7 80 300 75,000 74,000 1,081 8 58 292 73,000 71,500 0,811 9 62 280 70,000 68,500 0,905 10 80 268 67,000 65,750 1,217 11 68 258 64,500 63,250 1,075 12 48 248 62,000 59,500 0,807 13 52 228 57,000 54,750 0,950 14 60 210 52,500 50,250 1,194 15 50 192 48,000 16 30 Шаг 2. Найдем оценки сезонной компоненты как частное от деления фактических уровней ряда на центрированные скользящие средние (колонка 6 таблицы). Используем эти оценки для расчета значений сезонной компоненты S. Для этого найдем средние за каждый квартал оценки сезонной компоненты Si. Взаимопогашаемость сезонных воздействий в мультипликативной модели выражается в том, что сумма значений сезонной компоненты по всем кварталам должна равняться числу периодов в цикле. В нашем случае число периодов одного цикла (год) равно четырем кварталам. Результаты расчетов сведем в таблицу: Таблица 6. Показатели Год № квартала, i I II III IV 1 - - 1,108 0,800 2 0,900 1,215 1,081 0,817 3 0,905 1,217 1,075 0,807 4 0,950 1,194 - - Итого за i – й квартал (за все годы) 2,755 3,626 3,264 2,424 Средняя оценка сезонной компоненты для i – го квартала, 0,918 1,209 1,088 0,808 Скорректированная сезонная компонента, 0,913 1,202 1,082 0,803 Здесь сумма средних оценок сезонных компонент по всем четырем кварталам не равна четырем. Чтобы эта сумма равнялась четырем, умножим каждое слагаемое на поправочный коэффициент т.е. (11) Значения скорректированных сезонных компонент записаны в последней строке таблицы 6. Теперь их сумма равна четырем. Занесем эти значения в новую таблицу (колонка 3 таблицы 7): Таблица 7. t yt Si T T·S 1 2 3 4 5 6 7 8 9 1 72 0,913 78,86 87,80 80,16 0,898 -8,165 66,66 2 100 1,202 83,19 85,03 102,20 0,978 -2,204 4,86 3 90 1,082 83,18 82,25 89,00 1,011 1,002 1,00 4 64 0,803 79,70 79,48 63,82 1,003 0,179 0,03 5 70 0,913 76,67 76,70 70,03 1,000 -0,030 0,00 6 92 1,202 76,54 73,93 88,86 1,035 3,139 9,85 7 80 1,082 73,94 71,15 76,99 1,039 3,013 9,08 8 58 0,803 72,23 68,38 54,91 1,056 3,093 9,57 9 62 0,913 67,91 65,60 59,90 1,035 2,105 4,43 10 80 1,202 66,56 62,83 75,52 1,059 4,482 20,08 11 68 1,082 62,85 60,05 64,98 1,047 3,024 9,14 12 48 0,803 59,78 57,28 45,99 1,044 2,007 4,03 13 52 0,913 56,96 54,50 49,76 1,045 2,240 5,02 14 60 1,202 49,92 51,73 62,18 0,965 -2,176 4,73 15 50 1,082 46,21 48,95 52,97 0,944 -2,966 8,79 16 30 0,803 37,36 46,18 37,08 0,809 -7,080 50,12 Шаг 3. Разделим каждый уровень исходного ряда на соответствующие значения сезонной компоненты. Тем самым мы получим величины , (12) которые содержат только тенденцию и случайную компоненту (колонка 4). Шаг 4. Определим трендовую компоненту в мультипликативной модели. Для этого рассчитаем параметры линейного тренда, используя уровни (Т+Е). Уравнение тренда имеет вид: Подставляя в это уравнение значения , найдем уровни Т для каждого момента времени (колонка 5 таблицы). Шаг 5. Найдем уровни ряда по мультипликативной модели, умножив уровни Т на значения сезонной компоненты для соответствующих кварталов (колонка 6 таблицы). Шаг 6. Расчет ошибок в мультипликативной модели произведем по формуле: . (13) Численные значения ошибок приведены в колонке 7 таблицы. Для того, чтобы сравнить мультипликативную модель и другие модели временного ряда, можно по аналогии с аддитивной моделью использовать сумму квадратов абсолютных ошибок. Абсолютные ошибки в мультипликативной модели определяются как: (14) В данной модели сумма квадратов абсолютных ошибок составляет 207,4. Общая сумма квадратов отклонений фактических уровней этого ряда от среднего значения равна 5023. Таким образом, доля объясненной дисперсии уровней ряда составляет 95,9%. Прогнозирование по аддитивной или мультипликативной модели временного ряда сводится к расчету будущего значения временного ряда по уравнению модели без случайной составляющей в виде (1’) для аддитивной или (2’) для мультипликативной модели. 4.2.Динамические эконометрические модели Теперь рассмотрим модели временных рядов, где в качестве исходных статистических данных мы располагаем наблюдениями двух временных рядов и . Целью регрессионного анализа в данном случае является построение линейной регрессионной модели, позволяющей с наименьшими ошибками прогнозировать значения yt по значениям xt для t>n. Подобные модели естественны в ситуациях, когда две переменные x и y связаны так, что воздействия единовременного изменения одной из них (x) на другую (y) сказывается в течение достаточно продолжительного времени, т.е. наблюдается распределенный во времени эффект воздействия. В частности, такие связи возникают между регистрируемыми во времени входными и выходными характеристиками процессов накопления и распределения ресурсов (например, процессов преобразования доходов населения в его расходы) или процессов трансформации затрат в результаты (например, процессов воспроизводства основных доходов). Эконометрическая модель является динамической, если в данный момент t она учитывает значения входящих в неё переменных, относящихся как к текущему, так и к предыдущим моментам времени, т.е. модель учитывает, отражает динамику исследуемых переменных в каждый момент времени. Переменные, влияние которых характеризуется определенным запаздыванием, называются лаговыми переменными. Классифицируются динамические модели по – разному. Один из вариантов классификации следующий: 1. Модели с распределенными лагами. Они содержат в качестве лаговых переменных лишь независимые (объясняющие) переменные, например: (15) 2. Авторегрессионные модели, уравнения которых включают в качестве объясняющих переменных лаговые значения зависимых переменных, например: (16) Рассмотрим модель (15), приняв, что р – конечное число. Модель говорит о том, что если в некоторый момент времени t происходит изменение х, это изменение будет влиять на значение у в течение р последующих моментов времени. Коэффициент b0 называется краткосрочным мультипликатором, т.к. он характеризует изменение среднего значения у при единичном изменении х в тот же самый момент времени. Сумма называется долгосрочным мультипликатором; он характеризует изменение у под воздействием единичного изменения х в каждом из моментов времени. Любая сумма называется промежуточным мультипликатором. Относительные коэффициенты модели (15) с распределенным лагом определяются выражениями: (17) (условие нормировки имеет место, только если все bj имеют одинаковые знаки). Значения βj являются весами для соответствующих коэффициентов bj. Каждый из них измеряет долю общего изменения у, приходящегося на момент (t+j). Средний лаг определяется по формуле средней арифметической взвешенной: (18) Он означает период, в течение которого происходит изменение результата от изменения х в момент t. Небольшая величина (18) означает быструю реакцию у на изменение х, высокое значение говорит о том, что воздействие фактора у будет сказываться в течение длительного времени. Медианный лаг – это величина лага, для которого (19) Это время, в течение которого с момента t будет реализована половина общего воздействия фактора на результат. Рассмотрим условный пример. Предположим, модель зависимости объёмов продаж компании от расходов на рекламу имеет вид: . Краткосрочный мультипликатор равен 4,5: увеличение расходов на рекламу на 1 млн. руб. приводит к среднему росту продаж компании на 4,5 млн. руб. в том же периоде. В момент (t+1) такой рост составит 4,5+3,0=7,5 млн. руб., в момент (t+2) - 7,5+1,5=9 млн. руб. и т.д. долгосрочный мультипликатор равен 9,5. В долгосрочной перспективе (в течение 3 месяцев) увеличение расходов на 1 млн. руб. приведет к общему росту продаж на 9,5 млн. руб. Относительные коэффициенты: 47,4% общего увеличения объёма продаж от роста затрат на рекламу происходит в текущем месяце, 31,6% - в следующем месяце и т.д. Средний лаг равен: (мес.) - небольшая величина, поскольку большая часть эффекта роста затрат на рекламу проявляется сразу же. Медианный лаг в данном примере составляет чуть более 1 месяца. Модель (15) можно свести к уравнению множественной регрессии через замены переменных: , (20) в результате получаем: (21) Однако применение обычного МНК затруднительно по следующим причинам: 1. Текущие и лаговые значения х тесно связаны между собой, что приводит к высокой мультиколлинеарности факторов. 2. При большой величине лага велико число параметров, что приводит к уменьшению числа степеней свободы. 3. Часто возникает проблема автокорреляции остатков. Поэтому оценки параметров становятся неточными и неэффективными. Для получения более обоснованных оценок нужна информация о структуре лага. Эта структура может быть различной. На рисунке представлены некоторые её формы: Если с ростом величины лага коэффициенты при лаговых переменных убывают, то имеет место линейная (или треугольная) структура лага (а), а также геометрическая структура (б). Возможны и другие структуры лага (в или г). Рассмотрим некоторые подходы к расчету лагов. Лаги Алмон. Предполагается, что в модели (15) с конечной максимальной величиной лага р значения коэффициентов bj описываются полиномом к – й степени: (22) Каждый коэффициент, таким образом, запишется так: (23) Подставим эти соотношения в (15) и перегруппируем слагаемые, получим: (24) Обозначим суммы соответственно как новые переменные , перепишем (24) в виде: (25) Параметры сj определяются по МНК. Достоинства метода: 1. Универсальность, применимость для моделирования процессов с разнообразными структурами лагов. 2. При малых k (2 или 3) можно построить модели с распределенным лагом любой длины. Ограничения метода: 1. Величина р должна быть известна заранее. При этом приходится задавать максимально возможную величину лага. Выбор меньшего лага, чем его реальное значение, приведет к неверной спецификации модели, невозможности обеспечить случайность остатков, поскольку влияние значимых факторов будет выражено в остатках. Оценки параметров при этом окажутся неэффективными и смещенными. Включение в модель большей величины лага, чем его реальное значение, снижает эффективность оценок из – за наличия статистически незначимых факторов. 2. Необходимость установить степень полинома. Обычно принимают k=2 или 3 по правилу: степень полинома k должна быть на единицу больше числа экстремумов в структуре лага. В крайнем случае k определяется из сравнения моделей для различных k. 3. Возможна мультиколлинеарность факторов zj, однако она сказывается здесь в меньшей степени, чем в модели (15). Метод Койка. Этот метод применяется в модели с бесконечным лагом: (26) Здесь обычный МНК применить нельзя. Для идентификации модели (26) предполагается, что параметры с увеличением лага убывают в геометрической прогрессии, т.е. с постоянным темпом : (27) Запишем выражение (27) для момента (t-1): (28) Умножим (28) на λ и вычтем из (27): или (29) Это модель авторегрессии. Определив её параметры, находим λ, а, b0 исходной модели, а затем и параметры . Данная модель позволяет определить долгосрочный мультипликатор и средний лаг . Теперь перейдем к рассмотрению авторегрессионных моделей. Модель адаптивных ожиданий. Моделирование ожиданий является сложной задачей, поскольку фактор ожидания имеет качественную специфику. Например, инвестиции связаны не только с нормой процента, но и с ожиданиями инвесторов. Если в стране существенная безработица, то действия правительства в направлении стимулирования могут рассматриваться как позитивные, и это способствует инвестициям. Если экономика близка к полной занятости, то та же самая политика будет рассматриваться как ведущая к росту инфляции и приведет к падению инвестиционной активности. Модель адаптивных ожиданий заключается в простой процедуре корректировки ожиданий, когда в каждый момент времени реальное значение переменной сравнивается с её ожидаемым значением. Если реальное значение оказывается больше, то ожидаемое в следующий момент значение корректируется в сторону его увеличения, если меньше – то в сторону уменьшения. Предполагается, что размер корректировки пропорционален разности между реальным и ожидаемым значениями переменной. Таким образом, основную идею можно записать формулой: (30) где - значение х, ожидаемое в момент t (expected). Это выражение можно переписать в форме взвешенного среднего: (31) Модель (30) и является моделью адаптивных ожиданий. Это выражение иногда называют моделью обучения на ошибках, т.к. ожидания экономических объектов складываются из прошлых ожиданий, поправленных на величину ошибки в ожиданиях, допущенных ранее. При λ=0 ожидания являются статичными, неизменными, т.е. . При λ=1 ожидания реализуются мгновенно, т.е. . Чем больше λ, тем быстрее ожидаемое значение адаптируется к предыдущим реальным значениям переменной. Долгосрочная функция модели адаптивных ожиданий записывается в виде: (32) Подставим сюда выражение (31), получим: (33) Запишем его для (t-1): (34) Умножим (34) на (1-λ) и вычтем почленно из (32): , (35) где . Это модель авторегрессии, в которой все переменные имеют фактические, а не ожидаемые значения. Модель в форме (35) называется краткосрочной функцией модели адаптивных ожиданий. Модель неполной (частичной) корректировки. Здесь пове-денческое уравнение определяет не фактическое значение yt, а её желаемый (целевой) уровень : (36) Примером такой модели служит политика компаний относительно распределения дивидендов: прибыль расходуется частично на уплату дивидендов, частью на инвестиции. Когда прибыль увеличивается, дивиденды тоже растут, но не в той же пропорции (это объясняется желанием руководства фирмы в любом случае не уменьшать дивиденды, т.к. это ударяет по репутации фирмы). В модели предполагается, что фактическое приращение зависимой переменной пропорционально разнице между её желаемым уровнем и значением в предыдущий период: (37) (νt – случайный член). Это выражение можно переписать так: , (38) т.е. в форме взвешенного среднего. Чем больше λ, тем быстрее идет корректировка. При λ =1 полная корректировка происходит за один период. При λ =0 корректировка не происходит совсем. Подставим (36) в (38), получим: (39) Это и есть модель частичной корректировки, которая также является моделью авторегрессии. Несколько слов об оценке параметров уравнений авторегрессии. Рассмотрим уравнение: (40) Во всех рассмотренных выше моделях стоит проблема оценивания параметров. Обычный МНК чаще всего даёт смещенные и несостоятельные оценки, вследствие автокорреляции между случайными отклонениями εt и εt-1 и корреляции между yt-1 и εt. Один из возможных методов расчета параметров – метод инструментальных переменных, состоящий в замене yt-1 на новую переменную, которая тесно коррелирует с yt-1, но не коррелирует с остатками. Это можно сделать двумя способами. 1. Провести регрессию , (41) или и подставить в уравнение авторегрессии, получаем: , (42) и далее применяем обычный МНК. 2. Подставим (41) в (40), получим модель с распределенным лагом: , (43) для которой не нарушаются предпосылки обычного МНК. Список учебной литературы 1. Эконометрика: Учебник /Под ред. И.И. Елисеевой/ - М.: Финансы и статистика, 2001. – 344с. 2. Практикум по эконометрике: Учебное пособие / И.И. Елисеева и др./ - М.: Финансы и статистика, 2001. – 192с. 3. Бородич С.А. Эконометрика: Учебное пособие. – М.: Новое издание. 2001. – 408с. 4. Магнус Я.Р., Катышев П.К., Пересецкий А.А., Эконометрика. Начальный курс. Учебное пособие. – М.: Дело, 1998. – 248с. 5. Доугерти К. Введение в эконометрику. – М.: ИНФРА-М, 1997. – 402с. 6. Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая статистика. – М.: ЮНИТИ, 2003. – 352с. 7. Айвазян С.А., Мхитарян В.С. Теория вероятностей и прикладная статистика – М.: ЮНИТИ - ДАНА, 2001. – 656с. 8. Айвазян С.А. Основы эконометрики. – М.: ЮНИТИ - ДАНА, 2001. –432с.

Рекомендованные лекции

Смотреть все
Эконометрика

Эконометрика.Продвинутый уровень.

Кто владеет информацией – тот владеет миром У. Черчилль Эконометрика Эконометрика (продвинутый уровень) НИУ ВШЭ Ратникова Т.А. 2018 1 Что такое эконом...

Автор лекции

Ратникова Т.А.

Авторы

Эконометрика

Предмет и задачи. Определение эконометрики.Области применения эконометрических моделей.

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ КАФЕДРА «БУХГАЛТЕРСКИЙ УЧЕТ, АНАЛИЗ И АУДИТ» Конспект лекций по ...

Автор лекции

Коновалова А. С.

Авторы

Эконометрика

Методы построения общей линейной статистической модели (ОЛСМ)

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Факультет прикладной математики и информатики Кафедра математического моделирования и анализа данных В. И. МАЛ...

Автор лекции

Малюгин В.И.

Авторы

Эконометрика

Классическая линейная регрессия

Классическая линейная регрессия План лекции        Понятие регрессии Классическая линейная регрессионная модель Метод наименьших квадратов (МНК...

Автор лекции

Ратникова Т.А.

Авторы

Эконометрика

Эконометрическое моделирование. Предпосылки метода наименьших квадратов

Московская финансово-промышленная академия     Кафедра Математических методов принятия решений         Копнова Е.Д.               Интернет-курс по дис...

Автор лекции

Копнова Е. Д.

Авторы

Эконометрика

Эконометрическое моделирование. Основные понятия и определения эконометрики

Эконометрика Кисляк Н. В. ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования «Ураль...

Автор лекции

Кисляк Н. В.

Авторы

Эконометрика

Эконометрическое моделирование. Регрессия. Гетероскедастичность.

Эконометрика Кисляк Н. В. ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования «Ураль...

Автор лекции

Кисляк Н. В.

Авторы

Эконометрика

Эконометрика, ее задача и метод

Внимание! Данная презентация не является полным конспектом лекции по теме 1. Это лишь основа, регулирующая ход проведения занятия. Для получения полно...

Автор лекции

Бакушева Г. В.

Авторы

Эконометрика

Эконометрика

ЛЕКЦИИ ПО ДИСЦИПЛИНЕ «ЭКОНОМЕТРИКА» (ЗАОЧНОЕ ОТДЕЛЕНИЕ) Тема 1. Основные понятия, предмет, методы и задачи эконометрики 1. Определение эконометрики Вп...

Эконометрика

Эконометрика

ВВЕДЕНИЕ Эконометрика – одна из базовых дисциплин экономического образования во всем мире наряду с микро- и макроэкономикой. В России эта дисциплина н...

Автор лекции

Айвазян С. А., Мхитарян В. С.

Авторы

Смотреть все