Справочник от Автор24
Поделись лекцией за скидку на Автор24

Статистические методы анализа и прогнозирования

  • ⌛ 2016 год
  • 👀 508 просмотров
  • 📌 485 загрузок
  • 🏢️ СФУ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Статистические методы анализа и прогнозирования» pdf
Министерство образования и науки РФ Федеральное государственное автономное образовательное учреждение высшего образования «СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Е.В. Зандер, Н.М. Ибрагимов СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА И ПРОГНОЗИРОВАНИЯ Учебное пособие СФУ 2016 Модуль 2 Основы эконометрики Тема 2.1. Методологические основы курса Лекция 2.1.1. Предмет эконометрики. Классы эконометрических моделей. Основные этапы эконометрического моделирования В повседневной жизни, бизнесе, иной профессиональной деятельности, научных исследованиях нам приходится принимать решения в неопределенных, связанных со многими случайностями ситуациях. При этом решения должны приниматься на основе тщательного анализа имеющейся информации, быть обоснованными и доказуемыми. Для решения подобных задач существует достаточно мощный набор методов анализа данных, основанных на аппарате математической статистики. Эконометрика же как наука расположена между экономикой, статистикой и математикой. Предмет эконометрики определяется как исследование и установление количественных закономерностей и количественных взаимозависимостей в экономической жизни при помощи математических и математико-статистических методов. На процессы в экономике оказывает влияние множество факторов, причем некоторые из них являются существенными, а влияние других случайно. Для выявления существенности воздействия необходимо проанализировать большую группу наблюдений, при этом случайные воздействия несущественных факторов гасятся, и обнаруживается общая для всей совокупности закономерность. Приведем ряд примеров применения методов анализа данных. 1. Предположим, было внедрено важное нововведение — изменена система оплаты труда, освоен выпуск нового вида продукции, введена новая технология и др. Является ли полученный в производстве эффект результатом нововведения или определяется естественной случайностью и уже завтра может быть получен прямо противоположный эффект? Статистические критерии 3 сравнения двух выборок покажут, случайны или неслучайны различия двух рядов чисел. 2. Предположим, для заключения коммерческой сделки необходимо знать поведение некоторого временного ряда — курса доллара, цен и спроса на продукцию или сырье и др. Для такого временного ряда строят регрессионное уравнение, включая в него набор существенных факторов (проверив существенность этого влияния), затем осуществляют прогноз и указывают его точность. 3. Для того, чтобы в технологическом процессе систематически контролировать его состояние и вовремя вмешаться при отклонениях от нормального режима, предотвратить выпуск некачественной продукции. Для этого используются статистические методы контроля качества (строятся контрольные карты изменения показателей качества с зоной допустимых пределов изменений и др.). 4. Например, необходимо определить надежность клиента, претендующего на кредит в банке. Для этого используются методы классификации объектов по некоторому набору показателей (размер основных фондов, валюта баланса, вид деятельности, объем реализации и др.). Имеющиеся объекты удается собрать в несколько групп (кластеров), и тогда можно будет увидеть, принадлежит ли запрашивающая кредит фирма к группе неплательщиков. По этим примерам можно видеть, что сфера применения эконометрических моделей обширна: производство, бизнес, финансы, инвестиционная сфера и др. Возможно построение эконометрических моделей разных уровней: отдельного предприятия, отрасли, региона и даже отдельной страны. К сожалению, статистические закономерности обладают относительной устойчивостью, которая определяется стабильностью условий, 4 при которых она сформировалась. Значительные изменения в условиях повлекут за собой изменение самой статистической закономерности. Можно выделить три основных класса моделей, которые используются для анализа и прогноза. Модели временных рядов. К этому классу относятся модели: — тренда: y (t) = T (t) + εt , где T (t) — временной ряд заданного параметрического вида (например, линейный T (t) = a + bt), εt — случайная (стохастическая) компонента; — сезонности: y (t) = S (t) + εt , где S(t) — периодическая (сезонная) компонента, εt — случайная (стохастическая) компонента; — тренда и сезонности: y (t) = T (t) + S (t) + εt (аддитивная), y (t) = T (t) · S (t) + εt (мультипликативная); где T (t) — временной тренд заданного параметрического вида, S (t) — периодическая (сезонная) компонента, εt — случайная (стохастическая) компонента. К моделям временных рядов относится множество более сложных моделей, таких как модели адаптивного прогноза, модели авторегрессии, скользящего среднего и др. Общей чертой этих моделей является то, что они объясняют поведение временного ряда, исходя только из его предыдущих значений. Регрессионные модели. В таких моделях зависимая (объясняемая) переменная y представляется в виде функции f (x, β) = f (x1 , . . . , xk , β1 , . . . , βp ), где x1 , . . . , xk — независимые (объясняющие) переменные, а β1 , . . . , βp — параметры. 5 В зависимости от вида функции f (x, β) модели делятся на линейные и нелинейные. Область применения таких моделей значительно шире, чем моделей временных рядов. Поэтому данная тема является основной в эконометрике. Системы одновременных уравнений. Эти модели описываются системами уравнений. Системы могут состоять из тождеств и регрессионных уравнений, каждое из которых может, кроме объясняющих переменных, включать в себя также объясняемые переменные из других уравнений системы. Таким образом, мы имеем здесь набор объясняемых переменных, связанных через уравнения системы. Пример — модель спроса и предложения (см. пример 1, С. 90 ). При моделировании экономических процессов встречаются два типа данных: пространственные данные и временные ряды. Примером пространственных данных являются объемы производства, количество работников и др. по разным фирмам в один и тот же момент времени. Примерами временных данных являются ежемесячные данные по средней заработной плате, ежедневный курс доллара и др. Отличительной чертой временных данных является то, что они естественным образом упорядочены во времени. Кроме того, наблюдения в близкие моменты времени часто бывают зависимыми. Этапы эконометрического моделирования К основным этапам эконометрического моделирования относятся: 1. изучение объекта, 2. сбор и предварительная обработка информации, 3. построение модели, 4. статистический анализ модели, 5. проверка модели на адекватность, 6. практическое использование модели. 6 Первый этап включает качественный анализ объектов, изучение взаимосвязей отдельных показателей, определение конечных целей моделирования. Анализ опирается на теоретические представления о процессе функционирования данного объекта. Результатом первого этапа является формирование концепции эконометрической модели. Основной целью второго этапа является предварительная обработка полученных данных, которая заключается в статистическом описании выборки методами математической статистики. Проверяются гипотезы относительно однородности выборок, независимости наблюдений и стационарности исследуемых процессов. Выясняют причины возникновения аномальных наблюдений и возможность их отсечения без нанесения содержательного вреда модели, восстанавливаются пропуски в данных. Осуществляется проверка соответствия распределения результатов измерения закону нормального распределения. Если эта гипотеза неприемлема, то определяют, какому закону подчиняется распределение данных и возможно ли преобразование данного распределения к нормальному. Задача третьего этапа заключается в определении общего вида модельных соотношений. Устанавливается общий вид модельных соотношений, связывающих входные и выходные показатели, формируют структуру модели и ее символическую запись. На данном этапе существенное значение имеет использование корреляционного анализа, который дает возможность установить наличие и тесноту взаимосвязи количественных случайных величин. На четвертом этапе по выборочным данным проводят статистическое оценивание неизвестных параметров модели. Здесь используются процедуры регрессионного анализа и анализа временных рядов, которые позволяют представить зависимости в аналитическом виде. Конечным результатом данного этапа является эконометрическая модель. Пятый этап заключается в проверке построенной модели на адекватность, которая осуществляется путем сравнения реальных результатов и результатов, полученных с помощью данной модели. Последний (шестой) этап связан с практическим использованием полученной модели. 7 Для анализа данных применяются также такие методы, которые относятся к разряду специальных — это методы оптимального планирования эксперимента, ковариационный анализ, модели с использованием цепей Маркова и др. 8 Лекция 2.1.2. Основные этапы предварительной обработки данных Предварительная обработка результатов измерений необходима для того, чтобы в дальнейшем с наибольшей эффективностью и корректно использовать для построения эмпирических зависимостей статистические методы. К основным этапам предварительной обработки статистических данных относятся: а) вычисление выборочных характеристик; б) отсев грубых погрешностей; в) проверка нормальности распределения; г) преобразование распределения к нормальному (если требуется). Рассмотрим, каким образом осуществляются эти процедуры. а) Вычисление выборочных характеристик Наиболее часто употребляемыми характеристиками случайной величины (и соответствующего распределения вероятностей) служат моменты и квантили. Пусть имеется ограниченный ряд наблюдений x1 , . . . , xn случайной величины ξ. Среднее значение наблюдаемого признака можно определить по формуле n 1X x= xi . n i=1 Далее вычисляется дисперсия или второй центральный момент эмпирического распределения n 1X (xi − x)2 , S = n i=1 2 причем S 2 = m2 . В случае одномерного эмпирического распределения произвольным моментом порядка k называется сумма k-ых степеней отклонений результатов наблюдений от произвольного числа с, 9 деленная на объем выборки n: n 1X mk = (xi − c)k , n i=1 где k может принимать любые значения натурального ряда чисел. Если c = 0, то момент называют начальным. Начальным моментом первого порядка является выборочное среднее x. При c = x момент называют центральным. Первый центральный момент n 1X m1 = (xi − x) = 0. n i=1 Второй центральный момент n 1X m1 = (xi − x)2 . n i=1 представляет собой дисперсию S 2 эмпирического распределения. Однако в статистике чаще в качестве выборочной дисперсии используют n 1 X 2 (xi − x)2 , s = n − 1 i=1 поскольку математическое ожидание величины s2 равно дисперсии. Из других моментов чаще всего используют центральные моменты третьего и четвертого порядка. Если необходимо, чтобы показатель разброса случайной величины выражался в тех же единицах, что и значение этой случайной величины, то используют величину выборочного сред√ неквадратического отклонения S = S 2 . Выборочное значение коэффициента вариации v, являющееся мерой относительной изменчивости наблюдаемой случайной величины, вычисляют по формуле v= S . x Коэффициент вариации может быть выражен и в процентах: v= S · 100%. x 10 Коэффициент вариации имеет смысл абсолютной меры рассеяния, который применяется для сравнения меры рассеяния в разных числовых совокупностях, поскольку остальные рассмотренные меры рассеяния измеряются в тех же единицах, что и сами признаки. Выборочной квантилью называется решение уравнения Fn (x) = p, в частности, выборочная медиана есть решение уравнения Fn (x) = 0, 5. Содержательно медиана — срединное (центральное) значение в упорядоченном ряду значений признака, или величина, обладающая тем свойством, что число единиц совокупности с большими значениями признака и число единиц с меньшими значениями его одинаково. Применительно к кривой распределения медиану можно определить как такое значение признака на оси абсцисс, что ордината, проходящая через него, делит площадь кривой на две равные части. Однако это определение не всегда однозначно. Если имеется нечетное число различных наблюдений, например 2n+1, то n+1-е значение по порядку нарастания значения будет единственным, отвечающим понятию медианы. Если же число наблюдений 2n, то любое число между n-м и n + 1-м значением удовлетворяет нашему требованию. В таких случаях за медиану принимают среднюю арифметическую из n-го и n + 1-го значения. Мода — значение признака, которое соответствует максимальной точке теоретической кривой, наилучше подобранной к действительному распределению. Она представляет наиболее часто встречающееся или типичное значение. В симметричном распределении среднее арифметическое, мода и медиана равны. Для умеренно асимметричных распределений существует соотношение Xмода = X − 3 (X − Xмедиана ). 11 Все виды средних характеризуют уровень числовой совокупности, т. е. то значение признака, вокруг которого концентрируются прочие значения. К характеристикам меры рассеяния (амплитуды рассеяния) относятся уже перечисленные дисперсия, среднеквадратическое отклонение и коэффициент вариации. Сюда также относится простейшая мера рассеяния — вариационный размах R = Xmax − Xmin . б) Отсев грубых погрешностей. Для практического использования целесообразно использовать простейшие методы отсева грубых погрешностей. Например, для выборок небольшого объема (n 6 25) можно воспользоваться методом вычисления максимального относительного отклонения: |xi − x| 6 tα, n , S где xi — крайний (наибольший или наименьший) элемент выборки, по которой подсчитывались x и S; tα, n — табличное значение статистики t, вычисленной при доверительной вероятности p = 1 − α. Таким образом, для выделения аномального значения вычисляют |xi − x| , t= S которое затем сравнивают с табличным значением tα, n : если t 6 tα, n , то наблюдение не отсеивают, в противном случае наблюдение отсеивают, — после чего характеристики эмпирического распределения пересчитывают по данным сокращенной выборки. Для больших выборок отсев грубых погрешностей проводят с использованием таблиц распределения Стьюдента1 . 1 Стьюдент (англ. Student) — псевдоним английского математика и статистика Уи́льяма Си́ли Го́ссета (англ. William Sealy Gosset; 1876—1937). 12 в) Проверка распределения на нормальность. Если большое число значений количественного признака зарегистрировано в той последовательности, в какой они встретились в действительности, то трудно охватить подлинный смысл наблюденного. Для того, чтобы выявить характерные черты явления, нужно сжато выразить данные, для чего и служат группировка и анализ распределения численностей. Разбиение на классы проводится либо по правилу Штюргеса, когда число классов k определяется как k = 1 + 3, 32 lg n, либо число классов определяется произвольно, причем тогда при выборе интервала руководствуются двумя условиями: 1) возможностью без большой ошибки приравнять все значения признака, отнесенные к какой-либо группе, срединному значению интервала; 2) для удобства и краткости делать интервал достаточно большим. Поскольку эти два условия противоречивы, то в каждом случае интервал выбирается в зависимости от количества наблюдений, но не более 25. Интервал, выбранный для группировки, называется групповым интервалом, а численность в пределах отдельного интервала — численностью группы. После группировки данных их можно представить в виде полигона (многоугольника, стороны которого являются отрезками, соединяющими центры интервалов на вертикальных отрезках) численностей или гистограммы (столбчатой диаграммы). Графическое представление позволяет примерно представить характер распределения числовых данных. Поскольку для целей эконометрического моделирования желательно, чтобы это распределение приближенно соответствовало нормальному закону. К преимуществам нормального распределения относят следующие: 13 — нормальное распределение полностью определяется величинами µ и σ, причем математическое ожидание определяет положение кривой относительно оси абсцисс, а среднеквадратическое отклонение определяет форму кривой (чем больше σ, тем кривая становится более пологой, основание более широким); — кривая нормального распределения симметрична относительно среднего значения; — очень большие и очень малые значения переменной маловероятны; — примерно 2/3 всех наблюдений лежит в площади, отсекаемой перпендикулярами к оси (µ ± σ). Для нормального распределения мода, среднее и медиана совпадают. Некоторое представление о близости эмпирического распределения к нормальному может дать анализ показателей асимметрии и эксцесса. Показатель асимметрии определяется по формуле g1 = m3 3/2 . m2 Для симметричных распределений m3 = 0 и g1 = 0. Для нормального распределения m4 = 3. m22 Для удобства сравнения эмпирического распределения и нормального в качестве показателя эксцесса принимают величину g2 = m4 − 3. m22 г) Преобразование распределения к нормальному. Если выяснено, что гипотеза нормальности распределения не может быть принята, то возможно преобразование исходных 14 данных таким образом, что их распределение будет подчиняться нормальному закону. Причем, после получения окончательного результата надо выполнить обратное преобразование. Для распределений, имеющих крутую правую ветвь гистограммы и пологую левую, выполняются преобразования матрицы исходных данных по формулам: x0 = lg(x ± a) · 10b , 1 x0 = , x 1 x0 = √ . x Для распределений, смещенных влево, матрицу исходных данных преобразуют по формуле x0 = xa (при a = 1, 5; 2). 15 Тема 2.2. Корреляционный анализ Лекция 2.2.1. Основные понятия. Двумерная корреляционная модель Корреляционный анализ (корреляционная модель) — метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону. Две случайные величины являются корреляционно связанными, если математическое ожидание одной из них меняется в зависимости от изменения другой. Корреляционный анализ позволяет количественно оценивать связи между большим числом взаимодействующих явлений, ряд из которых неизвестен. Его применение делает возможным проверку различных гипотез о наличии и силе связи между явлениями, а также гипотезы о форме связи. Рассмотрим две случайные величины X и Y . Общую картину их взаимосвязи дает изображение точек выборки (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) на координатной плоскости, которое называется корреляционным полем. Мерой линейной статистической связи двух случайных величин, имеющих нормальное распределение, является коэффициент парной корреляции. Выборочный коэффициент корреляции определяется по формуле n P rxy = s (xi − x)(yi − y) i=1 n P (xi − i=1 = x)2 · n P (yi − y)2 xy − x · y . σx · σy i=1 где n — объем выборки, i — индекс наблюдения в выборке, xi , yi — наблюдения над случайными величинами X и Y , x и y — выборочные средние случайных величин X и Y , σx и σy — среднеквадратичные отклонения случайных величин X и Y , xy — выборочное среднее произведения случайных величины X и Y . 16 Парный коэффициент корреляции характеризует степень приближения статистической связи к функциональной. В двумерном случае он отражает взаимосвязь случайных величин и не зависит от того, какая из величин X или Y является причиной, а какая — следствием, т. е. rxy = ryx . Величина коэффициента корреляции лежит в интервале от −1 до 1, причем значение |r| = 1 свидетельствует о чисто функциональной линейной зависимости между переменными, соотношение r = 0 — об их полной взаимной независимости. Положительный коэффициент корреляции свидетельствует о прямой связи величин, т. е. с ростом X увеличивается Y . Отрицательный коэффициент корреляции говорит об обратной зависимости. Для того, чтобы коэффициент корреляции действительно свидетельствовал о наличии причинной взаимообусловленности между X и Y , необходимо выполнение требования их совместного нормального распределения , а также отсутствие в выборочных данных аномальных наблюдений. Однако, даже несмотря на выполнение этих требований, возможны ситуации, когда r не отражает реальной связи. Например, это происходит, когда на исследуемые переменные значимо воздействует некий третий, не учтенный при исследовании фактор. При этом подсчеты приводят к положительному значению коэффициента корреляции, тогда как истинная связь между исследуемыми переменными имеет отрицательный смысл. Такая корреляция называется «ложной». В практических исследованиях о тесноте корреляционной зависимости судят фактически не по величине генерального коэффициента корреляции, а по величине его выборочного аналога r. Обычно же исходная статистическая информация представляет собой выборочные данные (случайно попавшие в выборку из генеральной совокупности), поэтому необходимо проверить надежность, статистическую значимость полученных по ним коэффициентов корреляции. Надежность коэффициентов корреляции ослабевает с уменьшением числа наблюдений. При 4— 5 наблюдениях коэффициент корреляции, равный 0,6—0,7, может быть статистически незначим, т. е. отражать не действительную зависимость 17 между явлениями, а случайные колебания выборки. В этом случае формируются две гипотезы: об отсутствии линейной корреляционной связи между переменными в генеральной совокупности H0 , т. е. r = 0; если же в процессе проверки гипотеза H0 будет отвергнута, то делается вывод о значимости (существенности, достоверности) коэффициента корреляции r, т. е. принимается гипотеза H1 : r 6= 0. Правило, по которому гипотеза H0 принимается или отвергается, называется статистическим критерием. При справедливости гипотезы H0 статистика критерия √ |r| n − 2 t= √ 1 − r2 имеет t-распределение Стьюдента с (n − 2) степенями свободы. Поэтому гипотеза H0 отвергается, т. е. выборочный коэффициент корреляции значимо отличается от нуля, если: tрасч > tα, n−2 , где tα, n−2 — табличное значение критерия Стьюдента, определенное на уровне значимости α при числе степеней свободы (n − 2). Для значимого коэффициента корреляции r целесообразно найти доверительный интервал (интервальную оценку), которая с заданной надежностью p = 1 − α содержит (точнее, «накрывает») неизвестный коэффициент корреляции генеральной совокупности ρ. Доверительный интервал строится из нормальной распределенности r. Концы интервала можно вычислить по приближенной формуле 1 − r2 ρ = r ± uα, n √ . n Здесь uα, n — критическая точка стандартного нормального распределения, соответствующая уровню значимости α; n — объем выборки. Для малой выборки (n < 25) границы доверительного интервала для ρ рассчитывают по формуле 1 − r2 ρ = r ± tα, ν √ , n−2 18 где tα, ν — критическая точка распределения Стьюдента при уровне значимости α и числе степеней свободы ν = n − 2. При отклонениях исследуемой зависимости от линейного вида коэффициент корреляции r теряет свой смысл как характеристика степени тесноты связи. В случае нелинейной зависимости тесноту связи между величинами оценивают по величине корреляционного отношения. Величина v u n P u (yi − ybi )2 u u ηyx = u1 − i=1 , n P t 2 (yi − y) i=1 где ybi = f (xi ) — результат вычислений на основе уравнения парной регрессии, получила название эмпирического корреляционного отношения Y по X. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость X по сравнению с неучтенными факторами, тем выше ηyx . 2 , называемая коэффициентом детерминации, покаВеличина ηyx зывает, какая часть общей вариации Y обусловлена вариацией X. Аналогичным образом вводится эмпирическое корреляционное отношение X по Y : v u n P u (xi − xbi )2 u u ηxy = u1 − i=1 n P t (xi − x)2 i=1 где xbi = f (yi ) — результат вычислений на основе уравнения парной регрессии, Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки n). 1. Корреляционное отношение есть неотрицательная величина, не превосходящая 1: 0 6 η 6 1. 2. Если η = 0, то корреляционная связь отсутствует. 3. Если η = 1, то между переменными существует функциональная зависимость. 19 4. ηyx 6= ηxy , т. е. в отличие от коэффициента корреляции r при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую — зависимой. Проверка значимости корреляционного отношения основана на том, что статистика F = η 2 (n − m) (1 − η 2 )(m − 1) (здесь m — число интервалов по группировочному признаку) имеет известное в теории F -распределение Фишера2 — Снедекора3 с f1 = m − 1 и f2 = n − m степенями свободы. Поэтому η значимо отличается от нуля, если F > Fα; f1 ; f2 , где Fα; f 1; f 2 — табличное значение F -критерия на уровне значимости α при числе степеней свободы f1 = m−1 и f2 = n−m. 2 Сэр Рональд Эйлмер Фишер (англ. Sir Ronald Aylmer Fisher; 1890—1962) — английский статистик и биолог. 3 Джордж Уо́ддел Снедеко́р (англ. George Waddel Snedecor); 1881—1974) — американский математик и статистик. 20 Лекция 2.2.2. Многомерный корреляционный анализ. Множественный и частный коэффициенты корреляции Экономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных. Пусть имеется совокупность X1 , X2 , . . . , Xi , . . . , Xj , . . . , Xp , имеющих распределение. В этом случае матрицу  1 r12 r13 . . .   r21 1 r23 . . .  Q=  r31 r32 1 . . .   ... ... ... ... rp1 rp2 . . . . . . случайных совместное переменных нормальное  r1p  r2p   r3p    ...  1 составленную из парных коэффициентов корреляции rij (i, j = 1, 2, . . . , p), определяемых ранее по формуле, будем называть корреляционной. На основе корреляционной матрицы анализируется связь между переменными, причем анализ взаимосвязи проводится только по тем парным коэффициентам корреляции, которые являются значимыми. Теснота линейной взаимосвязи одной переменной Xi с совокупностью других (p − 1) переменных Xj , рассматриваемой в целом, измеряется с помощью выборочного коэффициента множественной корреляции Ri (i = 1, p), который является обобщением парного коэффициента корреляции rij и вычисляется по формуле s Q Ri = 1 − , Qii где Q — определитель корреляционной матрицы, Qii — алгебраическое дополнение корреляционной матрицы. Коэффициент множественной корреляции заключен в пределах 0 6 R 6 1. 21 Он не меньше, чем абсолютная величина любого парного или частного коэффициента с таким же первичным индексом. С помощью множественного коэффициента (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не ее направлении. Величина R2 , называемая выборочным множественным коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных. Коэффициент множественной корреляции значимо отличается от нуля, если значение статистики F > Fα; f1 ; f2 , где F рассчитывается по формуле R2 (n − p) , F = (1 − R2 )(p − 1) где n — объем выборки; p — количество переменных, включенных в уравнение регрессии; Fα; f1 ; f2 — табличное значение F -критерия на уровне значимости α при числе степеней свободы f1 = p − 1 и f2 = n − p. Если переменные коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении влияния одной или нескольких других переменных. Выборочным частным коэффициентом корреляции между переменными Xi и Xj при фиксированных значениях остальных (p − 2) переменных называется выражение: −Qij rij, 1...p = p , Qii · Qij где Qij , Qii и Qjj — алгебраические дополнения соответствующих элементов матрицы парных коэффициентов корреляции. Частный коэффициент корреляции показывает тесноту связи двух факторов Xi и Xj , когда влияние остальных факторов исключается. Величина частного коэффициента корреляции изменяется в пределах от −1 до +1 и интерпретируется аналогично коэффициенту парной корреляции. Проверка значимости частного коэффициента корреляции проводится так же, как парного коэффициента корреляции, только (n − 2) при 22 этом заменяется на (n − p), т. е. вычисляется статистика Стьюдента √ |rij | n − p t= q 1 − rij2 где n — количество наблюдений; p — количество факторов, задействованных в расчете коэффициента. Коэффициент частной корреляции считается значимым, если t > tν, α , причем значение tν, α определяется по таблицам распределения Стьюдента: α — уровень значимости, ν = n − p — число степеней свободы. Незначимость коэффициента частной корреляции может быть обусловлена либо отсутствием взаимосвязи признаков, либо малым объемом выборки. 23 Лекция 2.2.3. Ранговая корреляция При изучении неколичественных признаков или количественных признаков с непрерывными и неизвестными законами распределения классические подходы корреляционного анализа либо не применены либо не эффективны. Для изучения тесноты связи в этих случаях применяются методы непараметрической статистики, среди которых наиболее распространены методы ранговой корреляции. Рассмотрим вариационный ряд для признака x: x1 ≤ x2 ≤ . . . ≤ xj ≤ . . . ≤ xn . Напомним, что рангом наблюдаемого значения xj признака x называется номер этого наблюдения в вариационном ряду (т. е. R (xj ) = j) при условии, что неравенства — строгие. Если же в вариационном ряду встречаются одинаковые члены, то в качестве одинаковых (связных) рангов берется средняя арифметическая соответствующих номеров. Например, суммы баллов, набранных студентами за выполнение двух контрольных заданий, были следующими: 5, 10, 8, 7, 9, 10, 5, 5. Вариационный ряд имеет вид 5, 5, 5, 7, 8, 9, 10, 10. Ранг трех студентов, попавших в начало ряда, равен (1+2+3)/3 = 2 или R (5) = 2. Далее R (7) = 4, R (8) = 5, , R (9) = 8, R (10) = (9 + 10)/2 = 9, 5. Очевидно, ранги могут быть не обязательно натуральными числами. Для измерения связей между признаками, значения которых можно упорядочить по степени проявления ими анализируемых свойств, применяются коэффициенты ранговой корреляции. Изучим сначала парную связь, т. е. связь между двумя признаками x и y. Пусть имеется выборка объема n из непрерывно распределенной двумерной генеральной совокупности (x, y): (x1 , y1 ), . . . , (xn , yn ). 24 При изучении связи между x и y, можно предполагать, что выборка упорядочена по x, тогда такой выборке соответствует следующая матрица (подстановка) ! 1 2 ... i ... n , R (1) R (2) . . . R (i) . . . R (n) в которой первая строка состоит из рангов наблюдений x, а вторая — из рангов y. Вместо изучения связи между x и y с помощью (количественных) значений x и y будем исследовать эту связь, используя соответствующие ранги. Очевидно, что жесткой (функциональной) положительной связи между x и y соответствует подстановка ! 1 2 ... i ... n ; 1 2 ... i ... n жесткой отрицательной связи — подстановка ! 1 2 ... n . n n − 1 ... 1 Для измерения степени сходства между перестановками (1, 2, . . . , n) и (R (1), R (2), . . . , R (n)), степени связи между x и y назовем инверсией (беспорядком) между элементами перестановки R (i) и R (j) (второй строки подстановки), если R (i) стоит левее R (j) и больше R (j). Если же при том же условии R (i) меньше R (j), то говорят, что элементы R (i) и R (j) инверсии не образуют или образуют порядок. В качестве меры связи берут разность между суммами чисел порядков N и чисел беспорядков Q, образованных элементами второй строки подстановки. Руководствуясь комбинаторными подсчетами, можно определить вероятности перестановок с заданной мерой связи. Так, например, для подстановок из четырех элементов рассмотрим расчетную таблицу 1. 25 Таблица 1 Число порядков N Число инверсий Q Мера сходства Sk Подстановки Вероятность 6 −6 4321 1/24 1 5 −4 3421, 4231, 4322 3/24 2 4 −2 3412, 4132, 4213, 2431, 3241 5/24 3 3 3214, 2413, 4123, 3142, 1432, 2341 6/24 4 2 2 2143, 1423, 2314, 3124, 1342 5/24 5 1 4 2134, 1324, 1243 3/24 6 6 1234 1/24 Нетрудно заметить (и доказать для общего случая), что сумма числа порядков N и инверсий Q равна сумме номеров перестановки, т. е. n(n + 1) 1 + 2 + ... + n = ; 2 распределение вероятностей симметрично относительно центра Sk , равного нулю; если сумма номеров четна, то всевозможные значения меры Sk четны (если же n(n + 2)/2 — нечетное число, то все Sk — нечетные числа). Из сказанного следует, что таблицы для решения задач проверки гипотез относительно меры сходства (или связи) можно давать для неотрицательных значений Sk (четных или нечетных). Коэффициент ранговой корреляции Кендалла определяется путем нормирования случайной величины Sk , т. е. деления на n(n − 1)/2: 4Q 4N 2Sk =1− = − 1. rk = n(n − 1) n(n − 1) n(n − 1) Он, очевидно, изменяется в пределах от −1 до +1, которые отвечают самым жестким значениям меры сходства — отрицательной и положительной связи между x и y. Нуль соответствует отсутствию связи между признаками в генеральной совокупности. Как обычный парный коэффициент корреляции rxy (ρxy ), коэффициент корреляции Кендалла не является абсолютным измерителем связи (если он равен нулю, то x и y могут оказаться зависимыми). При больших объемах n выборки и независимости x и y можно использовать нормальный закон распределения rk с параметрами 2(2n + 5) . M rk = 0 и Drk = 9n(n − 1) 26 Другой коэффициент ранговой корреляции, предложенный Спирменом, использует меру сходства с учетом весов рангов: 6SС rС = 1 − 3 , n −n SС = n X (R (i) − i)2 . i=1 Этот коэффициент можно получить по формуле парного коэффициента корреляции rxy для выборки (i, R (i)), i = 1, n. При больших объемах n выборки и независимости x и y коэффициент ранговой корреляции Спирмена подчиняется нормальному закону распределения с параметрами M rС = 0 и DrС = 1 . (n − 1) В теории доказывается, что случайные величины rС приблизительно в полтора раза больше rk при больших n, если только их квадраты не слишком близки к единице. При изучении связей между числом признаков, измеряемых в порядковой шкале, число которых больше двух, применяют меру сходства (согласия) соответствующего числа ранжировок (перестановок). Мера является суммой квадратов отклонений сумм рангов наблюдений (объектов) от их общего среднего ранга:  n 2 P Si n n X X i=1 (Si − S)2 = SW = Si2 − , n i=1 i=1 n P S= Si i=1 , n k X Si = Rij , j=1 где Rij — ранг i-го наблюдения по j-му признаку, i = 1, n, j = 1, k. В качестве показателя согласованности определяется коэффициент конкордации Кендалла, вычисляемый по формуле W = 12SW . k 2 (n3 − n) 27 Этот коэффициент может изменяться от нуля (абсолютная несогласованность) до единицы (полное совпадение всех ранжировок), что легко проверяется. Доказано, что при отсутствии связи между k признаками при больших значениях n (n > 7) случайные величины k(n − 1)W = 12SW kn(n + 1) приближенно распределены как χ2 с числом степеней свободы ν = n − 1. При k = 2 получается следующее соотношение между W и rС : 1 W = (rС + 1). 2 При малых значениях n и k существуют таблицы распределения Sk , SС и SW , пригодные для проверки гипотезы независимости признаков. Таблицы 2 и 3 составлены для случая, когда αl = P (|S| ≥ Sl ), n = 10, где l есть k или С. Таблица 2 Sk 17 19 21 23 25 27 29 31 αk 0, 156 0, 108 0, 072 0, 046 0, 028 0, 017 0, 009 0, 005 Таблица 3 SС 248 258 268 278 288 298 308 αС 0, 144 0, 096 0, 060 0, 034 0, 017 0, 007 0, 002 Таблица 4 отражает случай n = 5, k = 3, α = P (|S| ≥ SW ). Таблица 4 SW αW 50 56 60 62 66 74 78 82 86 0, 163 0, 096 0, 063 0, 056 0, 038 0, 015 0, 005 0, 003 0, 0006 28 При наличии неразличимых объектов по признакам (связных рангах) способы и формулы вычисления несколько меняются. Для вычисления коэффициента ранговой корреляции Кендалла и других удобно рассматривать таблицу сопряженности признаков x и y, значения которых можно упорядочить (см. табл. 5). Таблица 5 XY 1 ... j ... b ni∗ 1 .. . n11 . . . n1j . . . n1b n1∗ .. . . .. . . . . .. . . . .. . i .. . ni1 . . . nij . . . nib ni∗ .. . . .. . . . . .. . . . .. . a na1 . . . naj . . . nab na∗ n∗j n∗1 . . . n∗j . . . n∗b n∗∗ В приведенной таблице nij — число (частота) объектов, наблюдений, имеющих i-й уровень (ранг) по признаку x и j-й уровень (ранг) по признаку y; b P ni∗ = nij — число объектов, имеющих i-й уровень по j=1 n∗j = b P признаку x; nij — число объектов, имеющих j-й уровень по j=1 n∗∗ = b a P P признаку y; nij = n — общее число объектов (объем выборки). i=1 j=1 Заметим, что n∗∗ = a X b X i=1 j=1 nij = a X ni∗ = i=1 b X j=1 Вычисляются следующие величины: ! a b a P b P PP PP A= nij nkl , B = nij T1 = i=1 j=1 a 1P k>i l>j ni∗ (ni∗ − 1), 2 i=1 b 1P T2 = n∗j (n∗j − 1), 2 j=1 n∗j . i=1 j=1 Aij = PP ! PP nkl + k>i l>j Bij = PP k>i li lj 29 Коэффициент ранговой корреляции Кендалла вычисляется для квадратных таблицы сопряженности, т. е. при a = b по формуле rk = s A−B  . n(n − 1) n(n − 1) − T1 − T2 2 2 Коэффициент ранговой корреляции Спирмена вычисляется по формуле 12 a P b P i=1 j=1  nij P nk∗ + k 10 для проверки гипотезы H0 : ρc = 0, против H1 : ρc 6= 0 на уровне значимости α можно использовать статистику r с числом степеней свободы ν = n − 2 или статистику Стьюдента r 1 − rc2 t= , ν = n − 2. n−2 Для прямоугольных таблиц сопряженности упорядоченных значений признаков при a 6= b используется коэффициент связанности Стьюарта, определяемый по формуле rcm = 2 min{a, b} A−B , n2 (min{a, b} − 1) при этом для достаточно больших значений n v u a X b X 2 min{a, b} u t 2 σrст = 3 n nij (Aij − Bij )2 − 4n(A − B)2 . n (min{a, b} − 1) i=1 j=1 При наличии связанных рангов формула для вычисления коэффициента конкордации Кендалла модифицируется: rW = 12SW k 2 (n3 − n) − k k P ; Tj Tj = mj X (n3lj − nlj ), l=1 j=1 30 где mj — число групп связных рангов y признака xj , nlj — число объектов (рангов), образующих l-ю группу связных рангов. Если неразличимые ранги отсутствуют, то mi = n, nij = 1 для l = 1, n и, следовательно, Tj = 0. 31 Тема 2.3. Модели и методы регрессионного анализа Лекция 2.3.1. Основные положения регрессионного анализа. Парная и множественная регрессия В практике экономических исследований очень часто имеющиеся данные нельзя считать выборкой из многомерной нормальной совокупности. Так, в частности, обстоит дело всякий раз, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т. д. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа. К задачам регрессионного анализа относятся: 1. установление формы зависимости между переменными; 2. оценка модельной функции (модельного уравнения) регрессии; 3. оценка неизвестных значений (прогноз значений) зависимой переменной. В регрессионном анализе рассматривается односторонняя зависимость переменной Y (ее еще называют функцией отклика, результативным признаком, предсказываемой переменной) от одной или нескольких независимых переменных X (называемых также объясняющими или предсказывающими переменными, факторными признаками). Статистическая зависимость между двумя переменными Y и X может быть выражена в виде усредненной по X зависимости, т. е. в виде модельного соотношения уравнения регрессии Y = f (X). Однако отдельные наблюдения Y будут в большей или меньшей мере отклоняться от функции f (X) в силу воздействия неучтенных факторов, а также случайных причин. В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в 32 виде Y = f (X) + ε, где ε — случайная переменная, характеризующая отклонение от модельной функции регрессии. Эту переменную будем называть возмущающей, или просто возмущением. Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция f (X) с точностью до случайного возмущения ε, причем детерминированная составляющая f (X) выражает влияние существенных факторов на результирующий показатель и описывает поведение условного среднего, а случайная составляющая отражает суммарное влияние всех несущественных факторов. Мы будем рассматривать линейный регрессионный анализ, в котором функция f (X) линейна относительно оцениваемых параметров. Предположим, что для оценки параметров модельной функции регрессии f (X) из двумерной совокупности (X, Y ) взята выборка объема n, где (xi , yi ) — результат i-го наблюдения (i = 1, n). В этом случае регрессионная модель имеет вид yi = f (xi ) + εi . Отметим основные предпосылки регрессионного анализа: 1. Зависимая переменная yi (или возмущение εi ) есть величина случайная, а объясняющая переменная xi есть величина неслучайная. 2. Математическое ожидание возмущения εi равно нулю: M εi = 0. 3. Дисперсия зависимой переменной yi (или возмущения εi ) постоянна для любого i: Dεi = σε2 ; 4. Переменные yi и yj (или возмущения εi и εj ) не коррелированы: M (εi · εj ) = 0. 33 5. Зависимая переменная yi (или возмущение εi ) есть нормально распределенная случайная величина (это требование равносильно независимости переменных и необходимо для проверки значимости уравнения регрессии и его параметров, а также для их интервального оценивания). Рассмотрим простейшую модель регрессионного анализа, когда функция f (x) линейна как по параметрам, так и по переменным xi (i = 1, n): yi = β0 + β1 xi + εi . Данная модель описывает случай парной регрессионной зависимости, когда на зависимую переменную Y воздействует одна независимая переменная X. С помощью параметров β0 и β1 учитывается влияние на зависимую переменную Y объясняющей переменной X. Воздействие неучтенных факторов и случайных ошибок наблюдений определяется с помощью остаточной дисперсии σε2 . Оценкой линейной модели по выборке является уравнение регрессии yx = b0 + b1 x. Параметры b0 и b1 определяются на основе метода наименьших квадратов. Содержательно параметры модели интерпретируются таким образом: параметр b0 является величиной, выравнивающей размерность переменных y и x, а параметр b1 показывает, на сколько изменится результирующий показатель y при изменении фактора x на единицу (рис. 2.1). Рассмотрим технологию оценивания параметров двумерной регрессионной модели с помощью линейного метода наименьших квадратов (МНК). Положим n X Q= (yi − ybi )2 → min . i=1 Известно, что ybi = b0 + b1 xi . Тогда Q= n X (yi − b0 − b1 xi )2 → min i=1 34 3, 73 y 14 13 12 11 10 9 8 7 6 5 4 3 2 1 7 5 y 3 x , 53 + 6 , 73 3 = 8 4 1 2 α = 27◦ 550 b1 = tg α = 0, 53 1 2 3 4 5 6 7 8 9 10 11 12 13 x Рис. 2.1. Графическая интерпретация параметров b0 и b1 Найдем экстремум данной функции относительно неизвестных b0 и b1 , для чего определим частные производные Q0b0 и Q0b1 и приравняем их нулю: Q0b0 =−2 Q0b1 = − 2 n X i=1 n X (yi − b0 − b1 xi ) = 0. ((yi − b0 − b1 xi )xi ) = 0. i=1 Таким образом получим систему из двух линейных алгебраических уравнений относительно двух переменных b0 и b1 , для решения которой удобно воспользоваться правилом Крамера:  n n P P   yi = nb0 + b1 xi ,  i=1 i=1 n n n P P P   x y = b x + b x2i . i 1 i i  i=1 i=1 n θ= P n i=1 xi n P i=1 n P i=1 n P xi , x2i θ1 = i=1 y n P i=1 n P xy i=1 n P i=1 i=1 x x2 , n n P θ2 = P n i=1 n P i=1 x y . xy i=1 35 В результате применения правила Крамера получим выражения для искомых неизвестных b0 и b1 : n n n n P P P P y x2 − x xy θ1 i=1 i=1 b0 = = i=1 i=1  2 ; n n θ P P n x2 − x θ2 b1 = = θ n n i=1 n P n P i=1 i=1 n P  xy − i=1 x2 − i=1 n P x n P y 2 . i=1 x i=1 Множественная регрессия Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной переменной Y от нескольких объясняющих переменных X1 , X2 , . . . , Xp . Эта задача решается с помощью множественного регрессионного анализа. Модель множественной регрессии, включающая p объясняющих переменных x1 , . . . , xp , имеет вид: yi = β0 + β1 xi1 + β2 xi2 + . . . + βp xip + εi , где εi удовлетворяет приведенным ранее предпосылкам. Здесь i = 1, n — индекс наблюдения, j = 1, p — индекс фактора. Уравнение регрессии с оценками параметров можно записать как ybi = b0 + b1 xi1 + b2 xi2 + . . . + bp xip . Для изложения некоторых моментов в множественном регрессионном анализе удобней использовать матричную форму записи. 36   y1    y2   Пусть Y =   . . .  — вектор значений зависимой переменной Y ,   yn   1 x11 x12 . . . x1p    1 x21 x22 . . . x2p   X= .. ..  —  ... ... . . . . .   1 xn1 xn2 . . . xnp матрица значений объясняющих переменных размерности n×(p+1). Единичный столбец в матрице X соответствует столбцу свободных членов β0 в линейной модели, причем условно полагается, что β0 умножается на фиктивную переменную xi0 , принимающую значение 1 для всех i: xi0 = 1 (i = 1, n), β = (β0 , β1 , . . . , βp )T — вектор параметров, ε = (ε0 , ε1 , . . . , εn )T — вектор возмущений. Оценки параметров уравнения множественной регрессии b1 , b2 , . . . , bp так же, как в случае парной регрессии, проводится с использованием метода наименьших квадратов (далее — МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонений наблюдаемых значений yi от модельных значений ybi , т. е. квадратичную форму T Q = (Y − XB) (Y − XB) = n X (yi − ybi )2 → min i=1 или Q= n X (yi − (b0 + b1 xi1 + . . . + bp xip ))2 → min . i=1 Для определения минимума ищем решение системы   Q0b0 = 0,     Q0 = 0, b1  ...,     Q0 = 0 bp 37 относительно b = (X T X)−1 X T Y. Здесь Q0w — частная производная Q по оценке t. Оценки, полученные на основе применения этого метода, обладают рядом важных для дальнейшего анализа свойств: — несмещенность (не содержат систематических ошибок при оценивании): M βj = bj , j = 0, p; — состоятельность (при n → ∞ с вероятностью, как угодно близкой к 1, сходятся к оцениваемым параметрам); — эффективность (обладают наименьшими дисперсиями среди всех возможных несмещенных оценок параметров). Построение модели множественной регрессии с четырьмя и более факторами возможно только с использованием компьютера. На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии b0j и коэффициенты эластичности Эj (j = 1, p): Sx xj b0j = j ; Эj = bj . Sy y Стандартизованный коэффициент регрессии b0j показывает, на сколько величин Sy изменится в среднем зависимая переменная Y при увеличении только j-ой объясняющей переменной на Sxj , а коэффициент эластичности Эj — на сколько процентов (от средней) изменится в среднем Y при увеличении только Xj на 1 %. Нелинейная регрессия Соотношения, существующие между социально-экономическими процессами, не всегда можно выразить линейными функциями, т. к. при этом могут возникать неоправданно большие ошибки. В некоторых 38 случаях нелинейность связей является следствием качественной неоднородности совокупности, к которой применяют регрессионный анализ. Например, если в одной совокупности объединены предприятия, отличающиеся по специализации, условиям функционирования и т. д. В случае нелинейной зависимости параметры уравнения регрессии оцениваются также при помощи метода наименьших квадратов. Однако статистические свойства МНК-оценок сохраняются только для случая линейной зависимости. С позиции использования МНК различают следующие виды зависимостей: 1. функции, нелинейные по факторам, например: y = a0 + a1 x2 или y = a0 + a1 log x; 2. функции, нелинейные по параметрам, например: y = ea0 +a1 x или y = aK α L1−α ; 3. функции, не приводимые к линейному виду. В первом и втором случае МНК для оценки параметров модели используется после проведения линеаризующих преобразований, приводящих функцию к линейному виду. Для нахождения оценок параметров функций первого типа достаточно провести замену объясняющих переменных, например, если y = a0 + a1 x2 , то достаточно ввести новую переменную x0 = x2 и, осуществив замену переменных, получить функцию линейного вида y = a0 + a1 x0 , после чего можно использовать метод наименьших квадратов. К уравнениям второго вида вначале требуется применить линеаризующее преобразование, а затем уже заменить переменные. Например, если y = ea0 +a1 x , то линеаризующее преобразование состоит в логарифмировании ln y = a0 + a1 x, после чего, заменив переменную ln y = y 0 , получим уравнение линейного вида yb = a0 + a1 x. К преобразованному уравнению применяют МНК. При этом оценки параметров минимизируют фактически не функцию вида f= n X (yi − ybi )2 , i=1 39 а функцию f = n X (yi0 − ybi 0 )2 . i=1 Здесь и далее, если индексы суммирования опущены, предполагается, что суммирование идет от i = 1 до n. Основные типы зависимостей и линеаризующие преобразования приводятся в учебном пособии (стр. 22—23). Для множественной регрессии представляется соблазнительным представляется увеличение порядка выравнивающей кривой, ибо известно, что всякую функцию на любом интервале можно сколь угодно точно представить полиномом yb = b0 + b1 x + b2 x2 + b3 x3 + . . . + bp xp . Так, можно подобрать такой показатель p, что соответствующий полином пройдет через все вершины эмпирической линии регрессии. Однако повышение порядка гипотетичной параболической кривой может привести к неоправданному усложнению вида искомой функции регрессии, когда случайные отклонения осредненных точек неправильно истолковываются как определенные закономерности в поведении кривой регрессии. Кроме того, за счет увеличения числа параметров снижается точность кривой регрессии (особенно в случае малой выборки) и увеличивается объем вычислений. В связи с этим в практике регрессионного анализа редко используются полиномы выше третьей степени. Для множественной регрессии, кроме линейной модели, часто используют степенную (мультипликативную) модель: yb = a0 xa11 xa22 . . . xapp . Подобная мультипликативная модель приводится к линейному виду логарифмированием: ln y = ln a0 + a1 ln x1 + a2 ln x2 + . . . + ap ln xp . После замены переменных и переобозначения параметров: y 0 = ln y, a00 = ln a0 , x0j = ln xj , 40 имеем линейную модель yb0 = a00 + a1 x01 + . . . + ap x0p , к которой применяются все операции множественного регрессионного анализа. В третьем случае, когда функцию невозможно привести к линейному виду, оценивание параметров осуществляют с помощью нелинейного МНК, где решение проводится с использованием итерационных процедур при минимизации функции многих переменных (разложение функции в ряд Тейлора и др.). 41 Лекция 2.3.2. Анализ вариации результирующего признака. Проверка значимости уравнения регрессии и коэффициентов уравнения регрессии Оценить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Оценка значимости уравнения регрессии производится на основе дисперсионного анализа. Рассмотрим сумму квадратов отклонений зависимой переменной от средней y: Q= n X (yi − y)2 , i=1 где n — объем выборки. Общая сумма квадратов Qобщ может быть разложена на отдельные составляющие: Qобщ = n X 2 (yi − y) = i=1 = n X (yi − ŷi + ŷi − y)2 = i=1 n X 2 (yi − ybi ) + i=1 n X 2 (b yi − y) + 2 i=1 n X (yi − ybi )(b yi − y). i=1 Сумма квадратов отклонений фактических значений от расчетных называется остаточной суммой квадратов и обозначается как Qост = n X (yi − ybi )2 . i=1 Сумма квадратов отклонений расчетных значений от среднего называется объясненной суммой квадратов и обозначается как Qобъясн = n X (b yi − y)2 . i=1 Третий элемент в разложении представляет собой сумму произведений объясненной и остаточной компонент регрессии. Основываясь на 42 предпосылках регрессионного анализа, доказывается, что этот элемент равен нулю, и тогда общая сумма квадратов раскладывается на остаточную сумму квадратов и объясненную сумму квадратов: Qобщ = Qобъясн + Qост . Это соотношение является основным для получения практически всех статистических характеристик уравнения регрессии. Поделим все перечисленные выше суммы квадратов на соответствующие значения степеней свободы: — общую сумму квадратов — на (n − 1) и получим оценку общей дисперсии (Sy2 ) зависимой переменной, которая характеризует разброс значений показателя вокруг среднего; — объясненную сумму квадратов — на p (количество факторов в уравнении регрессии) и получим оценку объясненной дис2 персии переменной y (Sобъясн ), которая характеризует вариацию зависимого показателя, объясненную построенным уравнением регрессии; — остаточную сумму квадратов — на (n − p − 1) и получим оцен2 ), которая ку остаточной дисперсии зависимой переменной (Sост характеризует разброс значений относительно линии регрессии, и может служить показателем точности воспроизведения значений зависимой переменной. Большое значение показателя остаточной дисперсии может быть вызвано неверным выбором функции, недостаточным набором объясняющих переменных или отсутствием связи между зависимой переменной модели и факторными. На практике часто используют величину среднеквадратического отклонения от линии регрессии, которая вычисляется как квадратный 2 корень из значения Sост , и называется стандартной ошибкой регрессии p 2 . SE = Sост 43 Величину R2 называют множественным коэффициентом детерминации. Он показывает, какая часть дисперсии функции отклика объясняется вариацией линейной комбинации выбранных факторов x1 , x2 , . . . , xj , . . . , xp . Вычисляется коэффициент детерминации как отношение сумм квадратов: R2 = Qобъясн Qост =1− . Qобщ Qобщ Измеряется в долях единицы (от 0 до 1) либо в процентах (от 0 до 100 %). Преимуществом коэффициента детерминации является то, что R2 — величина относительная и может быть использована для сопоставления оценки качества как линейных, так и нелинейных моделей (в отличие от остаточной дисперсии). Квадратный корень из коэффициента детерминации представляет собой коэффициент множественной корреляции и характеризует тесноту связи между функцией отклика и совокупности факторов, включенных в уравнение. Собственно проверка значимости уравнения регрессии осуществляется следующим образом. Нулевая гипотеза состоит в том, что уравнение регрессии незначимо, т. е. параметры уравнения несущественно отличаются от нуля: H0 : все βj = 0. Альтернативная гипотеза утверждает, что уравнение значимо, т. е. существует хотя бы одно βj , которое отличается от нуля существенно: H1 : найдется βj 6= 0. Для проверки гипотез в качестве критерия используется статистика, имеющая распределение Фишера. Для оценки теоретических дисперсий принимают выборочные оценки объясненной и остаточной дисперсий. Уравнение регрессии считается значимым, если значение статистики 2 Sобъясн F = 2 Sост больше табличного значения F -критерия, соответствующего уровню зна- чимости α и числу степеней свободы ν1 и ν2 (где ν1 = p, ν2 = n − p − 1). 44 В случае, когда Fрасч > Fтабл , нулевая гипотеза отвергается и делается вывод, что уравнение регрессии значимо с уровнем доверительной вероятности, равным 1 − α. Чем выше требования к надежности результатов, предсказанных по уравнению регрессии, тем меньше должна быть выбрана величина α, соответственно, тем выше уровень доверительной вероятности. Причинами незначимости уравнения регрессии можно назвать следующие: — недостаточный размер выборки; — слабая колеблемость факторных и результирующих показателей; — неверный выбор формы связи; — слабая зависимость между объясняющими переменными и функцией отклика, либо отсутствие связи вообще. Кроме проверки на значимость регрессионного уравнения в целом, осуществляется также проверка значимости параметров, целью которой является проверка существенности влияния отдельных факторов на функцию отклика. В качестве проверяемых гипотез выдвигаются следующие: H0 : параметр регрессии βj не значимо отличается от нуля; H1 : параметр регрессии βj значимо отличается от нуля. Значимость коэффициентов регрессии bj проверяют, используя табличные значения распределения Стьюдента. Первоначально определяется расчетное значение t-статистики Стьюдента: t= |bj | , Sbj где |bj | — абсолютное значение оценки параметра βj ; Sbj — стандартная ошибка параметра. Стандартная ошибка параметра определяется по формуле q 2 ·c , Sbj = Sост jj 45 где cjj — диагональный элемент матрицы, обратной матрице нормальных уравнений (X T X)−1 . Вычисленное значение t сравнивают с табличным при числе степеней свободы ν = n−p−1. В случае, когда tрасч > tтабл , говорят, что данный фактор оказывает существенное (значимое) влияние на результирующую переменную. В противном случае фактор может быть исключен из уравнения связи. Представляет интерес расчет доверительных интервалов параметров уравнения регрессии. Доверительный интервал для коэффициентов регрессии вычисляется по следующей формуле: bj − tтабл · Sbj 6 βj 6 bj + tтабл · Sbj , где tтабл — табличное значение распределения Стьюдента при уровне значимости α и числе степеней свободы ν = n − p − 1; βj — значение коэффициента в уравнении регрессии для генеральной совокупности; bj — оценка параметра в выборочном уравнении. 46 Лекция 2.3.3. Построение точечных и интервальных прогнозов зависимого признака Построенное уравнение регрессии y = f (X, b) позволяет найти точечную и интервальную оценку истинных значений зависимой переменной y для заданных значений факторов x∗1 , x∗2 , . . . , x∗p . Точечную оценку результирующего признака дает простая подстановка значений объясняющих переменных в уравнение регрессии: y ∗ = b0 + b1 x∗1 + b2 x∗2 + . . . + bp x∗p . Однако точечный прогноз не гарантирует, что истинная величина зависимого признака будет равна полученной оценке. Поэтому точечную оценку необходимо дополнить интервальной, т. е. построить доверительный интервал, который с заданной вероятностью (надежностью) p = 1−α накроет неизвестное значение оцениваемого параметра. Рассмотрим интервальное оценивание для: 1. линии регрессии; 2. индивидуальных значений зависимого показателя. Построим доверительный интервал для условного математического ожидания M x(Y ), который с заданной надежностью будет содержать неизвестное значение M x(Y ). Так как параметры β0 и βj оцениваются по выборке, то их оценки b0 , bj содержат случайные ошибки. Ошибки в значении b0 приводят к вертикальному сдвигу линии регрессии. Колеблемость параметров bj приводит к «покачиванию» линии регрессии относительно точки (x, y). В результате значения y, найденные по уравнению регрессии, также содержат случайные ошибки. Доверительный интервал для условного математического ожидания M x(Y ) (или же для линии регрессии) определяется по формуле q ∗ M x(Y ) = y ± tν, α Sост X T (X T X)−1 X. Эта формула показывает пределы, в которых с заданной вероятностью (1−α) находится теоретическая линия регрессии. Здесь ν = n−p−1, причем n — объем выборки, p — число факторов в уравнении регрессии. 47 Для парной линейной регрессии доверительный интервал для линии регрессии рассчитывается следующим образом: v u (x∗ − x)2 u1 ∗ y1, 2 = y ± tν, α · Sост · u + P , n tn 2 (xi − x) i=1 где x∗ — прогнозное значение фактора, x — среднее значение фактора, n — объем выборки, tν, α — статистика Стьюдента с числом степеней свободы ν = n − 2 и уровнем значимости α, p 2 показывает среднеквадратическое отклонение наSост = Sост блюдений от линии регрессии, а произведение q Sост · X T (X T X)−1 X называется погрешностью оценки регрессии. Из последней формулы видно, что ширина доверительного интервала зависит от значения объясняющей переменной x∗ : при x∗ = x она минимальна, а по мере удаления x∗ от x ширина доверительного интервала увеличивается. Таким образом, прогноз значений зависимой переменной по уравнению регрессии оправдан, если значение объясняющей переменной не выходит за диапазон ее значений по выборке. Иначе говоря, экстраполяция кривой регрессии вне пределов обследованного диапазона объясняющей переменной (даже если это оправдано) может привести к значительным погрешностям. Построенная доверительная область определяет местоположение модельной линии регрессии (т. е. условного математического ожидания), но не отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений зависимой переменной необходимо учитывать еще один источник вариации — рассеяние вокруг линии регрессии, т. е. в формулу для расчетов следует включить еще величину 2 остаточной дисперсии Sост . Тогда в случае уравнения множественной регрессии формула для расчета доверительного интервала прогноза примет 48 вид: yпрогноз q = y ± tν, α · Sост · 1 + X T (X T X)−1 X, ∗ где y ∗ — прогнозное значение фактора, tν, α — статистика Стьюдента с числом степеней свободы ν = n − 2 и уровнем значимости α, p 2 — среднеквадратическое отклонение наблюдений Sост = Sост от линии регрессии. А в случае парной линейной регрессии доверительный интервал для индивидуального прогнозного значения зависимой переменной определится как v u (x∗ − x)2 u1 ∗ y1, 2 = y ± tν, α · Sост · u + P + 1, n tn (xi − x)2 i=1 где y ∗ — прогнозное значение фактора y, x∗ — прогнозное значение фактора x, x — среднее значение фактора x, tν, α — статистика Стьюдента с числом степеней свободы ν = n − 2 и уровнем значимости α, p 2 — среднеквадратическое отклонение наблюдений Sост = Sост от линии регрессии. Погрешность интервального оценивания линии регрессии (как вид√ но из приведенных формул) пропорциональна величине S/ n, поэтому с ростом объема выборки n → ∞ погрешность стремится к нулю. Погрешность оценивания прогнозных значений при неограниченном росте объема выборки стремится к величине u1−α/2 · Sост , где u1−α/2 — квантиль нормального распределения. 49 Лекция 2.3.4. Особые случаи при построении регрессионных уравнений: мультиколлинеарность Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) форме. При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица X T X особенная, т. к. содержит линейно-зависимые векторы-столбцы и ее определитель равен нулю. При этом нарушается предпосылка регрессионного анализа det(X T X) 6= 0, введенная для случая множественной регрессии (о неособенности матрицы X T X). Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели. Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Хотя в этом случае матрица X T X и является неособенной, но ее определитель близок к нулю, так что в результате решения системы нормальных уравнений получаются значительные средние квадратические отклонения (стандартные ошибки) параметров регрессии b0 , b1 , . . . , bp и оценка значимости их по t-критерию не имеет смысла. Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объема выборки. Уравнения регрессии в этом случае, как правило, не имеют смысла. Причиной возникновения мультиколлинеарности может стать некорректное проведение этапа формализации модели относительно набора факторных переменных. К следствиям мультиколлинеарности относят: 1. Резко падает точность оценок параметров, получаемых с помо50 щью метода наименьших квадратов. Ошибки некоторых параметров уравнения могут стать очень большими. 2. Выборочные характеристики регрессионной модели становятся крайне неустойчивыми. При добавлении (исключении) некоторого количества наблюдений или факторов к массиву исходной информации может произойти резкое изменение оценок параметров. 3. Из-за неустойчивости модели резко сокращаются возможности содержательной интерпретации модели, а также прогноза значений зависимой переменной y в точках, существенно удаленных от значений объясняющих переменных в выборке ввиду ненадежности получаемых результатов. Признаки наличия мультиколлинеарности: 1. Небольшие изменения в данных приводят к широким колебаниям оценок параметров. 2. Коэффициенты регрессии имеют высокие стандартные ошибки и высокий уровень значимости, несмотря на тот факт, что совместно они высоко значимы и достаточно высоко значение множественного коэффициента детерминации. 3. Коэффициенты могут иметь неверный знак или неправдоподобную величину. В качестве формальных рассматриваются следующие критерии мультиколлинеарности: 1) Критерий χ2 строится на использовании корреляционной матрицы объясняющих переменных x1 , x2 , . . . , xp . Высокая коррелированность переменных проявляется в близости к нулю определителя матрицы парных коэффициентов корреляции R = |rij |. Основная и альтернативная гипотезы процедуры проверки мультиколлинеарности x1 , x2 , . . . , xp : 51 H0 : между объясняющими переменными мультиколлинеарность отсутствует; H1 : объясняющие переменные высококоррелированы. Для проверки гипотезы вычисляется определитель корреляционной матрицы R и строится критерий   (n − 1) − (2p + 5) χ2 = − ln |R|, 6 который имеет χ2 -распределение с количеством степеней свободы, равным p(p − 1) ν= . 2 По таблице распределения χ2 определяется значение, соответствующее числу степеней свободы ν и уровню значимости α. Если χ2расч 6 χ2ν, α , то принимается нулевая гипотеза. В противном случае принимается гипотеза о наличии мультиколлинеарности. 2) Число обусловленности матрицы X T X. Число λ называется собственным значением (или характеристическим числом) квадратной матрицы A порядка n, если можно подобрать такой n-мерный ненулевой вектор x, что Ax = λx. Множество всех собственных значений матрицы A совпадает с множеством всех решений уравнения |A − λE| = 0, где λ — независимая переменная. Пример. Найти собственные значения матрицы ! 1 2 A= −1 4 Характеристическое уравнение матрицы |A − λE| = 1−λ 2 −1 4 − λ = λ2 − 5λ + 6 = 0 ⇔ λ1 = 2, . λ2 = 3 52 Обусловленность матрицы определяется отношением максимального собственного числа λmax к минимальному λmax : r λmax γ= . λmin Если λmin → 0, то γ бесконечно велико и присутствует мультиколлинеарность. Для γ > 20 наблюдается приближенная коллинеарность объясняющих переменных. Для γ < 20 можно считать, что мультиколлинеарность отсутствует. Для полностью независимых переменных γ = 1. Для устранения или уменьшения мультиколлинеарности используется ряд методов. Один из них заключается в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (> 0, 8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь из экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной. Другим из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Вначале рассматривается линейная регрессия зависимой переменной Y от объясняющей переменной, имеющей с ней наиболее высокий коэффициент корреляции (или индекс корреляции при нелинейной форме связи). На втором шаге включается в рассмотрение та объясняющая переменная, которая имеет наиболее высокий частный коэффициент корреляции с Y , и вычисляется коэффициент (индекс) множественной корреляции. На третьем шаге вводится новая объясняющая переменная, которая имеет наибольший частный коэффициент корреляции с Y и вновь вычисляется коэффициент множественной корреляции и т. д. Процедура введения новых переменных продолжается до тех пор, пока добавление следующей объясняющей переменной существенно не увеличивает коэффициент множественной кор53 реляции. Вообще говоря, все существующие схемы формирования наборов переменных можно объединить в две большие группы: это схемы полного перебора и пошаговые процедуры. Недостатком процедур полного перебора является большое возможное число вариантов. При переборе q факторов из общего количества факторов p число вариантов равно Cpq , а при рассмотрении полного числа наборов при изменении q от 1 до p число вариантов будет 2p . Преодоление этого недостатка связано с применением методов, позволяющих каким-то образом ограничивать количество рассматриваемых наборов переменных, исходя из экономической содержательности каждого набора. Существенного сокращения числа генерируемых для сравнения наборов предсказывающих переменных позволяют пошаговые процедуры генерации наборов переменных. Хотя ни одна из пошаговых процедур не гарантирует получения оптимального по заданному критерию набора переменных, все же обычно получаемые с их помощью наборы переменных являются достаточно хорошими для практического применения. Основными пошаговыми процедурами генерации наборов являются: — процедура последовательного присоединения, — процедура присоединения-удаления, — процедура последовательного удаления. При этом последовательное выполнение процедуры удаления обычно проводится с точки зрения минимального уменьшения коэффициента детерминации, выполнение процедуры присоединения строится на основе выбора того фактора, который имеет максимальное значение квадрата коэффициента частной корреляции с Y . Критериями остановки пошаговых процедур могут быть следующие: 1. Исследователь достиг желаемого количества факторов. 2. Исследователь достиг желаемого значения показателей качества уравнения регрессии. 54 3. Среди набора факторов, еще не включенных в уравнение, нет более независимых, и, соответственно, при их введении возникнет мультиколлинеарность. При использовании любого алгоритма отбора существенных факторов необходимо сравнение подмножеств факторов по некоторому критерию качества уравнения регрессии. Остановимся на этом подробнее и рассмотрим наиболее часто используемые критерии. 1. Коэффициент детерминации (или квадрат коэффициента множественной корреляции) R2 = 1 − Qост Qобъясн = . Qобщ Qобщ Недостаток этого критерия заключается в том, что значение коэффициента детерминации не убывает с ростом предсказывающих переменных, входящих в модель. Однако для сравнения уравнений регрессии с одинаковым числом зависимых переменных этот критерий является вполне подходящим. 2. Скорректированный коэффициент детерминации R2 = n−1 (1 − R2 ). n−q−1 Здесь n — число наблюдений, q — число факторов в уравнении. В отличие от обычного скорректированный коэффициент детерминации может уменьшаться с ростом числа предсказывающих переменных, если в результате введения дополнительной переменной изменение (1 − R2 ) оказывается недостаточным для компенсации увеличения отношения (n − 1)/(n − q − 1). 3. Статистика Мэллоуза. Предлагается использовать Cq- статистику как меру качества уравнения регрессии с q предсказывающими переменными: Cq = 2 (n − q − 1)(1 − Ry.X (q) ) 2 1 − Ry.X (p) − n + 2q + 2 55 4. Средний квадрат ошибки предсказания определяет среднюю квадратическую ошибку прогноза на контрольной выборке, причем неизвестное значение дисперсии σy2 заменяется ее оценкой максимального правдоподобия. Окончательно используемая как критерий оценка имеет вид: СКОП (q) = 2 (n2 − n − 2)(n − 1)Sy2 (1 − Ry.X (q) ) n(n − q − 1)(n − q − 2) . 56 Модуль 3 Прикладная эконометрика Тема 3.1. Анализ временных рядов Лекция 3.1.1. Составляющие временного ряда. Выделение долгосрочной тенденции развития Временным рядом называют последовательность наблюдений, обычно упорядоченную во времени, хотя возможно упорядочение и по какому-то другому параметру. Временной ряд имеет два главных отличия от рассматриваемых наблюдений анализируемого признака, образующих случайные выборки: а) образующие временной ряд наблюдения, рассматриваемые как случайные величины, не являются взаимно-независимыми, и, в частности, значение, которое мы получим в момент времени tk , может существенно зависеть от того, какие значения были зарегистрированы до этого момента времени; б) наблюдения временного ряда (в отличие от элементов случайной выборки) не образуют стационарной последовательности, т.е. закон распределения вероятностей k-го члена временного ряда не остается одним и тем же при изменении его номера k; в частности от tk могут зависеть основные числовые характеристики случайной переменной xk — ее среднее значение и дисперсия. Иначе говоря, при исследовании временных рядов существенное значение имеет тот порядок, в котором проводились наблюдения над исследуемой величиной. Посредством анализа временных рядов могут решаться следующие задачи: описание характерных особенностей ряда, объяснение механизма поведения ряда, прогнозирование поведение ряда, моделирование совместного развития во времени многих переменных и др. Динамика рядов экономических показателей в общем случае складывается из четырех компонентов: 57 1. тенденции, характеризующей долговременную основную закономерность развития исследуемого явления; 2. периодического компонента, связанного с влиянием сезонности развития изучаемого явления; 3. циклического компонента, характеризующего циклические колебания, свойственные любому воспроизводству (например, циклы обновления, связанные с чисто техническими проблемами); 4. случайного компонента как результата влияния множества случайных факторов. Под тенденцией понимают некоторое общее направление развития, долговременную эволюцию. Тенденцию ряда динамики представляют в виде гладкой кривой (траектории), которая аналитически выражается некоторой функцией времени, называемой трендом. Тренд характеризует основную закономерность движения во времени, свободную в основном (но не полностью) от случайных воздействий. В большинстве случаев полученная траектория связывается исключительно со временем. Предполагается, что, рассматривая любое явление как функцию времени, можно выразить влияние всех основных факторов. Механизм их влияния в общем виде не учитывается. В связи с этим под трендом обычно понимают регрессию на время. Более общее понятие тренда — это детерминированная составляющая динамики развития, определяемая влиянием постоянно действующих факторов. Отклонение от тренда есть некоторая случайная составляющая, характеризуемая влиянием случайных факторов. Исходя из этого модель временного ряда описывается уравнением yt = f (t) + εt , где y1 , y2 , . . . , yT (t = 1, T ) — уровни временного ряда; f (t) — систематическая (детерминированная) составляющая, характеризующая основную тенденцию ряда во времени; εt — случайная составляющая. 58 Во временных рядах можно наблюдать тенденции трех видов: тенденцию среднего уровня, тенденцию дисперсии, тенденцию автокорреляции. Тенденцию среднего уровня наглядно можно представить графиком временного ряда. Аналитически она выражается в виде функции f (t), вокруг которой варьируют фактические значения изучаемого явления. Тенденция дисперсии — это изменения отклонений эмпирических значений временного ряда от значений, вычисленных по уровню тренда. Тенденция автокорреляции — это тенденция изменения связи между отдельными уровнями временного ряда. Первоначально анализ временных рядов базировался на моделях, в которых влияние временного параметра проявлялось только в систематической составляющей. В таких моделях предполагается, что течение времени никак не отражается на случайной составляющей, т. е. математическое ожидание случайной величины равно нулю (M εt = 0), дисперсия равна некоторой постоянной (Dεt ≡ c = const) и значения ε в разные моменты времени некоррелированы: cov (εt1 , εt2 ) = 0 для любых не равных между собой t1 , t2 ∈ 1, T . Долговременная тенденция формируется под воздействием факторов, ведущих к постепенному изменению экономического показателя, поэтому такие зависимости могут моделироваться с использованием полиномов низких степеней. Циклические последовательности (как долговременные, так и сезонные) моделируются при помощи тригонометрических функций. Проверка гипотезы о существовании тенденции Один из способов проверки основан на сравнении средних уровней ряда: временной ряд разбивают на две примерно равные части по числу членов, каждая из которых рассматривается как некоторая самостоятельная выборочная совокупность, имеющая нормальное распределение. Если временной ряд имеет тенденцию, то средние, вычисленные для каждой совокупности, должны существенно (значимо) отличаться 59 между собой. Если же расхождение будет незначимым, несущественным (случайным), то временной ряд не имеет тенденции. Таким образом, проверка наличия тренда в исследуемом ряду сводится к проверке гипотезы о равенстве средних двух нормально распределенных совокупностей. Процедура проверки наличия тренда осуществляется в следующей последовательности: временной ряд делится на две примерно равные части, для каждой из которых вычисляются величины средних и дисперсий (y1 , y2 , S12 , S22 ). После этого проверяется гипотеза о равенстве дисперсий при уровне значимости α, для чего формируются две гипотезы: H0 : σ12 = σ22 , H1 : σ12 = 6 σ22 . Значимость различий проверяется путем вычисления Fрасч S22 = 2 S1 и сравнением ее с критическим значением F при числе степеней свободы, равном f1 = n2 − 1 и f2 = n1 − 1 и уровне значимости α. Если Fрасч < Fтабл , то принимается нулевая гипотеза о равенстве дисперсий генеральных совокупностей (выборочные дисперсии незначимо различаются, расхождение между ними случайно). После этого проверяется основная гипотеза H0 : y1 = y2 и гипотеза H1 : y1 6= y2 , для чего рассчитывается величина y1 − y2 · Tрасч = p (n1 − 1)S12 + (n2 − 1)S22 s n1 n2 (n1 + n2 − 2) √ . n1 + n2 Если |Tрасч | < tкрит(α, n−2) , то принимается нулевая гипотеза о равенстве средних, расхождение между вычисленными средними незначимо. Отсюда делается вывод, что тренд отсутствует. В противном случае, когда различие между средними будет значимо, принимается гипотеза H1 и делается вывод о наличии тренда. Существует еще ряд относительно простых методов для выявления тренда. Рассмотрим метод Ф. Фостера и А. Стюарта, который дает более надежный результат. По данным исследуемого ряда определяются величины ut и lt путем последовательного сравнения уровней ряда. 60 Если какой-либо уровень ряда превышает по своей величине каждый из предыдущих уровней, то величине ut присваивается значение 1, в остальных случаях она равна 0. Таким образом, ( 1 при yt > yt−1 , yt > yt−2 , . . . , yt > y1 ; ut = 0 — в противном случае И наоборот, если уровень ряда меньше всех предыдущих, то величина lt равна 1, в остальных случаях она равна 0: ( 1 при yt < yt−1 , yt < yt−2 , . . . , yt < y1 ; lt = 0 — в противном случае Затем находятся еще две величины: P S = st , где st = ut + lt ; P и D = dt , где dt = ut − lt . Суммирование проводят по всем членам ряда. Величины S и D имеют независимые распределения и существенно зависят от порядка расположения уровней во времени. С помощью D проверяют, существует ли тенденция изменения в дисперсиях, а S позволяет обнаружить тенденцию в средней. С этой целью проверяются две гипотезы о том, существенно ли отличаются D от нуля и S — от µ (математического ожидания S). Эти гипотезы проверяются с помощью случайных величин T1 и T2 , где D−0 T1 = σ2 и S−µ , T2 = σ1 причем σ2 и σ1 — средние квадратические ошибки соответственно D и S. Величины T1 и T2 имеют распределение Стьюдента с числом степеней свободы, равным (n − 1). Рассчитанные по формулам значения 1 и 2 сравнивают с табличными, найденными по таблицам критических точек распределения Стьюдента с уровнем значимости α и числом степеней свободы (n − 1). Если T2 (расч) > tтабл , то принимается гипотеза о наличии тенденции в средней и говорят, что тренд существует. Если T1 (расч) > tтабл , то тенденция в дисперсии есть и описывается некоторым трендом. В противном случае говорят, что тенденция в дисперсии отсутствует. 61 Лекция 3.1.2. Сглаживающие процедуры. Моделирование тенденции временного ряда В случаях, когда тренд имеет незначительные колебания на довольно коротких интервалах времени, и невозможно представить его простой функцией времени на всем интервале, тогда используются статистические процедуры сглаживания (которые также называют фильтрованием). Суть этих методов заключается в замене фактического значения ряда в данной точке на некоторую взвешенную среднюю величину значений, наблюдаемых в окрестности этой точки. При этом считается, что наблюдаемые значения являются суммой тренда и случайной ошибки. Грубо говоря, взвешенное среднее тренда совпадает со значением самого тренда в данной точке, а взвешенное среднее случайных составляющих имеет тенденцию становиться весьма малой величиной. Тем самым довольно нерегулярный график наблюдений заменяется гладким графиком скользящего среднего. Колеблемость ряда уменьшается, что позволяет оценить тренд взвешенной средней наблюдаемых значений. Расчетные значения определяются для всех точек ряда за исключением нескольких первых и последних. Пусть имеются наблюдения y1 , . . . , yT . Тогда формула линейного фильтра (или сглаженного значения уровня в точке t) будет yt∗ = m X cs yt+s t = m + 1, T − m. s=−m Здесь yt∗ является взвешенным средним наблюдаемых значений yt в интервале значений временного параметра t, отстоящих от t не более чем на m единиц. Веса cs предполагаются нормированными, так что m X cs = 1. s=−m В случае, когда веса остаются постоянными (cs = const), то фильтры называют симметричными. Тогда результат сглаживания есть вариант среднего арифметического и сглаженное значение yt∗ выражается 62 формулой yt∗ m X 1 1 yt+s , т. е. cs = = . 2m + 1 s=−m 2m + 1 В случае, когда весовые коэффициенты не остаются постоянными, т. е. когда, например, с приближением элемента ряда к уровню t его весовой коэффициент возрастает, то говорят о скользящей средней взвешенной. Если задается cs < cs+1 , то фильтр позволяет учесть устаревание данных. Существует и другая группа методов сглаживания, основанных на вычислении экспоненциальных средних значений уровня ряда по формуле типа m X ∗ (1 − cs )m yt . yt = s=−m Однако методы сглаживания имеют ряд недостатков: 1. невозможно указать доверительные области и проверить гипотезы относительно тренда; 2. нельзя непосредственно связать построенную функцию с моделью образования тренда; 3. сглаженный ряд укорачивается по сравнению с фактическим, что приводит к не очень надежной экстраполяции тренда. В связи с этим использование методов сглаживания больше применяется не для анализа ряда, а для его описания. Моделирование тенденции временного ряда с помощью аналитического выравнивания Наиболее распространенным и простым способом моделирования тенденции социально-экономического явления является аналитическое выравнивание временного ряда. Существуют различные приемы, но суть их одна — замена фактических уровней ряда расчетными, имеющими значительно меньшую колеблемость, чем исходные данные. Задача заключается в выборе наиболее подходящего типа кривой и оценке ее параметров. 63 Выбрать форму кривой можно, исходя из теоретического анализа сущности изучаемого явления и опираясь на опыт и знания самого исследователя. Наибольшее распространение имеют линейные зависимости, т. е. функции типа yt = a0 + a1 t, где yt — сглаженное (выравненное) значение уровня на момент t; коэффициенты a1 , a2 , . . . , aτ — веса, приписываемые уровню ряда, находящемуся на расстоянии τ от момента t. В зависимости от того, какие значения принимают весовые коэффициенты, сглаживание по данной формуле будет выполнено либо с помощью скользящих средних , либо экспоненциальных средних. Зависимости такого типа целесообразно применять для временных рядов с постоянным абсолютным приростом или снижением показателей (когда уровни ряда увеличиваются в арифметической прогрессии). Если анализируемая тенденция характеризуется постоянным темпом роста (рост уровней ряда идет в геометрической прогрессии), то целесообразно проводить выравнивание по показательной функции: yt = a0 + a1 t или yt = b t+b t a0 a11 2 2 . При выравнивании временных рядов экономических явлений, характеризующихся стремлением к некоторой предельной величине, насыщением, используется модифицированная экспонента yt = a0 + a1 at2 . Процессы с переменными темпами роста хорошо моделируются Sобразными кривыми. К ним относятся логистические кривые и кривая Гомперца: yt = k (пример логистической кривой), 1 + a0 e−a1 t at yt = ka01 (пример кривой Гомперца). Для аппроксимации тренда часто используются полиномы различных степеней (как правило, до четвертой степени). Например, полином первой степени yt = a0 + a1 t, полином второй степени yt = a0 + a1 t + a2 t2 , полином третьей степени yt = a0 + a1 t + a2 t2 + a3 t3 и т. д. 64 Существуют различные приемы, позволяющие выбрать форму кривой, достаточно хорошо аппроксимирующей действительное развитие. Наиболее простой путь — визуальный, на основе графического изображения временного ряда. По виду графика подбирается уравнение кривой, которая ближе всего подходит к эмпирическому виду (траектории). Другой путь выявления формы кривой заключается в применении метода последовательных разностей. Однако данный метод применяется только при подборе кривых, описываемых полиномами. Сущность этого метода заключается в нахождении первых, вторых и т. д. разностей уровней, т. е. ∆1t = yt − yt−1 ; ∆2t = ∆1t − ∆1t−1 ; ∆3t = ∆2t − ∆2t−1 и т. д. Расчет этих разностей ведется до тех пор, пока разности не будут приблизительно равными. Порядок этих разностей и принимают за порядок искомого полинома. При подборе функции тренда наряду с теоретическим анализом закономерностей развития явления используются и эмпирические методы. После того, как форма кривой будет выбрана, необходимо оценить параметры соответствующей модели. Если функция линейна, то для оценки тренда используется традиционная техника регрессионного анализа. В остальных случаях должны применяться приемы преобразования уровней (линеаризация) и нелинейный метод наименьших квадратов. 65 Лекция 3.1.3. Модели автокорреляции и авторегрессии Среди моделей, отражающих свойства временных рядов, особо следует выделить модели автокорреляции и авторегрессии. Автокорреляция — это корреляционная зависимость между последовательными (соседними) значениями уровней временного ряда y1 и y2 , y2 и y3 , y3 и y4 и т. д. Например, урожайность в определенные годы связана с урожайностью предшествующих лет, энерговооруженность производства за определенный год зависит каким-то образом от электровооруженности этого производства в предшествующие годы и т. д. Чтобы оценить степень зависимости между соседними уровнями временного ряда (автокорреляцию), рассчитывают коэффициенты автокорреляции между уровнями исходного ряда и того же ряда, но сдвинутого на τ шагов во времени. Величину τ называют шагом (или лагом). Последовательность значений коэффициентов автокорреляции rτ , вычисленных при τ = 1, 2, . . . , l, называют автокорреляционной функцией. Эта функция дает достаточно глубокое представление о внутренней структуре изучаемого экономического явления. Различают два типа автокорреляции, характерной для временных рядов: автокорреляцию уровней временного ряда yt , когда наблюдается зависимость уровней временного ряда, и автокорреляцию остаточной компоненты εt , когда ее значения зависят от предшествующих значений εt−1 , εt−2 и т. д. Коэффициенты автокорреляции рассчитываются по формуле парного коэффициента корреляции. Так, коэффициент автокорреляции первого порядка (τ = 1) есть не что иное, как парный коэффициент корреляции между двумя рядами: y1 , y2 , . . . , yT −1 и y2 , y3 , . . . , yT −1 , yT . Тогда TP −1 (yt − y1 )(yt+1 − y2 ) . r1 = s t=1 TP −1 TP −1 (yt − y1 )2 · (yt+1 − y2 )2 t=1 t=1 где y1 — средний уровень первого ряда; y2 — средний уровень второго ряда. Аналогично вычисляются коэффициенты автокорреляции второго порядка τ = 2, третьего и т. д. 66 Общая формула для расчета коэффициента автокорреляции порядка τ запишется так: TP −τ rτ = s (yt − y1 )(yt+τ − y2 ) t=1 TP −τ t=1 (yt − y1 )2 · . TP −τ (yt+τ − y2 )2 t=1 При расчете коэффициентов автокорреляции с ростом порядка число коррелируемых пар уменьшается, а известно, что при небольшом числе наблюдений значимыми оказываются лишь высокие коэффициенты корреляции. Отсюда следует, что наибольшее значение τ должно быть таким, чтобы число пар наблюдений оказалось достаточным для вычисления коэффициентов автокорреляции rτ . В практике ориентируются на правило τ 6 T /4, где T — общее количество наблюдений временного ряда. Коэффициент автокорреляции изменяется от −1 до 1. Близкое к нулю значение коэффициента говорит об отсутствии автокорреляции уровней ряда, а достаточно высокая по модулю величина свидетельствует об автокоррелированности ряда. Если на оси абсцисс отложить значения τ , а на оси ординат — значения коэффициентов автокорреляции rτ , а затем точки с координатами (τ, rτ ) соединить отрезками прямой, то получится ломаная линия, которая называется коррелограммой. Анализ коррелограмм позволяет определить особенности стохастического процесса, отраженного в изучаемом ряду. Совокупность значений коэффициентов автокорреляции с разными лагами r1 , r2 , . . . , rp образует корреляционную функцию. Интерпретация коррелограмм требует определенного навыка и не всегда осуществима. Приведем несколько наиболее часто встречающихся ситуаций. 1. Если ряд содержит долгосрочную тенденцию к росту или к снижению, то все значения коэффициентов положительны, первый коэффициент r1 достаточно большой, а все последующие имеют тенденцию к снижению (рис. 3.1). Данный временной ряд хорошо аппроксимируется трендовыми моделями. 67 1 rτ -1 1 1 2 3 4 5 4 5 τ Рис. 3.1 rτ -1 1 2 3 τ Рис. 3.2 2. Если ряд имеет краткосрочные корреляции (зависимы смежные уровни ряда между собой), то первый коэффициент r1 положителен и имеет высокое значение (рис. 3.2). С увеличением временного лага корреляционная функция резко уменьшается и сохраняет лишь незначительные затухающие колебания около нуля. Для таких рядов целесообразно использовать авторегрессионные модели. 3. Если ряд имеет периодические колебания, то значения коэффициентов автокорреляции последовательно изменяют свой знак (рис. 3.3, 3.4, 3.5). 4. В случае стационарности временного ряда, когда с течением времени его математическое ожидание и дисперсия остаются постоянными, с ростом временного лага колебания коэффициентов автокорреляции затухают (рис. 3.6). 68 1 rτ -1 1 3 2 4 5 τ Рис. 3.3 1 rτ -1 1 2 3 4 5 τ Рис. 3.4 1 rτ -1 1 2 3 4 5 τ Рис. 3.5 69 1 rτ -1 1 3 2 1 5 4 τ Рис. 3.6 rτ -1 1 2 3 4 5 τ Рис. 3.7 5. Для полностью случайного ряда значения коэффициентов автокорреляции близки к нулю (рис. 3.7). При анализе временных рядов необходимо также знать, существует ли автокорреляция остаточной компоненты, поскольку для оцени- εt Рис. 3.8. Гомоскедастичность t вания параметров уравнения регрессии методом наименьших квадратов одним из условий было условие нормальности распределения остаточной составляющей (нулевое математическое ожидание, неизменность дисперсии и независимость остатков). 70 Если же возникает ситуация, когда дисперсия остаточной компо- εt ненты возрастает, т. е. распределение отличается от нормального, говорят о t наличии автокорреляции в остатках (иначе это явление называется ге- Рис. 3.9. Гетероскедастичность тероскедастичностью). Такая ситуация возникает, когда анализируемые объекты неоднородны. Например, если исследуется зависимость прибыли предприятия от каких-либо факторов (размера основных фондов), то естественно ожидать, что для больших предприятий колебание прибыли будет выше, чем для малых. Условие независимости дисперсии от номера наблюдения Dεt = σ 2 (t = 1, T ) называется гомоскедастичностью (рис. 3.8). Случай, когда это условие не выполняется, т. е. возрастает дисперсия остаточной компоненты, называется гетероскедастичностью (рис. 3.9). Условие cov(εt · εS ) = 0 при t 6= S указывает на некоррелированεt ность ошибок для разных наблюдений. Это условие часто нарушается, t Рис. 3.10. Автокорреляция остатков когда данные являются временными рядами. Тогда говорят об автокорреляции в остатках (см. 3.10). Самым распространенным методом проверки автокорреляции в остатках в настоящее время является критерий Дарбина — Уотсона. Гипотеза о наличии автокорреляции про- 71 веряется с помощью случайной величины n−1 P (εt+1 − εt )2 d= t=1 n P . ε2t t=1 Здесь εt+1 и εt — отклонения от тренда. Возможные значения критерия находятся в интервале [0, 4]. Если автокорреляция в ряду отсутствует, то значения критерия d колеблются около 2. В общем случае расчетное значение критерия Дарбина — Уотсона может попасть в один из подинтервалов значений в промежутке от 0 до 4. При попадании расчетного значения критерия в конкретный подинтервал делаются соответствующие выводы о наличии (отсутствии) автокорреляции, либо о невозможности сделать вывод (в этом случае необходимо провести дополнительные исследования): 0| . {z . . d}н . . . |dв . . .{z 4 − d}в . . . 4| − d{z н...4 } есть есть есть Эмпирическое значение d сравнивается с табличным значением. В таблице значений критерия указываются два значения критерия d1 и d2 (верхняя и нижняя граница теоретических значений). Критическое значение распределения Дарбина — Уотсона определяют для уровня значимости α, при этом ν — число факторов в уравнении регрессии, n — число членов временного ряда. При сравнении расчетного значения d с табличным может получиться один из трех исходов: 1. dрасч < d1 — автокорреляция присутствует; 2. dрасч > d2 — автокорреляция отсутствует; 3. d1 6 dрасч 6 d2 — необходимо дальнейшее исследование. Величина критерия d различна при положительной и отрицательной автокорреляции; при отрицательной автокорреляции d находится в интервале [2, 4], тогда для проверки определяют величину d0 = 4 − d. Для определения автокорреляции вычисляют также коэффициент 72 автокорреляции остатков n P ρ= εt+1 εt t=1 . n P 2 εt t=1 Коэффициент автокорреляции остатков может принимать как положительные, так и отрицательные значения (вообще |ρ| 6 1). При положительном значении ρ делают вывод о наличии автокорреляции в остатках; отрицательное значение ρ говорит о регулярной смене знака остатков, т. е. о чередовании положительных и отрицательных отклонений. Как было отмечено выше, для временных рядов с краткосрочными тенденциями целесообразно построение авторегрессионных моделей. В общем виде модель авторегрессии порядка p имеет следующий вид: yb = α0 + α1 yt−1 + α2 yt−2 + . . . + αp yt−p + εt ,   yp yp−1 . . . y1    yp+1 yp . . . y2   где X =  .. ..  ,  ... . . . . .   yT −1 yT −2 . . . yT −p     yp+1 a0      yp+2   a1     Y =  ...  , A =  ... .     yT ap Оценка параметров авторегрессионного уравнения осуществляется по формуле A = (X T X)−1 X T Y. При этом одним из важных вопросов анализа авторегрессии является определение порядка авторегрессионной модели. Низкий порядок модели может дать несущественные результаты, так как в модели не использована важная информация за предыдущие моменты времени. Повышение порядка авторегрессионной модели может привести к снижению качества модели. Поэтому анализ авторегрессии не ограничивается 73 построением только одной модели, строится несколько моделей, по которым определяется ее порядок. Сначала строится уравнение регрессии первого порядка ybt = a0 + a1 yt−1 и для нее находится коэффициент автокорреляции. Затем строится модель второго порядка ybt = a0 + a1 yt−1 + a2 yt−2 . Для нее рассчитывается совокупный коэффициент автокорреляции R1 . Если R1 будет превышать r1 , то переходят к построению модели третьего порядка. Для этой модели также рассчитывается совокупный коэффициент автокорреляции R2 , который сравнивается с предыдущим. Эти расчеты продолжаются до тех пор, пока множественный коэффициент автокорреляции практически станет неизменным при добавлении очередных уровней. Коэффициент множественной автокорреляции определяется по формуле p Rk = r1 β1 + r2 β2 + . . . + rk βk , где ri — парные коэффициенты автокорреляции, βi — коэффициенты регрессии в стандартизованном масштабе. Построенные модели могут быть использованы при краткосрочном прогнозировании изучаемых явлений. 74 Лекция 3.1.4. Многомерные временные ряды При изучении закономерностей социально-экономических явлений большое значение имеет выявление зависимостей между взаимосвязанными, развивающимися во времени явлениями, проведение связанного анализа динамики. С этой целью строятся многофакторные модели взаимосвязанных временных рядов. Многофакторной моделью называют модель, построенную по нескольким временным рядам, уровни которых относятся к одинаковым временным отрезкам или датам. При моделировании многомерных временных рядов особое значение имеет корреляционный и регрессионный анализ. Однако при корреляционно-регрессионном анализе временных рядов необходимо учитывать ряд особенностей, игнорирование которых не позволяет получить правильной оценки взаимосвязи между рядами и адекватной модели этой взаимосвязи. Одна из таких особенностей состоит в наличии автокорреляции, которая искажает истинную тесноту связи между уровнями рядов, поскольку является следствием коррелированности уровней рядов друг с другом. Как правило, коэффициент корреляции между уровнями временных рядов, содержащих автокорреляцию, имеет завышенное значение, которое говорит не о высокой степени связи, а о высокой степени сопутствия развития показателей во времени. Высокая мера тесноты связи между уровнями в отдельных случаях может быть получена даже при отсутствии причинно-следственных связей между соответствующими явлениями. Для этого достаточно наличие устойчивых тенденций в развитии явлений, т. е. возможной автокорреляции внутри каждого ряда. Поэтому, прежде чем проводить корреляционный анализ временных рядов, необходимо рассчитать коэффициент автокорреляции и, в случае ее обнаружения, для установления «истинной» зависимости между исследуемыми рядами, требуется устранить автокорреляцию. Существуют различные методы устранения автокорреляции, однако все они преследуют одну цель — исключение из исследуемых рядов основной тенденции. Наиболее применяемые из этих методов: 1. метод коррелирования последовательных или конечных разно75 стей; 2. метод коррелирования отклонений уровней ряда от основной тенденции. Метод коррелирования последовательных разностей — это метод коррелирования первых, вторых и т. д. разностей уровней временных рядов. При этом учитывается вид тренда. Если аппроксимирующие функции линейные, то коррелируются первые разности. Тогда коэффициент корреляции последовательных разностей вычисляют как: n−1 P rxy = s ∆1xt ∆1yt t=1 n−1 P t=1 ∆21xt · . n−1 P t=1 ∆21yt Если аппроксимирующие функции представляют собой параболы второго порядка, то коррелируются вторые разности и т. д. Коррелируя разности уровней, тем самым механически уменьшают автокорреляцию в каждом из рассматриваемых рядов. Методически наиболее правомерным методом коррелирования временных рядов является метод измерения тесноты связи между отклонениями эмпирических значений уровней от выравненных по тренду. Формула коэффициента корреляции по отклонениям от трендов имеет вид n n P P ∗ ∗ εxt εyt (xt − xt )(yt − yt ) t=1 t=1 =s . rxy = s n n n n P P P P (xt − x∗t )2 · (yt − yt∗ )2 ε2xt · ε2yt t=1 Здесь t=1 t=1 t=1 xt , yt — фактические значения показателей; x∗t , yt∗ — расчетные значения показателей; εxt , εyt — отклонения от трендов. Для того, чтобы воспользоваться этой формулой, строят трендовые модели для x и y, с помощью которых оценивают остатки xt и yt . После этого вычисляют коэффициенты автокорреляции остатков и делают вывод о наличии либо отсутствии автокорреляции остаточных компонент. 76 Если автокорреляция остатков отсутствует, то рассчитывают коэффициент корреляции по отклонениям (который будет существенно ниже исходного, рассчитанного по рядам с автокорреляцией). Автокоррелированными могут оказаться остаточные величины и в регрессионной модели, построенной по многомерным временным рядам. Автокорреляция в отклонениях от регрессионной модели, построенной по многомерным временным рядам, обусловлена рядом причин: 1. в модели не учтен некоторый существенный фактор, и его влияние отражается в остатках, вследствие чего последние могут оказаться автокоррелированными; 2. в модели не учтено несколько второстепенных факторов, взаимное влияние которых является существенным вследствие совпадения фаз и направлений их изменения; 3. неправильно выбрана форма связи между факторными и результативными признаками; 4. не учтены особенности внутренней структуры случайной величины. Наиболее распространенным методом определения автокорреляции случайных величин является использование критерия Дарбина — Уотсона. Случайная величина d в этом случае будет иметь вид n−1 P (εt+1 − εt )2 d= t=1 n P . ε2t t=1 где t — случайные отклонения от тренда или регрессионной модели. Если в рядах динамики или в остаточных величинах имеется автокорреляция, то оценки коэффициентов регрессии, полученные методом наименьших квадратов, будут несмещенными, но неэффективными, т.к. наличие автокорреляции увеличивает дисперсии коэффициентов регрессии. Этот факт затрудняет построение доверительных интервалов для коэффициентов регрессии, а также проверку их значимости. 77 Итак, прежде чем проводить корреляционно-регрессионный анализ, необходимо исключить из исследуемых рядов основную тенденцию. Изучая взаимосвязанные временные ряды, следует иметь в виду, что в целом ряде случаев изменение уровней одного ряда может вызвать изменение уровней другого ряда только через определенный интервал времени. Направление и продолжительность отставания уровней одного из взаимосвязанных рядов от уровней другого ряда называются временным лагом. Для лаговых зависимостей применима стандартная техника корреляционно-регрессионного анализа. При вычислении оценок зависимостей ряды показателей сдвигаются друг относительно друга на τ , вследствие этого сдвинутые ряды оказываются короче на τ наблюдений. Коэффициент лаговой корреляции yt+τ и xt определяется по формуле: n−τ P rτ = s (xt − x)(yt+τ − y) t=1 n−τ P t=1 (xt − x)2 · n−τ P (yt+τ − y)2 t=1 где xt и yt+τ — уровни временных рядов, образующих пары; x и y — средние значения укороченных рядов; n — временной интервал наблюдений. Для определения величины сдвига одного ряда относительно другого временного ряда рассчитывается взаимная корреляционная функция, которая представляет собой множество коэффициентов корреляции между уровнями ряда yt и xt в заданные моменты времени t = 1, 2, . . . , n, сдвинутыми относительно друг друга на моментов. Величина и направление временного лага находятся по наибольшему коэффициенту корреляции. Сравнение значений коэффициентов корреляции показывает, с какого момента начинает сказываться влияние изменения уровней одного временного ряда на изменение уровней другого временного ряда и с какого момента это влияние ослабевает или прекращается. В регрессионной модели, построенной по многомерным временным рядам, необходимо исключить мультиколлинеарность. Ее наличие затрудняет проведение анализа изучаемого экономического показателя, т. к. 78 1. усложняется процесс выделения наиболее существенных факторов; 2. искажается смысл коэффициентов регрессии при их экономической интерпретации; 3. затрудняется определение коэффициентов регрессии методом наименьших квадратов, т. к. определитель матрицы системы нормальных уравнений имеет значение, близкое к нулю. При выявлении причин, вызывающих явление мультиколлинеарности, первостепенное значение имеет качественный (логический) анализ. Явление мультиколлинеарности может быть связано как с наличием истинных линейных соотношений между признаками, так и с наличием ошибок в самих признаках, а также с недостаточностью статистической информации. Устранение мультиколлинеарности в многофакторных моделях временных рядов в основном сводится к следующим процедурам: 1. преобразованию множества независимых переменных в несколько ортогональных множеств, используя при этом методы многомерного статистического анализа (факторный анализ и метод главных компонент); 2. исключению из рассмотрения одного или нескольких линейно связанных факторов-аргументов на основе предварительного экономического анализа и априорных сведений о степени влияния каждого исходного фактора на результативный; 3. построению уравнения регрессии по отклонениям от тренда или его конечным разностям; 4. привлечению дополнительной информации. Другой важной проблемой при анализе временных рядов с помощью регрессионного анализа является выбор формы связи (вида уравнения регрессии), от которой в значительной степени зависят практические результаты исследования. 79 Существуют различные способы построения множественной регрессионной модели по временным рядам. 1. Построение модели по уровням временных рядов. Модель будет иметь вид yb = a0 + a1 y1 + a2 y2 + . . . + ap yp . Этот метод имеет ограниченную сферу применения, т. к. при непосредственном коррелировании уровней экономических рядов, содержащих определенные тренды развития, можно столкнуться с проблемой ложной корреляции. Рассмотренный метод может быть использован только при четком подтверждении аналитическими методами отсутствия тенденции и автокорреляции, либо их незначительности. 2. Построение модели по отклонениям уровней временных рядов от выравненных по тренду уровней. Сущность этого способа состоит в том, что из каждого временного ряда исключается временной тренд, являющийся причиной автокорреляции. Модель в общем виде запишется так: yb − yt = a0 + a1 (x1 − x1t ) + . . . + ap (xp − xpt ), где yt , xit (i = 1, p) — основные тенденции моделируемого признака и факторных признаков. 3. Построение модели по разности между уровнями рядов. При использовании данного приема исходят из предположения, что все разности между уровнями временных рядов, начиная с первой, будут содержать только случайную компоненту, причем первые разности содержат случайную компоненту в линейной форме, вторые — описываемую параболой второго порядка, третьи показательной функцией. Модель будет иметь вид ∆yt+1 = a0 + a1 ∆x1, t+1 + a2 ∆x2, t+1 + . . . + ap ∆xp, t+1 . Однако если в результате применения этого метода остаточная компонента окажется сильно автокоррелированной, то он не может быть применен. 80 4. Построение модели по отклонениям уровней от среднего уровня. Справедливо в том случае, если уровни ряда колеблются около средней или имеют очень слабую тенденцию. В этом случае рассматриваемый метод равнозначен методу коррелирования отклонений от тренда. Если уровни ряда имеют ярко выраженную тенденцию, то метод неприемлем. 5. Введение времени в модель в качестве независимой переменной. Такая регрессионная модель, построенная методом коррелирования уровней с включением фактора времени, справедлива в том случае, если основные тенденции исследуемых рядов одинаковы. Если имеется запаздывание во влиянии факторных признаков на результативный, то это учитывается при моделировании независимо от того, каким методом строится модель. 81 Лекция 3.1.5. Циклические и сезонные колебания Внутригодовые уровни многих показателей существенно зависят от сезонности. Так, например, расход электроэнергии в летние месяцы значительно меньше, чем в зимние. Производство многих видов продуктов (сахара, растительного масла и др.), связанных с переработкой сельскохозяйственной продукции, увеличивается в месяцы, следующие непосредственно за окончанием уборки урожая; цены на сезонную продукцию (овощи, фрукты и др.) неодинаковы в различные месяцы и т. д. При графическом изображении таких рядов сезонные колебания наглядно проявляются в повышении или снижении уровней в определенные месяцы года. Причем попытки сгладить эти отклонения путем, например, укрупнения интервалов, приводят к затушевыванию тенденции. Обнаружить колеблемость в ряду, вызванную влиянием сезонности, возможно при наблюдении за месячными (квартальными) уровнями. Наблюдение за сезонными колебаниями представляет интерес с точки зрения стремления к их устранению, например, получить равномерную загрузку мощностей в сельском хозяйстве, строительстве, а также знание особенностей сезонных колебаний может быть использовано при решении многих практических задач, например, планирование выпуска продукции по месяцам, если спрос на нее подвержен влиянию сезонности, и соответственно, планирование потребности в рабочей силе, оборудовании и т.д. Поэтому изучение и измерение «сезонной» волны являются важными моментами при анализе рядов динамики. Выравнивание при помощи ряда Фурье. Когда в эмпирическом ряду наблюдается периодичность изменения уровней, то представить эту периодичность уровней динамического ряда можно в виде гармонических колебаний, т. е. провести аналитическое выравнивание при помощи ряда Фурье ybt = a0 + n X (ak cos kt + bk sin kt). k=1 Синусоиды, полученные при выравнивании рядом Фурье, называют гармониками различных порядков. Показатель k в приведенном уравнении определяет число гармоник. Обычно при выравнивании по ряду 82 Фурье рассчитывают несколько гармоник (чаще не более четырех) и затем уже определяют, с каким числом гармоник наилучшим образом отражается периодичность изменения уровней ряда. При выравнивании по ряду Фурье периодические колебания уровней динамического ряда как бы представляют в виде суммы нескольких синусоид (гармоник), наложенных друг на друга. Так, например, при k = 1 уравнение ряда Фурье будет выглядеть следующим образом: ybt = a0 + a1 cos t + b1 sin t; при k = 2, соответственно, ybt = a0 + a1 cos t + b1 sin t + a2 cos t + b2 sin t и т. д. Параметры уравнения теоретических уровней, определяемых рядом Фурье, находят, как и в других случаях, методом наименьших квадратов. В результате получены формулы для исчисления указанных выше параметров уравнения ряда Фурье: T 1X a0 = yt ; T t=1 T 2X 2πk ak = yt cos t, T t=1 T T 2X 2πk bk = yt sin t. T t=1 T Последовательные значения t обычно определяются от 0 с увеличением (приростом), равным 2π/n, где n — число уровней эмпирического ряда. Например, при n = 10 временные точки t можно записать следующим образом: 0, π 2π 3π 4π 6π 7π 8π 9π , , , , π, , , , . 5 5 5 5 5 5 5 5 Выравнивание по ряду Фурье часто дает положительный эффект в рядах, содержащих сезонную волну. Обычно строятся модели первой гармоники, второй гармоники и т. д., а затем на основании показателей качества полученных уравнений выбирается наиболее близкая модель к фактическим уровням ряда. Рассмотрим модели временных рядов, где предполагается, что наблюдаемые временные ряды являются суммой периодического тренда и 83 f (t) 1 ρ t θ 2π 1 λ Рис. 3.11 случайной компоненты, т. е. yt = f (t) + εt , причем детерминированная составляющая f (t) является периодической функцией и может описывать как циклические, так и сезонные колебания. p Здесь ρ = α2 + β 2 , θ = arctg(β/α). Заметим, что период колебания временного ряда n может не совпадать с периодом колебания тригонометрического составляющего λ. Периодичность тренда означает, что он в точности повторяет себя через определенный промежуток времени (т. е. f (t) = f (t + λ)), причем такое повторение абсолютно регулярно. Этот промежуток называют периодом колебаний временного ряда (λ). Величина, обратная периоду, называется частотой (1/λ). Она равна числу периодов (не обязательно целому), содержащемуся в единичном интервале. Иными словами, именно такое число раз функция повторяет свои значения. Тригонометрические функции cos t и sin t являются периодическими с периодом 2π, т. е. cos (t+2π) = cos t и sin (t+2π) = sin t. Отсюда следует, что cos (t + 2πk) = cos t и sin (t + 2πk) = sin t, где k = 1, 2, . . . Можно преобразовать аргументы, сохранив при этом свойство периодичности. Функции cos (λt − θ) и sin (λt − θ) периодичны с периодом 2π/λ , т. е.     2π cos λ t + − θ = cos [λt + 2π − θ] = cos [λt − θ], λ 84     2π − θ = sin [λt + 2π − θ] = sin [λt − θ]. sin λ t + λ Умножение на λ соответствует растяжению или сжатию масштаба времени, а вычитание θ — сдвигу графика косинуса или синуса. Угол θ называется фазой, причем обычно он выбирается так, чтобы периодическая функция косинуса достигала своего первого максимума в точке t = θ/λ. В таком случае 0 6 θ < 2π. При t = 0 указанные тригонометрические функции соответственно равны cos θ и (− sin θ). Наибольшее значение периодической функции называется амплитудой (обозначим его ρ). Сдвинутые косинусоида и синусоида являются линейными комбинациями обычной косинусоиды и обычной синусоиды. Из тригонометрической формулы cos (a − b) = cos a cos b + sin a sin b имеем ρ(cos λt − θ) = ρ [cos(λt) cos θ + sin(λt) sin θ] = α cos λt + β sin λt, p где α = ρ cos θ, β = ρ sin θ, или, что эквивалентно, ρ = α2 + β 2 . При этом tg θ = β/α, тогда θ = arctg(β/α). Детерминированная составляющая модели временного ряда f (t) может быть представлена суммой тригонометрических слагаемых общего вида:   2π 2π 2π t−θ . f (t) = α cos t + β sin t = ρ cos λ λ λ Здесь λ — период колебаний тригонометрического слагаемого, величина λ может не совпадать с периодом колебания временного ряда; α и β — неизвестные параметры; ρ — амплитуда. Пусть числовая последовательность y1 , . . . , yT имеет период n, где n — целое число, т. е. что yt+n = yt , t = 1, . . . , T − n. Представим T = nh, где T — число наблюдений, n — период колебаний временного ряда, h — число периодов в интервале наблюдений. Для полугодовых данных период равен 2, для ежеквартальных — 4, для 85 ежемесячных — 12. Наблюдаемые значения временного ряда можно точно аппроксимировать с помощью T линейно-независимых тригонометрических функций, причем максимальное число тригонометрических составляющих, входящих в разложение детерминированной составляющей модели временного ряда, определяется как: n−1 — для временных рядов с нечетным периодом n; qmax = 2 n qmax = − 1 — для временных рядов с четным периодом n. 2 На практике количество тригонометрических слагаемых может быть и меньше qmax . Порядок тригонометрического слагаемого ϕk (t) задается числом k = 1, 2, . . . , qmax , тогда тригонометрическое составляющее порядка k (или гармонику порядка k) можно записать как ϕk (t) = αk cos 2πk 2πk t + βk sin t. n n Период тригонометрического составляющего λk = n . k Детерминированную составляющую периодических колебаний временного ряда можно представить в виде следующей суммы тригонометрических функций:   q P 2πk 2πk f (t) = α0 + αk cos t + βk sin t (n — нечетное); n n k=1   q P 2πk 2πk f (t) = α0 + αk cos t + βk sin t + αn/2 (−1)t (n — четное); n n k=1 Представление называют разложением в ряд Фурье. Слагаемое αn/2 (−1)t представляет собой периодическую функцию с периодом 2π. Оценки параметров для данной функции определяются с помощью метода наименьших квадратов и минимизируют сумму квадратов отклонений фактических значений временного ряда от выравненных: T X (yt − ybt )2 → min . t=1 86 В результате решения системы уравнений независимые оценки параметров рассчитываются как: T 1X a0 = yt ; T t=1 T 2πk 2X yt cos t, ak = T t=1 T T 2X 2πk bk = yt sin t. T t=1 T Для временных рядов с четным n оценка an/2 T 1X = yt (−1)t . T t=1 Оценка дисперсии оценок параметров в модели сезонных колебаний вычисляется как S2 Sa20 = ост ; T 2 2S Sa2k = Sb2k = ост ; T 2 S ост Sa2n/2 = . T Оценки амплитуды колебаний и фазы выглядят следующим образом: p a2k + b2k , bk θk = arctg . ak Представляет интерес проверка гипотезы об отсутствии цикличеRk = ского слагаемого с заданным наименьшим периодом, которая формулируется следующим образом H0 : αk = βk = 0. Если верна нулевая гипотеза, то величины αk и βk независимы и нормально распределены с нулевыми средними и дисперсиями 2σ 2 /T . Тогда статистика T Rk2 2 4Sост имеет нормальное распределение с числом степеней свободы в числителе ν1 = 2 и в знаменателе ν2 = T − p, где p — число оцениваемых коэффициентов. F = 87 Нулевая гипотеза отвергается с уровнем значимости α, если критическое значение критерия Фишера (Fα , ν1 , ν2 ) превысит расчетное значение статистики F . Тогда делается вывод о том, что амплитуда колебаний тригонометрического слагаемого значимо отличается от нуля. Проверка значимости параметров α0 и αn/2 осуществляется с использованием статистики Стьюдента для уровня значимости и числа степеней свободы ν = T − p. Расчетное значение t-статистики строится следующим образом: T · a0 ta0 = 2 2Sост   T · an/2 либо tan/2 = . 2 2Sост Если tрасч больше tкрит , то принимается гипотеза о значимости параметров. 88 Тема 3.2. Системы линейных одновременных уравнений Лекция 3.2.1. Основные понятия. Виды систем одновременных уравнений. При изучении функционирования экономических систем исследователь обычно сталкивается со следующей ситуацией: состояние системы в каждый момент времени t описывается набором переменных, среди которых есть как эндогенные (внутрисистемные), так и экзогенные (внешние по отношению к рассматриваемой системе). Между переменными существуют функциональные и статистические связи. К первому типу относятся тождества, вытекающие из определений и содержательного смысла переменных. Ко второму типу относятся поведенческие связи, являющиеся выражением экономических законов, действующих в системе. Поскольку поведение экономических систем носит статистический характер (присутствуют случайные возмущения, погрешности, неучтенные факторы), то для описания поведенческих связей используются регрессионные уравнения. В теории экономико-статистического моделирования систему взаимосвязанных регрессионных уравнений и тождеств, в которой одни и те же переменные в различных регрессионных уравнениях могут одновременно выступать и в роли результирующих показателей, и в роли объясняющих переменных, принято называть системой одновременных (эконометрических) уравнений. При этом в соотношения могут входить переменные, относящиеся не только к периоду t, но и к предшествующим периодам, называемые лаговыми («запаздывающими») переменными. Для экономистов большой интерес представляет количественный анализ модели, т. е. нахождение оценок параметров на основании имеющейся в распоряжении исследователя информации о значениях переменных. Первая из возникающих здесь проблем: можно ли в предложенной модели однозначно восстановить значение некоторого параметра или же его определение принципиально невозможно на основе рассматриваемой модели? Это так называемая проблема идентифицируемости. 89 Проблема оценивания здесь также имеет свои особенности. Основная трудность состоит здесь в том, что в эконометрических моделях переменная, играющая роль независимой (объясняющей) переменной в одном соотношении, может быть зависимой в другом. Это приводит к тому, что в регрессионных уравнениях системы объясняющие переменные и случайные возмущения оказываются коррелированными. Рассмотрим в качестве иллюстрации два классических примера. Пример 1. Модель спроса и предложения («крест Маршалла»). Спрос Qd на некоторый продукт и его предложение Qs зависят от цены продукта p. Рыночный механизм формирует цену таким образом, что спрос и предложение уравниваются. Наблюдению доступна равновесная цена и спрос (совпадающий с предложением). Линейная модель выглядит следующим образом: Qdt = α1 pt + β1 + ut («спрос пропорционален цене»); Qst = α2 pt + β2 + εt («предложение пропорционально цене»). Здесь pt — цена товара, ut и εt — случайные возмущения, имеющие нулевые средние (t = 1, n). Предполагается, что на рынке существует равновесие: Qdt = Qst . В соответствии с этой моделью цена и величина спросапредложения определяется одновременно, поэтому без дополнительных предположений (например, на структуру случайных возмущений) параметры αi и βi однозначно определить нельзя, т. е. они неидентифицируемы. Пример 2. Содержательный смысл модели спроса состоит в утверждении, что потребительские расходы, т. е. спрос, пропорциональны доходу. В свою очередь доход есть сумма потребительских и непотребительских расходов. Математическая формулировка модели такова: ct = α + βyt + ut ; yt = ct + zt , 90 где c — потребительские расходы; y — доход; z — непотребительские расходы; u — случайное возмущение (учитывающее неполноту информации, незамкнутость системы и др.). Предполагается, что уровень непотребительских доходов задан извне, т. е. переменная z экзогенна и определяется независимо от c и y. Случайные величины ut некоррелированы, имеют нулевые средние и одинаковые дисперсии σ 2 . Требуется оценить параметры модели α, β, σ 2 . В выражении для ct переменная y коррелирует со случайным возмущением. Это приводит к тому, что обычные МНК-оценки параметров оказываются смещенными и несостоятельными. Рассмотрим общую линейную модель вида βi1 y1t + βi2 y2t + . . . + βiG yGt + γi1 x1t + . . . + γik xKt = uit , (t = 1, n; i = 1, G). Здесь yit — значения эндогенных переменных в момент t; xit — значения экзогенных переменных в момент t и лаговых эндогенных переменных. Переменные xit в момент времени t называются предопределенными. Совокупность равенств данного вида называется системой одновременных уравнений в структурной форме. На коэффициенты в указанных равенствах накладываются априорные ограничения, например, часть коэффициентов считаются равными нулю. Это обеспечивает возможность статистического оценивания оставшихся. Систему указанных равенств удобно представить в матричном виде: Byt + Gxt = ut , где B — матрица, состоящая из коэффициентов при текущих значениях эндогенных переменных; G — матрица, состоящая из коэффициентов при предопределенных переменных; yt = (y1t , . . . , yGt ); xt = (x1t , . . . , xKt ); ut = (u1t , . . . , uGt ) — векторы-столбцы. 91 Если матрица B невырождена, то систему можно разрешить относительно yt : yt = Px t + η t , где P = −B −1 G; ηt = B −1 ut — случайное возмущение. Такая форма записи называется приведенной формой системы одновременных уравнений. В приведенной форме параметры матрицы P выражают общий (прямой и косвенный) эффект влияния предопределенных переменных на совместно зависимые переменные, тогда как в структурной форме параметры матрицы G отражают только непосредственное влияние предопределенных переменных. Совместно-зависимыми называются переменные, которые в один и тот же момент времени выступают как объясняющие переменные в одних уравнениях и как зависимые — в других. Приведенную форму модели используют для прогнозирования. Параметры модели в приведенной форме оценивают непосредственно с помощью МНК. Уравнения для всех периодов наблюдений могут быть записаны в виде одного матричного уравнения: BY + GX = U. Решение вопросов о том, какие переменные должны быть включены в модель, разделение переменных на эндогенные и экзогенные, а также определение состава переменных каждого уравнения системы составляют суть процесса спецификации модели. Кроме этого, спецификация модели включает в себя априорную информацию: ограничения на коэффициенты и гипотезу о случайных возмущениях ut . Типичным примером априорных ограничений являются исключающие ограничения, выражающие то, что некоторые переменные заведомо не входят в отдельные уравнения и, следовательно, соответствующие им коэффициенты равны нулю. В качестве гипотезы о случайных возмущениях принимается гипотеза о том, что случайные величины ut независимы и имеют один и тот же закон распределения с нулевым средним. 92 Проблема идентифицируемости Предположим, что априорные ограничения являются линейными однородными функциями, каждая из которых зависит только от коэффициентов одного из уравнений структурной формы. Выясним, когда коэффициенты матрицы G могут быть однозначно восстановлены по матрице приведенной формы P . В качестве одного из критериев идентифицируемости, удовлетворение требований которого обеспечивает однозначную идентифицируемость параметров системы уравнений, выступает правило порядка. Правило порядка (или необходимое условие идентифицируемости) определенного уравнения говорит о том, что число неизвестных, исключенных из уравнения, должно быть по меньшей мере равно числу уравнений минус единица, или число исключенных из уравнения экзогенных переменных должно быть не меньше числа участвующих в нем эндогенных переменных, уменьшенного на единицу. В ситуации, когда имеются дополнительные ограничения на коэффициенты приведенной формы (например, требование определенного соотношения между коэффициентами, либо равенство нулю дополнительных коэффициентов сверх правила порядка), говорят о случае сверхидентифицируемости. Среди систем приведенных уравнений наиболее простыми являются рекурсивные системы, для оценивания коэффициентов которых можно применять метод наименьших квадратов. Система одновременных уравнений BY + GX = U называется рекурсивной, если матрица B является нижней треугольной матрицей (т. е. βij = 0 при j > i) и каждое ограничение на структурные коэффициенты относится к отдельному уравнению. Общий вид рекурсивной системы может быть представлен следующим образом: y1 = β11 x1 + . . . + β1n xn + ε1 , y2 = −α21 y1 + β21 x1 + ... + β2n xn + ε2 , ... ym = −αm1 y1 + αm, m−1 ym−1 + βm1 x1 + . . . + βmn xn + εm . Рекурсивные системы являются весьма привлекательными для ис93 пользования их в экономических исследованиях, тем более что реальные экономические системы являются рекурсивными по своей природе. Действительно, вряд ли можно представить рынок, где равновесные цены и спрос формировались бы одновременно (ситуация, приведенная в Примере 1). Более реальной является ситуация, когда цены в день t устанавливаются в зависимости от объема продаж в предыдущий день, в то время как покупки в день t зависят от цены товара в день t. Математическая модель данной ситуации выглядит так: pt = α0 + α1 qt−1 + ut , qt = β0 + β1 pt + vt . Здесь ut и vt — случайные возмущения, которые можно считать независимыми, и тогда в данном случае мы имеем модель рекурсивной системы. Необходимость рассматривать системы, отличные от рекурсивных, возникает в связи с тем, что исследователь обычно располагает усредненными (агрегированными) данными. Например, данные о рыночной конъюнктуре могут быть усреднены по недельным или месячным периодам, т. е. известными являются величины: Pt — средняя цена за неделю t; Qt — средний объем ежедневных продаж за неделю t. Если считать время реакции рынка, как и раньше, равным одному дню, то соотношение Pt = α0 + α1 Qt−1 + ut вряд ли можно считать разумным. В этом случае модель Примера 1 представляется более естественной. 94 Лекция 3.2.2. Оценка параметров систем уравнений Пусть теперь имеется несколько изучаемых переменных, для каждой из которых существует свое уравнение регрессии. В совокупности эти уравнения образуют систему, которая является невзаимозависимой, если одни изучаемые переменные не выступают факторами-регрессорами для других изучаемых переменных. Если изучаемые переменные возникают не только в левых, но и правых частях уравнений, то такие системы называются одновременными или взаимозависимыми. Невзаимозависимые системы В этом пункте используется сокращенная форма записи уравнений регрессии: b = ẐA + ε, X (1) где X̂ — N × k-матрица центрированных наблюдений за изучаемыми переменными, Ẑ — N × n-матрица центрированных наблюдений за факторными переменными, A — n × k-матрица параметров уравнений регрессии, ε — N × n-матрица ошибок изучаемых переменных (остатков по наблюдениям). Относительно ошибок предполагается, что в каждом наблюдении их математическое ожидание равно нулю, матрица ковариации размерности k × k одинакова и равна Ω (Ω — вещественная, симметричная, положительно определенная матрица), и что они не коррелированы по наблюдениям. Оценивать параметры этой системы можно отдельно по каждому уравнению: A = M −1 m̃, (2) 1 0 1 0 Ẑ Ẑ, m̃ = Ẑ X̂, или через обычные операторы МНКгде M = N N оценивания, записанные последовательно для всех уравнений системы al = M −1 ml , l = 1, . . . , k. Ситуация резко усложняется, если для коэффициентов матрицы A имеются априорные ограничения. Пусть, например, эта матрица  a1 0   0 a2   ... ...  имеет следующую структуру:  ··· 0  ··· 0   . . . ...  ,  0 · · · ak где al — nl -вектор-столбец коэффициентов в l-м уравнении (для l-й изуk P чаемой переменной), nl = n, т.е. многие элементы матрицы A априорl=1 но приравнены нулю. Фактически это означает, что для каждой изучаемой переменной имеется свой набор объясняющих факторов с N × nl -матрицей наблю  дений Ẑl Ẑ = Ẑ1 · · ·Ẑk , и система уравнений (1) представляется как совокупность внешне не связанных между собой уравнений: X̂l = Ẑl al + εl , l = 1, . . . , k. (3) Сразу можно заметить, что теперь оператор (2) применить невозможно, т.к. система нормальных уравнений, решением которой является этот оператор, записывается следующим образом:     M11 a1 · · · M1k ak m11 · · · m1k  .. ..  =  .. . . . ..  , ... .   . .   . Mk1 a1 · · · Mkk ak mk1 · · · mkk (4) mll0 = N1 Ẑl0 X̂l0 , т.е. вектор оценок параметров каждого уравнения должен удовлетворять k взаимоисключающим, в общем случае, системам уравнений. Правильная оценка параметров регрессии дается решением следугде Mll0 = 1 0 0 N Ẑl Ẑl , ющих уравнений: k X l0 =1 ωll−10 Mll0 al 0 = k X ωll−10 mll0 , l = 1, . . . , k, l0 =1 где ωll−10 — элемент матрицы Ω−1 . 96 Или в матричной записи:  −1   −1  −1 −1 M1k ak m1k ω11 M11 a1 + · · · +ω1k ω11 m11 + · · · +ω1k     .. .. .. .. ... ... . . . .  = , −1 −1 −1 −1 ωk1 Mk1 a1 + · · · +ωkk Mkk ak ωk1 mk1 + · · · +ωkk mkk (5) которая при сравнении с (4) оказывается результатом умножения в (4) всех Mll0 и mll0 на ωll−10 и сложения столбцов в обеих частях этого выражения. Эта оценка совпадает с обычной МНК-оценкой al = Mll−1 mll , если матрица Ω диагональна, т.е. ошибки изучаемых переменных не коррелированы. Взаимозависимые или одновременные уравнения. Проблема идентификации Далее в этом разделе уравнения регрессии записываются в форме со скрытым свободным членом. X — N × k-матрица наблюдений за изучаемыми переменными x; Z — N ×(n+1)-матрица наблюдений за независимыми факторами z; B — k × k-матрица параметров регрессии при изучаемых переменных; B 6= Ik , иначе система была бы невзаимозависимой; |B| 6= 0 и βll = 1 — условия нормализации, т.е. предполагается, что, в конечном счете, в левой части l-го уравнения остается только l-я переменная, а остальные изучаемые переменные переносятся в правую часть; A — (n + 1) × k-матрица параметров регрессии (последняя строка — свободные члены в уравнениях); ε — N × k-матрица значений случайных ошибок по наблюдениям; XB = ZA + ε. (6) Такая запись одновременных уравнений называется структурной формой. Умножением справа обеих частей этой системы уравнений на B −1 она приводится к форме, описанной в предыдущем пункте. Это — приведенная форма системы: X = ZAB −1 + εB −1 . 97 D = AB −1 — (n + 1) × k-матрица параметров регрессии приведенной формы. Для их оценки можно использовать МНК: D = (Z 0 Z)−1 Z 0 X. Таким образом, матрица D оценивается без проблем, и ее можно считать известной. Однако задача заключается в оценке параметров B и A системы в приведенной форме. Эти параметры, по определению, удовлетворяют следующим условиям: DB − A = 0 (7) или W H = 0, где i h W — (n + 1) × (n + k + 1)-матрица D In+1 , " # B . H — (n + k + 1) × k-матрица −A Это — условия для оценки параметров структурной формы. В общем случае эти условия достаточно бессмысленны, т.к. они одинаковы для параметров всех уравнений. Они описывают лишь множество допустимых значений параметров (одинаковое для всех уравнений), поскольку для n + k + 1 параметров каждого уравнения структурной формы имеется только n + 1 одинаковых уравнений. Необходимы дополнительные условия, специальные для каждого уравнения. Пусть для параметров l-го уравнения кроме требования W Hl = 0 ((Z 0 Z)−1 Z 0 XBl − Al = 0) (8) имеется дополнительно rl условий: Rl Hl = 0, (9) где Rl — rl × (n + k + 1)-матрица дополнительных условий, " # Bl параметров l-го уравнеHl — (n + k + 1)-вектор-столбец −Al ния — l-й ! столбец матрицы H. W Hl = Wl Hl = 0 — общие условия для определения структурRl ных параметров l-го уравнения, где Wl — (n + rl + 1) × (n + k + 1)-матрица. 98 Они позволяют определить искомые параметры с точностью до постоянного множителя (при выполнении условий нормализации βl = 1 параметры определяются однозначно), если и только если ранг матрицы Wl равен n + k. Для этого необходимо, чтобы rl > k − 1. (10) Однако, это условие не является достаточным. Имеется необходимое и достаточное условие для определения параметров l-го уравнения (более операциональное, чем требование равенства n + k ранга матрицы Wl ): rank(Rl H) = k − 1. (11) Доказательство данного утверждения опускается по причине сложности. Теперь вводятся определения, связанные с возможностью нахождения параметров уравнения структурной формы: l-е уравнение не идентифицировано, если rl < k − 1; оно точно идентифицировано, если rl = k−1 и ранг Wl равен n+k; сверхидентифицировано, если rl > k−1. В первом случае параметры не могут быть оценены, и, хотя формально, например, используя МНК, оценки можно получить, они никакого смысла не имеют; во втором случае параметры уравнения оцениваются однозначно; в третьем — имеется несколько вариантов оценок. Обычно строки матрицы Rl являются ортами, т.е. дополнительные ограничения исключают некоторые переменные из структурной формы. Тогда, если kl и nl — количества, соответственно, изучаемых переменных, включая l-ю, и независимых факторов в l-м уравнении, то для его идентификации необходимо, чтобы kl + nl 6 n + 1. (12) В таком случае условие (11) означает, что матрица, составленная из коэффициентов во всех прочих уравнениях, кроме l-го, при переменных, которые исключены из l-го уравнения, должна быть не вырождена. При этом l-й столбец матрицы Rl H из (11), равный нулю, как это следует из (9), исключается из рассмотрения. Дальнейшее изложение ведется в предположении, что строки матрицы Rl — орты. 99 Оценка параметров отдельного уравнения Вводятся дополнительные обозначения: X l — N × kl -матрица наблюдений за изучаемыми переменными xl , входящими в l-е уравнение; Xl — N -вектор-столбец наблюдений за l-й переменной xl ; X−l — N × (kl − 1)-матрица X l без столбца Xl наблюдений за xl− ; β l — kl -вектор-столбец параметров при изучаемых переменных в l-м уравнении; βl — (kl − 1)-вектор-столбец β l с обратным знаком и без l-го элемента βll = 1; Z l — N × (nl + 1)-матрица наблюдений за независимыми факторами z l , входящими в l-е уравнение, включая единичный столбец, соответствующий свободному члену; αl — (nl + 1)-вектор-столбец параметров при этих факторах вместе со свободным членом; εl — N -вектор-столбец остатков в l-м уравнении по наблюдениям. Тогда l-е уравнение регрессии можно записать следующим образом: X l β l = Z l αl + ε l (13) Xl = X−l βl + Z l αl + εl . (14) или Применение обычного МНК к этому уравнению дает в общем случае смещенные и несостоятельные оценки, прежде всего потому, что остатки εl скорее всего коррелированы с регрессорами X−l , которые к тому же недетерминированы и наблюдаются с ошибками. Если данное уравнение точно идентифицировано, то для оценки его параметров можно использовать косвенный метод (КМ) наименьших квадратов: с помощью МНК оцениваются параметры приведенной формы системы уравнений, через которые однозначно выражаются структурные параметры данного уравнения. Можно записать уравнения для оценки косвенным методом в общем случае. 100 Сначала следует обратить внимание на то, что условия (9) эквивалентны требованиям TlB β l = Bl , TlA αl = Al , (15) где TlB — k × kl -матрица, полученная из Ik вычеркиванием столбцов, соответствующих тем изучаемым переменным, которые исключены из l-го уравнения; TlA – аналогичная (n + 1) × (nl + 1)-матрица для Al . Bl и Al имеют нулевые компоненты, соответствующие исключенным из l-го уравнения переменным. Далее необходимо учесть, что параметры структурной формы, удовлетворяющие условиям (15), должны для своей идентификации еще удовлетворять соотношениям (8). Тем самым получается система уравнений для нахождения параметров структурной формы: DTlB bl − TlA al = 0, или по определению матрицы TlB : Dl bl − TlA al = 0, где Dl – оценки параметров приведенной формы уравнений для изучаемых переменных, вошедших в l-е уравнение, или, наконец, l Dl = D− bl + TlA al , (16) где Dl — оценки параметров l-го уравнения в приведенной форме, l D− — оценки параметров приведенной формы уравнений для изучаемых переменных, вошедших в правую часть l-го уравнения. Эти матрицы коэффициентов приведенной формы представляются следующим образом: l Dl = (Z 0 Z)−1 Z 0 X l , Dl = (Z 0 Z)−1 Z 0 Xl , D− = (Z 0 Z)−1 Z 0 X−l . Система уравнений (16) может быть также получена умножением обеих частей системы (14) слева на (Z 0 Z)−1 Z 0 , т.к. третье слагаемое правой части отбрасывается (МНК-остатки должны быть ортогональны 101 регрессорам), а во 2-м слагаемом (Z 0 Z)−1 Z 0 Z l заменяется на TlA (т.к. по определению этой матрицы Z l = ZTlA ).   l TlA имеет размерВ общем случае, матрица этой системы D− ность (n + 1)×(kl +nl ). Первый ее блок имеет размерность (n+1)×(kl −1), второй — (n + 1) × (nl + 1). В случае точной идентификации и строгого выполнения условий (12) эта матрица квадратна и не вырождена. Система (16) дает единственное решение — оценку параметров структурной формы l-го уравнения косвенным методом наименьших квадратов. Если уравнение не идентифицировано, переменных в системе (14) оказывается больше, чем уравнений, и эта система представляет бесконечное множество значений параметров структурной формы. Чтобы выбрать из этого множество какое-то решение, часть параметров структурной формы надо зафиксировать, т.е. сделать уравнение идентифицированным. Для сверхидентифицированного уравнения система (14) является переопределенной, и ее уравнения не могут выполняться как равенства. Различные методы оценки такого уравнения реализуют различные подходы к минимизации невязок по уравнениям этой системы. Одним из таких методов является двухшаговый метод (2М) наименьших квадратов. На первом шаге с помощью МНК оцениваются параметры приведенной формы для переменных X−l : l X−l = ZD− + V l, где V l — N × (kl − 1)-матрица остатков по уравнениям; и определяются расчетные значения этих переменных уже без ошибок: l X−lc = ZD− . На втором шаге с помощью МНК оцениваются искомые параметры структурной формы из уравнения: Xl = X−lc bl + Z l al + el . (17) Применим обычный МНК. 102 Можно определить единый оператор 2M-оценивания. Поскольку X−lc = F X−l , где F = Z(Z 0 Z)−1 Z 0 , уравнение (15) записывается как: !   bl Xl = F X−l Z l + el , al а оператор, входящий в него, как: ! !−1 ! l0 l l0 l l0 bl X− F X − X− Z X− F X l = . al Z l X−l Zl Zl Z l Xl (18) (19) Такой оператор оценивания сверхидентифицированного уравнения можно получить, если МНК применить к системе (14) (в этом случае она переопределена и в ее уравнениях возникают невязки), умножив предварительно обе ее части слева на Z. Отсюда, в частности, следует, что для точно идентифированного уравнения 2М-оценка совпадает с КМ-оценкой, т.к. параметры структурной формы уравнения, однозначно определяемые соотношениями (14), удовлетворяют в этом случае и условиям (16). Соотношения (19) — первая форма записи оператора 2Мc оценивания. Если в (15) учесть, что X−l = X−l − V l , этот оператор можно записать в более прозрачной второй форме: ! !−1 ! l0 l0 l0 l l0 l l0 l (X− − V )Xl X − X− − V V X− Z bl . (20) = Z l Xl Z l X−l Zl Zl al Попытка применить оператор 2М-оценивания для не идентифицированного уравнения не имеет смысла, т.к. обращаемая матрица в данном операторе вырождена. Для сверхидентифицированного уравнения можно использовать также метод наименьшего дисперсионного отношения (МНДО). Строгое обоснование его применимости вытекает из метода максимального правдоподобия. Пусть bl в уравнении (13) оценено, и X l bl рассматривается как единая эндогенная переменная. В результате применения МНК опреде103 ляются: al = (Z l Z l )−1 Z l X l bl , где F l = Z l (Z l Z l )−1 Z l , el = (IN − F l )X l bl , (21) e0l el = bl W l bl , где W l = X l (IN − F l )X l . Теперь находится остаточная сумма квадратов при условии, что все экзогенные переменные входят в l-е уравнение. Она равна bl W bl , где W = X l (IN − F )X l . Тогда bl должны были бы быть оценены так, чтобы bl W l bl λ = l0 → min b W bl Иначе было бы трудно понять, почему в этом уравнении присутствуют не все экзогенные переменные. Решение этой задачи приводит к следующим условиям: (W l − λW )bl = 0. (22) Следовательно, λ находится как минимальный корень характеристического уравнения W l − λW = 0, а bl определяется из (22) с точностью до постоянного множителя, т.е. с точностью до нормировки bll = 1. В общем случае λmin > 1, но при правильной спецификации модели λmin −→ 1. N →∞ Оператор ! bl = al X−l X−l l0 − kV V Z l X−l l X−l Z l l0 l Z Z !−1 (X−l l0 − kV )Xl Z l Xl ! позволяет получить так называемые оценки k-класса (не путать с k — количеством эндогенных переменных в системе). При k = 0, они являются обычными МНК-оценками для l-го уравнения, что легко проверяется; при k = 1, это — 2М-оценки; при k = λmin — МНДО-оценки (принимается без доказательства). 2М-оценки занимают промежуточное положение между МНК- и МНДО-оценками (т.к. λmin > 1). Исследования показывают, что эффективные оценки получаются при k < 1. 104 Оценка параметров системы идентифицированных уравнений Из приведенной формы системы уравнений следует, что x0 ε = (B −1 )0 A0 z 0 ε + (B −1 )0 ε0 ε. Как и прежде, в любом наблюдении E(ε) = 0, E(ε0 ε) = σ 2 Ω, и ошибки не коррелированы по наблюдениям. Тогда E(x0 ε) = (B −1 )0 E(ε0 ε) = σ 2 (B −1 )0 Ω, т.е. в общем случае все эндогенные переменные коррелированы с ошибками во всех уравнениях. Это является основным препятствием для применения обычного МНК ко всем уравнениям по отдельности. Но в случае, если в матрице B все элементы, расположенные ниже главной диагонали, равны нулю, т.е. в правой части l-го уравнения могут появляться только более младшие эндогенные переменные xl0 , l0 < l, и последней компонентой любого вектора xl является xl , а матрица Ω диагональна, то εl не коррелирует с переменными xl− при любом l. Это — рекурсивная система, и для оценки ее параметров можно применять МНК к отдельным уравнениям. Для оценки параметров всех идентифицированных уравнений системы можно применить трехшаговый метод (3М) наименьших квадратов. Первые два шага 3М совпадают с 2М, но представляются они по сравнению с предыдущим пунктом в несколько иной форме. Предполагается, что идентифицированы все k уравнений: Xl = X−l βl + Z l αl + εl = Ql γl + εl , l = 1, . . . , k, где Ql = [X−l , Z l ], γl = [ βl αl ]0 . Учитывая указанные выше свойства остатков: E(εl ε0l ) = σ 2 ωll IN , E(εl0 ε0l ) = σ 2 ωl0 l IN . Теперь обе части l-го уравнения умножаются слева на Z 0 : Z 0 Xl = Z 0 Ql γl + Z 0 εl , (23) 105 и Z 0 Xl рассматривается как вектор n + 1 наблюдений за одной эндогенной переменной, а Z 0 Ql — как матрица n + 1 наблюдений за nl + kl экзогенными переменными, включая свободный член. Так как все уравнения идентифицированы, и выполнено условие (12), во всех этих новых регрессиях количество наблюдений не меньше количества оцениваемых параметров. Для сверхидентифицированных уравнений количество наблюдений в новой регрессии будет превышать количество оцениваемых параметров. Это более естественный случай. Поэтому 3М-метод обычно применяют для всех сверхидентифицированных уравнений системы. Матрица ковариации остатков по уравнению (23) равна σ 2 ωll Z 0 Z. Она отлична от σ 2 IN , и для получения оценок cl параметров γl этого уравнения нужно использовать ОМНК: cl = (Ql Z(Z 0 Z)−1 Z 0 Ql )−1 Ql Z(Z 0 Z)−1 Z 0 Xl , или cl = (Ql F Ql )−1 Ql F Xl . Сравнив полученное выражение с (19), легко убедится в том, что cl — 2М-оценка. Если 2М на этом заканчивается, то в 3М полученные оценки cl используются для того, чтобы оценить el , и затем получить оценки W матрицы σ 2 Ω: 1 1 wll = e0l el , wl0 l = e0l0 el . N N Теперь все уравнения (23) записываются в единой системе:        Z 0 X1 Z 0 Q1 ··· γ1 Z 0 ε1  0      0  0 2  Z X2   0  γ2  Z ε2  Z Q · · ·  =   +  , (24) .. . . . .  ...   ...      . . . . . . . . .        Z 0 Xk · · · Z 0 Qk γk Z 0 εk или Y = Qγ + η, где Y — соответствующий k · (n + 1)-вектор-столбец наблюдений за изучаемой переменной; k P Q — k(n + 1) × (kl + nl )-матрица наблюдений за экзогенными пеl=1 ременными; 106 γ— k P (kl + nl )-вектор-столбец параметров регрессии; l=1 η — k(n + 1)-вектор-столбец остатков по наблюдениям. Легко проверить, что матрица ковариации остатков η удовлетворяет следующему соотношению: E(ηη 0 ) = σ 2 Ω ⊗ (Z 0 Z). Для нее имеется оценка: k(n + 1) × (n + 1)-матрица Σ = W ⊗ (Z 0 Z). Эта матрица отлична от σ 2 Ik(n+1) , поэтому на третьем шаге 3М-оценивания к единой системе (24) применяется ОМНК и получается окончательная оценка c параметров γ: c = (Q0 Σ−1 Q)−1 Q0 Σ−1 Y. 107 Тема 3.3. Основные понятия и модели дисперсионного анализа Лекция 3.3.1. Основные понятия дисперсионного анализа. Однофакторная дисперсионная модель Дисперсионным анализом называется метод организации (планирования), статистического анализа и интерпретации результатов экспериментов, в которых изучается зависимость количественной переменной y от сочетания градаций качественных переменных X. Предположим, что нас интересует зависимость объема выпуска продукции в цехе от типа производственного процесса, уровня образования рабочих, стиля руководства администрации и др. Использование дисперсионного анализа (далее — ДА) позволяет установить наличие либо отсутствие влияния каждого качественного фактора, а также оценить величину «вклада» каждого качественного фактора в изменение результирующего количественного признака. В приведенном примере рассматривается модель с постоянными факторами. Если же нас интересует не объем выпуска продукции отдельным цехом, а «вклад» в общую изменчивость выпуска, которую вносит разная работа цехов, то постоянный фактор, связанный с характеристикой работы отдельного цеха, заменяют на случайную величину (случайный фактор). Модели ДА, содержащие только случайные факторы, называют моделями со случайными факторами. Модели, куда входят одновременно постоянные и случайные факторы, называют смешанными моделями дисперсионного анализа. Возникают ситуации, когда необходимо в модель дисперсионного анализа ввести дополнительные количественные переменные (называемые регрессионными). Тогда методы изучения моделей, в которых часть переменных является неколичественными, а часть количественными (регрессионными) называются ковариационным анализом. Для дисперсионного анализа существенна классификация, основанная на способе организации исходных данных, т. е. на том, как градации одних факторов (переменных) в исходных данных сочетаются с 108 теми или иными градациями других переменных и как распределено общее число имеющихся наблюдений между различными возможными сочетаниями градаций переменных. Поэтому ДА наиболее эффективен тогда, когда исследователь активно вмешивается в организацию сбора данных (или участвует в планировании экспериментов). Предположим, что в исследование включено K факторов (i = 1, K), причем i-ый фактор имеет P градаций (j = 1, P ). Если каждому из возможных условий соответствует хотя бы одно наблюдение, то такую организацию экспериментов называют полным K-факторным планом. Практически это трудно организовать, поэтому больше распространены неполные планы. В случае, когда требуется сравнить в эксперименте совокупности условий, группируют эксперименты в блоки (например, цеха по типу производственного процесса) так, чтобы внутри блока результаты эксперимента (выпуск продукции) были бы более похожи друг на друга, чем на результаты экспериментов в других блоках. Если внутри каждого блока удается разместить весь набор условий, то такой план эксперимента называют полным блочным планом, если только часть из них — то неполным блочным планом. Для того, чтобы нивелировать влияние не учитываемых при анализе факторов, размещение условий внутри блоков часто производят случайно и тогда такие планы экспериментов называют случайными или рандомизированными планами. Рассмотрим модель однофакторного дисперсионного анализа, когда оценивается влияние одного качественного признака на количественную переменную. Математическая модель однофакторного ДА имеет вид: yij = y + αj + εij , 109 где yij — значение результирующего показателя для i-го (i = 1, nj ) наблюдения при уровне градации j (j = 1, P ) качественного признака; nj — количество наблюдений, ! когда фактор находится на n P уровне j nj = N, j = 1, P ; j=1 y — среднее значение результирующего показателя по всем наблюдениям всех градаций качественного признака; αj — эффект влияния фактора на j-ом уровне; εij — случайная компонента, отражающая влияние всех прочих факторов (предполагается, что случайные погрешности независимы между собой и имеют нормальное распределение с нулевым средним и дисперсией σ 2 ). С содержательной точки зрения однофакторный ДА можно рассматривать как P рядов (каждый длины nj ) независимых наблюдений над нормально распределенными случайными величинами. Рассмотрим табличную форму представления исходных данных для проведения однофакторного ДА (см. таблицу 6). В ДА обычно проверяется гипотеза об отсутствии влияния рассматриваемых неколичественных переменных на результирующий показатель. Для проверки этой гипотезы общая вариация зависимой переменной раскладывается на две составляющие: 1. обусловленную влиянием неколичественного фактора (межгрупповую или объясненную сумму квадратов). Эта составляющая вычисляется как сумма квадратов отклонений групповых средних yj от общего среднего y; 2. обусловленную случайной вариацией зависимого признака (внутригрупповую или остаточную сумму квадратов). Эта составляющая вычисляется как сумма квадратов отклонений наблюдаемых значений от соответствующих групповых средних. 110 111 ... y1j , y2j , . . . , ynj j ... y1P , y2P , . . . , ynP P ... j ... P N= j=1 P P nP ... nj ... n1 nj nj yij y11 , y21 , . . . , yn1 1 Количество наблюдений в группе Значения результирующего показателя 1 Градации качественного фактора yi1 yij yij j=1 i=1 yij yiP nj P P P i=1 nP P ... i=1 nj P ... i=1 n1 P i=1 nj P ... ... yj = yi1 yij N j=1 i=1 yij yij nP i=1 nP P nj i=1 nj P n1 i=1 n1 P yij nj nP P P P yP = yj = y1 = yj = P Среднее значение Сумма наблюдений в наблюдений в группе группе Таблица 6 Таким образом, Dобщ = Dвнутригр + Dмежгр или в обозначениях данных для дисперсионного анализа: nj P X X j=1 i=1 2 (yij − y) = nj P X X (yij − yj + yj − y)2 = j=1 i=1 = nj P X X (yij − yj )2 + j=1 i=1 nj P X X (yj − y)2 . j=1 i=1 Поделив суммы квадратов на соответствующие числа степеней свободы, получим оценки дисперсий: Dобщ = S 2 общ; N −1 Dвнутригр 2 = Sвнутригр ; N −P Dмежгр 2 = Sмежгр ; P −1 При этом внутригрупповая дисперсия характеризует рассеяние внутри групп и отражает влияние неучтенных факторов, межгрупповая дисперсия равна той части дисперсии результирующего показателя, которая отражает разброс относительно общего среднего (причем разброс объясняется влиянием анализируемого неколичественного фактора). Вернемся к проверке гипотезы об отсутствии влияния неколичественного фактора на результирующий показатель Y . Основная гипотеза записывается как 2 2 H0 : σобщ = σвнутригр . Альтернативная гипотеза 2 2 H1 : σобщ > σвнутригр . Для проверки строится статистика, имеющая распределение Фишера и равная отношению общей дисперсии к внутригрупповой: F = 2 Sобщ 2 Sвнутригр . Расчетное значение сравнивается с табличным значением F распределения, соответствующим уровню значимости α, числу степеней свободы числителя ν1 = N − 1 и знаменателя ν2 = N − P . 112 113 «Полная» сумма квадратов факторов) Ошибки (влияние неучтенных качественного признака) Между градациями (влияние Источник вариации Dобщ = 2 j=1 i=1 (yij − y) j=1 i=1 nj P P P (yij − yj )2 (yj − y)2 j=1 i=1 nj P P P Dвнутригр = Dмежгр = nj P P P Сумма квадратов N −1 N −P P −1 Число степеней свободы 2 Sобщ Dвнутригр N −P Dмежгр P −1 Dобщ = N −1 2 Sвнутригр = 2 = Sмежгр Дисперсия (или средние квадраты) F = 2 Sвнутригр 2 Sобщ Критерий F Таблица 7 Если Fрасч > Fтабл , то нулевая гипотеза отвергается с уровнем значимости α. В таком случае с вероятностью, равной p = 1 − α, делается вывод о существенности влияния данного качественного признака на результирующий показатель. Процедуру ДА обычно представляют в форме таблицы 7. 114 Лекция 3.3.2. Модель двухфакторного дисперсионного анализа Исследуется ситуация, когда необходимо установить влияние на зависимый количественный показатель двух качественных признаков A и B с числом градаций соответственно P (i = 1, P ) и Q (j = 1, Q), а также их взаимодействия. Обозначим как θij среднее значение результата эксперимента (эффект взаимодействия) при сочетании i-го уровня фактора A с j-ым уровнем фактора B (среднее значение в (i, j)-ой ячейке прямоугольной таблицы, где строкам соответствуют градации фактора A, а столбцам — градации фактора B). Число наблюдений в ячейке (i, j) равно n, и тогда общее количество наблюдений определяется как N = nP Q. Главным эффектом фактора A на i-ом уровне будем считать число αi , а главным эффектом фактора B на уровне j будем считать число βj . Пусть yijk — k-ое наблюдение зависимого признака в ячейке (i, j), соответствующее i-му уровню фактора A и j-му уровню фактора B (k = 1, n; i = 1, P ; j = 1, Q), y — среднее значение зависимого признака, εijk — случайная составляющая для k-го наблюдения в ячейке (i, j). В модели полного двухфакторного ДА предполагается, что уровни факторов фиксированы. Рассмотрим случай, когда n > 1. Модель двухфакторного ДА примет вид yijk = y + αi + βj + θij + εijk , i = 1, P ; j = 1, Q; k = 1, n. Предполагается, что случайные составляющие независимы и имеют нормальное распределение с нулевым средним и дисперсией σ 2 . Результаты наблюдений для указанного полного двухфакторного ДА удобнее представлять в виде таблицы 8 Среднее значение для сочетания факторов (i, j) определяется как: n P yij = yijk k=1 n , (k = 1, n). 115 116 P P n P y1 = yP 11 , yP 12 , . . . , yP 1n AP Pn yi1k .. . .. . i=1 k=1 P P n P yi11 , yi12 , . . . , yi1n Ai Средние yP 21 , yP 22 , . . . , yP 2n .. . .. . y2 = yi2k Pn i=1 k=1 .. . yi21 , yi22 , . . . , yi2n .. . y221 , y222 , . . . , y22n y211 , y212 , . . . , y21n A2 y121 , y122 , . . . , y12n B2 y111 , y112 , . . . , y11n B1 ... ... .. . ... .. . ... ... ... Bj yj = yijk Pn i=1 k=1 P P n P yP j1 , yP j2 , . . . , yP jn .. . yij1 , yij2 , . . . , yijn .. . y2j1 , y2j2 , . . . , y2jn y1j1 , y1j2 , . . . , y1jn Градации фактора B A1 Градации фактора A ... ... .. . ... .. . ... ... ... yQ = yiQk Pn i=1 k=1 P P n P yP Q1 , yP Q2 , . . . , yP Qn .. . yiQ1 , yiQ2 , . . . , yiQn .. . y2Q1 , y2Q2 , . . . , y2Qn y1Q1 , y1Q2 , . . . , y1Qn BQ yP jk yijk Qn j=1 k=1 Q P n P .. . Qn j=1 k=1 Q P n P .. . y2jk Qn j=1 k=1 Q P n P Qn y1jk Общее среднее: Q P P P n P yijk i=1 j=1 k=1 y= P Qn yP = yi = y2 = y1 = j=1 k=1 Q P n P Средние Таблица 8 Общую сумму квадратов отклонений наблюдений зависимой переменной (Dy ) можно разложить на несколько составных частей: — сумму квадратов, обусловленную влиянием фактора A (DA ); — сумму квадратов, обусловленную влиянием фактора B (DB ); — сумму квадратов, обусловленную влиянием взаимодействия факторов A и B (DAB ); — остаточную сумму квадратов (Dост ). Тогда Dy = Q X P X n X (yijk − y)2 i=1 j=1 k=1 или Q X n P X X 2 (yi − y) + i=1 j=1 k=1 Q X n P X X (yj − y)2 + i=1 j=1 k=1 + Q X n P X X 2 (yij − yi − yj + y) + Q X n P X X (yijk − yij )2 i=1 j=1 k=1 i=1 j=1 k=1 или Qn P X i=1 2 (yi − y) + P n Q X j=1 2 (yj − y) + n Q P X X (yij − yi − yj + y)2 + i=1 j=1 + Q X n P X X (yijk − yij )2 . i=1 j=1 k=1 Результаты двухфакторного ДА также представим в виде таблицы 9. Для степеней свободы выполняется балансовое соотношение: N − 1 = (P − 1) + (Q − 1) + (P − 1)(Q − 1) + N − P Q Оценка значимости влияния каждого фактора, а также их взаимодействия на зависимый показатель проводится так: формируются следующие нулевые гипотезы, свидетельствующие об отсутствии влияния на зависимый показатель того или иного фактора, либо их взаимодействия: 2 H0 : все αi = 0 (тогда σA2 = σост ); 117 118 Dост = Dy = «Полная» сумма квадратов j=1 Q P (yj − y) (yi − y) i=1 (yijk − y)2 i=1 j=1 k=1 Q P P P n P i=1 j=1 k=1 Q P P P n P (yijk − yij )2 (yij − yi − yj + y)2 i=1 j=1 Q P P P Остаточная вариация AиB DAB = n DB = P n Фактор B Взаимодействия DA = Qn P P Сумма квадратов Фактор A Источник изменчивости N −1 N − PQ (P −1)(Q−1) Q−1 P −1 Число степеней свободы — Dост N − PQ DAB (P − 1)(Q − 1) DB = Q−1 DA = P −1 2 Sост = 2 SAB = SB2 SA2 (дисперсия зависимой переменной) «Средние» квадраты — — FAB = 2 SAB 2 Sост SB2 FB = 2 Sост SA2 FA = 2 Sост Критерий F Таблица 9 2 ); H0 : все βj = 0 (тогда σB2 = σост 2 2 = σост ). H0 : все θij = 0 (тогда σAB Для проверки этих гипотез вычисляются значения распределения Фишера FA , FB , FAB (см. формулы в предыдущей таблице), которые затем сравниваются с табличными значениями F -распределения, соответствующими уровню значимости α и числу степеней свободы ν1 (число степеней свободы числителя) и ν2 (число степеней свободы знаменателя) следующим образом: если FAрасч > FAтабл (α, ν1 = P − 1, ν2 = N − P Q); FBрасч > FBтабл (α, ν1 = Q − 1, ν2 = N − P Q); FABрасч > FABтабл (α, ν1 =)(P − 1)(Q − 1), ν2 = N − P Q); то нулевые гипотезы отвергаются и делается вывод о существенности влияния факторов (либо их взаимодействия) на зависимый показатель. Оценки главных эффектов и взаимодействия факторов в модели двухфакторного ДА равны: ai = yi − y (i = 1, P ); bi = yj − y (j = 1, P ); cij = yij − yi + yj + y (i = 1, P , j = 1, Q). 119 Список литературы [1] Айвазян, С. А. Прикладная статистика. Исследование зависимостей. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. — М.: Финансы и статистика, 1985. [2] Айвазян, С. А. Прикладная статистика и основы эконометрики. / С. А. Айвазян, В. С. Мхитарян. — М.: ЮНИТИ, 1998. [3] Андерсон, Т. Статистический анализ временных рядов. / Т. Андерсон. — М.: Мир, 1976. [4] Гомбаров, Г. М. Статистическое моделирование и прогнозирование: Учеб. пособие. / Г. М. Гомбаров, Н. М. Журавель, Ю. Г. Королев и др.; под ред. А. Г. Гранберга. — М.: Финансы и статистика, 1990. [5] Громыко, Г. Л. Статистика. / Г. Л. Громыко. — М.: МГУ, 1981. [6] Джонстон, Дж. Эконометрические методы. / Дж. Джонстон. — М.: Статистика, 1980. [7] Доугерти, К. Введение в эконометрику. / К. Доугерти. — М.: ИНФРА-М, 1997. [8] Дубров, А. М. Многомерные статистические методы. / А. М. Дубров, В. С. Мхитарян, Л. И. Трошин. — М.: Финансы и статистика, 1998. [9] Дрейпер, Н. Прикладной регрессионный анализ: в 2 кн. / Н. Дрейпер, Г. Смит. — М.: Финансы и статистика. Кн. 1. — 1986. Кн. 2. — 1987. [10] Замков, О. О. Математические методы в экономике: Учеб. / О. О. Замков, А. В. Толстопятенко, Ю. Н. Черемных. — М.: МГУ, изд-во «ДИС», 1997. 120 [11] Карасев, А. И. Теория вероятностей и математическая статистика: Учеб. для эконом. спец. вузов. / А. И. Карасев. — М.: Статистика, 1979. [12] Клейнер, Г. Б. Эконометрические зависимости: прицнипы и методы построения. / Г. Б. Клейнер, С. А. Смоляк. — М.: Наука, 2000. [13] Лапо, В. Ф. Теория вероятностей, математическая статистика и эконометрика: Учеб. пособие, кн. 2. / В. Ф. Лапо. — Красноярск: Краснояр. гос. ун-т, 1999. [14] Лизер, С. Эконометрические методы и задачи. / С. Лизер. — М.: Статистика, 1971. [15] Львовский, Е. Н. Статистические методы построения эмпирических формул: Учеб. пособие. / А. И. Карасев. — М.: Высш. шк., 1988. [16] Льюис, К. Д. Методы прогнозирования экономических показателей. / К. Д. Льюис. — М.: Финансы и статистика, 1986. [17] Магнус, Я. Р. Эконометрика. Начальный курс. / Я. Р. Магнус, П. К. Катышев, А. А. Пересецкий. — М.: Дело, 1997. [18] Маленво, Э. Статистические методы эконометрии. / Э. Маленво. — М.: Статистика. Вып. 1. — 1975. Вып. 2. — 1976. [19] Нейман, В. Г. Решение научных, инженерных и экономических задач с помощью ППП STATGRAPHICS. / В. Г. Нейман. — М.: Память, 1993. [20] Сошникова, Л. А. Многомерный статистический анализ в экономике: Учеб. пособие для вузов / Л. А. Сошникова, В. Н. Тамашевич, Г. Уебе, М. Шефер; под ред. проф. В. Н. Тамашевича. — М.: ЮНИТИ-ДАНА, 1999. 121 [21] Сулицкий, В. Н. Методы статистического анализа в управлении: Учеб. пособие. / В. Н. Сулицкий. — М.: Дело, 2002. [22] Тинтнер, Г. Введение в эконометрию. / Г. Тинтнер. — М.: Статистика, 1965. [23] Тюрин, Ю. Н. Анализ данных на компьютере. / Ю. Н. Тюрин, А. А. Макаров; под ред. В. Э. Фигурнова. — М.: ИНФРА-М, Финансы и статистика, 1995. [24] Четыркин, Е. М. Вероятность и статистика. / Е. М. Четыркин, Калихман И. Л. — М.: Финансы и статистика, 1983. [25] Эддоус, М. Методы принятия решения. / М. Эддоус, Р. Мэнсфилд. — М.: Аудит, ЮНИТИ, 1997. [26] Айвазян, С. А. Основы эконометрики: Т. 2. / С. А. Айвазян. — М.: ЮНИТИ, 2001. [27] Бриллинджер, Д. Временные ряды. Обработка данных и теория. / Д. Бриллинджер. — М.: Мир, 1980. [28] Кейн, Э. Экономическая статистика и эконометрия. / Э. Кейн. — М.: Статистика, 1977. [29] Badi H. B. Econometrics. — 2nd edition. — Springer, 1999. [30] Russel D., James G. M. Estimation and Inference in Econometrics. — Oxford University Press, 1993. [31] Greene W. H. Econometric Analysis. — Prentice-Hall, 2000. [32] Judge G. G., Hill R. C., Griffiths W. E., Lütkepohl H., Lee T. Econometric Analysis. — Introduction to the Theory and Practice of Econometric. — John Wiley & Sons, 1993. [33] Maddala G. S. Introduction to Econometrics. — 2nd edition. — Prentice Hall, 1992. [34] Ruud Paul A. An Introduction to Classical Econometric Theory. — 2nd edition. — Oxford University Press, 2000. 122 [35] Griffiths W. E., Hill R. C., Judge G. G. Learning and Practicing econometrics. — John Wiley & Sons, 1993. 123 Предметный указатель Анализ корреляционный, 16 Данные Метод наименьшего дисперсионного отношения, 103 Метод наименьших квадратов двухшаговый, 102 косвенный, 100 обычный, 106 трехшаговый, 105 Пространственные, 6 Дисперсия, 9 Эконометрика, 3 Форма приведенная, 97 структурная, 97 Гистограмма, 15 Идентификация, 99 Интервал групповой, 13 Кластер, 4 Коэффициент корреляции Мода, 11, 14 Модель авторегрессии, 5 корреляционная, 16 генеральный, 17 парный, 17 выборочный, 16 Коэффициент вариации, 10, 12 Квантиль, 9 выборочная, 11 Математическое ожидание, 16 Медиана, 14 второй центральный, 9 Невзаимозависимая система уравнений, 95 Объем выборки, 10 Оценки k-класса, 104 Переменная объясняемая, 5 объясняющая, 5 Момент, 9 центральный, 10 начальный, 10 произвольный порядка k, 9 Показатель выборочная, 11 асимметрии, 14 Мера линейной статистической связи, Показатель эксцесса, 14 Поле 16 корреляционное, 16 рассеяния, 12 124 Предложение, 6 Распределение нормальное, 17 Рекурсивная система, 105 Система регрессионных уравнений, 95 Совокупность генеральная, 17 Спрос, 6 Среднее значение признака, 9 наблюдаемого Среднеквадратичное отклонение, 12 Выборочное, 10 Сверхидентифицируемость, 99, 102 Тренд, 5 Уравнение регрессии, 4 Уравнения одновременные, 97 Вариационный размах, 12 Временной ряд, 4–6 Взаимообусловленность, 17 Закон распределения Нормальный, 14 нормальный, 13, 15, 16 125
«Статистические методы анализа и прогнозирования» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ

Тебе могут подойти лекции

Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot