Анализ временных рядов

👀 1613 просмотров
📌 1581 загрузка

Выбери формат для чтения

Конспект лекции по дисциплине «Анализ временных рядов», docx

Загружаем конспект в формате docx

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Анализ временных рядов», Word формат

Лекции 1. Анализ временных рядов 1. Основные понятия и определения Информационной базой для анализа экономических процессов являются динамические и временные ряды. Совокупность наблюдений некоторого явления (показателя), упорядоченная в зависимости от последовательности значений другого явления (признака), называют динамическим рядом. Динамические ряды, у которых в качестве признака упорядочения используется время, называют временными. В экономике и бизнесе временные ряды – это очень распространенный тип данных. Во временном ряде содержится информация об особенностях и закономерностях протекания процесса, а статистический анализ позволяет выявить и использовать выявленные закономерности для оценки характеристик процесса в будущем, т.е. для прогнозирования. Временной ряд – это набор чисел, привязанный к последовательным, обычно равноотстоящим моментам времени. Числа, составляющие временной ряд и получающиеся в результате наблюдения за ходом некоторого процесса, называются уровнями временного ряда или элементами. Под длиной временного ряда понимают количество входящих в него уровней n. Временной ряд обычно обозначают Y(t), или , где t=1,2,…,n. В общем случае каждый уровень временного можно представить как функцию четырех компонент: f(t), S(t), U(t), (t) , отражающих закономерность и случайность развития. Где f(t) – тренд (долговременная тенденция) развития; S(t) – сезонная компонента; U(t) –циклическая компонента; (t)– остаточная компонента. В модели временного ряда принято выделять две основные составляющие: детерминированную (систематическую) и случайную. Под детерминированной составляющей временного ряда понимают числовую последовательность, элементы которой вычисляются по определенному правилу как функция времени t. Исключив детерминированную составляющую из данных, мы получим колеблющийся вокруг нуля ряд, который может в одном предельном случае представлять случайные скачки, а в другом – плавное колебательное движение. Детерминированная составляющая может содержать следующие структурные компоненты: 1) тренд, или тенденция f(t), представляет собой устойчивую закономерность, наблюдаемую в течение длительного периода времени. Обычно тренд (тенденция) описывается с помощью той или иной неслучайной функции fтр(t) (аргументом которой является время), как правило, монотонной. Эту функцию называют функцией тренда, или просто – трендом. 2) Сезонная компонента s(t) связана с наличием факторов, действующих с заранее известной периодичностью. Это регулярные колебания, которые носят периодический или близкий к нему характер и заканчиваются в течение года. Типичные примеры сезонного эффекта: изменение загруженности автотрассы по временам года, пик продаж товаров для школьников в конце августа – начале сентября. Спрос на пластические операции сезонный: в осенне-зимний период обращений больше. Типичным примером являются сильные колебания объема товарно-материальных запасов в сезонных отраслях Сезонная компонента со временем может меняться, либо иметь плавающий характер. 3) Циклическая компонента u(t) – неслучайная функция, описывающая длительные периоды (более одного года) относительного подъема и спада и состоящая из циклов переменной длительности и амплитуды. Примером циклической (конъюнктурной) компоненты являются волны Кондратьева, демографические «ямы» и т.п. Подобная компонента весьма характерна для рядов макроэкономических показателей. Здесь циклические изменения обусловлены взаимодействием спроса и предложения, а также наложением таких факторов, как истощение ресурсов, погодные условия, изменения в налоговой политике и т.п. Отметим, что циклическую компоненту крайне трудно идентифицировать формальными методами, исходя только из данных изучаемого ряда. 4) Случайная компонента (t) - это составная часть временного ряда, оставшаяся после выделения систематических компонент. Она отражает воздействие многочисленных факторов случайного характера и представляет собой случайную, нерегулярную компоненту. Она является обязательной составной частью любого временного ряда в экономике, так как случайные отклонения неизбежно сопутствуют любому экономическому явлению. Если систематические компоненты временного ряда определены правильно, то остающаяся после выделения из временного ряда этих компонент так называемая остаточная последовательность (ряд остатков) будет случайной компонентой ряда. В анализе случайного компонента экономических временных рядов важную роль играет сравнение случайной величины с хорошо изученной формой случайных процессов - стационарными случайными процессами. Стационарным процессом в узком смысле называется такой случайный процесс, вероятностные свойства которого с течением времени не изменяются. Он протекает в приблизительно однородных условиях и имеет вид непрерывных случайных колебаний вокруг некоторого среднего значения. Причем ни средняя амплитуда, ни его частота не обнаруживают с течением времени существенных изменений. Однако на практике чаще встречаются процессы, вероятностные характеристики которых подчиняются определенным закономерностям и не являются постоянными величинами. Поэтому в прикладном эконометрическом анализе используется понятие слабой стационарности (или стационарности в широком смысле), которое предполагает неизменность во времени среднего значения, дисперсии и ковариации временного ряда [Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998]. Случайный процесс называется стационарным в широком смысле, если его математическое ожидание постоянно и автокорреляционная функция зависит только от длины временного интервала . В зависимости от вида связи между этими компонентами может быть построена либо аддитивная модель: Y(t) =f(t)+ S(t)+U(t)+(t); (3.4.1) либо мультипликативная модель: Y(t) =f(t) S(t) U(t)+ (t) (3.4.2) временного ряда. В процессе формирования значений временных рядов не всегда участвуют все четыре компоненты. Однако во всех случаях предполагается наличие случайной составляющей. Основная цель статистического анализа временных рядов – изучение соотношения между закономерностью и случайностью в формировании значений уровней ряда, оценка количественной меры их влияния. Закономерности, объясняющие динамику показателя в прошлом, используются для прогнозирования его значений в будущем, а учет случайности позволяет определить вероятность отклонения от закономерного развития и его возможную величину. 2. Требования к исходной информации Применяемые при обработке временных рядов методы во многом опираются на методы математической статистикой, которые базируются на достаточно жестких требованиях к исходным данным (таким как однородность данных, сопоставимость, предположения о типе их распределения и т. д.). Сопоставимость достигается в результате одинакового подхода к наблюдениям на разных этапах формирования динамического ряда. Уровни во временных рядах должны иметь одинаковые: - единицы измерения; - шаг наблюдений; - интервал времени; - методику расчета; - элементы, относящиеся к неизменной совокупности. Однородность данных означает отсутствие сильных изломов тенденций, а также аномальных (т.е. резко выделяющихся, нетипичных для данного ряда) наблюдений. Аномальные наблюдения проявляются в виде сильного изменения уровня – скачка или спада – с последующим приблизительным восстановлением предыдущего уровня. Наличие аномалии резко искажает результаты моделирования. Поэтому аномальные наблюдения необходимо исключить из временного ряда, заменив их расчетными значениями Устойчивость характеризуется преобладанием закономерности над случайностью в изменении уровней ряда. На графиках устойчивых временных рядов закономерность прослеживается визуально, на графиках неустойчивых рядов изменения последовательных уровней представляются хаотичными, и поэтому поиск закономерностей в формировании значений уровней таких рядов лишен смысла. Требование полноты данных обусловливается тем, что закономерность может обнаружиться лишь при наличии минимально допустимого объема наблюдений. Следует иметь в виду, что при исследовании временных рядов экономических данных проверка выполнимости перечисленных требований в должной мере зачастую невозможна. Поэтому выводы, полученные на базе формально-статистического инструментария, должны восприниматься с осторожностью и дополняться содержательным анализом. 3. Этапы построения прогноза по временным рядам. экстраполяционное1 прогнозирование экономических процессов, представленных одномерными временными рядами, сводится к выполнению следующих основных этапов: 1) предварительный анализ данных; 2) построение моделей: формирование набора аппроксимирующих функций (кривых роста) и численное оценивание параметров моделей; 3) проверка адекватности моделей и оценка их точности; 4) выбор лучшей модели; 5) расчет точечного и интервального прогнозов 3.1. Предварительный анализ данных В ходе предварительного анализа определяют соответствие имеющихся данных требованиям, предъявляемым к ним математическими методами (объективности, сопоставимости, полноты, однородности и устойчивости); строится график динамики и рассчитываются основные динамические характеристики (приросты, темпы роста, темпы прироста, коэффициенты автокорреляции). Для получения общего представления о динамике исследуемого показателя целесообразно построить его график. При графическом отображении динамики показателя во времени по оси абсцисс откладываются значения переменной t, а по оси ординат - соответствующие значения показателя Y(t). К процедурам предварительного анализа относятся: • выявление аномальных наблюдений; • проверка наличия тренда; • сглаживание временных рядов; • расчет показателей развития динамики экономических процессов. Так как наличие аномальных наблюдений приводит к искажению результатов моделирования, то необходимо убедиться в отсутствии аномалий данных. Поэтому процедура выявления аномальных наблюдений является обязательной процедурой этапа предварительного анализа данных. Для диагностики аномальных наблюдений разработаны различные критерии, например, метод Ирвина [3 Федосеев В.В., Гармаш А.Н., Дайитбегов Д.М., Орлова И.В., Половников В.А. Экономико-математические методы и прикладные модели: Учеб. пособие для вузов / Под ред. В.В.Федосеева. М.: ЮНИТИ, 1999.] Для всех или только для подозреваемых в аномальности наблюдений вычисляется величина : , (3.4.3) где Если рассчитанная величина превышает табличный уровень (например, для 10 наблюдений значение критерия Ирвина равно 1,5), то уровень считается аномальным. Аномальные наблюдения необходимо исключить из временного ряда и заменить их расчетными значениями (самый простой способ замены – в качестве нового значения принять среднее из двух соседних значений). Табл.3.4.1. Критические значения параметра . Количество наблюдений n P=0,95 P=0,99 2 2,8 3,7 3 2,2 2,9 10 1,5 2,0 20 1,3 1,8 30 1,2 1,7 50 1,1 1,6 100 1,0 1,5 400 0,9 1.3 1000 0,8 1.2 3.2. Выявление наличия тенденций Следующая процедура этапа предварительного анализа данных – выявление наличия тенденций в развитии исследуемого показателя. Отметим, что тенденция прослеживается не только в увеличении или уменьшении среднего текущего значения временного ряда, но она присуща и другим его характеристикам: дисперсии, автокорреляции, корреляции с другими показателями и т.д. тенденцию среднего визуально можно определить из графика исходных данных. Процедура проверки наличия или отсутствия неслучайной (и зависящей от времени t) составляющей по существу, состоит в статистической проверке гипотезы о неизменности среднего значения временного ряда: Эта процедура может быть осуществлена с помощью различных критериев Один из способов проверки обнаружения тренда основан на сравнении средних уровней ряда: временной ряд разбивают на две примерно равные по числу уровней части, каждая из которых рассматривается как некоторая самостоятельная выборочная совокупность, имеющая нормальное распределение. Если временной ряд имеет тенденцию к тренду, то средние, вычисленные для каждой совокупности, должны существенно (значимо) различаться между собой. Если же расхождение незначительно, несущественно (случайно), то временной ряд не имеет тенденции. Таким образом, проверка наличия тренда в исследуемом ряду сводится к проверке гипотезы о равенстве средних двух нормально распределенных совокупностей. Рассмотрим применение этого метода на следующем примере. Наличие тенденции среднего уровня на графике становится более заметным, когда на нем отражены сглаженные значения исходных данных. 3.3. Сглаживание временных рядов Сглаживание временного ряда, т.е. замена фактических уровней расчетными значениями, имеющими меньшую колеблемость, чем исходные данные является простым методом выявления тенденции развития. Соответствующее преобразование называется фильтрованием. Сглаживание временных рядов проводится по следующим причинам: • В ряде случаев при графическом изображении временного ряда тренд прослеживается недостаточно отчетливо. Поэтому ряд сглаживают, на график наносят сглаженные значения и, как правило, тенденция проявляется более четко. • Некоторые методы анализа и прогнозирования требуют в качестве предварительного условия сглаживание временного ряда. • Сглаживание временных рядов используется при устранении аномальных наблюдений. • Методы сглаживания в настоящее время применяются для непосредственного прогнозирования экономических показателей. Существующие методы сглаживания делят на две группы: 1. Методы первого типа (аналитические). Сглаживание с использованием кривой, проведенной относительно фактических значений ряда так, чтобы эта кривая отображала тенденцию, присущую ряду и одновременно освобождала его от мелких незначительных колебаний. Такие кривые называют еще кривыми роста, и они используются главным образом для прогнозирования экономических показателей. 2. Методы механического сглаживания. При использовании этих методов производится сглаживание каждого отдельного уровня ряда с использованием фактических значений соседних с ним уровней. Для сглаживания временных рядов часто используются методы простой и взвешенной скользящей средней, экспоненциального сглаживания. Метод простой скользящей средней. 1. Согласно этому методу определяется количество наблюдений, входящих в интервал сглаживания. При этом используют правило: если необходимо сгладить мелкие, беспорядочные колебания, то интервал сглаживания берут по возможности большим и, наоборот, интервал сглаживания уменьшают, когда нужно сохранить более мелкие волны и освободиться от периодически повторяющихся колебаний, возникающих, например, из-за автокорреляций уровней. 2. Вычисляется среднее значение наблюдений, образующих интервал сглаживания, которое одновременно является сглаживающим значением уровня, находящегося в центре интервала сглаживания, при условии, что m - нечетное число, по формуле: , (3.4.8) где m - количество наблюдений, входящих в интервал сглаживания. При нечетном m значение параметра значение параметра p вычисляют следующим образом: - среднее значение наблюдения , которое одновременно является сглаженным значением наблюдения, находящегося в центре интервала сглаживания при нечетном m. p - количество наблюдений, стоящих по разные стороны от сглаживаемого. Первым сглаженным будет наблюдение , где t=p+1. 3. Интервал сглаживания сдвигается на один член вправо и по формуле (3.4.8) находится сглаженное значение для t+1 наблюдения. Затем снова производят сдвиг и т.д. Процедура продолжается до тех пор, пока в интервал сглаживания не войдет последнее наблюдение временного ряда. Недостатком метода является невключение в процедуру сглаживания первых и последних p наблюдений временного ряда. Метод простой скользящей средней возможно использовать, если графическое изображение ряда напоминает прямую линию. В этом случае не искажается динамика развития исследуемого процесса. Однако когда тренд выравниваемого ряда имеет изгибы и к тому же желательно сохранить мелкие волны, использовать для сглаживания ряда метод простой скользящей средней нецелесообразно, поскольку при этом: выравниваются и выпуклые, и вогнутые линии; происходит сдвиг волны вдоль ряда; изменяется знак волны, т.е. на кривой, соединяющей сглаженные точки, вместо выпуклого участка образуется вогнутый и наоборот. Последнее имеет место в случаях, когда интервал сглаживания в полтора раза превышает длину волны. Таким образом, если развитие процесса носит нелинейный характер, то применение метода простой скользящей средней может привести к значительным искажениям исследуемого процесса. В таких случаях более надежным является использование других методов сглаживания, например, метода взвешенной скользящей средней. Метод взвешенной скользящей средней. Этот метод отличается от предыдущего тем, что сглаживание внутри интервала производится не по прямой, а по кривой более высокого порядка. Это обусловлено тем, что суммирование членов ряда, входящих в интервал сглаживания, производится с определенными весами, рассчитанными по методу наименьших квадратов. Если сглаживание производится с помощью полинома (многочлена) второго или третьего порядка, то веса берутся следующие: для m=5 - веса (-3; 12; 17; 12; -3); для m=7 - веса (-2; 3; 6; 7; 6; 3; -2) . Особенности весов: 1) симметричны относительно центрального члена; 2) сумма весов с учетом общего множителя равна 1. Недостаток метода: первые и последние p наблюдений ряда остаются не сглаженными. Метод экспоненциального сглаживания Рассмотренные методы простой и взвешенной скользящей средней не дают возможности сгладить первые и последние p наблюдений временного ряда. Отсутствие сглаженных первых наблюдений не так важно по сравнению с последними наблюдениями, особенно если целью исследования является прогнозирование развития процесса. Есть методы, позволяющие получить сглаженные значения последних уровней так же, как и всех остальных. К их числу относится метод экспоненциального сглаживания. Особенность этого метода заключена в том, что в процедуре выравнивания каждого наблюдения используются только значения предыдущих уровней, взятых с определенным весом. Вес каждого наблюдения уменьшается по мере его удаления от момента, для которого определяется сглаживаемое значение. Сглаженное значение наблюдения ряда St на момент времени t определяется по формуле: St = yt + (1-) St-1, (3.4.9) где  - сглаживающий параметр, характеризующий вес выравниваемого наблюдения, причем 01. Величину St-1 в формуле (3.4.9) можно представить в виде суммы фактического значения уровня yt-1 и сглаженного значения предшествующего ему наблюдения St-2, взятых с соответствующими весами. Процесс такого разложения можно продолжить для членов St-2, St-3 и т.д. В результате получится следующее выражение: St = yt + (1-) St-1 = yt + (1-) {yt-1 + (1-) St-2} = = yt + (1-) yt-1 + (1-)2 {yt-2 + (1-) St-3} = (3.4.10) = yt + (1-) yt-1 + (1-)2 yt-2 + ... + (1-)k yt-k +...+ (1-)ty0, в котором среднее сглаженное значение является комбинацией всех предшествующих уровней ряда. Величина y0 характеризует начало условия процесса. Формулу (3.4.10) можно переписать короче через знак суммы: St =   (1-)k yt-k + (1-)t y0 (3.4.11) где 0  k  t-1 - число периодов отставания от момента t. Относительный вес каждого предшествующего уровня снижается по экспоненте по мере его удаления от момента, для которого вычисляется сглаженное значение (отсюда произошло название этого метода сглаживания). При практическом использовании метода экспоненциального сглаживания возникают следующие затруднения: выбор сглаживающего параметра  и определение начального условия y0. От численного значения параметра  зависит, насколько быстро будет уменьшаться вес предшествующих наблюдений и в соответствии с этим степень их влияния на сглаживаемый уровень. Чем больше значение параметра , тем меньше сказывается влияние предшествующих уровней и соответственно меньшим оказывается сглаживающее воздействие экспоненциальной средней. Задачу выбора параметра y0, определяющего начальные условия, предлагается решать следующим образом: если есть данные о развитии процесса в прошлом, то их среднее значение можно принять в качестве y0, если таких сведений нет, то в качестве y0 используют исходное (первое) значение наблюдения временного ряда y1. 1.4. Расчет показателей развития динамики экономических процессов. Традиционными показателями, характеризующими развитие экономических процессов, были и остаются показатели роста и прироста. Для характеристики динамики изменения уровней временного ряда используются следующие показатели, формулы расчета которых приведены в табл.3.****. Табл.3.4.6. Основные показатели динамики. Абсолютный прирост Темп роста Темп прироста Цепной Базисный Средний САП = Показатель среднего абсолютного прироста используется для построения простейших так называемых наивных прогнозов. Прогноз на k- шагов вперед на момент времени t=n+1получается по формуле: Этот способ является очень привлекательным для многих экономистов и практических работников статистических органов ввиду своей простоты и легкости реализации. Однако, кроме указанных достоинств он имеет несколько существенных недостатков. Во-первых, все фактические наблюдения являются результатом закономерности и случайности. Следовательно, "отталкиваться" от последнего наблюдения неправомерно. Во-вторых, нет возможности оценить правомерность использования среднего прироста в каждом конкретном случае. В-третьих, данный подход не позволяет сформировать интервал, внутрь которого попадет прогнозируемая величина и указать степень уверенности в этом. В этой связи данный подход используется лишь как первый ориентир будущего развития или же в условиях очень малого объема наблюдений при невозможности использования описываемых ниже статистических методов. 1.5. Автокорреляция во временных рядах Для характеристики динамики изменения экономических показателей часто используется понятие автокорреляции, которая характеризует не только взаимозависимость уровней одного и того же ряда, относящихся к разным моментам наблюдений, но и степень устойчивости развития процесса во времени, величину оптимального периода прогнозирования и т.п. Степень тесноты статистической связи между уровнями временного ряда, сдвинутыми на  единиц времени определяется величиной коэффициента корреляции , так как измеряет тесноту связи между уровнями одного и того же временного ряда, поэтому его принято называть коэффициентом автокорреляции. При этом длину временного смещения называют обычно лагом (). Коэффициент автокорреляции вычисляют по формуле (3.4.13) Порядок коэффициентов автокорреляции определяет временной лаг: первого порядка (при = 1), второго порядка (при = 2) и т. д. Последовательность коэффициентов автокорреляции уровней первого, второго, третьего и т.д. порядков называют автокорреляционной функцией. Значения автокорреляционной функции могут колебаться от -1 до +1, но из стационарности следует, что = -. График автокорреляционной функции называется корреллограммой. Для расчета коэффициента автокорреляции в Excel можно воспользоваться функцией КОРРЕЛ. Предположим, что базовая переменная включает диапазон А1:А34. Тогда коэффициент автокорреляции равен: =КОРРЕЛ(А1:А33;А2:А34). Анализ автокорреляционной функции и коррелограммы позволяет определить лаг, при котором автокорреляция наиболее высокая, т.е. при помощи анализа автокорреляционной функции и коррелограммы можно выявить структуру ряда. Если наиболее высоким оказался коэффициент автокорреляции первого порядка, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка , то ряд содержит циклические колебания с периодичностью в  моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то можно сделать одно из двух предположений относительно структуры этого ряда: либо ряд не содержит тенденции и сезонных колебаний, либо ряд содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ. Поэтому коэффициент автокорреляции уровней и автокорреляционную функцию целесообразно использовать для выявления во временном ряде наличия или отсутствия трендовой компоненты (f(t)) и сезонной компоненты (S).