«Анализ временных рядов. Случайные процессы»

Конспект лекции по дисциплине «Анализ временных рядов. Случайные процессы», Word формат

НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ В.С. Карманов Анализ временных рядов Конспект лекций для студентов заочного отделения, обучающихся по специальности 080601 – «Статистика» Новосибирск - 2007 1. Введение в анализ временных рядов. Временной ряд можно рассматривать как некий случайный процесс, поэтому для анализа временных рядов применяется аппарат теории вероятностей, математической статистики и случайных процессов. 1.1. Случайные процессы. Случайный процесс (СП) – это любой процесс, зависящий от времени и описываемый вероятностными законами. Например, число заявок, поступающих в единицу времени на станцию сотового оператора, есть величина случайная, но зависящая еще и от времени. Пусть некоторое вероятностное пространство. Случайным (стохастическим) процессом называется семейство случайных величин (с.в.), зависящих от параметра t, значения которого принадлежат некоторому множество T. При этом параметр t интерпретируется как время. Значения с.в. Х(t), tТ, принадлежат измеримому пространству , n1, В - σ-алгебра борелевских множеств из . Следовательно, СП - это функция времени, значение которой есть случайная величина. Если t интерпретировать не как время, то СП называют случайной функцией (СФ). Таким образом, при каждом фиксированном tТ Х(t) – с.в., которую везде далее будем обозначать, как и называть сечением СП. Итак, при фиксированном tТ, :→. Множество значений, которые может принимать с. величина , tТ, называется пространством состояний СП, обозначать это множество будем буквой Χ. В теории случайных процессов полной характеристикой СП является множество конечномерных функций распределения, и связанные с ними плотности распределения. Зафиксируем некоторое значение параметра , тогда получим с.в. . Функция распределения этой с.в. носит название одномерной функции распределения СП X(t), . Если зафиксировать два различных момента времени ,, то совместная функция распределения с.в. Х, F(x,;x,)=P{< x,< x} называется двумерной функцией распределения СП X(t), . Если зафиксировать произвольное количество значений , то совместная функция распределения случайных величин - =P{< x,…,X< x} называется N-мерной функцией распределения СП X(t), . Основные признаки, по которым классифицируются СП, относятся к структуре пространства состояний Х, временного параметра tТ и отношений зависимости между с. величинами Х. Если Х={0,1,…}, конечно, или счетно, то СП относят к классу целочисленных процессов, или их называют дискретными случайными процессами, поскольку любое сечение Х есть дискретная с. величина. Если Х=R, то такой СП называют действительным СП. Если Х=, то СП является n-мерным СП. Множество Х может совпадать и с комплексной плоскостью С, но такие процессы мы рассматривать не будем. Если Т={0,1,…},то говорят, что СП X(t), , есть процесс с дискретным временем. Чаще всего в этом случае его обозначают в виде Х и называют случайной последовательностью. Если Т=, то СП X(t), , называют процессом с непрерывным временем. Характер зависимости между с.в. Х,, определяется заданием совместных распределений для каждого конечного набора с. величин . С точки зрения математической общности, естественно рассматривать СП X(t), , как всю совокупность случайных величин Х. Но в общем случае это множество с.в. может быть несчетным и невозможно построить для всех его сечений совместный закон распределения. При решении практических задач чаще всего достаточно применения одно- и двумерных законов распределения и связанных с ними моментов первого и второго порядков, ( если они существуют). Моментом k-го порядка СП X(t) называется k-ый момент его сечений . Математическим ожиданием (м.о.) СП X(t),, называют неслучайную функцию переменной , которая при всех равна математическому ожиданию с.величин – сечений СП X(t). Итак, , при этом , . Функцию , , интерпретируют как усредненную реализацию процесса X(t). Ковариационной функцией СП X(t), , называют функцию переменных , значения которой при любых фиксированных равно ковариации двух с.в. и : при этом и – двумерная плотность распределения СП X(t), . При фиксированных элементами матрицы являются ковариации с.величин и , . При , ковариационная функция называется дисперсией СП X(t) и обозначаются Kx(t, t)=Dx(t). 1.2. Примеры случайных процессов. • Процесс белого шума. СП X(t), , с нулевым м.о. и ковариационной функцией называется белым шумом. Множитель называется интенсивностью белого шума. Дисперсия Dx(t) белого шума бесконечна, т.к. , а его значения в двух сколь угодно близких точках не коррелированны. В чистом виде белый шум не может существовать физически, для его реализации необходима бесконечная мощность. Поэтому понятие белого шума является математической абстракцией, удобной для построения теории. Практически можно говорить о большей или меньшей степени приближения случайной функции к белому шуму. Это можно сделать только в том случае, когда наименьший интервал между значениями аргумента, при которых значения случайной функции практически не коррелированны, называемый интервалом корреляции, достаточно мал. Если для скалярного СП X(t) можно считать практически равной 0 при и величина достаточно мала, то СП X(t) можно считать белым шумом интенсивности . • Винеровский процесс. Винеровским процессом, называется СП W(t),, обладающий следующими свойствами: 1. Все реализации процесса W(t) непрерывны и ; 2.Для любого p=1,2,... и любых значений параметров его приращения , ,..., независимы; 3. Случайная величина имеет нормальное распределение с параметрами , где - коэффициент диффузии винеровского процесса или его интенсивность. Таким образом, плотность распределения с.величины , , равна , . В определении винеровского процесса можно условие заменить на условие и тогда получим определение винеровского процесса, выходящего из точки x. Можно рассматривать винеровский процесс, выходящий из случайной точки. Винеровский процесс называют еще процессом броуновского движения; он имел большое значение при разработке теории СП. Многие распределения, используемые в теории управления, можно моделировать процессами, порождаемыми винеровскими процессами • Марковские процессы. СП X(t), , называется марковским СП (МП) если для всех n>1 и любых его условное распределение в момент времени не зависит от значений процесса в моменты , а определяется значением процесса в момент времени , то есть . Винеровский процесс является марковским процессом. 1.3. Временные ряды. Пусть и Т состоит из конечного числа элементов. Элементы множества Т будем называть моментами времени. Чаще всего принимается Т = { 0, 1 2, 3, ...Т}. Пусть каждому поставлено в соответствие число , тогда такой набор чисел называется временным рядом. Модель, нужная для прогнозирования, интерпретации и проверки гипотез, которая строится для данного временного ряда, - это случайный процесс Xt, где t принадлежит некоторому множеству Т. Если такая модель построена, то временной ряд рассматривается, как реализация (траектория) данного случайного процесса 1.4. Стационарные процессы. СП Х(t) ,, называется стационарным в узком смысле, если совместное распределение с.в. и одинаковы при всех h и всех,. Это условие означает, что процесс находится в вероятностном равновесии и момент начала наблюдения за ним не имеет значения. В частности, любое конечномерное распределение с.в. одно и то же при всех t. Формально условие стационарности СП в узком смысле можно записать так: (1) или, что то же самое, . При n=1 это условие имеет вид: . Полагая, получим , т.е. одномерное распределение стационарного СП не зависит от времени. Поскольку по одномерному распределению СП можно определить математическое ожидание СП, получаем, (2) При n=2 из условия стационарности (1) следует: . Полагаем h=-t1, имеем , т.е. двумерное распределение стационарного СП зависит только от разности . Но тогда и ковариационная функция СП есть функция одного параметра τ: . (3) Условия (2),(3) часто проверить легче, чем условие (1). СП Х(t) ,, называют стационарным в широком смысле, если он обладает конечными вторыми моментами (а первыми тем более), и его математическое ожидание не зависит от времени, а ковариационная функция зависит только от разности . Другими словами, СП Х(t) ,, является стационарным в широком смысле, если для него выполнены условия (2),(3). Из стационарности в узком смысле следует стационарность в широком смысле (что и было показано выше). Простым примером стационарного процесса является любой процесс, состоящий из независимых одинаково распределенных случайных величин. Пример. Пусть СП X(t) имеет вид ,, и - положительные с.в. с плотностю распределения , с.в. не зависит от и и распределена по равномерному закону на отрезке . Покажем, что СП X(t) является стационарным. Начнем с его одномерного распределения. Фиксируем . Сечением процесса будет с.величина . Плотность распределения сечения можно найти в два этапа. Сначала найдем совместную плотность распределения с.величин и , затем искомую плотность распределения с.величины . Для этого запишем соотношение для реализаций случайных величин: u= v= - вели новые переменные, .Согласно теории построения законов распределения функций случайных величин, находим: Полученное выражение показывает, что одномерная плотность распределения не зависит от t. Для фиксируем точки , определяем закон распределения N-мерного с. вектора с компонентами , , остается показать, что . 1.5. Автокорреляционные функции. Для стационарного в широком смысле случайного процесса будем использовать обозначения: Величину называют автокорреляцией между и . Заметим, что . Отметим, что для любого стационарного в слабом смысле процесса . 1.6. Понятие об основных моделях и методах анализа временных рядов. Характерной особенностью временных рядов является проведение наблюдений за некоторым объектом последовательно во времени. Например, температура воздуха в середине каждого часа суток, ежегодная урожайность зерновых, ежедневный объем продаж какого-нибудь товара, стоимость акции предприятия, уровень инфляции, обменный курс валют - все это примеры временных рядов. Вне зависимости от природы каждого временного ряда, можно выделить следующие основные типы задач, которые обычно решают при проведении анализа исходных данных. a. На первом этапе делается предварительный анализ данных (в том числе графическими методами), затем пытаются построить простую математическую систему или модель, описывающую поведение временного ряда в компактном виде. b. Затем делается попытка объяснить его поведение с помощью некоторых других переменных, выбрать значимые факторы, а также выяснить степень связи как между наблюдениями в разные моменты времени одного ряда, так и между разными рядами; c. Полученные результаты используют для прогнозирования временного ряда; d. Часто возникает необходимость контроля и управления некоторым временным рядом. Разработкой определенных индикаторов, предупреждающих о тех или иных нежелательных последствиях. Исходя из целей исследования, каждый временной ряд можно рассматривать как совокупность нескольких компонент. a. Тренд (долгосрочная тенденция) в развитии ряда (Рис 1). b. Сезонная (периодическая) компонента, другими словами, некоторый эффект в динамике ряда, который повторяется через вполне определенный период. Например, при измерении температуры воздуха ночью холоднее, чем днем или увеличение пассажиропотока в утренние часы и в конце рабочего дня. Сезонную составляющую достаточно просто обнаружить при графическом анализе (Рис. 2). Рис. 1 Рис. 2 c. Выбросы. Под выбросами (интервенциями) понимаются резкие изменения характера поведения процесса под воздействием каких-либо (однократных, обычно внешних) причин. Например, взрыв на Чернобыльской АЭС резко изменил фоновый уровень радиации, "черный" вторник на валютной бирже, появление на рынке крупной партии товара, и т.д.. На Рис. 3 изображен график уровня безработицы в США и модель интервенции, вызванная энергетическим кризисом в 1975 году. d. Циклическая компонента. Более или менее регулярные колебания относительно тренда. Эти колебания (в отличие от сезонных) обычно имеют более долговременный характер, неизвестный в начале исследования период, и целью исследования как раз и является выявление таких периодичностей. e. Случайная (стохастическая) составляющая - несистематический случайный эффект. Разделение данных и динамики временного ряда на вышеуказанные компоненты определяет и группы математических методов, которые применяются для анализа соответствующей компоненты. Так, для выявления и анализа тренда используют аппарат регрессионного анализа и скользящих средних. Для анализа сезонного эффекта, применяются специальные модели гармонической регресии, сезонного сглаживания и сезонной авторегрессии. Специальный класс моделей предназначен для выявления выбросов, построения и прогнозирования последствий интервенций. Для подобного класса используется спектральный анализ временных рядов. 2. Регрессионные модели временного ряда. Пусть имеется ряд наблюдений (y1,…, yi,…, yN). Для предварительного анализа применяют базисные и цепные показатели ряда. Базисные показатели используются при сравнении уровня ряда с начальным уровнем (момент i и момент 1), цепные – при сравнении с предыдущим уровнем (моменты i и i-1). Рассмотрим следующие базисные показатели ряда для i-го момента времени: • абсолютный прирост: ; • коэффициент роста: ; • темп роста: 100 %; • коэффициент прироста: = ; • темп прироста: =. Цепные показатели получаются из аналогичных базисных показателей заменой y1 на yi–1. Используются также средние показатели ряда: • средний абсолютный прирост: ; • средний коэффициент роста: ; • средний темп роста: ; • средний темп прироста . При исследовании временного ряда предполагается, что вероятностный закон, задающий поведение ряда, неизменен (стационарный временной ряд). Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно подразделить на три группы: • факторы, формирующие тренд (тенденцию) ряда; • факторы, формирующие сезонные (циклические) колебания ряда; • случайные факторы. Модели, в которых временной ряд представлен в виде суммы перечисленных компонент, называются аддитивными, в виде произведения - мультипликативным. Построение модели сводится к расчету значений перечисленных компонент для каждого уровня ряда. Построение модели включает следующие шаги: • определение тренда или выравнивание исходного ряда методом скользящей средней; • удаление тренда; • расчет сезонной (циклической) компоненты; • удаление сезонной компоненты из исходных уровней ряда и получение выровненных данных; • аналитическое выравнивание уровней (тренд + случайная составляющая) и расчет значений трендовой составляющей; • прогноз, т.е. расчет полученных по модели значений тенденции + сезонная составляющая; • расчет и анализ ошибок. 2.1. Понятие тренда. Примеры трендовых моделей. Одним из методов сглаживания временных рядов является метод аналитического выравнивания (регрессионный анализ). Содержанием этого метода является то, что основная тенденция развития процессов (тренд) рассчитывается как регрессионная модель - функция времени: . Значения модели (оценка отклика) определяются с использованием некоторой аналитической функции, которая наилучшим образом описывает основную тенденцию временного ряда. Подбор адекватной функции осуществляется методом наименьших квадратов (МНК), при этом минимизируется сумма квадратов отклонений между эмпирическими и теоретическими уровнями ряда: , где - фактическое значение уровня временного ряда; - расчетное значение; - длина временного ряда. Для оценки точности подобраной трендовой модели используется стандартный коэффициент детерминации: , где - - дисперсия теоретических данных, полученных по трендовой модели; дисперсия эмпирических данных. Коэффициент детерминации принимает значения от 0 до 1, и при значениях , близких к 1, трендовая модель адекватна изучаемому процессу и отражает (в среднем) тенденцию его развития во времени. Рассмотрим некоторые основные типы моделей тренда, выражающие те или иные качественные свойства развития. 1.Линейная модель тренда: , где - отклик, сглаженный по прямой; a - начальный уровень тренда в момент или период, принятый за начало отсчета времени t=1; - среднее изменение показателя за единицу времени. Линейный тренд хорошо описывает ряды, которые можно спрямить прямой линией (ряды с постоянным абсолютным приростом). 2.Параболическая форма тренда: , где - квадратический параметр, равный половине ускорения; константа параболического тренда. Остальные обозначения прежние. Параболическая форма тренда выражает ускоренное или замедленное изменение уровней ряда с постоянным ускорением (равноускоренное или равнозамедленное). Такой характер развития можно ожидать при наличии важных факторов прогрессивного развития (например, прогрессирующее поступление нового высокопроизводительного оборудования). Ускоренное возрастание также может происходить в период после снятия каких-то сдерживающих развитие преград. Параболическая форма тренда с отрицательным ускорением приводит со временем не только к приостановке роста уровня, но и к снижению со всей большей скоростью. Такой характер развития может быть свойствен производству устаревшей продукции, ликвидируемой отрасли сельского хозяйства на ферме и т.д.. 3.Экспоненциальная форма тренда: , где - темп изменения в разах; константа тренда. Если >1, экспоненциальный тренд выражает тенденцию ускоренного и все более ускоряющегося возрастания уровней. При росте по экспоненте абсолютный прирост пропорционален достигнутому уровню. Такой характер, например, принимает размножение (микро)организмов при отсутствии ограничения со стороны среды: кормов, пространства, хищников, болезней. Такому же закону подчинялся рост населения Земли в эпоху "демографического взрыва" в ХХ столетии; сейчас этот период закончился и темп роста населения стал уменьшаться. Если бы он остался на уровне 1960-1970 годов, т.е. около 2% прироста в год, то к 2500 году население Земли достигло бы уровня: 134 трлн. 286 млрд. человек; на 1 человека приходилось бы примерно 1 кв. метр всей площади суши. Ясно, что рост любого объекта по экспоненциальному закону может продолжаться только небольшой исторический период времени, так как ресурсы для любого процесса развития всегда ограничены. При <1 экспоненциальный тренд означает тенденцию постоянно все более замедляющего снижения уровней динамического ряда. 4.Логарифмическая форма тренда: . Логарифмический тренд пригоден для отображения тенденции замедляющего роста уровней при отсутствии предельно возможного значения. Замедление роста становится все меньше и меньше, и при достаточно большом логарифмическая кривая становится малоотличимой от прямой линии. Экстремума логарифмическая кривая не имеет. 5. Степенной тренд: , где a, b- константы тренда. При имеем линейный тренд, - параболический и т.п. Степенная форма – гибкая, пригодная для отображения изменений с разной мерой пропорциональности изменений во времени. 6. Гиперболическая форма тренда: Если , гиперболический тренд выражает тенденцию к замедлению снижения уровня, стремящегося к пределу a. Если , тренд выражает тенденцию к замедлению роста уровней, стремящихся в пределе к a. Гиперболический тренд подходит для отображения тенденции процессов, ограниченных предельным значением уровня. 7.Логистическая форма тренда: , где - основание натуральных логарифмов; - максимальное и минимальное из возможных значений уровня; - параметры тренда. Логистическая кривая имеет форму латинской буквы S,положенной на бок, отчего еще называется эс-образной кривой. Она имеет две точки перегиба: от ускоряющегося роста к равномерному (вогнутость), а затем от равномерного роста к замедляющемуся (выпуклость). Мы рассмотрели наиболее часто используемые виды трендовых моделей. Выявленные свойства этих моделей, а также выявленные на этапе предварительного анализа особенности данных могут существенно помочь при решении задачи выбора типа тренда. Нужно отметить, что не существует однозначных рекомендаций для выбора трендовой модели. Особенно осторожно следует подходить к решению этой задачи при использовании полученной функции для экстраполяции найденных закономерностей в будущее. Применение тренда должно базироваться на предположении, что выявленная тенденция сохраненится в прогнозируемом периоде. Пусть задан ряд (y1,…, yi,…, yN), а также набор соответствующих моментов времени (t1,…, ti,…, yN). Рассмотрим наиболее простую линейную модель тренда: yi = β0 + β1ti + εi. Здесь εi – случайная ошибка. Оценки параметров тренда b0, b1 рассчитываются по формуле . Пример 4. Имеется ряд (табл. 1), показывающий изменение курса акций компании с интервалом один месяц в течение одного года. Таблица 1 номер месяца, ti 1 2 3 4 5 6 7 8 9 10 11 12 Курс, yi 4,8 5,3 5,0 5,6 5,5 5,8 6,1 5,7 6,4 6,8 6,5 6,2 Найти: а) базисные показатели ряда для последнего значения и средние показатели ряда; б) построить график цепного темпа прироста по месяцам; в) найти линейный тренд зависимости курса от номера месяца, построить график. Решение. а) Вычислим для момента t12: абсолютный прирост Δ12 = 6,2– 4,8 = 1,4; коэффициент роста =1,292; темп роста =129,1 %; коэффициент прироста = 0,292; темп прироста = 29,2 %. Найдем средние показатели ряда: средний абсолютный прирост = 0,117; средний коэффициент роста: . Средний темп роста = 102,16 %; средний темп прироста = 2,16 %. б) Рассчитаем цепные темпы прироста для каждого месяца, начиная со второго. Например, для i = 2 получим = 10,42 %; для i = 3 найдем = –5,66 % и т.д. В итоге получим следующие темпы (табл. 2) и соответствующий график на рис. 2. Таблица 2 i 2 3 4 5 6 7 8 9 10 11 12 темпы прироста 10,42 –5,66 12,00 –1,79 5,45 5,17 –6,56 12,28 6,25 –4,41 –4,62 в) Найдем линейный тренд ряда с помощью формул (2). Средние значения равны: = 6,5; = 5,8083. Получим: b0 = 4,8151; b1 = 0,1528. Таким образом, тренд ряда yi = 4,8151 + 0,1528 ti. График изображен на рис. 3. Рис. 3 2.2. Прогнозирование на основе тренда. Прогнозирование возможных в будущем значений признаков изучаемого объекта – одна из основных задач при исследовани временного ряда. Если мы будем знать, как быстро и в каком направлении изменились уровни какого-то признака, то сможем узнать, какого значения достигнет уровень через известное время. Следующая задача – управление рядом, т.е. приведение процесса в ноебходимое состояние. В качестве инструмента статистического прогнозирования временных рядов служат трендовые регрессионные модели. Методика статистического прогноза по трендовым моделям основана на их экстраполяции, т.е. предположении, что параметры тренда и колебаний сохраняются до прогнозируемого периода. Такая экстраполяция справедлива, если система развивается эволюционно в достаточно стабильных условиях. Чем крупнее система, тем более вероятно сохранение параметров ее изменения, конечно, на срок не слишком большой. Обычно рекомендует, чтобы срок прогноза не превышал одной трети длительности базы расчета тренда. В отличие от прогноза на основе регрессионного уравнения с различными факторами (кроме времени), прогноз по тренду учитывает факторы развития только в неявном виде, и это не позволяет строить разные варианты прогнозов при различных возможных значениях факторов, влияющих на изучаемый признак. Зато прогноз по тренду охватывает все факторы, т.е. усредняет, в то время как в регрессионную модель невозможно включить в явном виде более 10-20 факторов. Методология статистического прогнозирования включает в себя следующие этапы: выбор одной или нескольких трендовых моделей, форма которых соответствует характеру изменения временного ряда; оценка параметров выбранных моделей; проверка адекватности выбранных моделей прогнозируемому процессу и окончательный выбор тренда; расчет точечного и интервальных прогнозов (доверительных интервалов). Точечный прогноз – это значение уровня тренда, получаемое при подстановке в уравнение тренда момента времени или номера прогнозируемого периода. Для проверки адекватности (оценки качества) исследуемой модели прогноза используют несколько статистических критериев. Наиболее распространенными критериями являются следующие. Относительная ошибка аппроксимации: , где - ошибка прогноза; - фактическое значение показателя; - прогнозируемое значение. Данный показатель используется в случае сравнения точности прогнозов по нескольким моделям. При этом считают, что точность модели является высокой, когда <10%, хорошей – при =10-20% и удовлетворительной – при =10-50% Средняя квадратическая ошибка: , где - число оцениваемых коэффициентов уравнения. Наряду с точечным в практике прогнозирования широко используется интервальный прогноз. При этом доверительный интервал чаще всего задается неравенствами: , где - табличное значение, определяемое по -распределению Стьюдента при уровне значимости (обычно задают равным 0.1, 0.05, 0.01) и числе степеней свободы . Отметим, что пользоваться трендовыми моделями для краткосрочных и среднесрочных прогнозов следует при выполнении следующих условий: 1. количество наблюдений, т.е. период, за который изучается прогнозируемый процесс, должен быть достаточным для выявления закономерностей (обычно не менее 20 наблюдений); 2. процесс, описываемый во временным рядом должен обладать определенной инерционностью, т.е. для наступления большого изменения в поведении процесса необходимо значительное время; 3. автокорреляционная функция временного ряда и его остаточного ряда должна быть быстро затухающей, т.е. влияние более поздней информации должно сильнее отражаться на прогнозируемой оценке, чем влияние более ранней информации. 3. Авторегрессионные модели. Во временных рядах, описывающих экономические процессы, могут иметь место более или менее регулярные колебания. Если они являются строго периодическими, или имеют близкий к нему характер, то их называют сезонными колебаниями. Оценка сезонной компоненты может осуществлятся несколькими способами, мы рассмотрим два: с помощью тригонометрических функций и методом сезонных индексов. В тех случаях, когда период колебаний составляет несколько лет, то говорят, что во временном ряде присутствует циклическая компонента или стационарный случайный процесс (ССП). Моделирование ССП осуществляется следующими методами: модель авторегрессии (АР), модель скользящего среднего (СС), модель авторегрессии и скользящего среднего (АРСС) и другими. Авторегрессионный процесс – процесс, в котором значения исследуемого признака находятся в линейной зависимости от предыдущих. Количество предыдущих периодов, влияющих на текущее значение, называют порядком АР и обозначают через p. Мы будем рассматривать АР первого порядка (Марковский процесс) и второго (процесс Юла). В моделях скользящего среднего текущее сначение зависит от стохастических составляющих прошлых периодов, т.е. наблюдается период запаздывания, обозначаемый q. Если у нас присутствуют и p и q, то мы имеем дело с моделью АРСС. В моделях АР, СС, АРСС моделируют ряд без тренда и сезонной компоненты, т.е. ССП. Модель АРПСС позволяет исключить тренд путем перехода к разностям исходного ряда. Порядок разности, при котором ряд становится ССП, дает нам d, которая является третьей неизвестной, необходимой при моделировании АРПСС (в добавок к p и q). АРМА-модели. Если все корни характеристического уравнения лежат строго внутри единичного круга, процесс , определяемый стохастическим разностным уравнением называются процессом ARMA(p,q). Условие, что все корни характеристического уравнения лежат строго внутри единичного круга, мы называем условием устойчивости. При q=0 процесс называется чисто авторегрессионным и обозначается AR(p): При p=0 процесс называется процессом скользящего среднего и обозначается MA(q): Решение разностного уравнения, дающее выражение для через последовательность , называется представлением решения в форме скользящего среднего. Рассмотрим процесс MA(1) с . Покажем, этот процесс не является процессом белого шума. Первые два условия из определения процесса белого шума выполнены Но не выполнено третье условие Пример: При бросании однородной по сотаву монеты игрок выигрывает 1 руб. при выпадении герба и проигрывает 1 руб. при выпадении решки. Случайная величина - выигрыш при соответствующем броске. Тогда является процессом белого шума. Если ведется запись среднего выигрыша за 4 последних броска: Это процесс скользящего среднего 3-го порядка. 4. Спектральный анализ временного ряда. Для оценки сезонной компоненты применяется гармонический (спектральный) анализ. Дадим его основные понятия. Спектральный анализ построен на тригонометрических функциях, основными параметрами которых являютя частота, амплитуда и фазовый сдвиг. Частота f функций синуса или косинуса - число циклов (периодов) в единицу времени. Если единица измерения времени - один год, а группируется по месяцам, то частота будет равна 12 (поскольку имеется 12 циклов в году). Если единица измерения времени - неделя, а группируется по дням, то частота будет равна 7; если единица измерения времени - день, а группируется по часам, то частота будет равна 24, и т.д. Период Т функций синуса или косинуса – это продолжительность полного цикла по времени. Таким образом, это обратная величина к частоте: T = 1/f. Возвратимся к примеру предыдущего абзаца, здесь месячный цикл будет равен 1/12 = 0.0833 года. Другими словами, это период составляет 0.0833 года. Цель спектрального анализа - разложить ряд на сумму функций синусов и косинусов с различными частотами, для определения тех, появление которых особенно существенно и значимо. Для решения можно применить метод линейной регрессии, где зависимая переменная - наблюдаемый временной ряд, а независимые переменные - функции синусов всех возможных (дискретных) частот. Такая модель линейной множественной регрессии может быть записана как: , где λ - это круговая частота, выраженная в радианах в единицу времени, т.е. λ=2**k, и k = k/q; коэффициенты ak, bk при косинусах и синусах - это коэффициенты регрессии. Если n - количество данных, то в нашем уравнении регрессии будет n/2+1 функций косинусов и n/2-1 функций синусов. В итоге, спектральный анализ определяет корреляцию функций синусов и косинусов различной частоты с наблюдаемыми данными. Если найденная корреляция (коэффициент при определенном синусе или косинусе) велика, то можно заключить, что существует строгая периодичность на соответствующей частоте в данных. Пример. Рассмотрим ряд из 16 наблюдений, полученных из уравнения, показанного ниже, а затем посмотрим, каким образом можно извлечь из него информацию. Сначала создадим переменную и определим ее как: x = 1.0*cos(2*π*0.0625*(f0-1)) + 0.75*sin(2* π *0.2*(v0-1)) Эта переменная состоит из двух основных периодичностей - первая с частотой =0.0625 (или периодом 1/=16; одно наблюдение составляет 1/16-ю длины полного цикла, или весь цикл содержит каждые 16 наблюдений) и вторая с частотой =0.2 (или периодом 5). Коэффициент при косинусе (1.0) больше чем коэффициент при синусе (0.75). Итоговая таблица результатов спектрального анализа показана ниже. Спектральный анализ: ПЕРЕМ1 (shumex.sta) Число наблюдений: 16 t Час- тота Период Косинус корэфф. Синус корэфф. Периодо- грамма 1 2 3 4 5 6 7 8 .0000 .0625 .1250 .1875 .2500 .3125 .3750 .4375 .5000 16.00 8.00 5.33 4.00 3.20 2.67 2.29 2.00 .000 1.006 .033 .374 -.144 -.089 -.075 -.070 -.068 0.000 .028 .079 .559 -.144 -.060 -.031 -.014 0.000 .000 8.095 .059 3.617 .333 .092 .053 .040 .037 Теперь рассмотрим столбцы таблицы результатов. Ясно, что наибольший коэффициент при косинусах расположен напротив частоты .0625. Наибольший коэффициент при синусах соответствует частоте .1875. Таким образом, эти две частоты, которые были "внесены" в данные, отчетливо проявились. Периодограмма Функции синусов и косинусов независимы (или ортогональны); поэтому можно просуммировать квадраты коэффициентов для каждой частоты, чтобы вычислить периодограмму. Таким образом, значения периодограммы вычисляются как: где Pk - значения периодограммы на частоте k , и n - общая длина ряда. Значения периодограммы можно интерпретировать как дисперсию (вариацию) данных на соответствующей частоте. Обычно значения периодограммы изображаются в зависимости от частот или периодов. Проблема рассеяния В вышеприведенном примере функция синуса с частотой 0.2 была "встроена" в ряд. Общая же длина ряда равна 16, поэтому ни одна из полученных частот не равна в точности этой частоте. На практике в этих случаях часто оказывается, что соответствующая частота "рассеивается" на близкие частоты. Например, могут быть найдены большие значения периодограммы для двух близких частот, когда в действительности существует только одна основная функция синуса или косинуса с частотой, которая попадает на одну из этих частот или лежит между найденными частотами. Существует три подхода к решению проблемы рассеяния: • добавление конст ант во временной ряд - можно увеличить частоты, • сглаживание ряда перед анализом - уменьшение рассеяние, • сглаживание периодограммы - идентифицикация основных частот, которые существенно влияют на циклическое поведение ряда. При добавлении констант во временной ряд (пэддинг), значения частот вычисляются как N/t, поэтому можно просто добавить в ряд константы (например, нули), и, таким образом, получить увеличение частот. То есть, если мы добавим в наш пример еще десять нулей, результаты не изменятся; т.е. наибольшие пики периодограммы будут находиться по-прежнему на частотах близких к 0.0625 и 0.2. При сглаживании во временной области перед спектральным анализом применяется процесс косинус-сглаживания. Он обычно приводит к уменьшению рассеяния в периодограмме. При сглаживании в частотной области применяются окна данных и оценки спектральной плотности. На практике чаще не очень важно точно определить частоты. Скорее всего, можно столкнуться с проблемой многих хаотических пиков периодограммы, т.к. значения периодограммы - объект существенного случайного колебания. В этом случае ищутся частоты с большими спектральными плотностями, т.е. частотные области, состоящие из многих близких частот, которые вносят наибольший вклад в периодическое поведение всего ряда. Это может быть достигнуто путем сглаживания значений периодограммы с помощью преобразования взвешенного скользящего среднего. По способу вычисления весов известно несколько способов оценки спектральной плотности. Предположим, ширина окна скользящего среднего равна m (должно быть нечетным числом); тогда применяются следующие наиболее часто используемые преобразования (p = (m-1)/2). Окно Даниэля (равные веса). Окно Даниэля означает простое (с равными весами) сглаживание скользящим средним значений периодограммы; т.е. каждая оценка спектральной плотности вычисляется как среднее m/2 предыдущих и последующих значений периодограммы. Окно Тьюки. В окне Тьюки для каждой частоты веса для взвешенного скользящего среднего значений периодограммы вычисляются как: Окно Парзена. В окне Парзена для каждой частоты, веса для взвешенного скользящего среднего значений периодограммы вычисляются как: Окно Бартлетта. В окне Бартлетта веса вычисляются как: За исключением окна Даниэля (равные веса), все весовые функции приписывают больший вес сглаживаемому наблюдению, находящемуся в центре окна и меньшие веса значениям по мере удаления от центра. Во многих случаях, все эти окна данных дают похожие результаты. Теперь рассмотрим несколько других практических моментов спектрального анализа. Обычно, сначала удаляют среднее из значений ряда и тренд (чтобы добиться стационарности) перед анализом. Иначе на периодограмму и спектральную плотность будет влиять только первый коэффициент при косинусе (с нулевой частотой). Иногда также бывает полезно сгладить данные перед анализом, чтобы убрать случайный шум, который может засорять существенные периодические циклы в периодограмме. В случае, когда в ряде отсутствует периодичность, т.е. если каждое наблюдение совершенно независимо от всех других наблюдений, такой ряд примерно можно считать белым шумом. Тогда значения периодограммы будут иметь экспоненциальное распределение и проверкой на экспоненциальность значений периодограммы можно узнать, отличается ли исходный ряд от белого шума. 5. Непараметрические методы анализа временных рядов. Непараметрические методы анализа можно применять без предположения о виде распределеня случайной компоненты. Методы сглаживания являются непараметрическими, различают линейное и экспоненциальное сглаживание. Экспоненциальное сглаживание - это популярный метод прогнозирования временных рядов. Он заключается в том, чтобы использовать сглаживание скользящим средним, в котором последним наблюдениям приписываются большие веса, чем наблюдениям в начале временного периода. При простом экспоненциальном сглаживании более старым наблюдениям приписываются экспоненциально убывающие веса, при этом, в отличие от скользящего среднего, учитываются все предшествующие наблюдения ряда, а не только те, которые попали в определенное окно. Простое экспоненциальное сглаживание расчитывается по формуле: . Эту формулу можно применять рекурсивно, при этом каждое новое сглаженное значение (которое является также прогнозом) вычисляется как взвешенное среднее текущего наблюдения и сглаженного ряда. При этом результат сглаживания зависит от параметра . Если , то все предыдущие наблюдения полностью игнорируются; если , то игнорируются текущие наблюдения, а значения дают промежуточные результаты. Оценивание лучшего значения с помощью данных. На практике параметр сглаживания часто ищется с поиском на сетке. Возможные значения параметра разбиваются сеткой с определенным шагом. Например, рассматривается сетка значений от = 0.1 до = 0.9, с шагом 0.1. Затем выбирается , для которого сумма квадратов (или средних квадратов) остатков (наблюдаемые значения минус прогнозы на шаг вперед) является минимальной. Индексы качества подгонки Самый прямой способ оценки качества прогноза, полученного на основе определенного значения т- построить график наблюдаемых значений и прогнозов на один шаг вперед. Из графика ясно видно, на каких участках прогноз лучше или хуже. Такая визуальная проверка точности прогноза часто дает самые лучшие результаты. Имеются также другие меры ошибки, которые можно использовать для определения оптимального параметра : Средняя ошибка. Средняя ошибка (СО) вычисляется простым усреднением ошибок на каждом шаге. Очевидным недостатком этой меры является то, что положительные и отрицательные ошибки аннулируют друг друга, поэтому она не является хорошим индикатором качества прогноза. Средняя абсолютная ошибка. Средняя абсолютная ошибка (САО) вычисляется как среднее абсолютных ошибок. Если она равна 0 (нулю), то имеем совершенную подгонку (прогноз). В сравнении со средней квадратической ошибкой, эта мера "не придает слишком большого значения" выбросам. Сумма квадратов ошибок (SSE), среднеквадратическая ошибка. Эти величины вычисляются как сумма (или среднее) квадратов ошибок. Это наиболее часто используемые индексы качества подгонки. Относительная ошибка (ОО). Во всех предыдущих мерах использовались действительные значения ошибок. Но чаще при прогнозировании абсолютная ошибка может быть менее интересной, чем относительная. Чтобы оценивать качество подгонки в терминах относительных ошибок, можно использовать несколько различных индексов: ООt = 100*(Xt - Ft )/Xt где Xt - наблюдаемое значение в момент времени t, и Ft - прогноз (сглаженное значение). Средняя относительная ошибка (СОО). Это значение вычисляется как среднее относительных ошибок. Средняя абсолютная относительная ошибка (САОО). Как и в случае с обычной средней ошибкой отрицательные и положительные относительные ошибки будут подавлять друг друга. Поэтому для оценки качества подгонки в целом (для всего ряда) лучше использовать среднюю абсолютную относительную ошибку. Автоматический поиск лучшего параметра. Для минимизации средней квадратической ошибки, средней абсолютной ошибки или средней абсолютной относительной ошибки используется квази-ньютоновская процедура (та же, что и в АРПСС). В большинстве случаев эта процедура более эффективна, чем обычный перебор на сетке (особенно, если параметров сглаживания несколько), и оптимальное значение можно быстро найти. Первое сглаженное значение S0. Если вы взгляните снова на формулу простого экспоненциального сглаживания, то увидите, что следует иметь значение S0 для вычисления первого сглаженного значения (прогноза). В зависимости от выбора параметра (в частности, если близко к 0), начальное значение сглаженного процесса может оказать существенное воздействие на прогноз для многих последующих наблюдений. Как и в других рекомендациях по применению экспоненциального сглаживания, рекомендуется брать начальное значение, дающее наилучший прогноз. С другой стороны, влияние выбора уменьшается с длиной ряда и становится некритичным при большом числе наблюдений. Сезонная и несезонная модели с трендом или без тренда В дополнение к простому экспоненциальному сглаживанию, были предложены более сложные модели, включающие сезонную компоненту с трендом. Общая идея таких моделей состоит в том, что прогнозы вычисляются не только по предыдущим наблюдениям (как в простом экспоненциальном сглаживании), но и с некоторыми задержками, что позволяет независимо оценить тренд и сезонную составляющую. Аддитивная и мультипликативная сезонность. Многие временные ряды имеют сезонные компоненты. Тогда имеет смысл независимо экспоненциально сгладить сезонную компоненту с дополнительным параметром, обычно обозначаемым как . Сезонные компоненты, по природе своей, могут быть аддитивными или мультипликативными. Например, в течение декабря продажи определенного вида игрушек увеличиваются на 1 миллион долларов каждый год. Для того чтобы учесть сезонное колебание, вы можете добавить в прогноз на каждый декабрь 1 миллион долларов (сверх соответствующего годового среднего). В этом случае сезонность - аддитивная. Альтернативно, пусть в декабре продажи увеличились на 40%, т.е. в 1.4 раза. Тогда, если общие продажи малы, то абсолютное (в долларах) увеличение продаж в декабре тоже относительно мало (процент роста константа). Если в целом продажи большие, то абсолютное (в долларах) увеличение продаж будет пропорционально больше. Снова, в этом случае продажи увеличатся в определенное число раз, и сезонность будет мультипликативной (в данном случае мультипликативная сезонная составляющая была бы равна 1.4). На графике различие между двумя видами сезонности состоит в том, что в аддитивной модели сезонные флуктуации не зависят от значений ряда, тогда как в мультипликативной модели величина сезонных флуктуаций зависит от значений временного ряда. Параметр сезонного сглаживания . В общем, прогноз на один шаг вперед вычисляется следующим образом (для моделей без тренда; для моделей с линейным и экспоненциальным трендом): Аддитивная модель: Рt = St + It-p Мультипликативная модель: Рt = St*It-p В этой формуле St обозначает (простое) экспоненциально сглаженное значение ряда в момент t, и It-p обозначает сглаженный сезонный фактор в момент t минус p (p - длина сезона). Таким образом, в сравнении с простым экспоненциальным сглаживанием, прогноз "улучшается" добавлением или умножением сезонной компоненты. Эта компонента оценивается независимо с помощью простого экспоненциального сглаживания следующим образом: Аддитивная модель: Мультипликативная модель: Обратите внимание, что предсказанная сезонная компонента в момент t вычисляется, как соответствующая компонента на последнем сезонном цикле плюс ошибка (et, наблюдаемое минус прогнозируемое значение в момент t). Ясно, что параметр принимает значения между 0 и 1. Если он равен нулю, то сезонная составляющая на следующем цикле та же, что и на предыдущем. Если равен 1, то сезонная составляющая "максимально" меняется на каждом шаге из-за соответствующей ошибки (множитель (1-) не рассматривается из-за краткости введения). В большинстве случаев, когда сезонность присутствует, оптимальное значение лежит между 0 и 1. Линейный, экспоненциальный, демпфированный тренд. Возвращаясь к примеру с игрушками, мы можем увидеть наличие линейного тренда (например, каждый год продажи увеличивались на 1 миллион), экспоненциального (например, каждый год продажи возрастают в 1.3 раза) или демпфированного тренда (в первом году продажи возросли на 1 миллион долларов; во втором увеличение составило только 80% по сравнению с предыдущим, т.е. на $800,000; в следующем году вновь увеличение было только на 80%, т.е. на $800,000 * .8 = $640,000 и т.д.). Каждый тип тренда по-своему проявляется в данных. В целом изменение тренда - медленное в течение времени, и опять (как и сезонную компоненту) имеет смысл экспоненциально сгладить его с отдельным параметром [обозначаемым (гамма) - для линейного и экспоненциального тренда, (фи) - для демпфированного тренда]. Параметры сглаживания (линейный и экспоненциальный тренд) и (демпфированный тренд). Аналогично сезонной компоненте компонента тренда включается в процесс экспоненциального сглаживания. Сглаживание ее производится в каждый момент времени независимо от других компонент с соответствующими параметрами. Если равно 0, то тренд постоянен для всех значений временного ряда (и для всех прогнозов). Если равно 1, то тренд "максимально" определяется ошибками наблюдений. Параметр учитывает, как сильно изменяется тренд, т.е. как быстро он "демпфируется" или, наоборот, возрастает.

Анализ временных рядов. Случайные процессы

Тебе могут подойти лекции

Непараметрические методы анализа случайных процессов и временных рядов

Эконометрика