Статистические методы анализа временных рядов

⌛ 2014 год
👀 1053 просмотра
📌 1012 загрузок
🏢️ МосУ МВД РФ

Выбери формат для чтения

Конспект лекции по дисциплине «Статистические методы анализа временных рядов», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Статистические методы анализа временных рядов», Word формат

МОСКОВСКИЙ УНИВЕРСИТЕТ МВД РОССИИ РЯЗАНСКИЙ ФИЛИАЛ Кафедра экономической безопасности КОРОЛЕВ Г. И. СТАТИСТИКА Тема 8. Статистические методы анализа временных рядов Лекция по курсу « СТАТИСТИКА» Для специальности 080101.65 – Экономическая безопасность Рязань - 2014 СОДЕРЖАНИЕ Введение…………………………………………………………….2 1. Расчет приростов и темпов роста экономических показателей …………………………….…………………………..3 2. Простейшие методы обнаружения тренда временного ряда… ……………………………………………7 3. Выявление тренда методом аналитического сглаживания…..……………………………………………………10 3.1. Обнаружение аномальных уровней динамических рядов………………..………………………10 3.2. Методы определения тренда………………………………..12 4. Виды трендовых моделей .………………………………………..19 5. Адекватность трендовых моделей………………………………..24 6. Точечный и интервальный прогнозы на основе трендовых моделей………………………………………………27 Контрольные вопросы………………………………........................34 Введение Временной (динамический ряд) это совокупность конкретных статистических данных за определенные последовательные отрезки времени – год, квартал, месяц. Из-за привязки данных ко времени временные ряды еще называют динамическими. Ряды задают в виде таблиц, в которых верхняя строка является шкалой времени, а нижняя шкалой данных. При графическом представлении динамического ряда шкала времени отображается на оси абсцисс, а шкала данных в абсолютных или относительных единицах – на оси ординат. Значения статистических данных динамических рядов принято называть уровнями ряда. Они обозначаются через yi. Шкала времени традиционно обозначается через ti. При анализе динамических рядов решаются четыре основные задачи: а) расчет приростов и темпов роста показателей, б) выявление основной тенденции (тренда) в изменении показателей; в) построение трендовой модели; г) прогнозирование динамики показателей. 2 1. Расчет приростов и темпов роста экономических показателей Различают абсолютные и относительные приросты показателей. Относительные приросты определяют их темп роста. Приросты рассчитываются или с переменной, или с постоянной базой сравнения. В первом случае характеристики динамического ряда называются цепными, а во втором – базисными. Цепные абсолютные приросты определяются как разность между соседними значениями уровней ряда: Δyц i = yi – yi-1. Схематично процесс вычисления абсолютных цепных приростов изображен на рис. 1 как разность между последующим и предыдущим значениями динамического ряда. у1 у2 у3 у4 у5 у6 у7 у8 у9 Рис. 1. Схема вычисления абсолютных цепных приростов. При расчете базисных абсолютных приростов первое значение ряда принимают за базисное у0 и его вычитают из всех последующих значений: Δyб i = yi – y0. Схематично процесс вычисления абсолютных базисных приростов изображен на рис. 2 как разность между каждым последующим значением динамического ряда и его первым значением, принимаемым за базисное у0. у1 = у0 у2 у3 . …… у9 Рис.2. Схема вычисления абсолютных базисных приростов. Расчет приростов лучше всего продемонстрировать на конкретном примере. ►Пример 1. В таблице 1 приведены данные о расходах предприятия на рекламу новой продукции за 2004 – 2012 годы. Таблица 1 Год 2004 2005 2006 2007 2008 2009 2010 2011 2012 Расходы, 402,4 437,7 489,6 459,2 448,8 428,8 276,4 202,5 173,0 тысяч руб. Цепные абсолютные приросты: 3 Δyц2005= Δyц1= у2005 – у2004 = 437,7 – 402,4 =35,3; Δyц2006= Δyц2= у2006 – у2005 = 489,6 – 437,7 =51,9; Δyц2007= Δyц3= у2007 – у2006 = 459,2 – 489,6 = –30,4; Δyц2008= Δyц4= у2008 – у2007 = 448,8 – 459,2 = – 10,4; Δyц2009= Δyц5= у2009 – у2008 = 428,8 – 448,8 = – 20,0 ; Δyц2010= Δyц6= у2010 – у2009 =276,4 – 428,8 = – 152,4; Δyц2011= Δyц7= у2011 – у2010 = 202,5 – 276,4 =– 73,9; Δyц2012= Δyц8= у2012 – у2011 = 173,0 – 202,5 = –29,5 Базисные абсолютные приросты при у0 = 402,4: Δyб2005= Δyб1= у2005 – у2004 = 437,7 – 402,4 =35,3; Δyб2006= Δyб2= у2006 – у2004 = 489,6 – 402,4 =87,2; Δyб2007= Δyб3= у2007 – у2004 = 459,2 – 402,4 = 56,8; Δyб2008= Δyб4= у2008 – у2004 = 448,8 – 402,4 = 46,4; Δyб2009= Δyб5= у2009 – у2004 = 428,8 – 402,4 = 26,4 ; Δyб2010= Δyб6= у2010 – у2004 =276,4 – 402,4 = – 126,0; Δyб2011= Δyб7= у2011 – у2004 = 202,5 – 402,4 =– 199,9; Δyб2012= Δyц8= у2012 – у2004 = 173,0 – 402,4 = –229,4 Таким образом, цепные данные характеризуют абсолютные приросты расходов на рекламу по годам исследуемого периода, а базисные – прирост расходов нарастающим итогом, то есть прирост за отрезок времени, отделяющий данный год от базисного. По значениям цепных абсолютных приростов определяется средний абсолютный прирост: 1 y   yцi  n1 1  ( 35 ,3  51,9  30 ,4  10 ,4  20 ,0  152 ,4  73,9  29 ,5 )  29 8 4 Полученный результат означает, что за рассматриваемый период времени расходы на рекламу уменьшалось в среднем на 29 тысяч рублей в год (с течением времени необходимость в рекламе уже ставшим известным издеия уменьшается).◄ Между цепными и базисными абсолютными приростами существует связь: сумма цепных абсолютных приростов по годам равна базовому абсолютному приросту последнего года ряда. Это свойство абсолютных приростов используется для проверки правильности расчетов. По нашим данным: ΣΔцi = =35,3+51,9 –30,4–10,4–20,0–152,4–73,9 –29,5= –229,4 = Δyб2012, , то есть расчеты проведены правильно. Помимо абсолютных рассчитываются относительные цепные и базисные показатели: темп роста и темп прироста. Цепной темп роста – это отношение последующего уровня ряда к предыдущему уровню. Его вычисление осуществляется по той же схеме, что изображена на рис. 1. Необходимо только заменить знак вычитания на знак деления: y Tцi  i yi  1 Базисный темп роста –это отношение текущего уровня ряда к базисному уровню. Схема его вычисления та же, что и на рис. 2, если знак вычитания заменить на знак деления: y Tбi  i y0 ►Пример 2. Рассчитаем цепные и базисные темпы роста для данных из примера 1: 437 ,7 437 ,7 Tц1   1,09 (109 %); Tб1   1,09 ( 109%); 402 ,4 402 ,4 489 ,6 489 ,6 Tц 2   1,12 (112 %); Tб 2   1,22 ( 122%); ; 402 ,4 437 ,7 459 ,2 459 ,2 Tц 3   0 ,94 (94 %); Tб 3   1,14 ( 114%); 489 ,6 402 ,4 448 ,8 448 ,8 Tц 4   0 ,98 (98 %); Tб 4   1,12 ( 112%); 459 ,2 402 ,4 428 ,8 428 ,8 Tц 5   0 ,96 ( 96%); Tб 5   1,07 ( 107%); 402 ,4 448 ,8 276 ,4 276 ,4 Tц6   0 ,64 ( 64%); Tб6   0 ,69 ( 69%); 402 ,4 428 ,8 202 ,5 202 ,5 Tц7   0 ,73 ( 73%); Tб7   0 ,50 ( 50%); 402 ,4 276 ,4 5 173,0 173,0  0 ,85 ( 85%). Tб 2   0 ,43 ( 43%). 202 ,5 402 ,4 По значениям цепных темпов роста по формуле средней геометрической величины находят средний темп роста: Tц 8  T р  n1 Tц1  Tц 2  Tц 3  ... Т ц 8   8 1,09  1,12  0 ,94  ... 0 ,85  8 0 ,428737  0 ,9. Замечания. 1. Степень корня определяется числом входящих под него величин или числом (n-1), где n – число уровней ряда (число статистических данных, то есть число лет наблюдений). В нашем случае таблица 1 содержит 9 данных за 9 лет. Следовательно, степень корня равна 8. 2. Как извлечь корень любой степени на калькуляторе? Для этого калькулятор необходимо перевести в вид «инженерный», найти число, обратное степени корня и возвести в эту степень число, из которого извлекается корень. Например, необходимо извлечь корень 8й степени из нашего числа, стоящего под корнем: 0,428737. Число, обратное степени корня: 1/8 = 0,125. Итак, набираем число 0,428737, нажимаем на калькуляторе кнопку ху, набираем число 0,125, нажимаем Enter и читаем ответ: 0,8995, то есть примерно 0,9. На компьютере корни любой степени легко извлекаются в программе Excel. Таким образом, средний ежегодный темп роста расходов на рекламу составляет примерно 90% от каждого предыдущего года, то есть уменьшается на 10%. Эти 19% есть средний темп прироста расходов: Т прир.  Т р  1  0 ,9  1  0 ,1( 10%) . ◄ По базисным темпам роста также можно определить средний темп роста, извлекая корень степени (n – 1) из отношения конечного уровня ряда к базисному: y 173,0 8 T p  n 1 n  8  0 ,43  0 ,9. y0 402 ,4 В порядке проверки правильности расчетов можно воспользоваться следующими связями цепных и базисных темпов роста: а) последовательное произведение цепных темпов роста равно базисному темпу роста за последний период (год); б) частное от деления базисного темпа роста последующего периода на базисный темп роста предыдущего периода равно цепному темпу роста для последующего периода. 6 2. Простейшие методы обнаружения тренда динамического ряда Одной из основных задач анализа рядов динамики является выявление тенденции в изменении данных, их рост, снижение или стабильность. По исходной таблице эта тенденция (в статистике ее называют трендом) может не просматриваться, поэтому для обнаружения тренда используют несколько методов. Самым простым является метод укрупнения интервалов. При использовании этого метода исходную табличную шкалу времени разбивают на ряд интервалов, каждый из которых включает в себя несколько временных отрезков заданного динамического ряда. Данные каждого интервала суммируются. Для сумм (укрупненных интервалов) строится таблица, данные которой представляются графически в виде столбиковой диаграммы. Как правило, по укрупненным интервалам тренд просматривается более отчетливо, так как снижается влияние несущественных факторов, например, за счет их взаимной компенсации. ►Пример 3.Выявим тренд динамического ряда потерь предприятия от брака, тысяч рублей (таблица 2). Таблица 2 Год, t 2004 2005 2006 2007 2008 2009 2010 2011 2012 Потери, y 48,9 51,2 53,0 50,1 53,9 58,0 49,0 45,0 42,7 По таблице 2 тренд динамического ряда неочевиден. Недостаточно отчетливо просматривается тренд, если ряд представить и графически (рис. 3). В частности, увеличение потерь от брака до 2006 года сменяется падением к 2007 году, затем вновь рост до 2009 года, а затем – существенное падение. В целом о тенденции судить затруднительно, только лишь локально по интервалам времени. Проведем укрупнение интервалов, включив в каждый укрупненный интервал по три года: первый укрупненный интервал – от 2004 года по 2006 год, второй укрупненный интервал – от 2007 года по 2009 год, третий укрупненный интервал – от 2010 года по 2012 год. Просуммируем данные по укрупненным интервалам и поместим результаты укрупнения в таблицу 3. Таблица 3. Укрупненные интервалы 2004-2006 2007-2009 2010-2012 Укрупненные значения 153,1 162,0 136,7 Одновременно отобразим динамический ряд с укрупненными интервалами графически (рис. 4). Нетрудно видеть, что и по данным таблицы 3, и по столбиковой диаграмме тенденция изменения уровней ряда просмат7 Потери ривается чуть-чуть отчетливее: небольшое увеличение уровней сменяется их значительным падением. Рис. 3. Графическое представление динамического ряда. Рис. 4. Динамический ряд с укрупненными интервалами. ◄ Метод укрупнения интервалов является достаточно грубым, поэтому с его помощью не всегда удается выявить тенденцию. Более точным является метод скользящей средней. При применении этого метода вычисляются средние значения для интервалов, включающих в себя несколько исходных данных. Обычно в интервал включают нечетное число данных (три или пять) и вычисленное среднее значение приписывают середине интервала. Первый интервал отсчитывают от начала ряда, второй от второго члена ряда и т. д. до конца ряда. Динамика средних значений и будет характеризовать тренд динамического ряда. ►Пример 4. Рассмотрим тот же динамический ряд. Выберем величину интервала, равную трем значениям исходных данных (таблица 4). Находим среднюю арифметическую величину для каждого интервала. 1 Первый интервал: y1  ( 48 ,9  51,2  53,0 )  51,0. 3 1 Второй интервал: y 2  ( 51,2  53,0  50 ,1 )  51,4. 3 1 Третий интервал: y 3  ( 53,0  50 ,1  53,9 )  52 ,3. 3 8 1 Четвертый интервал: y 4  ( 50 ,1  53,9  58 ,0 )  54 ,0. 3 1 Пятый интервал: y 5  ( 53,9  58 ,0  49 ,0 )  53,6. 3 1 Шестой интервал: y6  ( 58 ,0  49 ,0  45 ,0 )  50 ,7. 3 1 Седьмой интервал: y7  ( 49 ,0  45 ,0  42 ,7 )  45 ,6. 3 Таблица 4. t y 2004 2005 2006 2007 2008 2009 2010 2011 2012 48,9 51,2 53,0 50,1 53,9 58,0 49,0 45,0 42,7 1 – й интервал 2 – й интервал 3 – й интервал 4 – й интервал 5 – й интервал 6 – й интервал 7 - й интервал Скользящая 51,0 51,4 52,3 54,0 53,6 50,7 45,6 средняя Расчетный интервал как бы «скользит» вдоль ряда от его начала к концу, поэтому вычисляемая для каждого интервала средняя величина и получила название скользящей. Рассчитанные значения скользящей средней приведены в последней строке табл. 4. и в графической форме на рис.5. По динамике скользящей средней можно c большей вероятностью сделать вывод о падающем тренде динамического ряда. Рис. 5. Динамика скользящей средней. ◄ 9 3. Выявление тренда методом аналитического сглаживания Наиболее точным является метод аналитического сглаживания (выравнивания). Он состоит в замене статистической зависимости зависимостью функциональной, определяющей тренд как функцию времени. Эту функцию еще называют аппроксимирующей или трендовой моделью. Трендовые модели лежат в основе анализа и прогнозирования экономической динамики. Вид трендовой модели зависит от взаимного расположения точек динамического ряда, то есть от типа развития изучаемого явления. На практике развитие имеет достаточно сложную форму, но при изучении реального процесса его тип соотносят с одним из эталонных типов развития: а) равномерное; б) равноускоренное; в) экспоненциальное; г) стагнационное (с замедлением роста в конце изучаемого периода). Построение трендовой модели осуществляется в строго определенной последовательности. Во-первых, необходимо установить, существует ли вообще какой-либо тренд уровней исследуемого ряда. Во-вторых, если тренд существует, устанавливается его характер и выбирается вид трендовой модели. Этот этап моделирования называют спецификацией модели. В-третьих, проводится параметризация модели, то есть определяются значения входящих в модель постоянных коэффициентов (находятся эмпирические оценки модели). И, наконец, вчетвертых, построенная модель проверяется на адекватность исследуемому реальному процессу. В случае ее адекватности модель может быть использована для целей прогнозирования. 3.1. Обнаружение аномальных уровней динамических рядов Чтобы построить трендовую модель, надо быть уверенным в наличии какого-либо тренда. Предварительно же динамический ряд необходимо исследовать на наличие в нем так называемых аномальных точек, то есть ошибочных уровней ряда. Они возникают или из-за методических и технических ошибок при передаче и обработке информации (ошибки первого рода), или из-за эпизодического, редкого воздействия объективных случайных факторов (ошибки второго рода). Обнаруженные ошибки первого рода можно и необходимо устранить, ошибки же второго рода не устраняются. Наиболее распространенным методом обнаружения аномальных точек является метод Ирвина. Его суть состоит в следующем. Для исходного динамического ряда y1, y2…yi…yn находят среднее квадратическое отклонение: где y , yi , n y   ( yi  y )2 n1 n – число уровней ряда. 10 , Затем вычисляются значения критерия Ирвина λ: y y i  i i  1 y , где i = 2, 3,…n. Существуют табличные значения критерия Ирвина  , с которыми сравниваются рассчитанные значения λi. Если λi > λα , то уровень ряда, соответствующий значению λi, является аномальным. Величина критерия Ирвина зависит от количества наблюдений n. Для уровня значимости α = 0,05 значения критерия Ирвина приведены в таблице 5. Если число уровней исследуемого ряда n не совпадает со значениями, указанными в таблице 5, например, n = 18, то табличный критерий Ирвина для этого значения определяется методом интерполирования: в прямоугольной системе координат отмечаются две соседних для n = 18 точки с λ = 1,4 (для n = 15) и с λ = 1,3 (для n = 20). Эти точки соединяются прямой линией и по ней определяется значение λ, соответствующее n = 18. Таблица 5 Значения критерия Ирвина при α = 0,05 n 2 3 7 9 10 15 20 25 30 40 50 100 λα 2,8 2,2 1,7 1,6 1,5 1,4 1,3 1,25 1,2 1,15 1,1 1,0 Если аномальные уровни обнаружены, то необходимо определить причину их возникновения, являются ли они следствием ошибок первого или второго рода. Аномальные уровни из-за ошибок первого рода или отбрасываются, или заменяются простой средней арифметической двух соседних уровней. После получения аналитического выражения аппроксимирующей кривой аномальные точки могут быть заменены расчетными значениями по этой кривой. ► Пример 5. Проверим на наличие аномальных уровней динамический ряд доли ручного труда на предприятии при увеличении его энерговооруженности(табл. 6): Таблица 6 Год, t 2004 2005 2006 2007 2008 2009 2010 2011 2012 Доля ручного 22,7 21,6 18,7 13,8 10,1 8,7 7,4 6,8 7,5 труда, % Рассчитаем средний уровень ряда: y 22 ,7  21,6  18 ,7  ... 7 ,5  13,03 9 Результаты вспомогательных расчетов поместим в таблицу 7. Определим: y  328 ,1  6 ,4 118 По формуле 7 рассчитаем и поместим в последний столбец таблицы 7 значения λi. Ни одно из значений λi не превосходит значения критерия Ирвина λα =1,6 для n = 9, следовательно, в исследуемом динамическом ряду аномальные уровни отсутствуют. ◄ Таблица 7 К расчету критерия Ирвина t 2004 2005 2006 2007 2008 2009 2010 2011 2012 2 ( yt  y ) ( yt  y ) yt 22,7 21,6 18,7 13,8 10,1 8,7 7,4 6,8 7,5 Σ 9,67 8,57 5,67 0,77 -2,93 -4,33 -5,63 -6,23 -5,53 yt  yt 1 93,44 73,39 32,11 0,588 8,6 18,78 31,73 38,85 30,62 328,1 1,1 2,9 4,9 3,7 1,4 1,3 0,6 0,7 λt 0,17 0,45 0,77 0,58 0,22 0,20 0,09 0,11 3.2. Методы обнаружения тренда. При отсутствии аномальных уровней можно определять наличие тренда. Существуют три основных метода: а) метод проверки разностей средних уровней; б) метод Фостера – Стьюарта; в) метод “восходящих и нисходящих” серий. Метод проверки разностей средних уровней реализуется в следующей последовательности. Первый этап. Исходный ряд разбивается на две равные части, если число его уровней четно, или на примерно равные части, отличающиеся на один уровень, если число уровней нечетно. Обозначим число уровней первой части через n1, второй части через n2. Второй этап. Для каждой из частей вычисляются средние значения и дисперсии: n1 n1  yi 2  ( yi  y 1 ) y 1  i 1 ; n1  12  i 1 2  ( yi  y 2 )  yi i  n1 1 n2 ; n n y2  n1  1 ;  22  i  n1 1 n2  1 . Третий этап. Осуществляется проверка однородности дисперсий  12 2 и  2 . С этой целью рассчитывается F – критерий Фишера по условиям: 12 а) если  12  ,22 то б) если  22   12, то F  12 F  22  22  12 ; . Расчетное значение критерия сравнивается с табличным значением Fα. Уровень значимости α можно выбрать равным 0,1, 0,05 или 0,01. В экономике в большинстве случаев принимают α = 0,05 (вероятность достоверности результата – 0,95). Если табличное значение Fα больше расчетного, то гипотеза об однородности дисперсий принимается. В противном случае гипотеза отвергается. Это означает, что из-за неоднородности дисперсий метод проверки разностей средних уровней для определения наличия тренда в исследуемом динамическом ряде непригоден. Четвертый этап. Если дисперсии однородны, то выдвигается гипотеза об отсутствии тренда, которая проверяется с помощью t – критерия Стьюдента. Расчетное значение критерия определяется по формуле: t где y1  y 2 1 1   n1 n2 , ( n1  1 ) 12  ( n2  1 ) 22 – среднее квадратическое откло n1  n2  2 нение разности средних. Расчетное значение критерия сравнивается с табличным значением tα для выбранного уровня значимости α и числа степеней свободы (n – 2). Если табличное значение tα больше расчетного t, то гипотеза принимается, тренда нет. Если tα < t, то гипотеза отвергается, тренд есть. Заметим, что метод проверки разностей средних уровней имеет серьезное ограничение. Он применим только в том случае, когда ряд имеет монотонную тенденцию роста или падения, то есть уровни ряда или последовательно возрастают, или последовательно падают. ►Пример 6. Продемонстрируем этот метод, используя некоторый условный ряд (таблица 8). Его уровни имеют монотонно возрастающую тенденцию, следовательно, метод применим. Таблица 8 t 1 2 3 4 5 6 7 8 9 10 y 22 60 80 120 130 178 190 220 260 276 13 Первый этап. Разобьем исходный ряд на две части. Поскольку n = 10 (четное число), эти части будут равны : n1 = n2 = 5. Запишем каждую часть в виде ряда. t 1 2 3 4 5 y 22 60 80 120 130 n1: t 6 7 8 9 10 y 178 190 220 260 276 n2: Второй этап. Находим: y1  22  60  ... 130  82 ,4 5 2 2 2 2 ( 22  82 ,4 )  ( 60  82 ,4 )  ... ( 130  82 ,4 ) 1   1959 4 y2  178  190  ...  276  224 ,8 5 2 2 2 ( 178  224 ,8 )  ... ( 276  224 ,8 ) 2   1821 4 Третий этап. Находим расчетное значение F–критерия Фишера при условии  12   22 : 1959 F  1,08 1821 Табличное (критическое) значение критерия Фишера находим по соответствующей таблице для α = 0,05 при степенях свободы k1 = m-1=1 и k2= mn–m = 8, где m – число групп, на которые разбит ряд, а n – число уровней ряда в группе. В нашем случае n1 = n2 = n = 5. Если же n1 ≠ n2, то выбирается значение того частичного ряда, которому соответствует дисперсия, стоящая в знаменателе расчетного значения критерия Фишера. Для нашего примера Fα = 5,32, больше расчетного значения F = 1,08. Таким образом, гипотезу об однородности дисперсий принимаем и можно продолжить исследование ряда на наличие тренда. Четвертый этап. Определяем: а) среднее квадратическое отклонение разности средних:  ( 5  1 )1959  ( 5  1 )1821  43,5 552 14 б) расчетное значение критерия Стьюдента: t 82 ,4  224 ,8 1 1 43,5  5 5  5 ,21 Табличное значение критерия Стьюдента для α = 0,05 и числа степеней свободы n1+n2 –2 = 8 находим из соответствующей таблицы: tα=2,306. Поскольку t > tα гипотезу об отсутствии тренда отвергаем, то есть исследуемый ряд имеет тренд. ◄ Метод Фостера – Стьюарта по сравнению с методом проверки разностей средних уровней является более универсальным. Для него нет ограничения в виде монотонности изменения уровней ряда, а результаты исследования более надежны. Кроме того, метод дает дополнительную информацию относительно возможного тренда дисперсии динамического ряда. Это очень важно для прогнозирования, поскольку наличие тренда дисперсии указывает на неустойчивость прогнозируемого процесса, его нарастающую колебательность. Метод реализуется в четыре этапа. Первый этап. Записывается исходный динамический ряд и, начиная со второго уровня, проводится сравнение каждого уровня со всеми предыдущими. Получаются две бинарные (состоящие из единиц и нулей) числовые последовательности ki и li. Правила записи последовательностей таковы: ki = 1, если уровень yi больше всех предыдущих уровней; ki = 0, если уровень yi равен или меньше хотя бы одного из предыдущих уровней; li = 1, если уровень yi меньше всех предыдущих уровней; li = 0, если уровень yi равен или больше хотя бы одного из предыдущих уровней. Второй этап. Вычисляются вспомогательные величины s и d: n n s   ( ki  li ); d   ( ki  li ) i2 i2 Величина s находится в пределах от 0 до ( n -1) и характеризует изменение динамического ряда. В частности, если все уровни ряда равны между собой, то s = 0. Если ряд монотонный, то s = ( n – 1). Величина d указывает на изменение дисперсии уровней ряда и находится в пределах от (– (n – 1)) до (n – 1). Пределы соответствуют монотонно убывающему и монотонно возрастающему ряду. Третий этап. Осуществляется проверка двух гипотез: а) гипотеза о случайном характере отклонения s от табличной величины μ; б) гипотеза о случайном характере отклонения величины d от нуля. 15 Здесь величина μ является математическим ожиданием величины s, полученной для ряда, в котором уровни расположены случайным образом. Другими словами, последовательности ki и li имеют случайный набор единиц и нулей. Проверка осуществляется по расчетным значениям t – критерия Стьюдента для средней (ts) и для дисперсии (td): ts  где s 1 td  ;  1  2 ln n  3,4253; d 0 2 ;  2  2 ln n  0 ,8456 . Значения μ табулированы, что упрощает расчеты (табл. 9). Таблица 9 Значения величины μ n 9 10 15 20 25 30 35 40 μ 3,78 3,858 4,527 5,195 5,593 5,990 6,274 6,557 Четвертый этап. Осуществляется сравнение расчетных значений ts и td с табличным значением tα критерия Стьюдента при заданном уровне значимости α. Если расчетное значение больше табличного, гипотеза об отсутствии тренда отвергается, тренд существует. Здесь возможны четыре случая. 1. ts < tα и td < tα - отсутствует тренд в среднем и отсутствует тренд дисперсии уровней ряда. 2. ts > tα , но td < tα - существует тренд в среднем и отсутствует тренд дисперсии уровней ряда. 3. ts < tα , но td > tα - тренд в среднем отсутствует, а тренд дисперсии уровней ряда существует. 4. ts > tα , и td > tα - существуют и тренд в среднем, и тренд дисперсии уровней ряда. Случаи 1 и 3 исключают построение трендовой модели ввиду отсутствия тренда среднего уровня ряда. Случай 4 встречается в статистике довольно часто, особенно при исследовании сезонных колебаний, а вот случай 2 является наиболее благоприятным для построения трендовой модели. ►Пример 7. Оценим наличие или отсутствие тренда методом ФостераСтьюарта на примере динамического ряда прибыли предприятия, млн. руб. (табл.10). Таблица 10 Год, t 2004 2005 2006 2007 2008 2009 2010 2011 2012 Прибыль, y 32,2 34,7 35,6 38,1 37,6 40,3 47,9 53,8 57,4 Первый этап. Определяем бинарные последовательности: k=1 1 1 0 1 1 1 1 16 l =0 0 0 0 0 0 0 0 Второй этап. Вычисляем: s = (1+0) + (1+0) + …+ (1+0) = 7; d = (1-0) + (1-0) + … + (1-0) = 7 Третий этап. Для n = 9 находим:  1  2 ln 9  3,4253  0 ,984  2  2 ln 9  0 ,8456  1,884 По таблице 8 для n = 9 определяем μ= 3,78. Тогда расчетные значения t -критерия Стьюдента равны: ts  9  3,78  5 ,3; 0 ,984 td  90  4 ,78. 1,884 По таблице t – статистики Стьюдента для α = 0,05 и k = n – 1 = 8 находим tα = 2,31. Четвертый этап. Сравниваем t – критерии: ts > tα (5,3 > 2,31); td > tα (4,78 > 2,31) Существует тренд в среднем, существует тренд дисперсии уровней ряда (случай 4). Возможно построение трендовой модели.◄ Метод “восходящих и нисходящих” серий. Алгоритм метода состоит в следующем. 1. Последовательно сравниваются члены исходного ряда и формируется последовательность знаков по условиям: а) знак “+” при yi+1 > yi (последующее значение больше предыдущего); б) знак “-” при yi+1 < yi (последующее значение меньше предыдущего); в) если два соседних уровня ряда равны, то учитывается только один из них. 2. Подсчитывается число серий p. Серия – это последовательность плюсов и минусов, расположенных подряд. Чередования одного плюса и одного минуса также являются сериями. 3. Определяется самая длинная серия - lmax 17 4. В зависимости от длины ряда определяется табличное значение lтаб (табл. 10). Таблица 11 Табличные значения длины серии n n ≤ 26 26 < n < 153 153 < n < 170 lтабл 5 6 7 5. Проверяются неравенства: 1 16 n ;29  p   ( 2n  1 )  1,96  90  3 lmax ≤ lтаб Квадратные скобки в первом неравенстве означают, что от вычисленной правой части неравенства необходимо взять только целую часть(!). Если хотя бы одно из неравенств нарушается, то гипотеза об отсутствии тренда отвергается с вероятностью 0,95. Обратимся к ранее рассмотренному примеру и установим наличие или отсутствие тренда методом “восходящих и нисходящих” серий. ►Пример 8. В таблице 12 приведены исходные данные предыдущего примера и добавлена строка результатов сравнения уровней ряда в соответствии с указанными в первом пункте алгоритма условиями. Число полученных серий p =3, самая длинная серия lmax = 4 (четыре последовательных плюса). По таблице 10 lтаб. = 5. Таблица 12 Год, t 2004 2005 2006 2007 2008 2009 2010 2011 2012 К-во, y 32,2 34,7 35,6 38,1 37,6 40,3 47,9 53,8 57,4 Знаки + + + + + + + Проверим неравенства: 1 144  29  3   ( 18  1 )  1,96   3 (только целая часть!) 3 90   Неравенство не удовлетворяется. lmax ≤ lтаб : 4 ≤ 5 - неравенство удовлетворяется. Нарушено первое неравенство, следовательно, гипотезу об отсутствии тренда отвергаем, тренд существует.◄ Таким образом, результаты исследования ряда на наличие или отсутствие тренда двумя методами совпадают. 18 4. Виды трендовых моделей При выборе вида модели в первую очередь обращают внимание на расположение точек фактических уровней динамического ряда преступности на плоскости. В большинстве случаев расположение точек приблизительно указывает на характер аппроксимирующей функции – прямая, парабола, гипербола и пр. Однако часто возникают ситуации, когда по расположению точек нельзя однозначно выбрать вид модели. В этом случае для выбора “хорошей” модели необходим дополнительный анализ. “Хорошая” модель должна удовлетворять, во-первых, требованиям простоты. Она должна иметь минимально возможное количество объясняющих переменных и максимально простой аналитический вид. В связи с этим в статистике в основном применяются однофакторные трендовые модели, единственной объясняющей переменной в которых является фактор времени. Во-вторых, она должна адекватно (с допустимой погрешностью) отражать поведение реального процесса. В-третьих, она должна быть работоспособной, а ее коэффициенты однозначно вычисляться для любого набора статистических данных из области допустимых значений. В-четвертых, модель должна обладать прогнозными качествами, то есть полученные на ее основе прогнозы должны с допустимой погрешностью подтверждаться практикой. Поскольку модель должна быть адекватна основным характеристикам исследуемого процесса, ее необходимо строить в соответствии с тенденцией, трендом этого процесса. Продлевая тенденцию на будущие отрезки времени (экстраполируя тенденцию), осуществляют прогноз. При этом непременно должны быть соблюдены два условия. Во-первых, условия развития экономического процесса в будущем и в прошлом должны быть неизменными. Вовторых, динамический ряд, модель которого необходимо построить, действительно должен иметь тренд. В математическом моделировании процессов различной физической природы используются три группы аппроксимирующих функций: полиномиальные, экспоненциальные и S–образные. Из полиномиальных кривых в большинстве своем применяют прямую y = a0 + a1t и параболу y = a0 + a1t+ +a2t2, реже – полином третьей степени (кубическую параболу) y = a0 + a1t + a2 t2 + a3t3. Более высокие степени полиномов используются очень редко. Вид аппроксимирующей кривой можно оценить по расположению точек статистических данных на плоскости. Например, на рис. 6 приведено расположение точек, которое позволяет использовать в качестве аппроксимирующей функции прямую линию, а на рис. 7 и рис. 8 соответственно полином второй степени и полином третьей степени. Моделирование экономических процессов линейными уравнениями дает неплохой результат, особенно, когда моделируется процесс на ограниченном временном отрезке. Если этот отрезок имеет небольшую нелинейность, то он аппроксимируется прямой с небольшой погрешностью. Но ограничиваться только простейшей линейной моделью нельзя, многие экономические процессы 19 существенно нелинейны даже на ограниченном участке, например, на участках, где рост показателя переходит в его падение и наоборот. 20 20 15 15 10 10 5 5 2 4 6 8 10 12 2 4 a1 > 0 6 8 10 12 a1 < 0 Рис. 6. Аппроксимирующая функция y =a0+a1t. 12 12 10 8 6 4 2 10 8 6 4 2 2 4 6 a2 > 0 8 10 12 14 1 3 5 7 9 11 13 a2 < 0 Рис. 7. Аппроксимирующая функция y =a0+a1t+a2t2. 70 60 50 40 30 20 10 Рис. 8. Аппроксимирующая функция y =a0+a1t+a2t2+a3t3. 1 3 5 7 9 11 Кроме того, моделирование имеет основной своей целью определение тенденции развития процесса и прогнозирование на основе этой тенденции. Тенденцию нельзя определять по двум – трем точкам, необходимо использовать более широкий диапазон изменения времени и, следовательно, учитывать нелинейный характер процесса соответствующей нелинейной функцией. В прошлом нелинейное моделирование использовалось ограниченно, поскольку это было связано с довольно сложными расчетами. Сейчас же с развитием компьютерных технологий этот вид моделирования стал вполне доступен. В качестве нелинейных функций кроме полиномов второй и третьей степени часто используются экспоненциальные кривые, кривая Гомперца и логистическая кривая. В порядке ознакомления с ними дадим им краткую характеристику. Из экспоненциальных кривых в основном используются простая и модифицированная экспоненты. Простая экспонента представляет собой функцию 20 y = abt. Параметры a и b положительные, а характер роста определяется тем, больше или меньше единицы параметр b. Если b>1, то с ростом t возрастает и функция. При b<1 с ростом t функция убывает (рис. 9). Для нахождения параметров a и b простой экспоненты удобно применять логарифмирование: lny = lna + lnb·t Обозначив lny = z, lna = a0 и lnb = a1, получим: z = a0 + a1t 14 12 10 8 6 4 2 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 12 1 b>1 3 5 7 9 11 b<1 Рис.9. Простая экспонента y = abt. Далее используем метод наименьших квадратов для аппроксимирующей прямой относительно z, решая систему нормальных уравнений:   na0  a1  t   z  2   a0  t  a1  t   tz Рассчитав a0 и a1 легко определить исходные параметры a и b. Модифицированная экспонента принимается в качестве модели тогда, когда расположение точек на плоскости соответствует рис. 10,а. Она имеет вид: y = k - abt где k > 0, a > 0, a ≤ k 0 < b < 1, k – горизонтальная асимптота модифицированной экспоненты. Для более сложной динамики уголовно-правовых процессов, состоящей из чередования интервалов ускорения и замедления, используются модели на основе S -образных кривых роста (рис. 10,б). Обычно используются два вида S образных кривых: кривая Гомперца и логистическая кривая (кривая Перла – Рида). 21 16 14 14 12 12 10 8 10 8 6 4 6 4 2 2 2 4 6 8 2 4 6 8 10 12 14 10 а) б) Рис. 10. Модифицированная экспонента (а) и S-образная кривая (б). Кривая Гомперца в своей простейшей записи имеет вид: t y  kab , где k – асимптота функции; a и b - постоянные коэф- фициенты, причем a > 0, 0 < b < 1. Логистическая кривая записывается в нескольких видах, например: y , k 1  ab  t y ; k 1  ae  bt , где k также является асимптотой функции, а параметры a и b положительные. Рассмотренные аппроксимирующие функции, как основа моделирования экономической динамики, практически охватывают все ее возможные случаи. Выбрать ту или иную кривую в качестве модели можно “на глазок”, по расположению точек динамического ряда на плоскости. Этот метод визуально- графического определения вида аппроксимирующей функции хорошо зарекомендовал себя в тех случаях, когда точки уровней ряда явно вытянуты в какуюлибо линию. Однако лучше осуществлять этот выбор более строго, с помощью соответствующего математического метода. Для этого применяют универсальный метод характеристик прироста. Предварительные вычисления при этом методе просты и, например, при выборе полиномиальных кривых роста ограничиваются расчетами не более второго или третьего прироста. Прежде, чем осуществлять расчеты для выбора типа трендовой модели, динамический ряд необходимо сгладить. Обычно на практике сглаживание осуществляют методом простой скользящей средней с интервалом сглаживания m = 3. Сглаженные уровни, кроме первого и последнего, рассчитываются по формуле: y yy yi  i 1 i i  1 3 22 Здесь yi – текущий уровень ряда; yi+1 – последующий уровень ряда; yi-1 – предыдущий уровень ряда. Для расчета сглаженных первого и последнего уровней применяются формулы: 5 y1  2 y2  y3  yn  2  2 yn  1  5 yn ; , yn  6 6 где yn – последний уровень ряда; yn-1 – предпоследний уровень ряда yn-2 предпредпоследний уровень. Далее рассчитываются первые средние приросты (полусумма двух соседних приращений): y1  y  y i 1 , t = 2, 3, ...(n-1) u i  i 1 2 Если первые средние приросты примерно одинаковы (отличаются от своего среднего значения не более, чем на 10%), то в качестве кривой роста можно выбрать полином первой степени, то есть уравнение прямой. Если значения u i изменяются примерно по линейному закону, то следует выбрать полином второй степени (параболу). Если первые средние приросты изменяются нелинейно, необходимо рассчитать вторые средние приросты: (2) ui  u i 1  u i 1 2 Если вторые средние приросты изменяются линейно, то в качестве кривой роста следует принять полином третьей степени (кубическую параболу). Для выбора более сложных кривых рекомендуются следующие правила: а) простая экспонента – примерно одинаковые величины ui ; yi б) модифицированная экспонента – величина log u i (по любому основанию) изменяется линейно; в) кривая Гомперца – линейно изменяется величина log ui ; yi г) логистическая кривая – линейно изменяется величина log ui y i2 23 Разумеется, при анализе реального динамического ряда мы вряд ли получим идеальное постоянство или идеальное линейное изменение рассчитываемых величин. Здесь необходимо руководствоваться разумной достаточностью и для большей объективности оценки изображать изменения графически. В качестве исходных могут быть выбраны не одна, а две или три модели. При дальнейшем исследовании предварительно отобранных кривых и определяют наиболее удачную (адекватную) трендовую модель динамического ряда. Итак, вид трендовой модели выбран. Необходимо найти параметры этой кривой. Обычно это осуществляется путем решения системы нормальных уравнений, вытекающих из метода наименьших квадратов. Параметры находят по критерию минимума суммы квадратов отклонений фактических уровней ряда от сглаженных (рассчитанных по предполагаемой трендовой модели) значений. 5. Адекватность трендовых моделей Если вид трендовой модели выбран и ее параметры определены, то возникает вопрос: насколько она соответствует реальному процессу, насколько она адекватна его основным свойствам и характеристикам? Найденная нами модель в виде некоторой функции отражает систематическую составляющую динамического ряда. Но существует еще и так называемая остаточная составляющая ряда, как следствие влияния неучтенных факторов. Для адекватности модели предполагается, что остаточная составляющая ряда является случайной величиной и удовлетворяет следующим четырем требованиям: а) уровни остаточной составляющей колеблются случайно; б) остаточная компонента распределена по нормальному закону; в) математическое ожидание остаточной составляющей ряда равно нулю; г) в остаточной последовательности отсутствует существенная автокорреляция, то есть взаимовлияние остатков друг на друга. Проверка этих требований обязательна. Если хотя бы одно из них не выполняется, то трендовая модель не может считаться адекватной. Как же осуществляется проверка? Рассмотрим ее простейшие методы. 1. Случайность колебаний уровней остаточной компоненты. Чтобы исследовать случайность отклонений от тренда и подтвердить тем самым правильность выбора вида кривой роста, необходимо вычислить разности εt = yt – yp , где yt - фактические уровни ряда, а ур - уровни ряда, рассчитанные по полученной трендовой модели. Затем осуществляется сравнение каждого (начиная со второго) уровня εt с двумя соседними εt-1 и εt+1. Если уровень εt больше двух соседних, то есть εt-1 < εt > εt+1., то он считается максимумом. Если уровень εt меньше уровней εt-1 и εt+1, то он считается минимумом. Максимумы и минимумы уровней εt называют пиками или поворотными точками, а сам метод такого исследования – методом по критерию пиков или методом поворотных точек. 24 Для определения числа пиков (обозначим их число через p) удобно воспользоваться графическим изображением последовательности εt, на котором отчетливо просматриваются все поворотные точки. Например, условной последовательности εt, приведенной в таблице 13, соответствует графическое изображение (рис. 11), по которому легко определяются пять поворотных точек (пиков). При случайности колебаний уровней остаточной компоненты математическое ожидание числа пиков р и дисперсия рассчитываются по формулам: 2 p  (n 2), 3  2p  16 n  29 90 Таблица 13 К методу поворотных точек t 1 2 3 4 5 6 7 8 9 10 yt 3,1 5,2 7,0 8,8 10,9 13,0 14,9 17,1 19,2 20,9 yp 3,0 5,0 7,0 9,0 11,0 13,0 15,0 17,0 19,0 21,0 εi 0,1 0,2 0,0 -0,2 -0,1 0,0 -0,1 0,1 0,2 -0,1 0,3 0,2 0,1 0,0 -0,1 1 2 3 4 5 6 7 8 9 10 -0,2 -0,3 Рис. 11. Графическое отображение пиков (поворотных точек). Если выбрать уровень значимости 0,05, то для принятия гипотезы о случайности колебаний необходимо выполнение неравенства: p  [ p  1,96  2p ] , где квадратные скобки означают, что от рассчитанного числа необходимо взять только целую часть. В случае, если это неравенство не выполняется, считать трендовую модель адекватной нельзя. 2. Распределение случайной компоненты по нормальному закону. Проверка этого требования осуществляется приближенно, поскольку динамические ряды обычно содержат не очень большое количество уровней. Простейшей является проверка по так называемому RS- критерию: RSкритерий = R εmax  εmin  2 S t n1 25 , Рассчитанное значение RSкритер. сравнивается с табличными значениями верхней и нижней границ критерия при заданном уровне значимости (табл. 14). Гипотеза о распределении случайной компоненты по нормальному закону принимается, если рассчитанное значение RSкритер. попадает в интервал между нижним и верхним табличными значениями. Таблица 14 Критические уровни RS – критерия при α = 0,05 Кол -во наблюдений 5 10 12 15 Границы RS критерия нижняя верхняя 2,38 3,19 2,67 3,69 2,79 3,88 2,96 4,14 Кол - во наблюдений 20 25 30 Границы RS критерия нижняя верхняя 3,18 4,49 3,34 4,71 3,47 4,89 3. Равенство нулю математического ожидания случайной компоненты. Проверка осуществляется на основе t–критерия Стьюдента, если случайная компонента распределена по нормальному закону. Значение критерия рассчитывается по формуле: t где ε 0 n, Sε ε - среднее арифметическое значение уровней ε; t Sε - среднее квадратическое отклонение последовательности .εt Рассчитанное значение критерия сравнивается с табличным значением tα при заданном уровне значимости α и (n-1) степеней свободы. Если расчетное значение меньше табличного, то гипотеза о равенстве нулю математического ожидания случайной компоненты принимается. Если расчетное значение критерия больше табличного, то гипотеза отвергается и трендовая модель является неадекватной. В случае, если среднее арифметическое значение уровней εt окажется отрицательным числом, то можно утверждать о выполнении условия равенства нулю математического ожидания случайной компоненты, не прибегая к статистике Стьюдента 4. Отсутствие существенной автокорреляции в остаточной последовательности. Из нескольких существующих методов проверки остаточной последовательности на автокорреляцию наиболее прост и удобен так называемый метод рядов. Он состоит в следующем: а) в строку выписываются знаки разностей εt = yt – yp (см. метод пиков, поворотных точек); б) подсчитывается число последовательностей знаков k, количество плюсов n1 и количество минусов n2; 26 в) поскольку обычно число уровней исследуемого ряда невелико, для определения допустимых границ k1 и k2 можно воспользоваться таблицей Сведа и Эйзенхарта (приложение 7). Если k1< k < k2, то существенная автокорреляция отсутствует и модель адекватна. Если все четыре вида проверки указывают на адекватность трендовой модели, то ее можно использовать как для интерполирования (нахождения неизвестных уровней ряда в прошлом), так и для прогнозирования (экстраполирования). 6. Точечный и интервальный прогнозы на основе трендовых моделей Трендовая модель, если она удовлетворяет требованиям адекватности, отражает соотношения и связи динамики показателей преступности в изучаемом периоде – прошлом и настоящем. Прогнозирование состоит в распространении выявленных закономерностей на будущий период. В математике такая процедура называется экстраполяцией. Если прогнозируемый период находится в пределах одного года, прогноз называют краткосрочным, до трех лет – среднесрочным, а свыше трех лет – долгосрочным. На основе трендовых моделей в основном осуществляются краткосрочные прогнозы, реже – среднесрочные и практически никогда долгосрочные. Дело в том, что трендовые модели внутренне детерминированы прошлым и настоящим состоянием изучаемой динамики. Учесть влияние всех внешних факторов (внешнюю детерминацию) в будущем с помощью трендовых моделей практически невозможно. В наше время развитие экономики осуществляется столь стремительно, что соотношения и связи пяти – семилетней давности могут кардинально изменяться и количественно, и качественно. В такой ситуации вряд ли возможно достоверно “заглянуть” в будущее на десяток лет. Прогноз по трендовой модели осуществляется в два шага. Первый шаг точечный прогноз, второй – интервальный. Точечный прогноз очень прост: в трендовую модель подставляют будущие значения объясняющей переменной tn+1, tn+2 и т. д. Вычисляются будущие уровни (точки) состояния прогнозируемого показателя, отсюда и название прогноза – точечный. По сути дела такое прогнозирование соответствует вычислению значения некоторой функции, роль которой выполняет трендовая модель, по заданному аргументу. Однако мы понимаем, что реальное значение показателя будет отличаться от прогнозного. Как велико может быть отличие? В какую сторону – большую или меньшую? Для ответа на эти вопросы и введено понятие интервального оценивания. Интервал прогноза – это двусторонняя окрестность относительно прогнозной точки шириной в 2Δ по оси ординат (рис. 12). 27 Точечный прогноз ∆ Интервал прогноза 2∆ ∆ Тренд Период упреждения tn tn+1 t Рис. 12. Интервальное оценивание прогноза. Интервал прогноза рассчитывается так, чтобы фактическое значение прогнозируемой величины попадала в него с достаточной долей уверенности. Доля уверенности задается вероятностью попадания фактического значения в интервал, а сам интервал называют доверительным. Обычно в прикладных задачах правовой статистики вероятность задается на уровне 0,95 реже – на уровнях 0,99, 0,9 или 0,8. Расчет доверительного интервала зависит от вида тренда – линейный он или нелинейный. Доверительный интервал в случае линейного тренда находится по формуле: Y = yn+l ± Sy K где Y – доверительный интервал; yn+l - точечный прогноз на момент времени (n+l); l = 1, 2, 3 ... - период упреждения; 2 Sy   (yt  y p ) n  m 1 - средняя квадратическая ошибка оценки прог- нозного показателя; yt и yp - фактическое и расчетное (по модели) значения показателя (уровни ряда); m – число постоянных коэффициентов модели. Для упрощения расчетов значения К табулированы и приведены в таблице 14. Анализируя формулу доверительного интервала, нетрудно заметить, что с увеличением периода упреждения неопределенность прогноза увеличивается, ширина интервала растет. При большом периоде упреждения ширина интервала может стать такой, что прогноз теряет практический смысл. Потому-то при прогнозировании по трендовым моделям и ограничиваются в основном краткосрочными и, реже, среднесрочными прогнозами. 28 Таблица 14 Значения К при α = 0,1. Длина ряда, n 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Линейный тренд Упреждение, l 1 2 3 3,04 3,34 3,56 2,66 2,88 3,14 2,49 2,68 2,89 2,34 2,48 2,63 2,26 2,37 2,50 2,18 2,27 2,37 2,13 2,21 2,29 2,08 2,15 2,22 2,05 2,10 2,16 2,02 2,06 2,11 1,99 2,03 2,02 1,97 2,00 2,04 1,95 1,98 2,01 1,93 1,96 1,99 1,92 1,94 1,97 1,90 1,92 1,95 1,88 1,90 1,93 1,87 1,89 1,91 1,86 1,88 1,90 1,85 1,87 1,89 Параболический тренд Упреждение, l 1 2 3 4,75 7,52 10,92 3,95 5,76 8,15 3,56 4,91 6,78 3,11 4,12 5,41 2,94 3,74 4,76 2,76 3,38 4,19 2,64 3,15 3,86 2,54 2,97 3,52 2,46 2,81 3,31 2,39 2,70 3,10 2,32 2,61 2,98 2,28 2,52 2,82 2,24 2,45 2,74 2,20 2,39 2,63 2,17 2,34 2,56 2,14 2,29 2,48 2,11 2,26 2,42 2,09 2,22 2,37 2,07 2,19 3,33 2,05 2,16 2,28 При прогнозировании важным является выбор длины динамического ряда. Если исходные данные изменяются монотонно, то следует выбирать длину ряда побольше. Если при исследовании тренда обнаруживается циклическое развитие, то определяется период цикла и длину ряда рекомендуется брать от середины первого цикла до середины последнего. Часто из-за изменения внешних условий ряд охватывает периоды с разными трендами. В этом случае надо отбросить самые ранние уровни ряда со старой тенденцией развития. Итак, построение и статистический анализ трендовой модели является относительно сложным, многошаговым процессом. Продемонстрируем этот процесс на примере построения трендовой модели числа хищений чужого имущества в России путем разбоя за 2007 – 2011 годы. ► Пример 9. В таблице 15 приведены данные о зарегистрированных в 2007 – 2011 годах хищениях чужого имущества путем разбоя Построить и исследовать трендовую модель хищений. Дать интервальный прогноз хищений на 2012 год. Таблица 15 Количество хищений, тыс. Год, ti 2007 2008 2009 2010 2011 К-во, yt 45,3 35,4 30,1 24,5 20,1 Решение. Проверим исходный динамический ряд на наличие аномальных точек, воспользовавшись методом Ирвина. Проведем соответствующие расчеты и их результаты поместим в таблицу 16. 29 Не повторяя приведенных выше расчетных формул, находим: уср  155б 4  31,08; 5 y  385б7  9 ,82 4 Таблица 16 Оценка наличия аномальных точек t yt yt – yср (yt – yср)2 │yt – yt-1│ λt 2007 45,3 14,22 202,2 2008 35,4 4,32 18,66 9,9 1,0 2009 30,1 -0,98 0,96 5,3 0,54 2010 24,5 -6,58 43,3 5,6 0,57 2011 20,1 -10,98 120,6 4,4 0,45 Σ 155,4 385,7 Для n = 5 табличное значение критерия Ирвина (таб- лица 5) с 5%-й погрешностью равно λα = 1,7. Ни одно из рассчитанных значений λt не превосходит табличного, следовательно, в исходном динамическом ряду хищений чужого имущества путем разбоя аномальные точки отсутствуют. Перейдем к определению наличия тренда. Воспользуемся методом «восходящих и нисходящих» серий. Анализируя исходный динамический ряд, запишем последовательность знаков: – – – – все знаки (–). Всего серий – 1, максимальная длина серии lmax = 4. По таблице 9.10 при n < 26 имеем lтабл= 5. Проверим неравенства: lmax < lтабл , 4 < 5 – неравенство удовлетворяется; 2  5  1 ( 16  5  29 )  1   1,96   2, 90  3  1 > 2, неравенство не удовлетворяется. Не удовлетворяется второе неравенство, следовательно, тренд существует. Напомним, что гипотеза о существовании тренда принимается, если не удовлетворяется хотя бы одно из неравенств. Выберем тип трендовой модели, то есть проведем ее спецификацию. Предварительно сгладим исходный динамический ряд методом простой скользящей средней при интервале сглаживания m = 3, а затем вычислим первые средние приросты. Сглаженные уровни: y1  5  45 ,3  2  35 ,4  30 ,1  44 ,5; 6 y3  y2  35 ,4  30 ,1  24 ,5  30 ,0; 3 y4  30 45 ,3  35 ,4  30 ,1  36 ,9; 3 30 ,1  24 ,5  20 ,1  24 ,9; 3 y5   30 ,1  2  24 ,5  5  20 ,1  19 ,9; 6 Первые средние приросты: u2  30 ,0  44 ,5  7 ,25; 2 u4  u3  24 ,9  36 ,9  6 ,0; 2 19 ,9  30 ,0  5 ,05. 2 Результаты расчетов сведены в таблицу 17. На рис. 13 первые средние приросты представлены в графическом виде. Их динамика близка к линейной, следовательно, в качестве трендовой модели может быть выбран полином второй степени: y = a0 + a1t + a2t2. Замечание. Строго говоря, динамика первых приростов имеет нелинейность и лучше было бы выбрать модель посложнее. Мы же, сознательно «загрубляя» прогноз, остановимся на квадратной параболе исключительно для простоты демонстрации методики анализа динамических рядов. Таблица 17 Сглаженные уровни ряда и первые средние приросты Год, ti Сглаженный ряд, yi 2007 2008 2009 2010 2011 44,5 36,9 30,0 24,9 19,9 1-й средний прирост, ui -7,25 -6,0 -5,05 Рис.13. Изменение первых средних приростов. Проведем параметризацию модели, то есть определим значения параметров а0, а1 и а2, используя метод наименьших квадратов. В случае полинома второй степени y = a0 +a1t + a2t2 система нормальных уравнений содержит три уравнения: 31 a0n + a1∑t + a2∑t2 = ∑y a0∑t + a1∑t2 + a2∑t3 = ∑yt a0∑t2 + a1∑t3 + a2∑t4 = ∑yt2 Не обременяя пример расчетами вручную, доверим миссию параметризации компьютеру. Изобразим сглаженную кривую разбоев графически (рис.14) и выведем на тот же рисунок результат компьютерного расчета: аппроксимирующую функцию y = 0,5x2 - 9,12x + 53,1 и коэффициент достоверности аппроксимации R2 = 0,9996. В формуле модели переменная х соответствует времени t = 1(2007 год), 2(2008 год), 3(2009 год), 4(2010 год) и 5(2011 год). Насколько полученная модель адекватна изучаемому реальному процессу? Проверим гипотезу об адекватности модели. Выполним необходимые расчеты (см. параграф 5) и поместим их результаты в таблицу 18, где в первой графе – расчетные значения уровней ряда ур по трендовой модели, во второй – остаточная компонента εt = yt – yр; в третьей – точки пиков (поворотные точки) εt и т. д. Для наглядности кривая εt приведена на рис. 15. Рис.14. Математическая модель динамики грабежей. Рис.15. Поворотные точки (пики) разностей εt. 32 Таблица 18 К проверке адекватности модели № 1 2 3 4 5 Σ yp 44,48 36,86 30,24 24,62 20,0 уt 44,5 36,9 30,0 24,9 19,9 εt εt2 εt- εt-1 (εt-εt-1)2 |εt/yt|*100% -0,02 0,0004 0,04 -0,04 0,002 -0,02 0,0004 0,11 0,24 0,058 0,28 0,078 0,8 -0,28 0,078 -0,52 0,27 1,12 0,1 0,01 0,38 0,144 0,503 0,1484 0,4924 2,573 Проверим следующие положения: 1.Колебания уровней остаточной компоненты случайны. Рассчитаем математическое ожидание числа пиков и их дисперсию: 2( 5  2 ) 16  5  29 p  2;  2р   0 ,567. 3 90 На рис. 15 просматриваются три пика. Проверим неравенство: 3  [ 2  1,96  0 ,567; ]  03 > 0. Неравенство выполняется, следовательно, колебания уровней остаточной компоненты носят случайный характер и по этому критерию модель адекватна. 2. Уровни случайной компоненты распределены по нормальному закону. Выбрав из таблицы 18 εt max = 0,24, εtmin = – 0,28, вычислим значение RS – критерия: RSкрит = 2,69. Критические уровни RSкрит для n = 5 и α = 0,05 заключены в границах от 2,38 до 3,19 (таблица 13). Полученное значение критерия находится в границах критических уровней, следовательно, гипотеза о распределении случайной компоненты по нормальному закону принимается. 3. Математическое ожидание случайной компоненты равно нулю. Определим среднее значение случайной компоненты: t 0 t    0; n 5 По этому критерию модель также адекватна. 4. В остаточной компоненте отсутствует существенная автокорреляция. При исследовании этого критерия проще всего использовать метод рядов, однако он применим при количестве наблюдений n = 10 и более. Поэтому мы используем в нашем примере критерий Дарбина – Уотсона (DW - статистику). Исследование осуществляется с помощью специальных таблиц критических точек (приложение 6), которые выбираются для данного числа наблюдений n, при количестве включенных в модель факторов m и задаваемом уровне значимости α. В таблице критических точек указываются два числа: dн - нижняя граница и dв - верхняя граница. Сам DW-критерий рассчитывается по формуле: DW   (  i   i 1 ) 2  i 2 33 Если значение DW оказывается в интервале от верхней границы dв до (4 - dв), то существенная автокорреляция в остаточной компоненте отсутствует и полученная трендовая модель адекватна. В нашем случае: 0 ,4924  3,25 0 ,1484 По таблице критических точек для n = 5, m = 1 и α = 0,05 определяем: dв =1,4. Диапазон DW-статистики составляет от 1,4 до (4 - dв ) = 3,6. Значение DW = 3,25 укладывается в этот диапазон, следовательно, гипотезу об отсутствии существенной автокорреляции в остаточной компоненте принимаем, модель адекватна. Оценим погрешность модели по средней относительной ошибке εотн: DW  1  1  отн   t  100%   2 ,573  0 ,51% n yt 5 Погрешность модели невелика и она может быть ис –пользована для прогнозирования. Точечный прогноз на будущий год (2012, его номер в модели - 6): l = 1; t = 6; y = 0,5·62 - 9,12·6 + 53,1 =16,4 Для интервального прогноза находим: Sy   t2 nm  0 ,1484  0 ,273 5 21 По таблице 14 находим: K=4,75. Тогда интервальный прогноз: Y2012 =16,4 ± 0,273·4,75 =16,4 ± 1,3; Таким образом, прогнозное значение количества хищений путем разбоя на 2012 год находится в пределах: 17,7 ≤ Y2012 ≤ 15,1; Заметим, что с увеличением периода прогноза ширина доверительного интервала будет расширяться. Внутри доверительного интервала прогнозные значения находятся с достоверностью 95%. ◄ Контрольные вопросы. 1. Какие математические модели уголовно-правовой статистики называются трендовыми? 2. Каковы причины возникновения аномальных уровней динамических рядов и как их можно выявить? 3. Назовите основные методы обнаружения тренда и присущие им ограничения. 34 6. Как проверяется гипотеза об отсутствии тренда динами- ческого ряда? 7. В какой последовательности осуществляется обнаружение тренда методом Фостера – Стьюдента и каковы особенности этого метода? 8. Изложите правила формирования бинарных последовательностей по уровням динамического ряда. 9.Какие гипотезы проверяются при осуществлении метода Фостера – Стьюарта? 10. Какие выводы можно сделать относительно наличия или отсутствия тренда в среднем и тренда дисперсии уровней динамического ряда при использовании метода Фостера – Стьюдента? 11. В какой последовательности осуществляется обнаружение тренда методом «восходящих и нисходящих» серий? Как образуются серии? 12. Перечислите основные требования к трендовым моделям. 13. Какие типы кривых используются в разработке трендовых моделей? 14. Какой аналитический вид имеют трендовые модели? 15. Как осуществляется сглаживание динамических рядов? 16. Изложите суть метода характеристик прироста для выбора вида трендовой модели. 17. Как осуществляется линеаризация экспоненциальных и S – образных трендовых моделей? 18. Перечислите требования, удовлетворение которых свидетельствует об адекватности модели исследуемому ряду. 19. Для какой цели применяется метод поворотных точек (пиков)? Каково содержание этого метода? 20. Какую информацию несет в себе расчетная величина RS – критерия? 21. Какая гипотеза относительно трендовой модели проверяется с помощью t – статистики Стьюдента? 22. Изложите содержание проверки отсутствия существенной автокорреляции в остаточной последовательности методом рядов. 23. Какие виды прогнозирования по трендовым моделям существуют и в чем состоит проблема долгосрочного прогнозирования? 24. Дайте характеристику процессу интервального прогноза по трендовой модели. В чем его отличие от точечного прогноза по уравнению регрессии? 35

СТАТИСТИКА

#Лекция

Статистические методы анализа временных рядов

Тебе могут подойти лекции

Анализ временных рядов. Статистические методы и модели в прогнозировании.

Прогнозирование социально-экономических процессов

Введение: предмет и метод статистики

Предмет и метод статистики

Статистические показатели и данные.

Предмет, метод и основные категории статистики как науки

Предмет статистики. Роль закона больших чисел в статистическом исследовании

Общие понятия о статистике. Предмет статистики

Теория статистики

Теория статистики

Статистические методы анализа временных рядов

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ