Методология анализа финансового рынка

👀 560 просмотров
📌 496 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Методология анализа финансового рынка», docx

Загружаем конспект в формате docx

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Методология анализа финансового рынка», Word формат

Методология анализа финансового рынка Финансовый рынок является сложной динамической системой. Системой, в которой каждое изменение (как крайне значительное, так и абсолютно незаметное) является следствием множества других изменений и их одновременного взаимодействия друг с другом. Следовательно, значение характеристик каждого оборачивающегося на финансовом рынке актива (таких как стоимость, волатильность и т.д.) является следствием чего либо, к примеру динамики стоимости иных активов, динамики как-либо макроэкономических показателей, совокупности системных трансформаций качественного характера, или даже динамики самого анализируемого актива в прошлом. Описанный механизм можно представить в виде блок-схемы (рисунок 1). Рисунок 1 – Природа рыночной волатильности Как можно видеть на рисунке, медиаторы изменения количественных характеристик анализируемого актива можно разделить на 2 группы: (1) риски, или возможности наступления неблагоприятного события, (2) шансы, или возможности наступления благоприятного события. При этом и риски и шансы образуются под влиянием совокупности факторов внешней и внутренней среды актива. Влияние данных факторов может значительно варьироваться от периода к периоду, что и является ключевой причиной волатильности. Выразить количественные значения факторов можно посредствам совокупности конкретных показателей, а силу их влияния посредствам специализированных статистических коэффициентов. Сочетание значений показателей и специализированных статистических коэффициентов позволяет формировать модели, посредствам которых аналитик получает возможность математизировать рыночные колебания, что дает ему возможность прогнозировать изменения на рынке и принимать решения на основе данной информации. Таким образом, для целей повышения своей профессиональной эффективности в рамках деятельности на финансовом рынке, необходимо уметь идентифицировать данные связи, математизировать их, прогнозировать будущие изменения на основе сформированных математических моделей, и уметь формулировать выводы на основе сделанных прогнозов. В рамках данного параграфа мы рассмотрим простейшие алгоритмы построения аналитических моделей, применительно к финансовым активам, и научимся делать выводы на основе результатов моделирования. В первую очередь необходимо рассмотреть базовое целеполагание анализа (рисунок 2). Рисунок 2 – Целеполагание в рамках анализа финансового рынка Как можно видеть, все возможные цели сводятся к определению и трактовке каких-либо количественных показателей. Именно поэтому очень часто то, что мы называем просто анализом, в литературе называется количественными исследованиями. Данный вид исследований подразумевает обработку количественной информации, и, как следствие, получение другой (вторичной или результирующей) количественной информации, на основе которой и делаются выводы. Оппозитно данным видам исследования существую качественные исследования, на основе которых исследователь делает абстрактные выводы, не содержащие количественного базиса. Безусловно, алгоритмы анализа финансового рынка могут варьироваться в зависимости от целей исследования, квалификации исследователя, инструментальных ограничений и многих других факторов. Однако, можно выделить базовый, типовой, универсальный алгоритм анализа финансового рынка (рисунок 3). Рисунок 3 – Универсальный алгоритм анализа финансового рынка Как можно видеть на рисунке 3, данный алгоритм содержит в себе 5 базовых этапов. На первом этапе осуществляется теоретическое описание процессов, которые в дальнейшем анализируются. В начале данного этапа аналитик формулирует первичную проблемы, к примеру: «Индекс РТС подвержен значительному влиянию со стороны макроэкономических факторов» или «Цена на акции ПАО «Роснефть» изменяется во времени согласно определенному паттерну». Далее, исследователь на основе первичных тезисов начинает изучать теоретический базис, состоящий из научных статей, отчетов аналитиков, мнений экспертов и т.д. Есть универсальное правило – если вы о чем-то задумались, значит задумался над этим ранее. Следовательно, если вы формулируете некую исследовательскую проблему, логично в первую очередь проверить не решал ли кто-либо подобных проблем ранее. С очень высокой долей вероятности, вы найдете завершенные аналоги вашего исследования, которые будет отличаться чем-либо. Агрегировав и проанализировав данную информацию, вы можете сформулировать проблему более точно, и на основе нее выдвинуть гипотезы. Гипотеза – это предположение о связи переменных. Базовые свойства выдвигаемых гипотез представлены на рисунке 4. Рисунок 4 – Свойства выдвигаемых гипотез Выдвигаемые гипотезы обязательно должны содержать переменные (минимум 2) и суждение относительно связи между ними. В связи с этим, всегда выдвигается минимум 2 гипотезы – нулевая и альтернативная (рисунок 5). Рисунок 5 – Дуализм выдвигаемых гипотез В качестве примера нулевой гипотезы можно выдвинуть тезис – «Динамика индекса РТС никак не связана с динамикой инфляции». В качестве альтернативной гипотезы можно выдвинуть следующий тезис – «Динамика индекса РТС связана с динамикой инфляции», или «При росте инфляции индекс РТС снижается». Как можно видеть, альтернативная гипотеза также может указывать на вектор связи между анализируемыми переменными. Согласно методологии анализа, мы сначала проверяем нулевую гипотезу, и только если она опровергается, проверяем альтернативную. Проверка нулевой гипотезы как правило может проводиться посредствам корреляционного анализа, а для проверки альтернативной гипотезы можно использовать различные инструмента регрессионного анализа. Переменные, сформулированные в рамках гипотез, делятся на зависимые и независимые. Независимые переменные, согласно альтернативной гипотезе, оказывают влияние на зависимые. При этом, и зависимые и независимые переменные могут быть измерены в разных шкалах (рисунок 6). Рисунок 6 - Основные типы шкал для измерения переменных Примерами номинальных переменных на финансовом рынке могут выступать: конкретные активы, дифференцированные по странам принадлежности компаний-эмитентов или названиям компаний-эмитентов; долговые ценные бумаги, разделенные в соответствии с базовым активом и т.д. Хрестоматийным примером порядковой переменной на финансовом рынке являются суверенные рейтинги. Количественными переменными могут выступать: цена актива; уровень риска; индикатор волатильности, доходность и т.д. Помимо способа измерения, переменные также дифференцируются в зависимости от способа классификации наблюдений. Дифференциация типов количественных переменных в соответствии со способом классификации наблюдений представлена на рисунке 7. Рисунок 7 – Типы количественных данных Как можно видеть, выделяют 3 основных типа количественных данных. Под временными данными (рядами) понимается совокупность информации, которая характеризует один и тот же объект, но за разные периоды времени. Примером временных данных может быть ежедневные обменные курсы валют, ежесекундные изменения цены акции или иного актива и т.д. Ключевое свойство временных данных – можно прогнозировать из будущие изменения. Под пространственными данными понимается совокупность информации, которая характеризует различные объекты, однако полученной за один и тот же период или момент времени. Примером пространственных данных может быть комплекс экономической информации по какому-либо предприятию (численность работников, объём производства, размер основных фондов), данные о ВВП различных стран в каком-либо конкретном году, средняя цена акций углядывающих компаний на конкретный день и т.д. Панельными данными называются данные, содержащие сведения об одном и том же множестве объектов за ряд последовательных периодов времени. Примером панельных данных могут служить показатели хозяйственной деятельности совокупности предприятий, которые собираются каждый год. По завершению формирования гипотез, на втором этапе производится сбор данных. Данные могут собираться автоматически, посредствам парсинга, в чем вам может помочь язык программирования python и такие библиотеки, как requests и selenium. Источники данных могут быть абсолютно любые, от масштабного статистического агрегатора Quandl до сайта Банка России. При этом, нужно помнить, что «Качественная информация» не обязательно подразумевает «Качественный анализ». «Качественная информация», или ее наиболее часто используемая форма - «Естественная информация», подразумевает неструктурированный массив данных, предполагающий обработку посредствам обыденного сознания. Примерами естественной информации могут выступать мнения экспертов, новости, решения специализированных регулирующих органов и т.д. Применение специализированных методов позволяет извлечь из естественной информации массив данных, пригодный для количественной обработки (рисунок 8). Рисунок 8 – Обработка естественной информации Как можно видеть, после сбора и классификации естественной информации, перед процедурой анализа, ее необходимо квантифицировать. Инструментов квантификации достаточно много, однако наиболее распространённые представлены на рисунке 8. Под прямой квантификацией понимается конверсия имеющихся номинальных или порядковых лексем в их альтернативную (числовую) форму (рисунок 9). Рисунок 9 – Пример прямой квантификации Токенизация - разбиение текста на осмысленные элементы (слова, фразы, символы), называемые токенами. Полученные токены могут быть квантифицированные посредствам подсчета частоты упоминания того или иного токена (рисунок 10). Рисунок 10 – Процедура простой токенизации Однако, часто необходимо обрабатывать разные формы слова одинаково. Например, при поиске: по запросам «рубли» и «рубль» ожидаются одинаковые ответы. Для этого существуют специальные процедуры обработки токенов – лемматизация и стемминг. Лемматизация - приведение слова к словарной форме. Стемминг - процесс нахождения основы слова, которая не обязательно совпадает с корнем слова. Последовательное применение данных процедур позволит сформировать значительно более эффективную (точную) переменную (рисунок 11). Рисунок 11 – Процедура комплексной токенизации В завершении, необходимо упомянуть еще один способ квантификации естественной информации – анализ тональности. Тональность — это эмоциональное отношение автора высказывания к некоторому объекту, выраженное в тексте. Анализ тональности текста — класс методов контент-анализа в компьютерной лингвистике, предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов (мнений) по отношению к объектам, речь о которых идёт в тексте. При помощи анализа тональности, в частности при анализе финансового рынка, можно определить эмоциональный окрас новостного фона, который в свою очередь может влиять на поведение участников рынка. В качестве одного из инструментов анализа тональности можно посоветовать бесплатную библиотеку для python, под названием Dostoevsky. Характеристики тональности текста, в соответствии с библиотекой Dostoevsky, следующие: (1) skip – уровень незначимости текста, (2) neutral – уровень нейтральности текста, (3) negative – уровень негативности текста, (4) positive – уровень позитивности текста, (5) speech – уровень естественности (принадлежности к разговорной форме) текста. Все характеристики тональности в данной библиотеке измеряются от 0 до 1. По завершении сбора данных и формирования на их основе датафрейма исследователь преступает к разработке методологии обработки данных, что, по сути, означает выбор инструментов анализа данных и проработку алгоритма их обработки. На рисунке 12 представлен крайне ограниченный срез классификации инструментов статистической обработки данных в зависимости от решаемой задачи, содержащий лишь базовые инструменты. Рисунок 12 – Ограниченный срез классификации инструментов статистической обработки данных в зависимости от решаемой задачи Как можно видеть, базово можно выделить 3 ключевые задачи: (1) анализ зависимости между переменными, подразумевающий поиск и математическую формализацию связей между зависимой и независимыми переменными, (2) прогнозирование будущих значений переменных содержательно очень похоже на первую группу методов, однако результат подразумевает нахождение наиболее вероятных будущих значений переменных, (3) классификация данных подразумевает разделение массива переменных на группы, по заданном признаку. В рамках данной главы мы рассмотрим первую группу методов. Применение того или иного инструмента анализа зависимости определяется в соответствии типами шкал зависимой и независимых переменных, что проиллюстрировано в таблице: Вид переменных Независимые переменные Количественная шкала Номинальная (порядковая) шкала Зависимые переменные Количественная шкала Корреляционный и регрессионный анализ Дисперсионный анализ Номинальная (порядковая) шкала Дискриминантный анализ Таблицы сопряженности В рамках данной главы мы рассмотрим исключительно корреляционный и регрессионный анализ. Корреляционный анализ позволяет выявить наличие, а также определяет направление и силу линейной связи между несколькими переменными, имеющими количественный тип шкалы (допускается порядковый тип шкалы). Коэффициент корреляции варьируются от -1 до +1, где: • -1 соответствует абсолютно разнонаправленной зависимости; • +1 соответствует абсолютно сонаправленной зависимости; • 0 показывает полное отсутствие какой-либо связи. Распределение оценок коэффициентов линейной корреляции приведено в таблице: Сила связи Направление связи Обратная Прямая Связи нет Слабая От 0 до - 0,3 От 0 до + 0,3 Средняя От -0,3 до -0,7 От +0,3 до +0,7 Сильная От -0,7 до -1,0 От + 0,7 до +1,0 Полная (функциональная) -1,0 +1,0 Существует несколько видов коэффициента корреляции, однако самыми распространёнными являются корреляция Пирсона (корреляция моментов произведения), ранговая корреляция Спирмена и корреляция Кендала. Мы с вами будем использовать коэффициент корреляции Пирсона для поиска связи между переменными. Формула расчета коэффициента корреляции Пирсона: (14) где: xt – значение независимой переменной в периоде t; yt – значение зависимой переменной в периоде t; – среднее значение независимой переменной; – среднее значение зависимой переменной. При исследовании связи сразу между многими переменными используется корреляционная матрица. Корреляционная матрица – симметричная система записи парных коэффициентов корреляции. Эта матрица может быть исходным объектом многомерного статистического анализа. Пример: Учетные признаки y x1 x2 x3 y 1,00 x1 0,81 1,00 x2 0,57 0,80 1,00 x3 0,42 0,30 0,22 1,00 Посредствам матрицы корреляции можно выявить наиболее связанные переменные, а также определить какие переменные объясняют одну и туже часть дисперсии. Однако, максимально эффективные выводы относительно совокупности связей можно сделать только не результатам множественного перебора корреляционной матрицы, последовательно удаляя и возвращая переменные (рисунок 13). Рисунок 13 – Визуализация парной корреляции Каждая фигура – дисперсия (вся совокупность изменений) конкретной переменной. Процент пересечения и является корреляцией (правда без учета направления связи). Как можно видеть на рисунке дисперсия переменной Y объясняется четырьмя переменными из 5 (дисперсия X5 не пересекается с дисперсией Y). При этом дисперсия X2, X3 и X4 объясняют абсолютно разные части дисперсии Y, но совокупная площадь пересечения не превышает и 50%. При этом дисперсия X3 объясняет большую часть дисперсии Y, практически полностью пересекая области пересечения X2 и X3 с Y, и практически не пересекаясь X4. Следовательно, дисперсия Y лучше всего будет объясняться моделью, состоящей из переменных X4 и X3. Процедура составления модели, описывающей изменение Y изменением X4 и X3, называется построением регрессионного уравнения, а анализ результатов построения – регрессионным анализом. Регрессионный анализ позволяет: (1) определить степень детерминированности различий значений (вариаций) зависимой переменной у разных наблюдений независимой переменной, (2) предсказать значения зависимой переменной с помощью независимой, (3) определить вклад отдельных независимых переменных в вариацию зависимой. Линейная регрессия может быть представлена 2 видами уравнений: 1. Парная регрессия - 2. Множественная регрессия - Уравнение множественной регрессии описывает влияние на зависимую переменную нескольких независимых переменных (регрессоров). Основная цель множественного регрессионного анализа – построить модель с достаточным количеством факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на зависимую переменную. a - свободный член уравнения регрессии, показывающей чему будет равна переменная Y когда все независимые переменные равны 0 и экономически не интерпретируется. b - наклон линии регрессии или коэффициент регрессии. Он является мерой зависимости переменной Y от конкретной независимой переменной x. В линейном уравнении регрессии параметр b является абсолютным показателем силы связи. Рассчитать их можно посредствам метода наименьших квадратов: (15) (16) Нелинейные связи в свою очередь могут быть линеаризованы. О качестве модели свидетельствуют несколько ключевых аналитических показателей: 1. Коэффициент детерминации (R2) – применяется для оценки качества, достоверности линейной связи. Рассчитывается как коэффициент корреляции в квадрате. Предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50%. Модели с коэффициентом детерминации выше 70% можно признать эффективными. 2. P-level – показатель, величина которого отражает вероятность ошибки при отклонении нулевой гипотезы. Определяется для каждой из независимых переменных. Данный показатель не должен превышать разности между 100% и предполагаемым уровнем доверия результатам модели, как правило составляющим 90%, 95% или 99%. Следовательно, P-level не должен превышать 10%, 5% или 1% соответственно. 3. Ошибка аппроксимации применяется для оценки качества полученной модели. Модель регрессии считается эффективно сформированной и достаточно достоверно описывающей связь между фактором и результативным показателем, если величина средней ошибки аппроксимации не превышает 1-10% в зависимости от изучаемого явления. 4. Логически обосновываемый характер связи. Направление связи между переменными определяется на основании знака коэффициента регрессии. Если знак при коэффициенте регрессии положительный, связь зависимой переменной с независимой считается прямо пропорциональной. Если знак при коэффициенте регрессии отрицательный, связь зависимой переменной с независимой является обратно пропорциональной. 5. Отсутствие структурных разрывов. Под структурными разрывами стоит понимать разнонаправленную динамику фактического Y и теоретического (рассчитанного посредствам полученной модели) Y. Алгоритм построения модели множественной регрессии представлен на рисунке 14. Рисунок 14 – Алгоритм построения модели множественной регрессии Для целей автоматизации построения модели регрессии рекомендуемся использовать специализированно программное обеспечение. Наиболее доступным и простым в использовании является MS Excel и встроенный в него пакет «Анализ данных». Несколько более сложными, но и при этом значительно более мощными является такие программные продукты, как IBM SPSS, Stata и Gratl. Однако, мы рекомендуем использовать инструменты с открытым кодом, такие как язык программирования Python и соответствующие библиотеки для анализа и машинного обучения. Данная рекомендация обусловлена тем, что при помощи Python вы можете в единой программной среде реализовать все этапы анализа, выделенные на рисунке 3, Python практически не нагружает мощности вашего компьютера, что дает возможность обрабатывать значительно большие массивы данных, а также он является максимально гибким для алгоритмизации и полностью бесплатным. В завершении, нужно отметить, что в том случае, если цель, которую вы перед собой ставите, не является исключительно научной, мы рекомендуем разделять анализируемый массив на две части. На одной из них вы можете обучить вашу модель, а на второй протестировать ее. Именно данный принцип лежит в основе разбираемого далее кейса. КЕЙС В рамках данного задания необходимо построить эффективную модель описания динамики цены одного из финансовых инструментов, представленных на энергетических рынках мира, основанную на количественных характеристиках внешней среды. Вводная информация: • Исследуемый актив - TTFG1MON Index (Y); Предлагаемые количественные характеристики внешней среды исследуемого актива (регрессоры или потенциальные независимые переменные): • ЕС газ в хранении (TWh) (X1); • ЕС закачка газа (GWh/d) (X2); • ЕС отборы газа (GWh/d) (X3); • Франция газ в хранении (TWh) (X4); • Франция закачка газа (GWh/d) (X5); • Франция отборы газа (GWh/d) (X6); • Германия газ в хранении (TWh) (X7); • Германия закачка газа (GWh/d) (X8); • Германия отборы газа (GWh/d) (X9); • Голландия газ в хранении (TWh) (X10); • Голландия закачка газа (GWh/d) (X11); • Голландия отборы газа (GWh/d) (X12); • Англия газ в хранении (TWh) (X13); • Англия закачка газа (GWh/d) (X14); • Англия отборы газа (GWh/d) (X15); • Цена нефть Brent (X16); • Цена уголь Ara (X17); • Цена Henry Hub swap (X18); • Цена NBP (X19). В рамках решения данного задания рассматриваются временные ряды на промежутке с 03.03.2014 по 30.11.2017, отчищенные от отсутствующих значений базисного актива (выходных и праздничных дней). Совокупный массив составляет 948 наблюдений. Разделение на тестовую и обучающую выборку будет оговариваться отдельно в отношении каждого из рассматриваемых методов. РЕШЕНИЕ: Пункт 1. Парная регрессия. Предположим, что изменение цены исследуемого актива определяется одним из предлагаемых регрессоров. В первую очередь следует исследовать возможность построения модели парной линейной регрессии, для чего рассмотрим корреляцию между ценой исследуемого актива и предлагаемыми регрессорами (обучающая выборка составляет первые 899 значений): Коэфф. коррел. Y X1 X2 X3 X4 X5 X6 X7 X8 X9 Y 1.00 0,01 -0,27 0,14 0,13 -0,20 0,13 -0,14 -0,22 0,19 Коэфф. коррел. X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 Y -0,01 -0,25 0,02 -0,37 -0,11 -0,12 0,52 0,32 0,53 0,89 В соответствии с полученными результатами высокая сила связи наблюдается исключительно между исследуемым активом и X19, в связи с чем переменные, продемонстрировавшие среднюю силу связи, можно проигнорировать. Аппроксимируем совокупность значений Y в зависимости от X19, посредством линейной функции: Рисунок 15 – Модель парной регрессии Коэффициент детерминации (R2) показывает, что только 79,9% вариации Y определяются вариацией X19, что позволяет говорить о наличии заметной связи между признаками, но недостаточной для получения эффективного прогноза. Исследуем прогностические свойства данной модели на тестовой выборке. Рассмотрим полученный результат графически: Рисунок 16 – Графическое сопоставление динамики фактического и прогностического Y на тестовой выборке Как можно видеть, несмотря на относительное внешнее соответствие, на графике предсказанных значений наблюдается наличие как структурных разрывов, так и постоянного структурного сдвига. Это может быть обусловлено изменениями в структуре рынка. Анализ остатков также подтверждает возможное изменение структуры рынка: Рисунок 17 – Структура остатков модели парной регрессии на тестовой выборке Как можно видеть, остатки содержат как убывающий тренд, так и константу (-2), подтверждающую структурный сдвиг. Следовательно, использование более поздних значений Y для формирования обучающей выборки может способствовать повышению качества модели. Рассмотрим модель парной линейной регрессии, построенную на базе значений 2017 года (с 717 по 899): Рисунок 18 – Модель парной регрессии по данным 2017 года Как можно видеть, качество модели повысилось (если судить по коэффициенту детерминации). Исследуем прогностические свойства данной модели на тестовой выборке: Рисунок 19 - Графическое сопоставление динамики фактического и прогностического Y на тестовой выборке Как можно видеть на графике структурный сдвиг был удален, однако имеют место структурные разрывы. Рассмотрим структуру остатков: Рисунок 20 - Структура остатков модели парной регрессии на тестовой выборке Как можно видеть, остатки все равно смещены в отрицательную область графику, что свидетельствует о наличии некой неучтенной константы. Дальнейшее исследование данной модели нецелесообразно. Пункт 2. Множественная регрессия. Развитием парной регрессии является множественная регрессия. В первую очередь рассмотрим возможность построения модели множественной регрессии на базе всех выделенных ранее регрессоров. Коэффициент детерминации представленной модели составляет 0,971, что положительно характеризует ее качество (обучающая выборка – 899 значений). Качество модели применительно к тестовой выборке рассмотрим графически: Рисунок 21 - Графическое сопоставление динамики фактического и прогностического Y на тестовой выборке (множественная регрессия) Как можно видеть, несмотря на высокий коэффициент детерминации, на графике все еще наблюдаются структурные разрывы. Однако при этом отсутствует структурный сдвиг. При этом распределение остатков в достаточной мере похоже на белый шум: Рисунок 21 - Структура остатков модели множественной регрессии на тестовой выборке Характеристики модели представлены в таблице ниже: Переменные Нестандартизованные коэффициенты P-level. b 1 (Константа) 4,011 0,000 2 ЕС газ в хранении TWh 0,018 0,000 3 ЕС закачка газа GWhd 0,000 0,881 4 ЕС отборы газа GWhd 0,000 0,013 5 Франция газ в хранении TWh -0,029 0,001 6 Франция закачка газа GWhd 0,000 0,364 7 Франция отборы газа GWhd -0,001 0,006 8 Германия газ в хранении TWh -0,059 0,000 9 Германия закачка газа GWhd 0,000 0,087 10 Германия отборы газа GWhd 0,000 0,061 11 Голландия газ в хранении TWh -0,010 0,005 12 Голландия закачка газа GWhd 0,001 0,000 13 Голландия отборы газа GWhd 0,000 0,646 14 Англия газ в хранении TWh -0,196 0,000 15 Англия закачка газа GWhd -0,001 0,002 16 Англия отборы газа GWhd -0,001 0,001 17 Цена нефть Brent 0,019 0,000 18 Цена уголь Ara -0,067 0,000 19 Цена Henry Hubswap 0,029 0,752 20 Цена NBP 0,412 0,000 Как можно видеть, не все из включенных в модель переменных являются значимыми. При последовательном исключении данных регрессоров, структура модели трансформируется, а значимость оставшихся регрессоров также меняется. Ниже приставлена финальная модель регрессии: Переменные Нестандартизованные коэффициенты P-level. b 1 (Константа) 4,12 0,00 2 ЕС газ в хранении TWh 0,02 0,00 3 ЕС отборы газа GWhd 0,00 0,00 4 Франция газ в хранении TWh -0,03 0,00 5 Франция отборы газа GWhd 0,00 0,00 6 Германия газ в хранении TWh -0,06 0,00 7 Германия закачка газа GWhd 0,00 0,02 8 Германия отборы газа GWhd 0,00 0,04 9 Голландия газ в хранении TWh -0,01 0,00 10 Голландия закачка газа GWhd 0,00 0,00 11 Англия газ в хранении TWh -0,19 0,00 12 Англия закачка газа GWhd 0,00 0,00 13 Англия отборы газа GWhd 0,00 0,00 14 Цена нефть Brent 0,02 0,00 15 Цена уголь Ara -0,07 0,00 16 Цена NBP 0,41 0,00 Как можно видеть, финальная модель содержит 15 регрессоров. Качество модели применительно к тестовой выборке рассмотрим графически: Рисунок 22 - Графическое сопоставление динамики фактического и прогностического Y на тестовой выборке (множественная регрессия) Как можно видеть, количество структурных разрывов увеличилось. Рассмотрим остатки: Рисунок 23 - Структура остатков модели множественной регрессии на тестовой выборке Как можно видеть, в остатках имеет место полиномиальный тренд. Следовательно, данная модель не в полной мере учитывает изменения внешней среды. Построим альтернативную модель, исключительно на базе выборки 2017 года: Переменные Нестандартизованные коэффициенты P-level. b 1 (Константа) 6,230 0,000 2 ЕС газ в хранении TWh -0,028 0,000 3 ЕС отборы газа GWhd 0,001 0,000 4 Франция газ в хранении TWh -0,116 0,000 5 Франция отборы газа GWhd -0,002 0,000 6 Германия газ в хранении TWh 0,063 0,000 7 Германия закачка газа GWhd 0,000 0,000 8 Германия отборы газа GWhd -0,001 0,001 9 Голландия газ в хранении TWh 0,169 0,000 10 Англия газ в хранении TWh -0,108 0,004 11 Англия отборы газа GWhd -0,001 0,000 12 Цена нефть Brent 0,065 0,000 13 Цена NBP 0,246 0,000 Как можно видеть, финальная модель содержит 12 регрессоров. Коэффициент детерминации данной модели составляет 0,97, что существенно много. Качество модели применительно к тестовой выборке рассмотрим графически: Рисунок 24 - Графическое сопоставление динамики фактического и прогностического Y на тестовой выборке (множественная регрессия) Как можно видеть, структурные разрывы практически отсутствуют. Однако отклонение прогнозируемых результатов от фактических значительно линейно возрастает для второй половины наблюдений. Более наглядно данное явление прослеживается в остатках: Рисунок 25 - Структура остатков модели множественной регрессии на тестовой выборке Как можно видеть, структура остатков имеет явный тренд, что указывает на несовершенство модели. Однако, так или иначе, данная модель продемонстрировала наилучший результат на среднесрочном промежутке времени.