Информационные технологии анализа данных
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«МИРЭА – Российский технологический университет»
РТУ МИРЭА
ЛЕКЦИОННЫЕ МАТЕРИАЛЫ
Бизнес-аналитика. Часть 2. Информационные технологии анализа данных
(наименование дисциплины (модуля) в соответствии с учебным планом)
Уровень
Бакалавриат
(бакалавриат, магистратура, специалитет)
Форма обучения
Заочная
(очная, очно-заочная, заочная)
Направление(-я)
подготовки
09.03.02 Информационные системы и технологии
(код(-ы) и наименование(-я))
Институт
комплексной безопасности и специального приборостроения
Кафедра
КБ-9 «Прикладная и бизнес-информатика»
(полное и краткое наименование)
(полное и краткое наименование кафедры, реализующей дисциплину (модуль))
Лектор
Старший преподаватель Канева И.Ю.
(сокращенно – ученая степень, ученое звание; полностью – ФИО)
Используются в данной редакции с учебного года
2019/20
(учебный год цифрами)
Проверено и согласовано «____» ________20___г.
(подпись директора Института/Филиала
с расшифровкой)
Москва 2019 г.
Тема лекции 1: Данные и их анализ
Введение
Современные информационные технологии анализа данных широко
используются в различных по назначению системах автоматизации и управления, в
том числе в корпоративных информационных системах крупных предприятий и
организаций. Такие системы включают подсистемы, построенные на основе
концепций систем поддержки и принятия решений и реализующие
информационные технологии интеллектуального анализа данных, основанные на
методах количественного анализа данных, поиске функциональных и логических
закономерностей, построении моделей и правил прогнозирования новой
информации и т. п.
Учебный вопрос 1. Анализ данных как область решения прикладных
задач
Под данными (англ. data) понимается представление сведений, свойств, параметров различных объектов, фактов и идей в формализованном виде, пригодном
для передачи и обработки в некотором информационном процессе. Данные могут
подвергаться информационным преобразованиям с фиксированием результатов этой
обработки в виде новых данных.
Анализ данных — область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком
смысле) данных. Анализ данных представляет собой процесс исследования,
фильтрации, преобразования и моделирования данных с целью извлечения полезной
информации и принятия решений.
Информационные технологии анализа данных реализуют процесс «получения
знания», который схематически представлен на рис. 1.
Базы
данных
Анализ
Выборка
данных
Модели
Очистка и
обработка данных
Критерии
оценки
Трансформация
Представление
данных
Обогащение
ЗНАНИЕ
Рис. 1 — Схема интеллектуального анализа данных
В базе данных хранятся все детальные данные об объектах. Для оптимизации
этой информации под нужды решаемой задачи делается выборка данных, их
«очистка» и предварительная обработка (поиск и исправление ошибок, проверка
согласованности данных и т. п.). Данные обычно преобразовываются в иной формат,
«обогащаются» путем добавления дополнительной информации для увеличения
точности и ценности результатов проводимого анализа. Далее следует собственно
2
исследование с использованием различных математических и эвристических
моделей, экспертных оценок и формализованных критериев оценки этих моделей.
После этапа представления данных модель приобретает вид, удобный для
дальнейшего использования с помощью средств визуализации и манипулирования
данными, объяснения и интерпретации результатов для получения нового знания.
Знание в области искусственного интеллекта и информационных систем
представляет собой совокупность информации и правил о мире, свойствах объектов,
закономерностях процессов и явлений, а также правилах использования их для
принятия решений. Главное отличие знаний от данных состоит в их структурности и
активности, появление новых фактов или новых связей может стать источником
изменений в процедуре принятия решений.
Анализ данных необходимо рассматривать в контексте целенаправленного
использования данных и знаний в процессах формирования управляющей информации в сочетании с процессами сбора, регистрации и хранения данных,
контроля и мониторинга состояния объектов управления. Функциональная модель
управления с использованием функций анализа и извлечения знаний из данных
представлена на рис. 2.
Рис. 2 — Обобщенная модель управления
Термин «анализ» в математике достаточно привычен, имеет устоявшееся
значение и входит в название многих классических разделов: математический
анализ, функциональный анализ, выпуклый анализ, нестандартный анализ,
многомерный комплексный анализ, дискретный анализ, стохастический анализ,
квантовый анализ и т. д. В этих областях науки изучается математический аппарат,
который базируется на некоторых фундаментальных результатах и позволяет
решать задачи из этих областей.
3
В анализе данных ситуация иная. Он представляет собой, прежде всего,
прикладную науку, в которой математический аппарат, способный на основе
конечного набора базовых фактов давать способ решения задачи, не формируется.
Таким образом, анализ данных рассматривается как область решения прикладных задач в ходе деятельности, выполняемой аналитиками и специалистами по
управлению в экономике, технике, производстве, бизнесе, биологии, социологии,
психологии и т. д. Решение таких задач требует изобретения новых приемов и
способов обработки информации, поэтому можно сказать, что анализ данных
является также искусством и ремеслом.
Анализ данных имеет множество аспектов и подходов, охватывает разные
методы в различных областях науки и деятельности. К основным разновидностям
анализа данных относятся:
• бизнес-аналитика, опирающаяся на анализ данных, который основывается
на агрегировании, визуализации трендов и зависимостей;
• описательная статистика, основной задачей которой является статистическая оценка основных характеристик и законов распределения случайных
событий и процессов;
• проверка статистических гипотез, задачей которой является подтверждение
или опровержение выдвигаемых гипотез;
• исследовательский анализ, занимающийся открытием новых характеристик
данных;
• прогнозный анализ, имеющий основной задачей применение статистических и структурных моделей для предсказания или классификации;
• анализ текста, заключающийся в применении статистических, структурных
и лингвистических методов для извлечения и классификации информации
из текстовых источников, относящихся к неструктурированным данным;
• интеллектуальный анализ — особый метод анализа данных, который фокусируется на моделировании и открытии (добыче) новых знаний, а не на
их описании.
Предшественником анализа данных являются их интеграция, структурирование и систематизация, а сам анализ данных тесно связан с визуализацией и
распространением информации. Поскольку до 80 % всех данных существуют в
неструктурированном виде (содержатся в текстовых документах), важность
интегрированных средств, реализующих технологии интеллектуального анализа
данных и анализа текста, будет возрастать.
Анализ данных выполняется с помощью методов, моделей, которые применяются для описания зависимостей и отношений в данных, прогнозирования
дальнейшего их развития и т. п.
Информационные технологии анализа данных широко используют различные
математические и эвристические модели, экспертные оценки и формализованные
критерии оценки этих моделей. Информационные технологии анализа данных
выявляют закономерности и выводят правила, которые можно использовать для
принятия решений и прогнозирования их последствий.
4
Важное значение в информационных системах анализа данных имеет представление данных. Это этап, на котором модель приобретает вид, удобный для
дальнейшего использования с помощью средств визуализации и манипулирования
данными, объяснения и интерпретации результатов для получения нового знания.
Учебный вопрос 2. Основные задачи анализа данных
Анализ данных широко применяется в прикладных задачах, связанных с
различными областями и сферами человеческой деятельности. Приведем некоторые
примеры областей, где большое количество данных хранится в централизованных
или распределенных базах данных, требует анализа и определяет необходимость
развития методов поиска и анализа в информационных базах, таких, как:
• электронные библиотеки, в которых систематизированно хранятся тексты в
различных форматах;
• архивы изображений, состоящие из большого количества изображений в
сырой или сжатой форме, к которым может прилагаться и текст;
• данные геномных исследований, появляющиеся в результате расшифровки
генома человека (исследованием и интерпретацией возникших огромных
баз данных занимается биоинформатика);
• медицинские изображения: ЭКГ, снимки внутренних органов и т. д., анализ
которых имеет большое значение для медицины;
• финансовые данные, представляющие котировки акций, золота, рыночные
индексы, процентные ставки, кредитные операции банков, транзакции по
кредитным картам и т. д.;
• корпоративные данные предприятий, представляющие подробные сведения
об основных бизнес-операциях организации, используемые для выработки
маркетинговой политики организации и прочих задач повышения
экономической эффективности;
• данные телекоммуникационных систем, такие как история вызовов, сбоев,
перегрузок, содержимого трафика и т. д.;
• разнородная мультимедийная информация Всемирной паутины (www),
содержащая огромные объемы сведений различного типа;
• биометрические данные человека (отпечатки пальцев, снимки лиц и т. д.),
применяемые в системах однозначной идентификации человека.
В процессе анализа данных выполняются процессы создания стандартных
закономерностей, к которым относятся перечисленные ниже.
Ассоциация — нахождение постоянных составляющих (трендов), которые
можно использовать для объяснения событий (например, выбор товаров и услуг,
определение уровней запасов, схем складирования и др.). Анализ ассоциаций — это
обнаружение ассоциативных правил, т. е. условий назначения атрибутов, которые
для заданной выборки объектов часто выполняются вместе. Ассоциативное правило
X ^ Y означает, что «записи базы данных, которые удовлетворяют условиям в X,
вероятнее всего удовлетворяют и условиям в Y».
Классификация — выявление признаков, характеризующих группу объектов,
распределение объектов по группам для моделирования поведения объектов,
5
прогнозирования значений свойств объектов и др. Классификация — это процесс
нахождения моделей или функций, которые описывают и различают классы для
того, чтобы иметь возможность предсказывать класс произвольного заданного
объекта с известными атрибутами, но неизвестной меткой класса. Полученная
модель основывается на анализе обучающей выборки, то есть множества объектов,
чья метка класса известна. Такая модель может быть представлена в различных
видах: в виде правил классификации (ЕСЛИ — ТО), деревьев решений,
математической формулы, нейронных сетей.
Прогнозирование — предсказание будущих значений непрерывно
изменяющихся переменных и др. При предсказании метки класса определенного
объекта может быть использована классификация, однако во многих приложениях
может возникнуть потребность в предсказании не метки класса, а некоторого
пропущенного, будущего или недоступного для наблюдений значения. Как правило,
это касается случаев, когда предсказываемое значение — числового
(вещественного) типа. В задаче прогнозирования в распределении данных часто
имеют дело с понятием «тренд».
Кластеризация — распределение по группам или сегментам. В отличие от
классификации и прогнозирования, которые анализируют множество объектов
обучающей выборки, имеющей известные метки класса, кластеризация или
кластерный анализ анализирует объекты, у которых метки классов неизвестны.
Кластеризация как раз призвана сгенерировать эти метки. Объекты кластеризуются
или группируются на основе принципа максимизации внутриклассовой близости и
минимизации межклассовой близости. Таким образом, кластеры объектов
формируются так, что объекты одного кластера похожи друг с другом, а объекты
разных кластеров непохожи. Каждый полученный кластер может рассматриваться
как класс объектов, который в свою очередь может использоваться в других видах
анализа для получения различных правил и закономерностей. Существуют также
методы иерархической кластеризации, которые позволяют организовать множество
наблюдений в иерархию классов.
Важнейшим элементом человеческой деятельности является принятие решений. Простые, привычные решения человек принимает часто автоматически, не
задумываясь об этом. Но в более сложных и ответственных ситуациях он прибегает
к помощи опытных, знающих людей, либо для подтверждения своего решения, либо
для несогласия с ним, либо за советом. Принятие решения в большинстве случаев
заключается в генерации возможных альтернатив решений, их оценке и выборе
лучшего варианта.
Очень многие задачи являются многокритериальными — в них необходимо
учитывать большое число факторов. Для обеспечения адекватности, точности и
достоверности использования данных в таких задачах используются системы
поддержки принятия решений (СППР), которые помогают произвести оценку
ситуации, осуществить выбор критериев, оценить их относительную важность,
генерировать возможные сценарии действия, моделировать принимаемые решения,
осуществлять оценку результатов.
6
Учебный вопрос 3. Классификация методов и средств анализа данных
По степени «интеллектуальности» обработки данных при анализе выделяют
три класса задач обработки данных:
• информационно-поисковый — осуществляет поиск необходимых данных.
Характерной чертой такого анализа является выполнение заранее
определенных запросов;
• оперативно-аналитический — производит группирование и обобщение
данных в любом виде, необходимом аналитику. В отличие от предыдущего
анализа в данном случае невозможно заранее предсказать необходимые
аналитику запросы;
• интеллектуальный — осуществляет поиск функциональных и логических
закономерностей в накопленных данных, построение моделей и правил,
которые объясняют найденные закономерности и/или (с определенной
вероятностью) прогнозируют развитие некоторых процессов.
Методы интеллектуального анализа данных (ИАД) подразделяют на три
класса.
1. Алгебраические методы. Исходные данные в них представляются в виде
алгебраических структур.
2. Статистические методы. Они используют аппарат теории вероятностей и
математической статистики.
3. Методы мягких вычислений. В них используются нечеткое представление
данных и нейронные сети.
Методы ИАД реализуются в технологиях:
• интерактивной аналитической обработки данных (On-Line Analytical Processing — OLAP);
• глубинного анализа данных (Data Mining);
• визуализации данных.
Технология интерактивной аналитической обработки данных (OLAP)
представляет собой технологию обработки данных, заключающуюся в подготовке
суммарной (агрегированной) информации на основе больших массивов данных,
структурированных по многомерному принципу. Данная технология основывается
на создании специализированной структуры хранилища данных, которая создается
из рабочих данных и называется OLAP-куб. OLAP-куб содержит базовые данные и
информацию об измерениях (агрегаты), его структура ориентирована на быструю
обработку информационных запросов аналитиков для получения обобщенных и
агрегированных по различным признакам и измерениям данных. Куб потенциально
содержит всю информацию, которая может потребоваться для ответов на любые
запросы. При огромном количестве агрегатов зачастую полный расчёт происходит
только для некоторых измерений, для остальных же производится «по требованию».
В целом OLAP рассматривается как совокупность концепций, принципов и
требований, лежащих в основе программных продуктов, облегчающих аналитикам
доступ к данным.
Глубинный анализ данных (Data Mining), называемый также интеллектуальным
анализом или добычей знаний, представляет собой собирательное название,
7
используемое для обозначения совокупности методов обнаружения в данных ранее
неизвестных, нетривиальных, практически полезных и доступных интерпретации
знаний, необходимых для принятия решений в различных сферах человеческой
деятельности. Методы Data Mining лежат на стыке баз данных, статистики и
искусственного интеллекта. Их основу составляют всевозможные методы
классификации, моделирования и прогнозирования, основанные на применении
деревьев решений, искусственных нейронных сетей, генетических алгоритмов,
эволюционного программирования, ассоциативной памяти, нечёткой логики. К
методам Data Mining нередко относят статистические методы (дескриптивный
анализ, корреляционный и регрессионный анализ, факторный анализ,
дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ
временных рядов, анализ выживаемости, анализ связей). Такие методы, однако,
предполагают некоторые априорные представления об анализируемых данных, что
несколько расходится с целями Data Mining.
Визуализация данных является одним из способов работы с большими массивами данных и решением проблемы сложности их восприятия. То, что, на первый
взгляд, может показаться цифрами, никак не связанными друг с другом, при
правильной визуализации складывается в единую систему. Традиционные
инструменты в этой области — графики и диаграммы — плохо справляются с
задачей визуализации, когда возникает необходимость изобразить более трех
взаимосвязанных величин. Задача визуализации данных состоит в том, чтобы
преобразовать числовые массивы в геометрические образы или объекты. Если в
двумерном изобразительном пространстве выбор форм представления сильно
ограничен и они весьма абстрактны, то в пространстве 3D их можно в максимальной
степени приблизить к моделируемой реальности. В этом аспекте визуализация
данных развивается параллельно со смежными разделами машинной графики —
геометрическим моделированием, анимацией и виртуальной реальностью.
Учебный вопрос 4. Программные средства анализа данных
Основная задача программной системы для выполнения анализа данных —
предоставить аналитикам инструмент для решения различных задач анализа
данных. Для эффективного использования такой системы ее пользователь —
аналитик должен обладать соответствующей квалификацией. Система, как правило,
не генерирует правильные решения, а только предоставляет аналитику данные в
соответствующем виде (отчеты, таблицы, графики) для изучения и анализа, именно
поэтому такие системы обеспечивают выполнение функций поддержки принятия
решений. Качество принятых решений зависит от квалификации аналитика. Рост
объемов анализируемых данных, высокая скорость обработки и анализа, сложность
использования машинной формы представления данных — стимулируют
исследования и разработку интеллектуальных программных средств анализа. Для
таких средств характерно наличие функций, реализующих отдельные умственные
возможности человека.
Процесс проведения интеллектуального анализа данных с использованием
соответствующих информационных технологий и программных средств представлен на рис. 3.
8
Э
Т
Описание
задачи
Планирование
Подготовка
OLTP — БД
Хранилище
данных
Отбор
свойств
Определение
подвыборок
А
Преобразование
Очистка
данных от
щума
Установление связей
БД для DM
Интеллектуальный
анализ
Выбор алгоритма
П
…
Алгоритм 1
Алгоритм k
Вывод результатов
Ы
Оценивание
Оценивание качества и интерпретация
результатов
Рис. 3 — Схема процесса интеллектуального анализа данных
Традиционно выделяются следующие этапы в процессе ИАД:
1. Исследование предметной области, в результате которого формулируются
основные цели анализа.
2. Сбор данных из разнообразных источников.
3. Предварительная обработка данных, выполняемая для подготовки данных к
анализу, т. е. приведения их к виду, пригодному для использования в решаемых задачах:
• очистка данных — исключение противоречий и случайных «шумов»
из исходных данных;
• интеграция данных — объединение данных из нескольких возможных
источников в одном хранилище;
• преобразование данных — приведение данных к форме, подходящей
для анализа, при этом часто могут применяться такие операции, как
агрегация данных, дискретизация атрибутов, сжатие данных и
сокращение размерности.
4. Анализ данных. В рамках данного этапа применяются алгоритмы интеллектуального анализа с целью извлечения паттернов.
5. Интерпретация найденных паттернов. Данный этап может включать визуализацию извлеченных паттернов, определение действительно полезных
паттернов на основе некоторой функции полезности.
6. Использование новых знаний.
Обычно в системах интеллектуального анализа данных выделяются следующие главные компоненты:
1. База данных, хранилище данных или другой репозиторий информации. Это
может быть одна или несколько баз данных, хранилище данных, электрон9
ные таблицы, другие виды репозиториев, над которыми могут быть
выполнены очистка и интеграция.
Виды баз данных:
• реляционные;
• хранилища данных;
• транзакционные;
• объектно ориентированные;
• объектно-реляционные;
• пространственные (Spatial databases);
• временные (Temporal databases);
• текстовые;
• мультимедийные;
• Всемирная паутина (www).
2. Сервер базы данных или хранилища данных. Указанный сервер отвечает за
извлечение существенных данных на основании пользовательского
запроса.
3. База знаний. Это знания о предметной области, которые указывают, как
проводить поиск и оценивать полезность результирующих паттернов.
4. Служба добычи знаний. Является неотъемлемой частью системы интеллектуального анализа данных и содержит набор функциональных модулей
для таких задач, как характеризация, поиск ассоциаций, классификация,
кластерный анализ и анализ отклонений.
5. Модуль оценки паттернов. Данный компонент вычисляет меры интереса
или полезности паттернов.
6. Графический пользовательский интерфейс. Этот модуль отвечает за коммуникации между пользователем и системой интеллектуального анализа
данных, визуализацию паттернов в различных формах.
В настоящее время существует достаточно большое количество программных
продуктов, предназначенных для решения задач анализа данных. Среди них можно
выделить следующие группы:
• математические пакеты, включающие программные средства статистического анализа, оптимизации и моделирования систем;
• аналитические платформы СППР, предназначенные для решения основных
задач OLAP и интеллектуального анализа данных;
• инструментальные аналитические надстройки в программных системах
различного назначения, предназначенных для хранения и обработки
больших массивов данных.
К первой группе относятся следующие специализированные программные
средства методоориентированной математической направленности:
• Math Works Matlab — пакет для анализа и визуализации данных, численных
и символьных вычислений, имитационного моделирования различных систем, включающий специализированные приложения для статистического
анализа данных; оптимизационных расчетов; проектирования и
моделирования систем с помощью нейронных сетей; построения модели
10
системы на основе входных и выходных данных; анализа данных
финансовых рынков методом временных рядов и др.;
• Maple — пакет математических вычислений, имеющий встроенные функции для различных аналитических расчетов с использованием методов
преобразования и упрощения алгебраических выражений, линейной
алгебры, статистических методов, методов финансовых расчетов и анализа
и др.;
• Statistica — программная система статистического анализа данных с поддержкой классических методов статистического анализа данных,
многомерной линейной и нелинейной регрессии, прогнозирования
временных рядов, факторного, кластерного, дискриминантного и
дисперсионного анализа; средств построения деревьев классификации,
анализа надежности, анализа выживаемости и др.;
• Mathematica — программный инструмент для аналитических и численных
расчетов, включающий набор специализированных приложений для
проектирования и анализа финансовых систем.
Обобщенная структура информационно-аналитической платформы, построенной на основе хранилища данных, представлена на рис. 4.
Аналитические платформы, ориентированные на прикладного аналитика,
можно разделить на статические СППР, известные в литературе как информационные системы руководителя (Executive Information Systems — EIS) и динамические СППР.
EIS-системы содержат предопределенные множества запросов и, будучи
достаточными для повседневного обзора, неспособны ответить на все вопросы к
имеющимся данным, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты,
которые нельзя «покрутить», «развернуть» или «свернуть», чтобы получить
желаемое представление данных, и после тщательного изучения которых у
аналитика появляется новая серия вопросов.
Вторая группа систем (динамические СППР), напротив, ориентирована на
обработку нерегламентированных запросов аналитиков к данным. Данная группа
программных систем базируется на следующих концепциях хранения и анализа
корпоративных данных:
• концепция хранилища данных (Data Warehouse);
• оперативная аналитическая обработка OLAP;
• интеллектуальный анализ данных (Data Mining).
11
Сфера детализированных
данных
Сфера агрегированных
показателей
Сфера закономерностей
Генераторы запросов,
информационнопоисковые системы
Системы оперативной
аналитической
обработки данных
(OLAP)
Системы
интеллектуального
анализа данных (ИАД)
Информационные
системы
руководителя
(ИСР)
Витрины данных
Хранилище данных
Сбор, очистка, согласование данных из внешних источников
Транзакционные
OLTP
OLTP
системы,
источники
данных
Рис. 4 — Структура информационно-аналитической системы
Среди программных продуктов, относящихся к рассматриваемой группе,
выделим следующие.
1.
Deductor Studio — аналитическая платформа, в которой реализованы
технологии, позволяющие решить весь спектр задач полноценного анализа
данных от консолидации и отчетности до прогнозирования и оптимизации.
Решения на базе Deductor дают возможность пользователям быстро
принимать обоснованные управленческие решения, благодаря реализации
полного цикла аналитической обработки, включающей:
• консолидацию данных из десятков разнородных источников;
• очистку, систематизацию и обогащение собранной информации;
• отчетность, визуализацию, OLAP-анализ, расчет KPI;
• моделирование, прогнозирование, оптимизацию;
• самообучение на новых данных и адаптацию моделей.
• Deductor Studio может применяться в любом бизнесе, где есть большие
объемы данных.
2. «Контур» (АТК), или Contour Business Intelligence Platform, которая была
разработана российской компанией Intersoft Lab. Данная BI-платформа
состоит из двух частей - платформы для хранения данных и аналитической
платформы. Первая предназначена для стратегического бизнес-анализа и
представляет собой единое информационное поле с поддержкой
корпоративного управления. Вторая платформа способна решать задачи
тактического и стратегического типа, наглядно показывая состояние
бизнеса. В нее входят несколько пакетов:
12
• программа для анализа данных, полученных из различных
информационных систем анализа, может проводиться в режиме
реального времени;
• инструменты, создающие витрины данных.
«Контур» интегрирован с популярными базами данных, в числе которых
Oracle, MS Access, MS SQL Server, Sybase, Informix, DB2, программами
генерации запросов с возможностью просмотра данных создавшейся выборки.
3. Diasoft FA# Reporting. Как и «Контур», данная система компании Diasoft
предназначена для бизнес-анализов различных типов, работает с
распространенными базами данных, способна выводить для просмотра
данные выборок. Ее отличие в том, что она является ядром для целого ряда
аналитических
пакетов,
созданных
для
автоматизированного
формирования отчетов в финансово- редитной деятельности компании.
Например, приложение Diasoft FA# Reporting — отчетность ЦБ РФ
создает отчеты, опираясь на основные нормативные документы
Центрального банка России. Аналогичные приложения существуют и для
ведения отчетности по МСФО, налоговой и управленческой отчетности.
4. Bloomberg, созданная одноименным информационным агентством. Возможности данного программного продукта на рынке бизнес
ориентированных аналитических BI-платформ основываются на
возможности предоставления эффективной комбинации данных,
аналитических выводов, интернет-торгов и механизмов взаимодействия с
рынком, заключенной в одной платформе. Кроме перечисленной
комбинации, в Bloomberg имеются инструменты тактического и
стратегического планирования, финансового прогнозирования и др.
К третьей группе отнесены инструментальные программные средства интеллектуального анализа данных, которыми оснащаются универсальные программные продукты, ориентированные на работу с большими объемами данных.
Как правило, для этого используются программные надстройки анализа к системам
хранения и обработки данных, расширяющие функциональные возможности
основной системы. К ним можно отнести табличный процессор MS Excel,
комплексные системы автоматизации предприятий 1С-Предприятие, SAP R3, СУБД
MS SQL Server, Oracle и другие. Такие надстройки имеют свою собственную
архитектуру и специализируются на обслуживании аналитических запросов
основной системы. Так, основными методами ИАД, реализованными в системе
программ «1С: Предприятие 8.0», являются кластеризация, поиск ассоциаций и
деревья решений. Выбор конкретного аналитического метода зависит от состава
исходных данных и от того, какого рода закономерности требуется выявить.
13
Тема лекции 2: Подготовка данных к анализу
Введение
Анализ собранных данных состоит из нескольких этапов:
1.Подготовка данных к анализу. Она включает проверку и редактирование
анкет, кодирование.
2. Базовый анализ или табуляция. Некоторые исследования на этих этапах и
останавливаются, но во многих случаях анализ продолжается.
3. Проверка статистической значимости наблюдаемых различий между
группами и внутри групп.
Применение дисперсионного, корреляционного, факторного и других методов
анализа.
Качество статистических результатов напрямую зависит от того, насколько
тщательно и аккуратно данные готовились к анализу.
Учебный вопрос 1. Сбор исходных данных
При проведении аналитических исследований необходимо сосредотачивать
внимание как на механизмах анализа данных, так и на задачах сбора, предварительной обработке и очистке данных. Плохое «качество» исходных данных является
одной из самых серьезных и распространенных проблем. Очевидно, что
некорректные исходные данные приводят к некорректным выводам.
Данные, которые накапливают предприятия и организации в базах данных и
прочих источниках и которые используются при выполнении анализа, имеют свои
особенности. Рассмотрим некоторые из них.
1. Данные редко накапливаются специально для решения задач анализа.
Предприятия и организации собирают данные для ведения учета,
осуществления финансового анализа, составления отчетности, принятия
решений и т. п.
2. Основными потребителями данных обычно являются лица, принимающие
решения в компаниях.
3. Исходные данные, как правило, содержат ошибки, аномалии, противоречия
и пропуски. В них появляются ошибки различной природы, что снижает
качество данных.
4. С точки зрения анализа объемы хранимых данных очень велики. Современные базы данных содержат мегабайты и гигабайты информации.
Поэтому для ресурсоемких алгоритмов анализа данных важно применять
процедуры сэмплинга, сокращения записей и отбора информативных
признаков либо использовать специальные масштабируемые алгоритмы,
способные работать на больших наборах данных.
Отмеченные особенности бизнес-данных влияют как на сам процесс анализа,
так и на подготовку и систематизацию данных.
При сборе данных для последующего анализа следует придерживаться определенных принципов.
1. Абстрагироваться от существующих информационных систем и имеющихся
в наличии данных. Большие объемы накопленных данных совершенно не
говорят о том, что их достаточно для анализа в конкретной компании. Необ14
ходимо отталкиваться от задачи и подбирать данные для ее решения, а не
брать имеющуюся информацию.
2. Описать все факторы, потенциально влияющие на анализируемый процесс/объект, постараться собрать и систематизировать максимум
возможных предположений и гипотез. Основным инструментом здесь
становится опрос экспертов и людей, непосредственно владеющих
проблемной ситуацией.
3. Экспертно оценить значимость каждого фактора. В процессе анализа
вполне может выясниться, что фактор, который эксперты посчитали очень
важным, таковым не является, и наоборот, незначимый, с их точки зрения,
фактор может оказывать значительное влияние на результат.
4. Определить способ представления, так как довольно часто бывает непонятно, как представить фактор. Чаще всего такие проблемы возникают с
качественными характеристиками. Например, на объемы продаж влияет
качество товара. Качество - сложное понятие, но если этот показатель
действительно важен, то нужно придумать способ его формализации.
5. Собрать все легкодоступные факторы. Они содержатся в первую очередь в
источниках структурированной информации - системах учета, базах данных
и др.
6. Обязательно собрать наиболее значимые, с точки зрения экспертов, факторы. Вполне возможно, что без них не удастся построить качественную
модель.
7. Оценить сложность и стоимость сбора средних и наименее важных по
значимости факторов. Некоторые данные легкодоступны, их можно извлечь
из существующих информационных систем. Но есть информация, которую
непросто собрать, например сведения о конкурентах, поэтому необходимо
оценить, во что обойдется сбор данных.
Для сбора необходимых для анализа данных можно использовать несколько
методов.
1. Получение из учетных систем. Обычно в учетных системах есть различные
механизмы построения отчетов и экспорта данных, поэтому извлечение
нужной информации из них чаще всего относительно несложная операция.
2. Получение данных из косвенных источников информации. О многих показателях можно судить по косвенным признакам, и этим нужно воспользоваться.
3. Использование открытых источников, таких как статистические сборники,
отчеты корпораций, опубликованные результаты маркетинговых исследований и пр.
4. Приобретение аналитических отчетов у специализированных компаний.
Собираемая информация обычно предоставляется в виде различных таблиц
и сводок, которые с успехом можно применять при анализе. Стоимость
получения подобной информации чаще всего относительно невысока.
5. Проведение собственных маркетинговых исследований и аналогичных
мероприятий по сбору данных. Этот вариант сбора данных может быть
достаточно дорогостоящим, но в любом случае он существует.
15
6. Ввод данных вручную. Данные вводятся по различного рода экспертным
оценкам сотрудниками организации. Такой метод является наиболее трудоемким.
Методы сбора информации существенно отличаются по стоимости и необходимому на реализацию метода времени, поэтому следует соизмерять затраты с
результатами.
Учебный вопрос 2. Требования к исходным данным
Важное значение для оценки необходимости использования данных имеет
такое требование, как информативность. Стремление взять для анализа как можно
больше признаков, описывающих объекты, является одной из распространенных
ошибок при сборе данных. В определении информативности признаков с точки
зрения анализа существенно помогает предварительная оценка данных, которая
проводится визуально или автоматически при помощи таблиц и базовой
статистической информации по набору данных.
Среди неинформативных признаков выделяются следующие основные типы:
• содержащие только одно значение;
• содержащие в основном одно значение;
• с уникальными значениями;
• между которыми имеет место сильная корреляция.
В зависимости от представления данных и решаемой задачи к исходным
данным должны предъявляться различные требования. Так, существуют требования
к минимальным объемам данных для возможности построения моделей на их
основе.
Для временных рядов, которые относятся к упорядоченным данным, требования к данным могут быть связаны с периодичностью их изменения. Если, например, для моделируемого бизнес-процесса (например, продажи) характерна
сезонность/цикличность, то необходимо иметь данные хотя бы за один полный
сезон/цикл с возможностью варьирования интервалов (понедельное, помесячное и т.
д.). При этом максимальный горизонт прогнозирования зависит от объема данных:
данные за 1,5 года — прогноз возможен максимум на 1 месяц; данные за 2-3 года —
на 2 месяца.
Для неупорядоченных данных могут быть предъявлены следующие требования:
• количество примеров (прецедентов) должно быть значительно больше
количества факторов;
• желательно, чтобы данные покрывали как можно больше ситуаций реального процесса;
• пропорции различных примеров (прецедентов) должны примерно соответствовать реальному процессу.
Анализ транзакционных данных целесообразно производить на возможно
большом объеме данных, иначе могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро
16
перерабатывать огромные массивы данных. Примерное соотношение между
количеством объектов и объемом данных следующее:
• 300-500 объектов — не менее 10 тыс. транзакций;
• 500-1000 объектов — более 300 тыс. транзакций.
Учебный вопрос 3. Процесс подготовки данных
Необходимость предварительной обработки при анализе данных возникает
независимо от того, какие технологии и алгоритмы используются. Более того, эта
задача может представлять самостоятельную ценность в областях, не имеющих
непосредственного отношения к анализу данных. При использовании же
механизмов анализа, в основе которых лежат самообучающиеся алгоритмы, такие
как нейронные сети, деревья решений и прочее, хорошее качество данных является
ключевым требованием.
Очевидно, что исходные «сырые» данные чаще всего нуждаются в очистке. В
процессе этого восстанавливаются пропущенные данные, редактируются
аномальные значения, вычитается шум, проводится сглаживание и другие операции.
При этом используется большое количество математических методов, таких как
алгоритмы
робастной
фильтрации,
спектрального
и
Вейвлет-анализа,
последовательной рекуррентной фильтрации, статистического анализа.
В процессе подготовки данных можно проводить предварительный экспрессанализ данных. Например, оценить фактор как значимый или незначимый, все ли
факторы учтены для объяснения поведения результирующей величины и т. д. Для
этих целей используются такие алгоритмы, как корреляционный анализ, факторный
анализ, метод главных компонент, регрессионный анализ.
Кроме того, очень часто в процессе предобработки необходимо проводить
различного рода вспомогательные операции, например, фильтрацию данных по
условиям, расчет относительных показателей, замену значений и т. п. Данные
действия не используют сколь либо серьезный математический аппарат, но являются совершенно необходимыми этапами в процессе подготовки данных для
последующего анализа.
Обобщенная схема системы подготовки данных к анализу представлена на
рис.1.
Блок сбора и первичной подготовки данных осуществляет связывание с
оперативными источниками данных и чтение информации из них, выполняет
первичные операции по очистке данных: расщепление атрибутов; проверку
допустимости и исправления;
• стандартизацию;
• сопоставление данных, относящихся к одному элементу;
• слияние записей;
• исключение дублирующих записей.
17
ОИД
Сбор и
первичная
обработка
данных
ОИД
Профайлинг
Удаление
выбросов
(ложных
значений)
Заполнение
пропущенных
значений
ОИД
Определение
правил
подготовки
данных
Тестирование
правил
подготовки
данных
Менеджер подготовки данных
Фильтрация и
сглаживание
Децимация
Агрегация
Методы
прореживания
БД
Система анализа данных
БД
Рис. 1 — Структура системы подготовки данных к анализу
Собранные и прошедшие первичную очистку данные поступают в блок, выполняющий их профайлинг. Результаты предварительного анализа собранного
набора данных передаются менеджеру подготовки и блокам определения правил
подготовки данных и их тестирования. Сформированные и проверенные этими
модулями правила подготовки данных передаются менеджеру, осуществляющему
управление процедурами, выполняемыми в ходе подготовки данных к анализу.
Поток данных, поступивших в систему, последовательно проходит модули
удаления выбросов, заполнения пропущенных значений, фильтрации и сглаживания
и подсистему прореживания. Подсистема прореживания данных осуществляет их
децимацию, агрегацию и обработку. Выходные потоки исходных данных,
прошедших подготовку, поступают в хранилище, витрину или базу данных системы
аналитической обработки, разделяясь на потоки прошедшие и не прошедшие
прореживание.
Таким образом, процесс подготовки данных включает несколько этапов:
• выявление проблем в данных (профайлинг). Профайлинг ориентирован на
грубый анализ отдельных атрибутов для получения общей информации об ис18
ходном наборе данных, такой как тип, длина, спектр значений, частота,
изменение, уникальность, наличие неопределенных значений и т. д., что
позволяет обеспечить точное представление различных аспектов качества
атрибута;
• определение правил подготовки данных. На этом этапе необходимо выработать правила преобразования, часть из которых должна быть представлена
программными инструментами системы подготовки данных;
• тестирование правил подготовки данных. Корректность и эффективность
правил подготовки данных должны тестироваться и оцениваться, например,
на копиях данных источников. Это необходимо для выяснения необходимости
корректировки правил с целью их улучшения или исправления ошибок;
• непосредственная подготовка данных. На этом этапе выполняются преобразования в соответствии с определенными ранее правилами.
• Над отдельными оперативными источниками данных выполняются следующие процедуры:
• расщепление атрибутов — извлечение значений из атрибутов свободного
формата для повышения точности представления и поддержки соответствующих этапов подготовки данных;
• проверка допустимости и исправления — исследование каждого элемента
данных на наличие ошибок. Обнаруженные ошибки исправляются по возможности автоматически;
• стандартизация — преобразование данных в согласованный и унифицированный формат, что необходимо для дальнейшего их согласования и интеграции;
• сопоставление данных, относящихся к одному элементу — устранение
противоречивости и дублирования данных, полученных из различных источников;
• слияние записей — объединение интегрированных записей, относящихся к
одному объекту, выполняемое, если информация из разных записей дополняет
или корректирует друг друга;
• исключение дубликатов — удаление дублирующихся записей.
Особое внимание в процессе подготовки данных к анализу следует уделить
процедурам прореживания данных. Это вызвано тем, что в современных базах
данных накапливаются огромные объемы информации, характеризующей некоторый объект, процесс или явление.
Анализ большого массива данных с использованием сложных математических
методов и алгоритмов приводит к большим вычислительным затратам на анализ,
требует значительных вычислительных ресурсов и времени, что сказывается на
оперативности осуществления анализа.
В ряде случаев при аналитической обработке временных и аналогичных им
последовательностных наборов данных в качестве прореживающей процедуры
может быть применена агрегация — процедура слияния нескольких, связанных
временными границами, значений в одно, например, ежесуточный набор данных
может быть преобразован в еженедельный, ежемесячный и т. д.
19
Большинство систем сбора информации вносит в данные ложные значения.
Это может происходить по многим причинам, например, в результате технических
сбоев или ошибки оператора. Неправдоподобные значения, возникающие в
результате этих сбоев, могут вызвать значительные трудности при последующем
анализе или сделать его совсем невозможным. Алгоритмы подавления
неправдоподобных выбросов основываются на робастной (устойчивой) оценке
средней скорости изменения временного ряда.
В режиме фильтрации нижних частот можно ограничить верхнюю частоту
спектра. При этом из исходного сигнала удаляются высокочастотные составляющие
и меняется степень сглаживания исходного процесса. Необходимость фильтрации
данных возникает каждый раз, когда нужно отделить передаваемое сообщение от
искажающего его шума. Цель процесса фильтрации данных, а это могут быть не
только результаты физических измерений, но и экономические показатели
деятельности фирмы, и результаты социологических исследований и другие —
наилучшее восстановление первоначального сигнала на фоне помехи, или
определение наличия полезного сигнала, или разрешение (различение) нескольких
сигналов, присутствующих во входной последовательности.
В процессе вычитания шума оценивается распределение спектральных составляющих по амплитуде и вычисляется порог, при превышении которого составляющая проходит на выход фильтра, в противном случае — отбрасывается.
Тема лекции 3: Основные компоненты информационной технологии
поддержки принятия решений
Введение
Компоненты информационной технологии поддержки принятия решений
отражают скорее функциональное, а не формальное разделение системы на
отдельные подсистемы с точки зрения ее проектирования, то есть на первый план
выступает вопрос о том, что будет делать данная система, в частности, используя
понятие ее архитектуры, прежде всего, создают пользовательский интерфейс,
систему управления данными и систему управления моделями.
Учебный вопрос 1. Структура информационной системы, реализующей
технологии анализа данных
В состав СППР входят компоненты (рис. 1): источники данных, модель
данных, база моделей и программная подсистема, которая состоит из системы
управления базой данных (СУБД), системы управления базой моделей (СУБМ) и
системы управления интерфейсом между пользователем и компьютером.
20
Источники
данных
Информационные
системы
операционного
уровня
Программная
подсистема
управления
СУБД
Базы
данных
СУБМ
База моделей
стратегических
тактических
Документы
Система
управления
интерфейсом
Внешние
источники
Прочие
внутренние
источники
оперативных
математических
Человек,
принимающий
решения
Рис. 1 — Основные компоненты информационной технологии поддержки принятия
решений
Учебный вопрос 2. База данных
База данных играет в информационной технологии поддержки принятия
решений важную роль. Данные могут использоваться непосредственно
пользователем для расчетов при помощи математических моделей. Рассмотрим
источники данных и их особенности:
1. Часть данных поступает от информационной системы операционного
уровня. Чтобы использовать их эффективно, эти данные должны быть
предварительно обработаны. Для этого имеются две возможности:
• использовать для обработки данных об операциях фирмы систему
управления базой данных, входящую в состав системы поддержки
принятия решений;
• сделать обработку за пределами системы поддержки принятия решений,
создав для этого специальную базу данных. Этот вариант более
предпочтителен для фирм, производящих большое количество
коммерческих операций. Обработанные данные об операциях фирмы
образуют файлы, которые для повышения надежности и быстроты доступа
хранятся за пределами системы поддержки принятия решений.
2. Помимо данных об операциях фирмы для функционирования системы
поддержки принятия решений требуются и другие внутренние данные,
например данные о движении персонала, инженерные данные и т.п.,
которые должны быть своевременно собраны, введены и поддержаны.
3. Важное значение особенно для поддержки принятия решений на верхних
уровнях управления, имеют данные из внешних источников. В числе
необходимых внешних данных следует указать данные о конкурентах,
национальной и мировой экономике. В отличие от внутренних данных
21
внешние данные обычно приобретаются у специализирующихся на их
сборе организаций.
4. В настоящее время широко исследуется вопрос о включении в базу данных
еще одного источника данных — документов, включающих в себя записи,
письма, контракты, приказы и т.п. Если содержание этих документов будет
записано в памяти и затем обработано по некоторым ключевым
характеристикам (поставщикам, потребителям, датам, видам услуг и др.),
то система получит новый мощный источник информации.
Система управления данными должна обладать следующими возможностями:
• составление
комбинаций
данных,
получаемых
из
различных
источников, посредством использования процедур агрегирования и
фильтрации;
• быстрое прибавление или исключение того или иного источника данных;
• построение логической структуры данных в терминах пользователя;
• использование и манипулирование неофициальными данными для
экспериментальной проверки рабочих альтернатив пользователя;
• обеспечение полной логической независимости этой базы данных от
других операционных баз данных, функционирующих в рамках фирмы.
Учебный вопрос 3. Модель данных
Модель данных современных СППР строится на основе пяти классов данных:
• источников данных;
• хранилища данных (в узком смысле);
• оперативного склада данных;
• витрины данных;
• метаданных.
Хранилище данных (в узком смысле) представляет собой предметноориентированную базу или совокупность БД, извлекаемых из источников, которые
организованы по сегментам, отражающим конкретную предметную область бизнеса,
как правило, детальные слабо агрегированные данные.
Определение понятия «хранилище данных» первым дал Уильям Инмон: это
«предметно-ориентированная, интегрированная, неразрушаемая совокупность
данных, предназначенная для поддержки принятия управленческих решений».
Источниками данных хранилища служат оперативные транзакционные
системы, которые обслуживают повседневную учетную деятельность компании.
Необходимость включения той или иной транзакционной системы в качестве
источника определяется бизнес-требованиями к СППР. Исходя из этих же
требований, в качестве источников данных, могут быть рассмотрены внешние
системы, в том числе и Интернет. Детальные данные из источников могут либо
напрямую поступать в хранилище, либо предварительно агрегироваться до
требуемого уровня обобщения.
Построение полноценного корпоративного хранилища данных обычно
выполняется в трехуровневой архитектуре.
22
На первом уровне расположены разнообразные источники данных —
внутренние регистрирующие системы, справочные системы, внешние источники
(данные информационных агентств, макроэкономические показатели).
Второй уровень содержит центральное хранилище, куда стекается
информация от всех источников с первого уровня, и, возможно, оперативный склад
данных, который не содержит исторических данных и выполняет две основные
функции. Во-первых, он является источником аналитической информации для
оперативного управления и, во-вторых, здесь подготавливаются данные для
последующей загрузки в центральное хранилище. Под подготовкой данных
понимают их преобразование и проведение определенных проверок. Наличие
оперативного склада данных просто необходимо при различном регламенте
поступления информации из источников.
Третий уровень представляет собой набор предметно-ориентированных
витрин данных, источником информации для которых является центральное
хранилище данных. Именно с витринами данных и работает большинство конечных
пользователей.
Хранилище на самом верхнем уровне состоит, как правило, из трех подсистем:
• подсистемы загрузки данных;
• подсистемы обработки запросов и представления данных;
• подсистемы администрирования хранилища.
Подсистема загрузки данных — программное обеспечение (ПО), которое в
соответствии с определенным регламентом извлекает данные из источников и
приводит их к единому формату, определенному для хранилища. Данная подсистема
отвечает за формализованную логическую согласованность, качество и интеграцию
данных, которые загружаются из источников в оперативный склад данных.
Каждый источник данных требует разработки собственного загрузочного
модуля. Каждый модуль должен решать два класса задач:
• начальной загрузки ретроспективных данных;
• регламентного пополнения хранилища данными из источников.
Данная подсистема также по регламенту извлекает детальные данные из
оперативного склада, производит их агрегирование, консолидацию, трансформацию
и помещает данные в хранилище и витрины данных. Именно в данной подсистеме
должны быть определены все бизнес-модели консолидации данных по
иерархическим измерениям и вычисления зависимых бизнес-показателей по
независимым исходным данным.
Подсистема обработки запросов и представления данных — ПО, которое
обеспечивает извлечение данных, их аналитическую обработку и представление
конечным пользователям. Как правило, можно выделить три типа данного ПО:
1. Программное обеспечение регламентированной отчетности, которое
характеризуется заранее предопределенными запросами данных и их
представлениями бизнес-пользователям. От данного ПО не требуется
быстрого времени реакции. Из соображений стоимости эффективности
для его реализации в наибольшей степени подходит технология ROLAP.
23
2. Программное
обеспечение
нерегламентированных
запросов
пользователей. Это ПО — основной способ общения бизнес-аналитиков с
хранилищем, при котором каждый последующий запрос к данным и вид
их представления определяются, как правило, результатами предыдущего
запроса. Для приложений данного типа требуется высокая скорость
обработки запросов (единицы секунд). Данное ПО реализуется
технологией MOLAP и специальными инструментами построения
сложных нерегламентированных запросов с интуитивно понятным для
бизнес-аналитиков графическим интерфейсом.
3. Программное обеспечение добычи знаний, которое реализует сложные
статистические алгоритмы и алгоритмы искусственного интеллекта,
предназначенные для поиска скрытых в данных закономерностей,
представления
этих
закономерностей,
представления
этих
закономерностей в виде моделей и многовариантного прогнозирования по
ним развития ситуаций по схеме «Что если …?».
Подсистема администрирования хранилища — ПО, связанное с
поддерживанием системы и обеспечением ее устойчивой работы и расширения.
Можно выделить, по крайней мере, четыре класса задач, расширение которых
должна обеспечивать данная подсистема:
1. Администрирование данных, которое включает в себя регулярное
пополнение данных из источников, если необходимо, ручной ввод, сверка и
корректировка данных в оперативном складе. Администрирование данных
ведется, как правило, бизнес-пользователями, а ответственность
распределяется по предметно-ориентированным сегментам.
2. Администрирование хранилища данных. В задачу администрирования
хранилища входят все вопросы, связанные с поддержанием архитектуры
хранилища, обеспечением его эффективной и бесперебойной работы,
защитой и восстановлением данных после сбоев.
3. Администрирование доступа к данным обеспечивает сопровождение
профилей пользователей, разграничение доступа к конфиденциальным
данным, защиту информации от несанкционированного доступа.
4. Администрирование метаданных системы.
Оперативный склад данных (Operational Data Store, ODS) —
технологический элемент хранения данных в СППР, который служит буфером
между транзакционными источниками данных и хранилищем. Данные, прежде чем
попасть в хранилище должны быть преобразованы в единые форматы, очищены,
объединены и синхронизированы. Например, данные, необходимые для поддержки
принятия решения, могут существовать в транзакционной системе более короткое
время (часы, дни), чем период пополнения данных хранилища (дни, недели). Или
семантически однородные данные поступают из транзакционных систем в разное
время. В этом случае оперативный склад данных служит аккумулятором данных,
поступающих от источников, перед их загрузкой в хранилище. В отличие от
хранилища данных информация в складе данных может изменяться со временем в
соответствии с изменениями, происходящими в источниках данных.
24
Оперативный склад данных создается как промежуточный буфер между
оперативными системами и хранилищем данных. Эта конструкция, аналогичная
конструкции хранилища данных. Идентичность оперативного склада и хранилища
данных состоит в их предметной ориентированности и хранении детальных данных.
Отличие от хранилища данных состоит в том, что оперативный склад данных:
• имеет изменяемое содержимое,
• содержит только детальные данные,
• содержит текущие значения данных.
Детальные данные — это данные из оперативных и внешних систем, не
подвергавшиеся операциям обобщения, суммирования, т.е. данные, не изменившие
своей семантики. Из оперативных систем и внешних источников данные поступают
в оперативный склад, проходя процессы трансформации.
Данные оперативного склада регулярно обновляются. Каждый раз, когда
данные изменяются в оперативных системах и внешних источниках,
соответствующие им данные из оперативного склада также должны быть изменены.
Частота обновления оперативного склада зависит как от частоты обновления
источников, так и от регламента загрузки данных в склад.
Витрины данных (Data mart) можно представить в виде логически или
физически разделенных подмножеств хранилищ данных. Обычно они строятся для
обслуживания нужд определенной группы пользователей.
Источником данных для витрин служат данные хранилища, которые, как
правило, агрегируются и консолидируются по различным уровням иерархии.
Детальные данные могут также помещаться в витрину или присутствовать в ней в
виде ссылок на данные хранилища.
Функционально ориентированные витрины данных представляют собой
структуры данных, обеспечивающие решение аналитических задач в конкретной
функциональной области или подразделении компании, например управление
прибыльностью, анализ рынков, анализ ресурсов и проч. Иногда эти структуры
хранения данных называют также киосками данных.
Различные витрины данных содержат разные комбинации и выборки одних и
тех же детализированных данных хранилища. Важно, что данные витрины
поступают из центрального хранилища данных.
Метаданные — это любые данные о данных. Метаданные играют важную
роль в построении СППР. Одновременно это один из наиболее сложных и
недостаточно практически проработанных объектов. В общем случае можно
выделить по крайней мере три аспекта метаданных, которые должны
присутствовать в системе.
1. С точки зрения пользователей:
• метаданные для бизнес-аналитиков;
• метаданные для администраторов;
• метаданные для разработчиков.
2. С точки зрения предметных областей:
• структуры данных хранилища;
• модели бизнес-процессов;
25
• описания пользователей;
• технологические и пр.
3. С точки зрения функциональности системы:
• метаданные о процессах трансформации,
• метаданные по администрированию системы,
• метаданные о приложениях,
• метаданные о представлении данных пользователям.
В общем случае метаданные помещаются в централизованно управляемый
репозиторий, в который включается информация о структуре данных хранилища,
структурах данных, импортируемых из различных источников, о самих источниках,
методах загрузки и агрегирования данных, сведения о средствах доступа, а также
бизнес-правилах оценки и представления информации.
Присутствие трех перечисленных аспектов метаданных подразумевает, что,
например, прикладные пользователи и разработчики системы будут иметь
различное видение технологических аспектов трансформации данных из
источников: прикладные пользователи — семантику, состав и периодичность
пополнения хранилища данными из источника, разработчики — ER-диаграммы,
правила трансформации и интерфейс доступа к данным источника.
Учебный вопрос 4. База моделей
Целью создания моделей являются описание и оптимизация некоторого
объекта или процесса. Использование моделей обеспечивает проведение анализа в
системах поддержки принятия решений. Модели, базируясь на математической
интерпретации проблемы, при помощи определенных алгоритмов способствуют
нахождению информации, полезной для принятия правильных решений.
Использование моделей в составе информационных систем началось с
применения статистических методов и методов финансового анализа, которые
реализовывались командами обычных алгоритмических языков. Позже были
созданы специальные языки, позволяющие моделировать ситуации типа «что будет,
если?» или «как сделать, чтобы?». Такие языки, созданные специально для
построения моделей, дают возможность построения моделей определенного типа,
обеспечивающих нахождение решения при гибком изменении переменных.
Существует множество типов моделей и способов их классификации,
например, по цели использования, области возможных приложений, способу оценки
переменных и т. п.
По цели использования модели подразделяются:
• оптимизационные, связанные с нахождением точек минимума или
максимума некоторых показателей (например, управляющие часто хотят
знать, какие их действия ведут к максимизации прибыли или минимизации
затрат),
• описательные, описывающие поведение некоторой системы и не
предназначенные для целей управления (оптимизации).
По способу оценки модели классифицируются:
26
• детерминистские, использующие оценку переменных одним числом при
конкретных значениях исходных данных,
• стохастические, оценивающие переменные несколькими параметрами, так
как исходные данные заданы вероятностными характеристиками.
Детерминистские модели более популярны, чем стохастические, потому что
они менее дорогие, их легче строить и использовать. К тому же часто с их помощью
получается вполне достаточная информация для принятия решения.
По области возможных приложений модели разбиваются:
• специализированные, предназначенные для использования только одной
системой,
• универсальные — для использования несколькими системами.
Специализированные модели более дорогие, они обычно применяются для
описания уникальных систем и обладают большей точностью.
В системах поддержки принятия решения база моделей состоит из
стратегических, тактических и оперативных моделей, а также математических
моделей в виде совокупности модельных блоков, модулей и процедур,
используемых как элементы для их построения.
Стратегические модели используются на высших уровнях управления для
установления целей организации, объемов ресурсов, необходимых для их
достижения, а также политики приобретения и использования этих ресурсов. Они
могут быть также полезны при выборе вариантов размещения предприятий,
прогнозировании политики конкурентов. Для стратегических моделей характерны:
значительная широта охвата, множество переменных, представление данных в
сжатой агрегированной форме. Часто эти данные базируются на внешних
источниках и могут иметь субъективный характер. Горизонт планирования в
стратегических моделях, как правило, измеряется в годах. Эти модели обычно
детерминистские, описательные, специализированные для использования на одной
определенной фирме.
Тактические модели применяются управляющими среднего уровня для
распределения и контроля использования имеющихся ресурсов. Среди возможных
сфер их использования следует указать: финансовое планирование, планирование
требований к работникам, планирование увеличения продаж, построение схем
компоновки предприятий. Эти модели применимы обычно лишь к отдельным
частям фирмы (например, к системе производства и сбыта) и могут также включать
в себя агрегированные показатели. Временной горизонт, охватываемый
тактическими моделями, — от одного месяца до двух лет. Здесь также могут
потребоваться данные из внешних источников, но основное внимание при
реализации данных моделей должно быть уделено внутренним данным фирмы.
Обычно тактические модели реализуются как детерминистские, оптимизационные и
универсальные.
Оперативные модели используются на низших уровнях управления для поддержки принятия оперативных решений с горизонтом, измеряемым днями и
неделями. Возможные применения этих моделей включают в себя ведение
дебиторских счетов и кредитных расчетов, календарное производственное
планирование, управление запасами и т.д. Оперативные модели обычно используют
27
для расчетов внутрифирменные данные. Они, как правило, детерминистские,
оптимизационные и универсальные (т.е. могут быть использованы в различных
организациях).
Математические модели состоят из совокупности модельных блоков,
модулей и процедур, реализующих математические методы. Сюда могут входить
процедуры линейного программирования, статистического анализа временных
рядов, регрессионного анализа и т.п. — от простейших процедур до сложных
пакетов прикладных программ. Модельные блоки, модули и процедуры могут
использоваться как поодиночке, так и комплексно для построения и поддержания
моделей.
Система управления базой моделей должна обладать следующими
возможностями: создавать новые модели или изменять существующие,
поддерживать и обновлять параметры моделей, манипулировать моделями.
Учебный вопрос 5. Система управления интерфейсом
Эффективность и гибкость информационной технологии во многом зависят от
характеристик интерфейса системы поддержки принятия решений. Интерфейс
определяет: язык пользователя; язык сообщений компьютера, организующий диалог
на экране дисплея; знания пользователя.
Язык пользователя — это те действия, которые пользователь производит в отношении системы путем использования возможностей клавиатуры; электронных
карандашей, пишущих на экране; джойстика; «мыши»; команд, подаваемых
голосом, и т.п. Наиболее простой формой языка пользователя является создание
форм входных и выходных документов. Получив входную форму (документ),
пользователь заполняет его необходимыми данными и вводит в компьютер. Система
поддержки принятия решений производит необходимый анализ и выдает результаты
в виде выходного документа установленной формы.
Значительно возросла за последнее время популярность визуального
интерфейса. С помощью манипулятора «мышь» пользователь выбирает
представленные ему на экране в форме картинок объекты и команды, реализуя
таким образом свои действия.
Управление компьютером при помощи человеческого голоса — самая
естественная форма языка пользователя. Она еще недостаточно разработана:
существующие разработки требуют от пользователя серьезных ограничений:
определенного набора слов и выражений; специальной надстройки, учитывающей
особенности голоса пользователя; управления в виде дискретных команд, а не в
виде обычной гладкой речи. Технология этого подхода интенсивно
совершенствуется, и в ближайшем будущем можно ожидать появления систем
поддержки принятия решений, использующих речевой ввод информации.
Язык сообщений — это то, что пользователь видит на экране дисплея
(символы, графика, цвет), данные, полученные на принтере, звуковые выходные
сигналы и т.п. Важным измерителем эффективности используемого интерфейса
является выбранная форма диалога между пользователем и системой. В настоящее
время наиболее распространены следующие формы диалога: запросно-ответный
28
режим, командный режим, режим меню, режим заполнения пропусков в
выражениях, предлагаемых компьютером.
Каждая форма в зависимости от типа задачи, особенностей пользователя и
принимаемого решения может иметь свои достоинства и недостатки.
Долгое время единственной реализацией языка сообщений был отпечатанный
или выведенный на экран дисплея отчет или сообщение. Теперь появилась новая
возможность представления выходных данных — машинная графика. Она дает
возможность создавать на экране и бумаге цветные графические изображения в
трехмерном виде, значительно повышать наглядность и интерпретируемость
выходных данных.
За последние несколько лет стала широко применяться мультипликация
(анимация).
Мультипликация
оказывается
особенно
эффективной
для
интерпретации выходных данных систем поддержки принятия решений, связанных
с моделированием физических систем и объектов.
В ближайшие годы следует ожидать использования в качестве языка
сообщений человеческого голоса.
Знания пользователя — это то, что пользователь должен знать, работая с системой. К ним относятся не только план действий, находящийся в голове у
пользователя, но и учебники, инструкции, справочные данные, выдаваемые
компьютером.
Совершенствование интерфейса СППР определяется успехами в развитии
каждого из трех указанных компонентов. Интерфейс должен обладать следующими
возможностями:
• манипулировать различными формами диалога, изменяя их в процессе
принятия решения по выбору пользователя;
• передавать данные системе различными способами; получать данные от
различных устройств системы в различном формате;
• гибко поддерживать (оказывать помощь по запросу, подсказывать) знания
пользователя.
Тема лекции 4: Типы и классификация СППР
Введение
Система поддержки принятия решений (СППР) связывает интеллектуальные
ресурсы управленца со способностями и возможностями компьютера для
улучшения качества решений. На сегодняшний день для СППР отсутствует не
только единое общепринятое определение, но и исчерпывающая классификация.
Выделим наиболее распространенные типы и классификации СППР.
Учебный вопрос 1. Типы СППР
Системы поддержки принятия решений могут быть сосредоточенные и
распределенные.
Сосредоточенные СППР представляют собой систему поддержки решений,
установленную на одной вычислительной машине.
29
Они проще, чем распределенные системы, так как в них отсутствует проблема
обмена информацией.
Возможны следующие типы сосредоточенных СППР:
1. Решение в автоматическом режиме принимает система принятия решений,
состоящая из одного узла. Такая система включает в себя ЭВМ, систему
автоматического и/или ручного ввода информации и средства представления
решения (возможно стандартное устройство вывода). Примером такой системы
может быть система тушения пожара на каком-нибудь особо опасном объекте.
2. Решение принимает специалист, имеющий в своем распоряжении СППР.
Система может включать в себя экспертные системы, моделирующие программы,
средства оценки принятых решений и т. д.
Распределенные СППР могут быть распределены пространственно и/или
функционально. Пространственно и функционально распределенные СППР состоят
из локальных СППР, расположенных в связанных между собой узлах
вычислительной сети, каждый из которых может независимо решать свои частные
задачи, но для решений общей проблемы ни одна из них не обладает достаточными
знаниями, информацией и ресурсами (или некоторых из этих составляющих).
Общую проблему они могут решать только сообща, объединяя свои локальные
возможности и согласовывая принятые частные решения. Функционально
распределенные системы состоят из нескольких экспертных систем (или СППР),
связанных между собой информационно или установленных на одной
вычислительной машине (пространственно они сосредоточены).
Необходимо особо отметить очень распространенный класс систем —
иерархические системы поддержки принятия решении (ИСППР).
Иерархические вычислительные системы поддержки принятия решений
состоят из экспертных систем или систем поддержки принятия решений,
распложенных в узлах, связанных между собой вычислительной сетью. С точки
зрения принятия решений узлы неравноправны. Самый простой пример такой
системы — это система, состоящая из подсистем W1 , W 2,..., Wn и одной
подсистемы W0 второго (более высокого) уровня.
W0
2 уровень
1 уровень
W1
W2
W3
...
W4
Рис. 1 — Узлы иерархической вычислительной системы поддержки принятия
решений
30
Цель подсистемы W0 — влиять на низшие подсистемы таким образом, чтобы
достигалась общая цель, заданная для всей системы. Такая система может служить в
качестве элементарного блока при построении более сложных систем.
Объективно существуют интересы системы в целом. Их выразителем
выступает подсистема W0. Существуют и интересы подсистем W1 , W 2,..., Wn,
причем их интересы, как правило, не совпадают или совпадают не полностью как с
интересами подсистемы W0, так и друг с другом.
Степень централизации системы определяется мерой разделения полномочий
между уровнями системы. В тех случаях, когда система W0 не может приказывать
подсистемам низшего уровня, подсистемы низшего уровня не могут
функционировать без координирующих действий (например, при выработке новой
стратегии действий или распределении ресурсов), необходима разработка
согласованных решений.
Распределенные системы получают в настоящее время все более широкое
распространение по следующим причинам:
• бурное развитие технологии производства вычислительной техники
позволяет объединить большое число достаточно мощных и относительно
недорогих вычислительных машин в единую сеть, способную выполнять
асинхронные параллельные вычисления и эффективно обмениваться
информацией;
• многие предметные области, в которых используются системы поддержки
принятия решений, распределены по своей природе. Некоторые из них
распределены функционально (как, например, многие системы
медицинской диагностики), другие распределены как пространственно, так
и функционально (как, например, системы автоматизации проектирования
сложных технических объектов). Распределение системы поддержки
принятия решений получили очень широкое распространение. Они
реализуют управления воздушным движением, управления группами
роботов, в задачах дистанционного управления подвижными объектами,
управления производством, системах поддержки принятия решений в
экстремальных ситуациях и т. д.
• пространственно и функционально распределенные системы облегчают
обмен информацией и принятие согласованных решений группами
специалистов, совместно работающих над решением одной задачи, и/или
группами экспертных систем, управляющих сложным техническим
объектом;
• принцип модульного построения и использования систем также хорошо
реализуется в распределенных системах поддержки принятия решений.
Возможность создавать системы для решения сложных проблем из
относительно простых и автономных программно-аппаратных модулей
позволяет их легче создавать, отлаживать и эксплуатировать. Таким
образом, распределенный подход поддержки принятия решений
целесообразно использовать, когда ЛПР пространственно распределены,
либо когда процесс принятия решений связан с высокой степенью
функциональной специализации и, конечно, когда имеют место оба эти
31
случая. Обе эти ситуации могут быть связаны с различными прикладными
областями принятия решений.
Несмотря на различный характер приложений, методы построения
распределенных систем принятия решений в них очень близки.
Существенно новые возможности появляются у специалистов, принимающих
решения, которые находятся на значительном расстоянии друг от друга. Развитие
региональных и глобальных вычислительных сетей, к которым могут быть
подключены локальные сети специалистов, принимающих решения, обеспечивают
легкость общения и получения всей необходимой информации, в том числе и
графической, в очень сжатые сроки.
Распределенные СППР могут иметь следующие модификации:
1. Решение предлагают несколько экспертных систем, находящиеся в одном
узле, но оценивающие, ситуацию с разных «точек зрения». Они могут
предложить различные решения, которые должен откорректировать и
согласовать специалист, сидящий за дисплеем узла.
2. Решение предлагают несколько экспертных систем, находящихся в
различных узлах вычислительной сети. В силу того, что они тоже могут
подходить к решению с разных «точек зрения», могут быть предложены
различные решения, которые теперь уже должны будут согласовывать
специалисты, находящиеся, возможно, в различных узлах сети. Если один
из узлов передал не одно, а несколько решений, то ситуация
принципиально не меняется.
3. Решение предлагают несколько специалистов, сидящих за дисплеями
различных узлов вычислительной сети. Они все должны будут
согласовывать принятие окончательного решения.
Возможен вариант, когда предлагаются различные решения и экспертными
системами (системой), и экспертами (экспертом).
Надо отметить, что, хотя конкретные реализации СППР очень сильно зависят
от области применения, методы генерации решений, их оценка и согласование
основываются на одних и тех же базовых теоретических предпосылках и методах.
Учебный вопрос 2. Классификации СППР
Существуют различные виды СППР и, соответственно, способы их
классификации.
По уровням. Системы начального уровня. Системы начального уровня
широко распространены среди предприятий небольшого размера, которые успешно
используют их в своей повседневной деятельности. Отличительной чертой таких
информационных систем является ограниченный охват бизнес-процессов
предприятия.
Программные продукты данного класса могут сильно отличаться друг от
друга по целевому назначению: сюда можно отнести как бухгалтерские, так и
складские и торговые системы. Но, тем не менее, эти системы имеют много общих
черт:
• невысокая требовательность к выделяемым ресурсам. Системы данного
класса могут работать под управлением современных промышленных
32
СУБД, однако могут эксплуатироваться и на небольших предприятиях.
Количество возможных пользователей такой системы колеблется от 1 до
нескольких десятков.
• подразумевается, что пользователь может приобрести, установить и начать
эксплуатацию самостоятельно, однако разработчики стараются делать
программы с как можно более широкими возможностями, что позволяет
интегрировать такие системы с другими системами этого и более высокого
классов.
Системы среднего уровня. Появление систем среднего уровня обусловлено
потребностью в программном продукте с более широкими возможностями, нежели
системы начального уровня. Таким образом, некоторые производители на основе
современных способов и средств разработки создали готовые решения для довольно
широкого круга потребностей предприятия. В состав таких систем обычно входят
следующие подсистемы:
• бухгалтерский учет;
• управление производством;
• материально-техническое снабжение и сбыт;
• планирование;
• производство.
Несмотря на способность таких систем вести учет практически по всем
направлениям деятельности предприятия, некоторые подсистемы реализованы в них
в весьма усеченном виде. Тем не менее, количество различных параметров
настройки у такой системы достигает значительного числа, что приводит
потребителя к неспособности самостоятельно установить продукт. Зачастую,
большую часть стоимости программного продукта среднего уровня составляют
услуги по установке и настройке системы, сервисное обслуживание. Дороговизна
таких систем делает их недоступными для небольших фирм.
Немаловажным минусом подобной системы является то, что успех внедрения
системы среднего уровня во многом зависит от качества выполнения анализа
деятельности предприятия.
Системы высшего класса. Современные версии систем высшего уровня
обеспечивают планирование и управление всеми ресурсами организации.
Количество различных параметров настроек достигает десятков тысяч. Однако
одновременно возрастает и стоимость внедрения подобной системы.
Следует также учитывать следующий набор минусов, возникающих при
введении в строй подобной системы:
• может потребоваться привлечение внешних консультантов, что приведет к
значительному росту затрат;
• внедрение сложной системы зачастую требует некоторой реорганизации
деятельности;
• необходимо наличие специального подразделения, которое бы
перенастраивало систему под требования бизнеса.
С другой стороны, руководители организации и её персонал получают
великолепный инструмент, позволяющий планировать и управлять производством.
33
В зависимости от уровня процессов управленческих решений —
индивидуального, группового, организационного и межорганизационного, —
выделяют соответствующие типы CППP:
Индивидуальная СППР обслуживает отдельно взятое лицо, принимающее
решение — руководителя объединения, предприятия, организации. Возможности
такой системы зависят от личных качеств руководителя, его знаний, навыков,
опыта. На структуру и конфигурацию системы непосредственное влияние
оказывают стили мышления и руководства конкретного лица — пользователя
системы.
Групповая СППР ориентирована на обслуживание группы лиц,
взаимодействующих между собой при решении какой-либо проблемы. Поддержка
процесса выработки групповых решений осуществляется за счет устранения
коммуникационных барьеров между членами группы, применения количественных
методов анализа решений группой лиц, рациональной организацией самих процедур
работы группы.
Организационные и межорганизационные СППР применяются при анализе
сложных проблем комплексного, междисциплинарного характера, для решения
которых нужны знания и опыт в самых разнообразных областях.
По взаимодействию с пользователем выделяют три вида СППР:
• пассивные помогают в процессе принятия решений, но не могут выдвинуть
конкретного предложения;
• активные непосредственно участвуют в разработке правильного решения;
• кооперативные предполагают взаимодействие СППР с пользователем.
Выдвинутое системой предложение пользователь может доработать,
усовершенствовать, а затем отправить обратно в систему для проверки.
После этого предложение вновь представляется пользователю, и так до тех
пор, пока он не одобрит решение.
В зависимости от вида данных, с которыми эти системы работают, СППР
условно можно разделить на оперативные и стратегические (рис.2).
Степень возрастания
сложности,
ответственности
решаемых задач
Стратегический
уровень СППР
Динамика принятия
решений
(Стратегический уровень
управления)
Тактический уровень СППР
(Функциональный (тактический) уровень
управления)
Оперативный уровень СППР
(Оперативный уровень управления)
Рис. 2 — Классификация СППР по назначению
34
Оперативные СППР предназначены для немедленного реагирования на
изменения текущей ситуации в управлении финансово-хозяйственными процессами
компании. Они получили название «Информационных Систем Руководства»
(Executive Information Systems, ИСР). По сути, они представляют собой конечные
наборы отчетов, построенные на основании данных из транзакционной
информационной системы предприятия, адекватно отражающей в режиме реального
времени основные аспекты производственной и финансовой деятельности. Для
характерны следующие основные черты:
• отчеты, (базируются на стандартных для организации запросах);
• число последних относительно невелико);
• ИСР представляет отчеты в максимально удобном виде, включающем,
наряду с таблицами, деловую графику, мультимедийные возможности и
т.п. (ориентированы на конкретный вертикальный рынок, например
финансы, маркетинг, управление ресурсами).
Тактический
уровень
обеспечивает
решение
задач,
требующих
предварительного анализа информации, подготовленной на первом уровне.
Тактические решения принимаются на более длительном промежутке времени
(квартал, полугодие и т.д.). На этом уровне объем решаемых задач уменьшается, но
возрастает их сложность. Тактические решения характерны для подсистем ИУС
(информационно-управляющих систем).
Стратегические СППР ориентированы на анализ значительных объемов
разнородной информации, собираемых из различных источников. Важнейшей
целью этих СППР является поиск наиболее рациональных вариантов развития
бизнеса компании с учетом влияния различных факторов, таких как конъюнктура
целевых для компании рынков, изменения финансовых рынков и рынков капиталов,
изменения в законодательстве и других аспектах.
Стратегические СППР предполагают достаточно глубокую проработку
данных, специально преобразованных так, чтобы их было удобно использовать в
ходе процесса принятия решений. Неотъемлемым компонентом СППР этого уровня
являются правила принятия решений, которые на основе агрегированных данных
дают возможность менеджерам компании обосновывать свои решения, использовать
факторы устойчивого роста бизнеса компании и снижать риски. СППР второго типа
в последнее время активно развиваются. Технологии этого типа строятся на
принципах многомерного представления и анализа данных (OLAP).
По критерию режима анализа данных информационно-аналитические
системы (ИАС) подразделяются на две категории:
• статические (включающие предопределенный набор сценариев обработки
данных и составления отчетов); в эту категорию входят ИСР;
• динамические
(поддерживающие
построение
и
выполнение
нерегламентированных запросов и формирование отчетов произвольной
формы).
35
Наиболее глубоко требования к динамическим СППР рассмотрел E. F. Codd ,
положив начало концепции оперативной аналитической обработки данных – OLAP.
В зависимости от функционального наполнения интерфейса системы
выделяют два основных типа СППР: EIS и DSS.
EIS (Execution Information System) — информационные системы руководства
(ИСР) предприятия. Эти системы ориентированы на неподготовленных
пользователей, имеют упрощенный интерфейс, базовый набор предлагаемых
возможностей, фиксированные формы представления информации. EIS-системы
рисуют общую наглядную картину текущего состояния бизнес-показателей работы
компании и тенденции их развития, с возможностью углубления рассматриваемой
информации до уровня крупных объектов компании. Реальная отдача EIS-системы
та, которую видит руководство компании от внедрения технологий СППР.
DSS (Desicion Support System) — полнофункциональные системы анализа и
исследования данных, рассчитанные на подготовленных пользователей, имеющих
знания как в части предметной области исследования, так и в части компьютерной
грамотности.
Технологии этого типа строятся на принципах многомерного представления и
анализа данных OLAP.
Такое деление систем на два типа не означает, что построение СППР всегда
предполагает реализацию только одного из этих типов. EIS и DSS могут
функционировать параллельно, разделяя общие данные и/или сервисы, предоставляя
свою функциональность как высшему руководству, так и специалистам
аналитических отделов компаний.
На концептуальном уровне D. J. Power2 (2003) отличает:
• СППР, управляемые сообщениями (Communication-Driven DSS, ранее
групповая СППР — GDSS), поддерживает группу пользователей,
работающих над выполнением общей задачи;
• СППР, управляемые данными (Data-Driven DSS), или СППР,
ориентированные на работу с данными (Data-oriented DSS), в основном
ориентируются на доступ и манипуляции с данными;
• СППР, управляемые документами (Document-Driven DSS), управляют,
осуществляют поиск и манипулируют неструктурированной информацией,
заданной в различных форматах;
• СППР, управляемые знаниями (Knowledge-Driven DSS), обеспечивают
решение задач в виде фактов, правил, процедур;
• СППР, управляемые моделями (Model-Driven DSS), характеризуются в
основном доступом и манипуляциями с математическими моделями
(статистическими, финансовыми, оптимизационными, имитационными).
Некоторые OLAP-системы, позволяющие осуществлять сложный анализ
данных, могут быть отнесены к гибридным СППР, которые обеспечивают
моделирование, поиск и обработку данных.
На техническом уровне D. Power (1997) различает:
• СППР всего предприятия. Подключена к большим хранилищам
информации и обслуживает многих менеджеров предприятия;
36
• настольная СППР. Малая система, обслуживающая лишь один компьютер
пользователя.
В зависимости от принципиальной организации СППР (классификация по
архитектуре) выделяют четыре наиболее популярных типа архитектур СППР:
• функциональная СППР;
• независимые витрины данных;
• двухуровневое хранилище данных;
• трехуровневое хранилище данных.
Функциональная СППР является наиболее простой с архитектурной точки
зрения (рис. 3). Такие системы часто встречаются на практике, в особенности в
организациях с невысоким уровнем аналитической культуры и недостаточно
развитой информационной инфраструктурой.
Характерной чертой функциональной СППР является то, что анализ
осуществляется с использованием данных из оперативных систем.
Компьютер
Компьютер
Компьютер
Компьютер
Источник
данных
Источник
данных
Источник
данных
Источник
данных
Рис. 3 — Функциональная CППP
Преимущества:
• быстрое внедрение за счет отсутствия этапа перегрузки данных в
специализированную систему;
• минимальные затраты за счет использования одной платформы.
Недостатки:
• единственный источник данных, потенциально сужающий круг вопросов,
на которые может ответить система;
• очень низкое качество данных оперативных систем с точки зрения их роли
в поддержке принятия стратегических решений. В силу отсутствия этапа
очистки данных данные функциональной СППР, как правило, обладают
невысоким качеством;
• большая нагрузка на оперативную систему. Сложные запросы могут
привести к остановке работы оперативной системы, что весьма
нежелательно.
Независимые витрины данных (рис. 4) часто появляются в организации
исторически и встречаются в крупных организациях с большим числом
37
независимых подразделений, зачастую имеющих сбои собственные отделы
информационных технологий.
Преимущества:
• витрины данных можно внедрять достаточно быстро;
• витрины проектируются для ответов на конкретный ряд вопросов;
• данные в витрине оптимизированы для использования определенными
группами пользователей, что облегчает процедуры их наполнения, а также
способствует повышению производительности.
Недостатки:
• данные хранятся многократно в различных витринах данных (это приводит
к дублированию данных, а следовательно, к увеличению расходов на
хранение и потенциальным проблемам, связанным с необходимостью
поддержания непротиворечивости данных);
• процесс наполнения витрин данных при большом количестве источников
данных потенциально очень сложен;
• данные не консолидируются на уровне предприятия, таким образом,
отсутствует единая картина бизнеса.
Компьютер
Витрина
данных
Источник
данных
Компьютер
Компьютер
Витрина
данных
Источник
данных
Компьютер
Витрина
данных
Источник
данных
Источник
данных
Рис. 4 — Независимые витрины данных
Двухуровневое хранилище данных (рис. 5) строится централизованно для
предоставления информации в рамках компании. Для поддержки такой архитектуры
необходима выделенная команда профессионалов в области хранилищ данных. Это
означает, что вся организация должна согласовать все определения и процессы
преобразования данных.
38
Компьютер
Компьютер
Компьютер
Компьютер
Хранилище данных
Источник
данных
Источник
данных
Источник
данных
Источник
данных
Рис. 5 — Двухуровневое хранилище данных
Преимущества:
• данные хранятся в единственном экземпляре;
• затраты на хранение данных минимальны;
• отсутствуют проблемы, связанные с синхронизацией нескольких копий
данных;
• данные консолидируются на уровне предприятия, что позволяет иметь
единую картину бизнеса.
Недостатки:
• данные не структурируются для поддержки потребностей отдельных
пользователей или групп пользователей;
• возможны проблемы с производительностью системы;
• имеются трудности с разграничением прав пользователей на доступ к
данным.
Трехуровневое
хранилище
данных
представляет
собой
единый
централизованный источник корпоративной информации (рис. 6). Витрины данных
представляют собой подмножества данных из хранилища, организованные для
решения задач отдельных подразделений компании. Конечные пользователи имеют
возможность доступа к детальным данным хранилища в случае, если данных в
витрине недостаточно, а также для получения более полной картины состояния
бизнеса.
39
Компьютер
Компьютер
Компьютер
Витрина
данных
Компьютер
Витрина
данных
Хранилище данных
Источник
данных
Источник
данных
Источник
данных
Источник
данных
Рис. 6 — Трехуровневое хранилище данных
Преимущества:
• создание и наполнение витрин данных упрощено, поскольку наполнение
происходит из единого стандартизованного надежного источника
очищенных нормализованных данных;
• витрины данных синхронизированы и совместимы с корпоративным
представлением (имеется корпоративная модель данных, существует
возможность сравнительно легкого расширения хранилища и добавления
новых витрин данных);
• гарантированная производительность.
Недостатки:
• существует избыточность данных, ведущая к росту требований на хранение
данных;
• требуется согласованность с принятой архитектурой многих областей с
потенциально различными требованиями (например, скорость внедрения
иногда конкурирует с требованиями следовать архитектурному подходу).
Выбор конкретного варианта архитектуры СППР зависит от условий, в
которые поставлена проектная группа. На выбор архитектуры влияют ответы на
такие вопросы, как: нужен ли быстрый возврат от инвестиций; является ли
проектная группа профессиональной; существует ли формализованная методология.
40
Тема лекции 5: Основы концепции СППР
Введение
Развитие компьютерных
технологий
и
достижения
в
области
нейрофизиологии сделали возможным реализацию некоторых простых функций
человеческого мозга на компьютере. Однако есть основания считать, что некоторые
способности человеческого мозга никогда не будут поняты до конца. Самыми
ценными качествами человеческого мозга являются интуиция, инсайт (озарение),
способность к глобальному охвату, владение метафорой. Тем не менее целью
исследований в этих областях и разработок интеллектуальных систем является не
замена мозга человека компьютером, а создание эффективного симбиоза человека с
компьютером, снабженного соответствующими интеллектуальными модулями,
моделями и методами.
Учебный вопрос 1. Архитектурно-технологическая схема СППР
Система поддержки принятия решений включает в себя правила принятия
решений и соответствующие модели с базами данных, а также интерактивный
компьютерный процесс моделирования.
Основу СППР составляет комплекс взаимосвязанных моделей с
соответствующей информационной поддержкой исследования, экспертные и
интеллектуальные системы, включающие опыт решения задач управления и
обеспечивающие участие коллектива экспертов в процессе выработки
рациональных решений. Архитектурно-технологическая схема СППР представлена
на рис. 1.
Анализ данных (OLAP)
Оперативные
данные
(OLTP)
Хранилище
данных
(Data Warehouse)
Интеллектуальный анализ
данных (Data Mining)
Рис. 1— Архитектурно-технологическая схема СППР
Рассмотрим более подробно каждый элемент вышеприведенной схемы.
1. Первоначально информация хранится в оперативных базах данных OLTPсистем. Агрегированная информация организуется в многомерное хранилище
данных. Затем она используется в процедурах многомерного анализа (OLAP) и для
интеллектуального анализа данных (ИАД). OLTP (Online Transaction Processing) —
обработка транзакций в реальном времени. Способ организации БД, при котором
система работает с небольшими по размерам транзакциями, но идущими большим
потоком, и при этом клиенту требуется от системы минимальное время отклика.
OLAP (Online Analytical Processing, аналитическая обработка в реальном
времени) — технология обработки данных, заключающаяся в подготовке суммарной
(агрегированной) информации на основе больших массивов данных,
структурированных по многомерному принципу.
41
2. Хранилища данных. Принятие решений должно основываться на реальных
данных об объекте управления. Такая информация обычно хранится в оперативных
базах данных OLTP-систем. Но эти оперативные данные не подходят для целей
анализа, так как для анализа и принятия стратегических решений в основном нужна
агрегированная информация. Решением данной проблемы является создание
отдельного хранилища данных (ХД), содержащего агрегированную информацию в
удобном виде. Целью построения хранилища данных является интеграция,
актуализация и согласование оперативных данных из разнородных источников для
формирования единого непротиворечивого взгляда на объект управления в целом.
Концепция хранилищ данных предполагает не просто единый логический взгляд на
данные организации, а действительную реализацию единого интегрированного
источника данных. Таким образом, хранилище данных функционирует по
следующему сценарию. По заданному регламенту в него собираются данные из
различных источников — баз данных, систем оперативной обработки.
В хранилище поддерживается хронология: наравне с текущими хранятся
исторические данные с указанием времени, к которому они относятся. В результате
необходимые доступные данные об объекте управления собираются в одном месте,
приводятся к единому формату, согласовываются и, в ряде случаев, агрегируются до
минимально требуемого уровня обобщения.
3. OLAP-технологии. В основе концепции оперативной аналитической
обработки (OLAP) лежит многомерное представление данных. Термин OLAP ввел
E. F. Codd в 1993 году. В своей статье он рассмотрел недостатки реляционной
модели, в первую очередь невозможность «объединять, просматривать и
анализировать данные с точки зрения множественности измерений, то есть самым
понятным для корпоративных аналитиков способом», и определил общие
требования к системам OLAP, расширяющим функциональность реляционных
СУБД и включающим многомерный анализ как одну из своих характеристик.
4. Интеллектуальный анализ данных (Data Mining) — это процесс поддержки
принятия решений, основанный на поиске в данных скрытых закономерностей
(шаблонов информации). При этом накопленные сведения автоматически
обобщаются до информации, которая может быть охарактеризована как знания.
Учебный вопрос 2. Хранилища данных
Хранилище данных — предметно-ориентированный, интегрированный,
привязанный ко времени и неизменяемый набор данных, предназначенный для
поддержки принятия решений.
Появление хранилищ данных связано с тем, что анализировать данные
оперативных систем напрямую невозможно или очень затруднительно. Это
объясняется рядом причин, в том числе:
• разрозненностью данных (OLTP-системы, текстовые отчеты, xls-файлы);
• хранением их в форматах различных СУБД и в разных узлах
корпоративной сети.
Есть и еще одна причина, оправдывающая появление отдельного
хранилища — сложные аналитические запросы к оперативной информации
42
тормозят текущую работу компании, надолго блокируя таблицы и захватывая
ресурсы сервера.
В основе понятия хранилищ данных лежат две основополагающие идеи:
1. Интеграция ранее разъединенных детализированных данных в едином
хранилище, их согласование и предварительная обработка. Источниками
данных могут являться БД, электронные архивы, а также разнообразные
внешние источники (печатные издания, рабочие материалы, статистические
отчеты и т.д.).
2. Разделение хранящихся данных по их назначению — для операционной
обработки, и для использования в задачах анализа. Первые данные не
представляют особого интереса, но должны быть доступны по первому
требованию. Обобщенные же данные, характеризующие состояние
предприятия за определенный период, могут использоваться довольно часто
для получения разнообразных экспертных и аналитических оценок его
работы. То есть основная цель использования хранилища данных — это не
сам анализ, а подготовка к нему данных.
Основные требования к данным, находящимся в хранилище данных:
1. Предметная ориентированность — все данные об объекте предметной
области собираются (обычно из множества различных источников),
очищаются,
согласовываются,
дополняются,
агрегируются
и
представляются в единой, удобной для их использования форме;
2. Интегрированность — все данные взаимно согласованы и хранятся в
едином хранилище;
3. Неизменяемость — исходные данные, после того как они были согласованы
и внесены в хранилище, остаются неизменными и используются только в
режиме чтения;
4. Поддержка хронологии — данные хронологически структурированы и
отражают историю за достаточный для выполнения задач анализа и
прогноза период времени.
Предметом концепции хранилища служат сами данные. Целью являются не
способы описания и отображения объектов предметной области, а собственно
данные как самостоятельный продукт, получаемый в процессе функционирования
различных информационных систем. С этой точки зрения хранилище данных
оправдывает свое название, так как является всего лишь складом разнообразной и
разнородной информации. Теперь легко определить основные операции, которые
необходимо проводить для поддержания эффективности объекта подобного рода:
• пополнение хранилища данных (поступление на склад);
• поддержка целостности и непротиворечивости данных (инвентаризация,
проверка условий хранения, списание и т.д.);
• организация доступа к данным (выдача со склада).
Сбор данных
Пополнение хранилища данных — очень важная и не очень простая операция,
так как данные в базу должны поступать в требуемом виде, а также с определенной
регулярностью. Источники данных могут быть весьма разнообразными, от СОД, до
материалов прессы. Информация от них может поступать в различных форматах, с
43
разными условными обозначениями и наименованиями для одних и тех же понятий,
к тому же она может дублироваться в различных источниках. Поэтому на этапе помещения данных в хранилище должна проводиться первичная переработка данных,
имеющая целью привести поступающую разнородную информацию к
определенному ее характером виду, а также устранить возможные ошибочные и
избыточные значения. Из-за постоянно меняющихся источников и типов
поступающей информации процесс закачки данных в хранилище нельзя сделать
полностью автоматическим, но для ряда информационных систем, таких как СОД,
которые являются основными источниками поступающих данных, необходимо
использовать специально разработанные программные интерфейсы передачи
данных. То есть должны существовать программы, выполняющие процедуры
передачи данных на склад и их первичной обработки по задаваемому графику или в
связи с возникающими событиями.
Поддержка логической целостности данных
Для того, чтобы обеспечить согласованность работы с различными
источниками и получателями данных, необходимо иметь описание структуры
хранимых данных. Обычно такое описание содержится в словаре-справочнике,
который часто называют репозитарием. В нем собираются сведения о форматах,
структурах, каналах и источниках поступления данных и другая необходимая
информация. Всякая операция с хранимыми данными не должна приводить к
появлению записей, не удовлетворяющих их описанию. Помимо проверки данных
на соответствие их структуре и назначению, желательна проверка на непротиворечивость различных, но каким-либо образом связанных между собой данных.
После создания в репозитории описаний всех источников формируется
«общий понятийный аппарат» (метапредставление). Его смысл заключается в том,
чтобы обеспечить возможность работы с данными, не ссылаясь на конкретные
столбцы конкретных таблиц источников, а на более абстрактном уровне. Общий
логический взгляд на данные состоит из одного или нескольких метапредставлений.
Доступ к данным
Чаще всего доступ к данным определяется возможностями СППР, которая
базируется на хранилище данных (или имеет возможность обращаться к нему) и
предоставляет пользователю инструментальные средства для извлечения и
обработки данных, а также для проведения различных форм анализа. Чаще всего
именно СППР осуществляет исследование данных (ИАД), то есть поиск
необходимой информации в море хранящихся фактов, а также выявление
взаимозависимостей между данными.
Основным назначением хранилищ данных является хранение больших
объемов информации по многим направлениям деятельности организации и
предоставление быстрого доступа к необходимым данным. Хранилище данных
может быть как составляющей (и основополагающей) частью СППР, так и независимой базой данных, к которой СППР может время от времени обращаться и
извлекать из нее исходные данные для анализа. В последнем варианте полученные в
процессе анализа агрегированные показатели, характеристики и заключения могут
помещаться в единый склад данных.
44
Взаимное сочетание СОД, СППР и хранилища данных зависит от специфики
деятельности организации, количества и характера хранимой информации,
источников ее поступления и характеристик всех используемых информационных
систем.
Если для работы используется несколько абсолютно независимых СОД,
каждая из которых выполняет отдельную задачу, то в этой ситуации хранилище
данных примет свой классический вид большой базы данных. Такая БД хранит всю
информацию по всем объектам организации и является базой СППР.
В противоположной ситуации, когда организация пусть даже имеет различные
направления в своей работе, но имеет один источник данных, хранилище данных
может быть интегрировано в саму СОД, либо принимать форму набора архивных
баз, к которым организован прямой доступ со стороны СППР. Сама СППР в этом
случае может быть как отдельным программным продуктом, так и одним из
модулей работающей СОД.
Витрины данных
Витрины данных — это тематические базы данных, содержащие
информацию, относящуюся к отдельным аспектам деятельности организации.
Витрины
данных
содержат
тематические
подмножества
заранее
агрегированных данных, по размерам гораздо меньшие, чем хранилище данных, и,
следовательно, требующие менее производительной техники для поддержания.
Например, маркетинговая витрина данных может содержать только информацию о
клиентах, продуктах и продажах и не включать в себя планы поставок.
По сравнению с хранилищами данных витрины данных имеют следующие
преимущества:
1. Стоимость. Создание даже нескольких витрин данных обходится
значительно дешевле, чем организация единого хранилища данных.
2. Сроки. На описание предметной области, взаимных связей между данными,
организацию хранилища данных и разработку механизмов его пополнения
может уйти несколько лет, в то время как описание какого-либо одного
направления деятельности предприятия без учета различных связей и с
небольшим числом источников поступления информации займет меньше
времени.
3. Размеры. Так как витрины данных обычно содержат лишь данные по
определенному кругу вопросов и, следовательно, занимают меньше места и
требуют меньше технических ресурсов, то для них менее остро стоит
вопрос аппаратной платформы и стоимости оборудования.
4. Безопасность. С витринами данных обычно работает меньшее число
пользователей, чем с хранилищем данных. Появляется возможность
контроля прав не только на уровне отдельных таблиц и записей, а на уровне
доступа ко всему приложению, что более надежно.
Вместе с тем для витрин данных присущи следующие недостатки:
1. Дублирование данных. Различные витрины данных могут содержать одну и
ту же информацию, если этого требуют их предметные области.
Естественно, дублирование информации ставит перед пользователями и
45
администраторами проблему синхронизации данных (то есть их сравнения и
унификации).
2. Расширение. Процесс объединения независимых (логически и физически)
витрин данных весьма трудоемок.
3. Ограниченность. Витрины данных задуманы как склады данных,
содержащие информацию по какой-либо одной теме. Для больших
организаций с широким кругом решаемых задач и разнообразными
интересами, выгоднее иметь полноценное хранилище данных, поскольку
оно сможет вместить все необходимые для их жизнедеятельности сведения.
Стандартом структуры данных при разработке витрины данных является
«звезда», основанная на единственной таблице фактов. При построении схемы
взаимодействия корпоративного хранилища и витрин данных в рамках создания
СППР рекомендуется определить некоторую специальную структуру для хранения
исторических данных и дополнительно развернуть ряд Витрин, заполняемых
данными из этой структуры. Тем самым удается разделить два процесса: накопление
исторических данных и их анализ.
Рекомендуется, чтобы витрина обслуживала не более 10-15 человек. При этих
условиях удается с использованием современных технологий развернуть витрину
данных подразделения за 3-4 месяца. Необходимо отметить, что успех небольшого
проекта (стоимость которого невелика по сравнению со стоимостью разработки
корпоративного хранилища), во-первых, способствует продвижению новой
технологии и, во-вторых, приводит к быстрой окупаемости затрат.
В дальнейшем было предложено объединить две концепции и использовать
хранилище данных в качестве единого интегрированного источника для
многочисленных витрин данных. В таком варианте СППР имеет трехуровневую
структуру:
• централизованное хранилище данных;
• тематические витрины данных на уровне подразделений;
• рабочие места конечных пользователей, снабженные аналитическим
инструментарием.
Моделирование времени в ХД
Традиционные подходы основываются исключительно на моделировании
статического представления реального мира. При этом если время и принимается в
расчет, то только в виде временных отметок создания записей и их модификации. С
точки зрения моделирования времени хранилища данных принципиально
отличаются от оперативных систем. Модели хранилищ данных интенсивно
используют временные отметки.
На данный момент известны три основных способа моделирования времени в
хранилищах данных (модель снимков данных, событийная модель и статусная
модель). Рассмотрим каждый из них по отдельности.
Модель снимков данных
Снимок данных — это представление данных в определенный момент
времени. Данная модель характерна для оперативных систем (СОД). Обновления
данных носят деструктивный характер, то есть предыдущие значения атрибутов
46
замещаются новыми (рис. 1). Модель имеет достаточно ограниченный круг
применения в хранилищах данных, поскольку не обеспечивает хранения истории
изменений.
До обновления
ФИО
Перов А.С.
Тирин И.И.
Кидов С.К.
Отдел
База
Склад
Охрана
После обновления
Премия
400
200
150
ФИО
Перов А.С.
Тирин И.И.
Отдел
База
Склад
Премия
600
250
Рис. 1 — Модель снимков данных
Событийная модель
Событийная модель (рис. 2) используется для моделирования данных о
наступлении событий в определенные моменты времени. Данная модель хорошо
подходит для моделирования транзакций, таких как: продажи, финансовые
транзакции, складские операции и т.д.
Счет
3256
3257
3258
Клиент
Сумма
Дата
ООО «Краб»
46000
12.10.2015
ООО «Рыба»
3750
23.10.2015
АО «Дельфин»
14200
25.10.2015
Рис. 2 — Событийная модель
Статусная модель
Статусная модель используется для моделирования состояния объектов во
времени. Она хорошо подходит для представления данных, имеющий
нетранзакционный характер.
Существует три способа моделирования изменяющихся во времени статусов:
непрерывная модель — для хранения промежутков времени используется одно поле
даты. Дата начала следующего периода совпадает с датой окончания предыдущего;
начало и конец — для хранения промежутков времени используется два поля —
дата начала и дата окончания периода действия статуса;
начало и длительность — для хранения промежутков времени используется одно
поле даты (дата начала) и поле длительности периода. Большее распространение
при создании статусных моделей получил способ «начало и конец» (рис.3).
ФИО
Отдел Выплаты Начало
Окончание
Перов А.С. База
35000
01.01.2015
Тирин И.И. Склад 24200
15.03.2015 30.06.2015
Кидов С.К. Охрана 32000
05.06.2015 25.12.2015
Рис. 3 — Статусная модель
Статусная и событийная модели являются взаимно дополняющими. Путем
преобразований из одной можно получить другую. Например, зная остаток на счете
на определенный момент и историю транзакций в событийной модели, можно
восстановить все статусы счета (остатки на счете) в периоды между транзакциями.
47
И наоборот, имея статусную модель остатков на счете, можно вычислить события
(т.е. транзакции), которые происходили со счетом в начале (конце) каждого периода.
Учебный вопрос 3. Оперативная аналитическая обработка данных
Для того чтобы существующие хранилища данных способствовали принятию
управленческих решений, информация должна быть представлена аналитику в
нужной форме, то есть он должен иметь развитые инструменты доступа к данным
хранилища и их обработки.
По критерию режима анализа данных информационно-аналитические системы
подразделяются на две категории:
• статические — включающие предопределенный набор сценариев обработки
данных и составления отчетов; в эту категорию входят так называемые
информационные системы руководителя (ИСР);
• динамические
—
поддерживающие
построение
и
выполнение
нерегламентированных запросов и формирование отчетов произвольной
формы.
Информационные системы руководителя, создаваемые в расчете на
непосредственное использование лицами, принимающими решения, чрезвычайно
просты в применении, но жестко ограничены в функциональности. ИСР содержат в
себе предопределенные множества запросов и, будучи достаточными для
повседневного обзора, неспособны ответить на все вопросы к имеющимся данным,
которые могут возникнуть при принятии решений. Результатом работы такой
системы, как правило, являются многостраничные отчеты, после тщательного
изучения которых у аналитика появляется новая серия вопросов; однако, каждый
новый, непредусмотренный при проектировании такой системы, запрос должен
быть сначала формально описан, передан программисту, закодирован и только затем
выполнен. Время ожидания в таком случае может составлять часы и дни, что не
всегда приемлемо.
Динамические СППР ориентированы на обработку нерегламентированных,
неожиданных запросов аналитиков к данным. Работа аналитиков с этими системами
заключается в интерактивной последовательности формирования запросов и
изучения их результатов, каждый из которых может породить потребность новой
серии запросов.
Динамические СППР могут действовать не только в области оперативной
аналитической обработки (OLAP); поддержка принятия управленческих решений на
основе накопленных данных может выполняться в трех базовых сферах:
1. Сфера детализированных данных. Это сфера действия большинства систем,
используемых при поиске информации. В большинстве случаев реляционные
СУБД отлично справляются с возникающими здесь задачами. Общепризнанным стандартом языка манипулирования реляционными данными
является SQL. Информационно-поисковые системы, обеспечивающие
интерфейс конечного пользователя в задачах поиска детализированной
информации, могут использоваться в качестве надстроек как над отдельными
системами обработки данных (СОД), так и над хранилищем данных в целом.
48
2. Сфера агрегированных показателей. Комплексный взгляд на собранную в
хранилище данных информацию, ее обобщение и агрегация, гиперкубическое
представление и многомерный анализ являются задачами систем оперативной
аналитической обработки данных (OLAP). Здесь можно или ориентироваться
на специальные многомерные СУБД, или (что, как правило,
предпочтительнее) оставаться в рамках реляционных технологий. Во втором
случае заранее агрегированные данные могут собираться в БД
звездообразного вида, либо агрегация информации может производиться на
лету в процессе сканирования детализированных таблиц реляционной БД.
3. Сфера закономерностей. Интеллектуальная обработка производится методами
интеллектуального анализа данных (ИАД, Data Mining), главными задачами
которых являются поиск функциональных и логических закономерностей в
накопленной информации, построение моделей и правил, которые объясняют
найденные аномалии и/или (с определенной вероятностью) прогнозируют
развитие некоторых процессов.
Полная
структура
информационно-аналитической
системы
(ИАС),
построенной на основе хранилища данных, показана на рис. 4. В конкретных
реализациях отдельные компоненты этой схемы часто отсутствуют.
Рис. 4 — Полная структура корпоративной ИАС
49
Следует отметить, что средства аналитической обработки — как OLAP, так и
ИАД — могут использовать в качестве исходного материала для анализа любые
данные, в том числе базы отдельных СОД.
Аналитическая обработка данных позволяет аналитикам, менеджерам и
исполнителям получать достоверную информацию о различных аспектах бизнеса
организации в целях поддержки принятия решений, эффективно планировать ее
деятельность в условиях жесткой конкурентной борьбы. При этом критически
важными являются наглядность форм представления информации, быстрота
получения новых видов отчетности, возможность анализа текущих и исторических
данных.
OLAP-технология — это технология комплексного динамического синтеза,
анализа и консолидации больших объемов многомерных данных.
Программный продукт класса OLAP должен удовлетворять следующим 12
правилам:
1. Многомерное концептуальное представление данных. Концептуальное
представление модели данных в продукте OLAP должно быть многомерным
по своей природе, то есть позволять аналитикам выполнять интуитивные
операции «анализа вдоль и поперек», вращения и размещения направлений
консолидации.
2. Прозрачность. Пользователь не должен знать о том, какие конкретные
средства используются для хранения и обработки данных, как данные
организованы и откуда берутся.
3. Доступность. Аналитик должен иметь возможность выполнять анализ в
рамках общей концептуальной схемы, но при этом данные могут оставаться
под управлением оставшихся от старого наследства СУБД, будучи при этом
привязанными к общей аналитической модели. То есть инструментарий
OLAP должен накладывать свою логическую схему на физические массивы
данных, выполняя все преобразования, требующиеся для обеспечения
единого, согласованного и целостного взгляда пользователя на
информацию.
4. Устойчивая производительность. С увеличением числа измерений и
размеров базы данных аналитики не должны столкнуться с каким бы то ни
было уменьшением производительности. Устойчивая производительность
необходима для поддержания простоты использования и свободы от
усложнений, которые требуются для доведения OLAP до конечного
пользователя.
5. Клиент-серверная архитектура. Большая часть данных, требующих
оперативной аналитической обработки, хранится в мэйнфреймовых
системах, а извлекается с персональных компьютеров. Поэтому одним из
требований является способность продуктов OLAP работать в среде клиентсервер. Главной идеей здесь является то, что серверный компонент
инструмента OLAP должен быть достаточно интеллектуальным и обладать
способностью строить общую концептуальную схему на основе обобщения
и консолидации различных логических и физических схем корпоративных
баз данных для обеспечения эффекта прозрачности.
50
6. Равноправие измерений. Все измерения данных должны быть равноправны.
Дополнительные характеристики могут быть предоставлены отдельным
измерениям, но поскольку все они симметричны, данная дополнительная
функциональность может быть предоставлена любому измерению. Базовая
структура данных, формулы и форматы отчетов не должны опираться на
какое-то одно измерение.
7. Динамическая обработка разреженных матриц. Инструмент OLAP должен
обеспечивать оптимальную обработку разреженных матриц. Скорость
доступа должна сохраняться вне зависимости от расположения ячеек
данных и быть постоянной величиной для моделей, имеющих разное число
измерений и различную разреженность данных.
8. Поддержка многопользовательского режима. Зачастую несколько
аналитиков имеют необходимость работать одновременно с одной
аналитической моделью или создавать различные модели на основе одних
корпоративных данных. Инструмент OLAP должен предоставлять им
конкурентный доступ, обеспечивать целостность и защиту данных.
9. Неограниченная поддержка кроссмерных операций. Вычисления и
манипуляция данными по любому числу измерений не должны запрещать
или ограничивать любые отношения между ячейками данных.
Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
10. Интуитивное манипулирование данными. Переориентация направлений
консолидации, детализация данных в колонках и строках, агрегация и
другие манипуляции, свойственные структуре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и
комфортном пользовательском интерфейсе.
11. Гибкий механизм генерации отчетов. Должны поддерживаться
различные способы визуализации данных, то есть отчеты должны
представляться в любой возможной ориентации.
12. Неограниченное количество измерений и уровней агрегации.
Настоятельно рекомендуется допущение в каждом серьезном OLAP
инструменте как минимум пятнадцати, а лучше двадцати, измерений в
аналитической модели. Более того, каждое из этих измерений должно
допускать практически неограниченное количество определенных
пользователем уровней агрегации по любому направлению консолидации.
Эти принципы позже были переработаны в тест FASMI1:
• Fast (быстрый) — предоставление пользователю результатов анализа за
приемлемое время (обычно не более 5 с), пусть даже ценой менее
детального анализа;
• Analysis (анализ) — возможность осуществления любого логического и
статистического анализа, характерного для данного приложения, и его
сохранения в доступном для конечного пользователя виде;
Тест FASMI (Fast Analysis of Shared Multidimensional Information — быстрый анализ разделяемой
многомерной информации) — универсальный критерий определения ОLAP как инструмента.
1
51
• Shared (разделяемой) — многопользовательский доступ к данным с
поддержкой соответствующих механизмов блокировок и средств
авторизованного доступа;
• Multidimensional
(многомерной)
—
многомерное
концептуальное
представление данных, включая полную поддержку для иерархий и
множественных иерархий (ключевое требование OLAP);
• Information (информации) — возможность обращаться к любой нужной
информации независимо от ее объема и места хранения.
Эти правила следует рассматривать как рекомендательные, а конкретные
продукты оценивать по степени приближения к идеально полному соответствию
всем требованиям.
Гиперкуб
В основе OLAP лежит понятие гиперкуба, или многомерного куба данных, в
ячейках которого хранятся анализируемые (числовые) данные, например объемы
продаж. Измерения представляют собой совокупности значений других данных,
скажем названий товаров и названий месяцев года. В простейшем случае
двумерного куба (квадрата) мы получаем таблицу, показывающую значения
уровней продаж по товарам и месяцам. Дальнейшее усложнение модели данных
может идти по нескольким направлениям:
• увеличение числа измерений — данные о продажах не только по месяцам и
товарам, но и по регионам. В этом случае куб становится трехмерным;
• усложнение содержимого ячейки — например, нас может интересовать не
только уровень продаж, но и, скажем, чистая прибыль или остаток на
складе. В этом случае в ячейке будет несколько значений;
• введение иерархии в пределах одного измерения — общее понятие «время»
естественным образом связано с иерархией значений: год состоит из
кварталов, квартал из месяцев и т.д.
Гиперкуб естественная, интуитивно понятная модель данных, удобное
быстродействующее средство доступа, просмотра и анализа деловой информации.
Осями многомерной системы координат служат основные атрибуты анализируемого
бизнес-процесса. Например, для продаж это могут быть товар, регион, тип
покупателя. В качестве одного из измерений используется время. На пересечениях
осей-измерений находятся данные, количественно характеризующие процесс —
меры. Это могут быть объемы продаж в штуках или в денежном выражении, остатки
на складе, издержки и т.п. Пользователь, анализирующий информацию, может
получать сводные (например, по годам) или, наоборот, детальные (по неделям)
сведения и осуществлять прочие манипуляции, которые ему придут в голову в
процессе анализа.
Пример 1. На рисунке 5 изображен трехмерный куб, в котором в качестве мер
использованы суммы продаж, а в качестве измерений — время, продукт и город.
Измерения представлены на определенных уровнях группировки: продукты
группируются по категориям, магазины — по городам, а данные о времени
совершения операций — по месяцам.
52
Рис. 5 — Трехмерный куб
Разумеется, данные не представляются конечному пользователю в виде
гиперкубов. Аналитику привычнее иметь дело с двумерными таблицами и
графиками. Он анализирует определенные срезы или проекции кубов (рис 6),
позволяющие получать таблицы, имеющие сложные иерархические заголовки строк
и столбцов.
Рис. 6 —Трехмерный куб
53
На рис. 7 изображен двумерный срез куба для одной меры — «Продано штук»
и двух «неразрезанных» измерений — «Город» и «Время».
Киев Харьков Донецк Луганск
Январь
12000
10000
8000
6400
Февраль
11800
10700
8700
7300
Март
12750
11200
8550
7500
Рис. 7 — Двумерный срез куба для одной меры
На рис. 8 представлено лишь одно «неразрезанное» измерение — «Город», но
зато здесь отображаются значения нескольких мер — «Продано штук», «Сумма
продаж» и «Расходы».
Киев Харьков Донецк Луганск
Продано штук
12000
10000
8000
6400
Сумма продаж
6700
5400
4600
2750
Расходы
4500
3800
3100
1900
Рис. 8 — Двумерный срез куба для нескольких мер
Двумерное представление куба возможно и тогда, когда «неразрезанными»
остаются и более двух измерений. При этом на осях среза (строках и столбцах)
будут размещены два или более измерений «разрезаемого» куба (рис. 9).
Март
Февраль
Март
Январь
ХАРЬКОВ
Февраль
Январь
КИЕВ
Продано штук
12000 11800 12750 10000 10800
9750
Сумма продаж
6700
6500
6900
5400
5600
5240
Расходы
4500
4220
4360
3800
4000
3680
Рис. 9 — Двумерный срез куба с двумя измерениями на одной оси
Метки — это значения, «откладываемые» вдоль измерений.
Метки используются как для «разрезания» куба, так и для ограничения
(фильтрации)
выбираемых
данных
когда
в
измерении,
остающемся
«неразрезанным», нас интересуют не все значения, а их подмножество, например
три города из нескольких десятков. Значения меток отображаются в двумерном
представлении куба как заголовки строк и столбцов.
Рис. 10 — Иерархии и уровни
54
Метки могут объединяться в иерархии, состоящие из одного или нескольких
уровней. Например, метки измерения «Магазин» естественно объединяются в
иерархию, показанную на рисунке слева. В соответствии с уровнями иерархии
вычисляются агрегатные значения, например, объем продаж для РФ (уровень
«Страна») или для города Твери (уровень «Город»). В одном измерении можно
реализовать более одной иерархии — скажем, для времени: {Год, Квартал, Месяц,
День} и {Год, Неделя, День}.
Архитектура продуктов OLAP
Все продукты OLAP делятся на три класса по типу исходной базы данных:
1. MOLAP (Multidimensional OLAP). Эти системы обеспечивают полный цикл
OLAP-обработки и либо включают в себя, помимо серверного компонента,
собственный интегрированный клиентский интерфейс, либо используют для
связи с пользователем внешние программы работы с электронными
таблицами. Для обслуживания таких систем требуется специальный штат
сотрудников, занимающихся установкой, сопровождением системы,
формированием представлений данных для конечных пользователей. SAS
System состоит из множества подсистем-модулей, которые позволяют
проектировать готовые решения - расширенные ИСР, дополненные
функциями OLAP и (при использовании специальных модулей) интеллектуального анализа. Благодаря такому подходу достигается
компромисс между гибкостью настройки и простотой использования,
поскольку разработкой системы поддержки принятия решений занимаются
администраторы на этапе проектирования, а аналитики имеют дело с уже
адаптированной для их потребностей системой.
2. ROLAP (Relational OLAP). Это системы оперативной аналитической
обработки реляционных данных, в которых данные, хранимые в классической
реляционной базе, представлены в многомерной форме ROLAP-системы
хорошо приспособлены для работы с крупными хранилищами. Подобно
системам первого класса, они требуют значительных затрат на обслуживание
специалистами по информационным технологиям и предусматривают
многопользовательский режим работы.
3. HOLAP (Hybrid OLAP). Это гибридные системы, разработанные с целью
совмещения достоинств и минимизации недостатков, присущих предыдущим
классам. Они объединяют аналитическую гибкость и скорость ответа MOLAP
с постоянным доступом к реальным данным, свойственным ROLAP. Однако,
этот класс систем является новым, и судить о его действительных
преимуществах пока рано.
Многомерный OLAP (MOLAP)
MOLAP — совокупность всех средств и методов для организации
аналитической работы с детальными и агрегированными данными, хранящимися в
многомерном пространстве.
Системы, построенные на таком принципе, предельно эффективны: данные
хранятся в виде максимально удобном для представления и анализа, однако есть
55
опасность получить эффект лавинообразного падения производительности при
увеличении объема данных. К числу достоинств MOLAP следует отнести:
• высокую скорость и многовариантность представления данных (цветовая
факторизация, графический анализ по неограниченному горизонту
исторических данных, горизонтальный, структурный, факторный анализ);
• дружественный, предметно ориентированный интерфейс, естественным
образом интерпретирующий аналитические задачи, выраженные в
многомерных терминах;
• наличие средств ситуационного моделирования и прогноза, опирающие на
полноту
и
высокую
скорость
обработки
данных,
мощную
функциональность и встроенные библиотеки специализированных
финансовых и статистических функций.
В MOLAP данные организованы в виде упорядоченных многомерных
массивов:
• гиперкубов (все хранимые в БД ячейки должны иметь одинаковую
мерность, то есть находиться в максимально полном базисе измерений);
• поликубов (каждая переменная хранится с собственным набором
измерений, и все связанные с этим сложности обработки перекладываются
на внутренние механизмы системы).
Использование MOLAP оправдано только при следующих условиях:
1. Объем исходных данных для анализа не слишком велик (не более
нескольких гигабайт), то есть уровень агрегации данных достаточно высок.
2. Набор информационных измерений стабилен (поскольку любое изменение
в их структуре почти всегда требует полной перестройки гиперкуба).
3. Время ответа системы на нерегламентированные запросы является
наиболее критичным параметром.
4. Требуется широкое использование сложных встроенных функций для
выполнения вычислений над ячейками гиперкуба, в том числе возможность
написания пользовательских функций.
Реляционный OLAP (ROLAP)
ROLAP — совокупность всех средств и методов для организации
аналитической работы с данными, хранящимися в обычных реляционных таблицах,
которые организованы специфическим образом.
Непосредственное использование реляционных БД в качестве исходных
данных в системах оперативной аналитической обработки имеет следующие
достоинства:
1. При оперативной аналитической обработке содержимого хранилищ данных
инструменты ROLAP позволяют производить анализ непосредственно над
хранилищем (потому что в подавляющем большинстве случаев
корпоративные хранилища данных реализуются средствами реляционных
СУБД).
2. В случае переменной размерности задачи, когда изменения в структуру
измерений приходится вносить достаточно часто, ROLAP системы с
56
динамическим представлением размерности являются оптимальным
решением, так как в них такие модификации не требуют физической
реорганизации БД.
3. Системы ROLAP могут функционировать на гораздо менее мощных
клиентских станциях, чем системы MOLAP, поскольку основная
вычислительная нагрузка в них ложится на сервер, где выполняются
сложные аналитические SQL-запросы, формируемые системой.
4. Реляционные СУБД обеспечивают значительно более высокий уровень
защиты данных и разграничения прав доступа.
5. Реляционные СУБД имеют реальный опыт работы с очень большими
базами данных и развитые средства администрирования.
К недостаткам ROLAP следует отнести ограниченные возможности с точки
зрения расчета значений функционального типа и меньшую по сравнению с MOLAP
производительность.
В ROLAP, как правило, используются схемы «звезда» и «снежинка», при
которых данные хранятся в таблицах фактов и таблицах измерений. Таблица фактов
содержит одну строку для каждого факта в кубе. Для каждого измерения отводится
отдельный столбец, содержащий значение параметра для конкретного факта, а
также столбец для каждого измерения, которое содержит внешний ключ,
ссылающийся на таблицу измерений для конкретного измерения.
Схема «звезда»
Схема «звезда» — это модель, которая характеризуется наличием таблицы
фактов, окруженной связанными с ней таблицами размерностей. Запросы к такой
структуре включают простые объединения таблицы фактов с каждой из таблиц
размерностей. Характеризуется высокой производительностью запросов.
Проектируется для выполнения аналитических запросов. Характеризуется
небольшой избыточностью данных и высокой по сравнению с нормализованными
структурами производительностью.
Рис. 11 — Схема «звезда»
57
На рис.11 изображен пример схемы «звезда» для анализа количества продаж в
разрезе времени, клиентов, продавцов и продуктов и географии продаж.
Данная модель позволяет ответить на широкий спектр аналитических
вопросов. Рассмотрим компоненты схемы «звезда».
Размерности. В технологии многомерного моделирования размерность — это
аспект, в разрезе которого можно получать, фильтровать, группировать и
отображать информацию о фактах.
Типичные размерности, встречающиеся практически в любой модели:
• Поставщик
• Покупатель
• Время
• География
Размерности, как правило, имеют многоуровневую иерархическую структуру.
Например, размерность ВРЕМЯ может иметь следующую структуру: ГОД
КВАРТАЛ МЕСЯЦ ДЕНЬ
Факты — это величины, обычно числовые, хранящиеся в таблице фактов и
являющиеся предметом анализа. Примеры фактов: объем операций, количество
проданных единиц товара и т.д.
Аддитивные факты. Аддитивность определяет возможность суммирования
факта вдоль определенной размерности. Аддитивные факты можно суммировать и
группировать вдоль всех размерностей на любых уровнях иерархии.
Полуаддитивные факты — это факты, которые можно суммировать вдоль
определённых размерностей, и нельзя вдоль других. Примером может служить
остаток на счете (или остаток товара на складе). Данную величину нельзя
суммировать вдоль размерности ВРЕМЯ. Однако сумма остатков по счетам вдоль
размерности смысл для анализа.
Неаддитивные факты — факты, которые вообще нельзя суммировать.
Пример неаддитивного факта — отношение (например, выраженное в процентах).
Таблицы покрытия используются с целью моделирования сочетания
размерностей, для которых отсутствуют факты. Например, нужно найти количество
категорий продуктов, которые сегодня ни разу не продавались. Таблица фактов
продаж не может ответить на данный вопрос, поскольку она регистрирует только
факты продаж. Для того чтобы модель позволяла отвечать на подобные вопросы,
нужна дополнительная таблица фактов (которая, по сути дела, не содержит фактов),
которая и называется таблицей покрытия.
Схема «снежинка»
Данная схема (рис. 12) используется для нормализации схемы «звезда». Она
несколько сокращает избыточность в таблицах размерностей. Одним из достоинств
является более быстрое выполнение запросов о структуре размерностей (запросы
вида «выбрать все строки из таблицы размерности на определенном уровне»),
которые очень часто выполняются при анализе данных, и могут задерживать ход
анализа. Однако основным достоинством схемы «снежинка» является не экономия
дискового пространства, а возможность иметь таблицы фактов с разным уровнем
58
детализации. Например, фактические данные на уровне дня, а плановые — на
уровне месяца.
Рис. 12 — Схема «снежинка». Набор атрибутов описывает каждое измерение и
связывается через иерархию отношений
В любом случае, если многомерная модель реализуется в виде реляционной
базы данных, следует создавать длинные и «узкие» таблицы фактов и сравнительно
небольшие и «широкие» таблицы измерений. Таблицы фактов содержат численные
значения ячеек гиперкуба, а остальные таблицы определяют содержащий их
многомерный базис измерений. Ориентация на представление многомерной
информации с помощью звездообразных реляционных моделей позволяет
избавиться от проблемы оптимизации хранения разреженных матриц, остро
стоящей перед многомерными СУБД (где проблема разреженности решается
специальным выбором схемы). Хотя для хранения каждой ячейки в таблице фактов
используется целая запись (которая помимо самих значений включает вторичные
ключи-ссылки на таблицы измерений), несуществующие значения могут просто не
быть включены в таблицу фактов, то есть наличие в базе пустых ячеек исключается.
Индексирование обеспечивает приемлемую скорость доступа к данным в таблицах
фактов.
Гибридный OLAP (HOLAP)
В этом случае, при реализации запросов к хранилищу большое значение
играют оптимизаторы СУБД. Основные данные хранятся в реляционной базе, а
агрегированные — в многомерной структуре (кубе), так как ситуация, когда для
анализа нужны все данные, возникает достаточно редко. Обычно каждый аналитик
использует свое направление. В этом случае многомерные данные представляются в
виде витрин данных (рис.13).
59
Рис. 13 — Гибридный OLAP
Учебный вопрос 4. Интеллектуальный анализ данных
Интеллектуальный анализ данных (ИАД) — это процесс поддержки
принятия решений, основанный на поиске в данных скрытых закономерностей
(шаблонов информации).
Большинство методов ИАД было первоначально разработано в рамках теории
искусственного интеллекта (ИИ) в 70-80-х годах, но получили распространение
только в последние годы, когда проблема интеллектуализации обработки больших и
быстро растущих объемов корпоративных данных потребовала их использования в
качестве надстройки над хранилищами данных.
Выбор метода ИАД часто зависит от типа имеющихся данных и от того, какую
информацию необходимо получить. Некоторые методы перечислены ниже:
1. Классификация. Наиболее распространенная задача ИАД. Она позволяет
выявить признаки, характеризующие однотипные группы объектов —
классы, — для того чтобы по известным значениям этих характеристик
можно было отнести новый объект к тому или иному классу. Ключевым
моментом выполнения этой задачи является анализ множества
классифицированных объектов. Наиболее типичный пример использования
классификации — конкурентная борьба между поставщиками товаров и
услуг за определенные группы клиентов. Классификация способна помочь
определить характеристики неустойчивых клиентов, склонных перейти к
другому поставщику, что позволяет найти оптимальную стратегию их
удержания от этого шага (например, посредством предоставления скидок,
льгот или даже с помощью индивидуальной работы с представителями
«групп риска»).
2. Кластеризация. Логически продолжает идею классификации на более
сложный случай, когда сами классы не предопределены. Результатом
60
использования метода, выполняющего кластеризацию, как раз является
определение (посредством свободного поиска) присущего исследуемым
данным разбиения на группы. Так, можно выделить родственные группы
клиентов или покупателей с тем, чтобы вести в их отношении
дифференцированную политику. В приведенном выше примере «группы
риска» — категории клиентов, готовых уйти к другому поставщику —
средствами кластеризации могут быть определены до начала процесса
ухода, что позволит производить профилактику проблемы, а не экстренное
исправление положения. В большинстве случаев кластеризация очень
субъективна; будучи основана на измерении «информационного расстояния» между примерами обучающего множества, любой вариант
разбиения на кластеры напрямую зависит от выбранной меры этого
расстояния. В качестве примера используемых методов можно привести
обучение «без учителя» особого вида нейронных сетей — сетей Кохонена, а
также индукцию правил.
3. Выявление ассоциаций. В отличие от двух предыдущих типов, ассоциация
определяется не на основе значений свойств одного объекта или события, а
имеет место между двумя или несколькими одновременно наступающими
событиями. При этом производимые правила указывают на то, что при
наступлении одного события с той или иной степенью вероятности
наступает другое. Количественно сила ассоциации определяется
несколькими величинами; например, могут быть использованы следующие
три характеристики:
• предсказуемость определяет, как часто события X и Y случаются вместе, в
виде доли от общего количества событий X; например, в случае покупки
телевизора (X) одновременно покупается видеомагнитофон в 65% случаев
(Y);
• распространенность показывает, как часто происходит одновременное
наступление событий X и Y относительно общего числа моментов
зафиксированных событий; иными словами, насколько часто производится одновременная покупка телевизора и видеомагнитофона среди
всех сделанных покупок;
• ожидаемая предсказуемость показывает ту предсказуемость, которая
сложилась бы при отсутствии взаимосвязи между событиями; например,
как часто покупался бы видеомагнитофон безотносительно к тому,
покупался ли телевизор. Рассмотренный пример является типичной
иллюстрацией задачи анализа покупательской корзины. Цель его
выполнения — определение пар товаров, при совместной покупке которых покупателю может быть предоставлена скидка ради увеличения
значения предсказуемости и, следовательно, повышения объема продаж.
4. Выявление
последовательностей.
Подобно
ассоциациям,
последовательности имеют место между событиями, но наступающими не
одновременно, а с некоторым определенным разрывом во времени. Таким
образом, ассоциация есть частный случай последовательности с нулевым
временным лагом. Так, если видеомагнитофон не был куплен вместе с
61
телевизором, то в течение месяца после покупки нового телевизора покупка
видеомагнитофона производится в 51% случаев.
5. Прогнозирование. Это особая форма предсказания, которая на основе
особенностей поведения текущих и исторических данных оценивает
будущие значения определенных численных показателей. Например, может
быть сделан прогноз объема продукции, который ожидается в предприятиях
текстильной отрасли Луганской области в ближайшие месяцы, на основе
данных, накопленных в базе социально-экономического положения области.
В задачах подобного типа наиболее часто используются традиционные
методы математической статистики, а также нейронные сети.
6. Анализ временных рядов. Позволяет найти временные закономерности
между транзакциями. Например, можно ответить на вопрос, покупки каких
товаров предшествуют покупке данного вида продукции. Используется при
анализе целевых рынков, управлении гибкостью цен, управлении циклом
работы с заказчиком.
7. Объединение — выделение структур, повторяющихся во временной
последовательности. Обнаруживает правила, по которым присутствие
одного набора элементов коррелирует с другим. Этот метод часто
применяется для анализа рыночной корзины пакетов продуктов, при
разработке каталогов, перекрестном маркетинге. Цель — найти закономерности среди большого числа транзакций. Эта информация может
использоваться
для
модификации
расположения
полок
и
последовательности товаров в торговом зале. Классический пример из
американской жизни, когда в одном из универсамов обнаружили, что по
субботам молодые отцы, купив памперсы и исполнив таким образом свою
миссию, покупают пиво. Расположив полку с пивом рядом с полкой
памперсов, универсам в четыре раза увеличил продажу пива по субботам.
Классы систем ИАД
ИАД является мультидисциплинарной областью, возникшей и развивающейся
на базе достижений прикладной статистики, распознавания образов, методов
искусственного интеллекта, теории баз данных и др. Отсюда обилие методов и
алгоритмов, реализованных в различных действующих системах ИАД. Многие из
таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как
правило, в каждой системе имеется какая-то ключевая компонента, на которую
делается главная ставка. Ниже приводится классификация указанных ключевых
компонент. Выделенным классам дается краткая характеристика.
Предметно-ориентированные аналитические системы
Предметно-ориентированные аналитические системы очень разнообразны.
Наиболее широкий подкласс таких систем, получивший распространение в области
исследования финансовых рынков, носит название «технический анализ». Он
представляет собой совокупность нескольких десятков методов прогноза динамики
цен и выбора оптимальной структуры инвестиционного портфеля, основанных на
различных эмпирических моделях динамики рынка. Эти методы часто используют
несложный статистический аппарат, но максимально учитывают сложившуюся
62
своей области специфику (профессиональный язык, системы различных индексов и
пр.).
Статистические пакеты
Последние версии почти всех известных статистических пакетов включают
наряду с традиционными статистическими методами также элементы ИАД. Но
основное внимание в них уделяется все же классическим методикам —
корреляционному, регрессионному, факторному анализу и другим.
Нейронные сети
Нейронные сети представляют собой вычислительные структуры,
моделирующие простые биологические процессы, аналогичные процессам,
происходящим в человеческом мозге. Искусственные нейронные сети — это
распределенные и параллельные системы, способные к адаптивному обучению
путем реакции на положительные и отрицательные воздействия. В основе их построения лежит элементарный преобразователь, называемый искусственным
нейроном или просто нейроном по аналогии с его биологическим прототипом.
Структуру нейросети — многослойного персептрона — можно описать
следующим образом. Нейросеть состоит из нескольких слоев: входной, внутренний
(скрытый) и выходной слои. Входной слой реализует связь с входными данными,
выходной — с выходными. Внутренних слоев может быть от одного и больше. В
каждом слое содержится несколько нейронов. Все нейроны соединяются между
собой связями, называемые весами (рис.14).
Рис. 14 — Типовая архитектура трехслойной сети
Перед использованием нейронной сети производится ее обучение, что
представляет собой итерационный процесс настройки весовых коэффициентов. Для
обучения применяются специальные алгоритмы. Наибольшее распространение
получили градиентные методы обучения — алгоритм обратного распространения
ошибки, сопряженных градиентов, и другие. Для проверки адекватности
построенной нейронной сети используется специальный прием — тестовое
подтверждение.
Основное достоинство нейронных сетей состоит в том, что они моделируют
сложные нелинейные зависимости между входными и выходными переменными.
63
Недостаток нейронных сетей — это неспособность объяснять выдаваемое
решение, поэтому их работа напоминает «черный ящик» со входами и выходами.
Представим некоторые проблемы, решаемые в контексте ИНС:
1. Классификация образов. Задача состоит в указании принадлежности
входного образа (например, речевого сигнала или рукописного
символа), представленного вектором признаков, одному или нескольким
предварительно определенным классам. К известным приложениям
относятся распознавание букв, распознавание речи, классификация
сигнала электрокардиограммы, классификация клеток крови.
2. Кластеризация/категоризация. При решении задачи кластеризации,
которая известна также как классификация образов «без учителя»,
отсутствует обучающая выборка с метками классов. Алгоритм
кластеризации основан на подобии образов и размещает близкие образы
в один кластер. Известны случаи применения кластеризации для
извлечения знаний, сжатия данных и исследования свойств данных.
3. Аппроксимация функций. Предположим, что имеется обучающая
выборка ((xbyi), (x2,y2)..., (xn, yn)) (пары данных вход-выход), которая
генерируется неизвестной функцией (x), искаженной шумом. Задача
аппроксимации состоит в нахождении оценки неизвестной функции (x).
Аппроксимация функций необходима при решении многочисленных
инженерных и научных задач моделирования.
4. Предсказание/прогноз. Пусть заданы n дискретных отсчетов {y(t1),
y(t2)..., y(tn)} в последовательные моменты времени t1, t2,..., tn . Задача
состоит в предсказании значения y(tn+1) в некоторый будущий момент
времени tn+1. Предсказание/прогноз имеют значительное влияние на
принятие решений в бизнесе, науке и технике. Предсказание цен на
фондовой бирже и прогноз погоды являются типичными приложениями
техники предсказания/прогноза.
5. Оптимизация. Многочисленные проблемы в математике, статистике,
технике, науке, медицине и экономике могут рассматриваться как
проблемы оптимизации. Задачей алгоритма оптимизации является
нахождение такого решения, которое удовлетворяет системе
ограничений и максимизирует или минимизирует целевую функцию.
Задача коммивояжера, относящаяся к классу NP-полных, является
классическим примером задачи оптимизации.
6. Память, адресуемая по содержанию. В модели вычислений фон
Неймана обращение к памяти доступно только посредством адреса,
который не зависит от содержания памяти. Более того, если допущена
ошибка в вычислении адреса, то может быть найдена совершенно иная
информация. Ассоциативная память, или память, адресуемая по
содержанию, доступна по указанию заданного содержания. Содержимое
памяти может быть вызвано даже по частичному входу или
искаженному содержанию. Ассоциативная память чрезвычайно
желательна при создании мультимедийных информационных баз
данных.
64
7. Управление.
Рассмотрим
динамическую
систему,
заданную
совокупностью {u(t), y(t)}, где u(t) является входным управляющим
воздействием, а y(t) — выходом системы в момент времени t. В
системах управления с эталонной моделью целью управления является
расчет такого входного воздействия u(t), при котором система следует
по желаемой траектории, диктуемой эталонной моделью. Примером
является оптимальное управление двигателем.
Основным недостатком нейросетевой парадигмы является необходимость
иметь очень большой объем обучающей выборки. Другой существенный недостаток
заключается в том, что даже натренированная нейронная сеть представляет собой
черный ящик. Знания, зафиксированные как веса нескольких сотен межнейронных
связей, совершенно не поддаются анализу и интерпретации человеком.
Системы рассуждений на основе аналогичных случаев
Для того чтобы сделать прогноз на будущее или выбрать правильное решение,
эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают
тот же ответ, который был для них правильным. Поэтому этот метод еще называют
методом «ближайшего соседа».
Системы рассуждений на основе аналогичных случаев показывают неплохие
результаты в самых разнообразных задачах. Главным их минусом считают то, что
они вообще не создают каких-либо моделей или правил, обобщающих предыдущий
опыт, в выборе решения они основываются на всем массиве доступных
исторических данных, поэтому невозможно сказать, на основе каких конкретно
факторов эти системы строят свои ответы.
Другой минус заключается в произволе, который допускают системы
рассуждений на основе аналогичных случаев при выборе меры «близости». От этой
меры самым решительным образом зависит объем множества прецедентов, которые
нужно хранить в памяти для достижения удовлетворительной классификации или
прогноза
Деревья решений
Деревья решений — это способ представления правил в иерархической,
последовательной структуре, где каждому объекту соответствует единственный
узел, дающий решение.
Под правилом понимается логическая конструкция, представленная в виде
«если ... то ...».
Область применения деревья решений в настоящее время широка, но все
задачи, решаемые этим аппаратом могут быть объединены в следующие три класса:
1. Описание данных: Деревья решений позволяют хранить информацию о
данных в компактной форме, вместо них мы можем хранить дерево
решений, которое содержит точное описание объектов.
2. Классификация: Деревья решений отлично справляются с задачами
классификации, т.е. отнесения объектов к одному из заранее известных
классов. Целевая переменная должна иметь дискретные значения.
3. Регрессия: Если целевая переменная имеет непрерывные значения,
деревья решений позволяют установить зависимость целевой
переменной от независимых (входных) переменных. Например, к этому
65
классу относятся задачи численного прогнозирования (предсказания
значений целевой переменной).
Рис. 15 — Фрагмент дерева решений
Построение дерева решений. Пусть задано некоторое обучающее множество
T, содержащее объекты (примеры), каждый из которых характеризуется m
атрибутами, причем один из них указывает на принадлежность объекта к
определенному классу.
Пусть через {C1 C2, ... Ck} обозначены классы (значения метки класса), тогда
существуют 3 ситуации:
• множество T содержит один или более примеров, относящихся к одному
классу Ck. Тогда дерево решений для Т ― это лист, определяющий класс
Ck;
• множество T не содержит ни одного примера, т.е. пустое множество. Тогда
это снова лист, и класс, ассоциированный с листом, выбирается из другого
множества отличного от T, скажем, из множества, ассоциированного с
родителем;
• множество T содержит примеры, относящиеся к разным классам. В этом
случае следует разбить множество T на некоторые подмножества. Для
этого выбирается один из признаков, имеющий два и более отличных друг
от друга значений O1 O2, ... On. T разбивается на подмножества T1, T2, ... Tn,
где каждое подмножество Ti содержит все примеры, имеющие значение Oi
для выбранного признака. Это процедура будет рекурсивно продолжаться
до тех пор, пока конечное множество не будет состоять из примеров,
относящихся к одному и тому же классу.
Вышеописанная процедура лежит в основе многих современных алгоритмов
построения деревьев решений, этот метод известен еще под названием разделения и
захвата. Очевидно, что при использовании данной методики, построение дерева
решений будет происходить сверху вниз.
Поскольку все объекты были заранее отнесены к известным нам классам,
такой процесс построения дерева решений называется обучением с учителем.
Процесс обучения также называют индуктивным обучением или индукцией
деревьев.
66
При построении деревьев решений особое внимание уделяется следующим
вопросам: выбору критерия атрибута, по которому пойдет разбиение, остановки
обучения и отсечения ветвей. Рассмотрим все эти вопросы по порядку.
Правило разбиения. Для построения дерева на каждом внутреннем узле
необходимо найти такое условие (проверку), которое бы разбивало множество,
ассоциированное с этим узлом на подмножества. В качестве такой проверки должен
быть выбран один из атрибутов. Общее правило для выбора атрибута можно
сформулировать следующим образом: выбранный атрибут должен разбить
множество так, чтобы получаемые в итоге подмножества состояли из объектов,
принадлежащих к одному классу, или были максимально приближены к этому, т.е.
количество объектов из других классов («примесей») в каждом из этих множеств
было как можно меньше.
Правило остановки. В дополнение к основному методу построения деревьев
решений были предложены следующие правила:
1. Использование статистических методов для оценки целесообразности
дальнейшего разбиения, так называемая «ранняя остановка». В конечном
счете «ранняя остановка» процесса построения привлекательна в плане
экономии времени обучения, но этот подход строит менее точные
классификационные модели и поэтому ранняя остановка крайне
нежелательна.
2. Ограничить глубину дерева. Остановить дальнейшее построение, если
разбиение ведет к дереву с глубиной превышающей заданное значение.
3. Разбиение должно быть нетривиальным, т.е. получившиеся в результате
узлы должны содержать не менее заданного количества примеров.
Правило отсечения. Очень часто алгоритмы построения деревьев решений
дают сложные деревья, которые «переполнены данными», имеют много узлов и
ветвей. Такие «ветвистые» деревья очень трудно понять. К тому же ветвистое
дерево, имеющее много узлов, разбивает обучающее множество на все большее
количество подмножеств, состоящих из все меньшего количества объектов.
Ценность правила, справедливого скажем для 2-3 объектов, крайне низка, и в целях
анализа данных такое правило практически непригодно. Гораздо предпочтительнее
иметь дерево, состоящее из малого количества узлов, которым бы соответствовало
большое количество объектов из обучающей выборки. Для решения вышеописанной
проблемы часто применяется так называемое отсечение ветвей.
Пусть под точностью (распознавания) дерева решений понимается отношение
правильно классифицированных объектов при обучении к общему количеству
объектов из обучающего множества, а под ошибкой — количество неправильно
классифицированных. Предположим, что нам известен способ оценки ошибки
дерева, ветвей и листьев. Тогда, возможно использовать следующее простое
правило:
1. построить дерево;
2. отсечь или заменить поддеревом те ветви, которые не приведут к
возрастанию ошибки.
В отличие от процесса построения, отсечение ветвей происходит снизу вверх,
двигаясь с листьев дерева, отмечая узлы как листья, либо заменяя их поддеревом.
67
Отсечение в большинстве практических задач дает хорошие результаты, что
позволяет говорить о правомерности использования подобной методики.
Рассмотрев основные проблемы, возникающие при построении деревьев, было
бы несправедливо не упомянуть об их достоинствах:
• быстрый процесс обучения;
• генерация правил в областях, где эксперту трудно формализовать свои
знания;
• извлечение правил на естественном языке;
• интуитивно понятная классификационная модель;
• высокая точность прогноза, сопоставимая с другими методами (статистика,
нейронные сети);
• построение непараметрических моделей.
В силу этих и многих других причин, методология деревьев решений является
важным инструментом в работе каждого специалиста, занимающегося анализом
данных, вне зависимости от того практик он или теоретик.
В состав многих пакетов, предназначенных для интеллектуального анализа
данных, включены методы построения деревьев решений. В областях, где высока
цена ошибки, они послужат отличным подспорьем аналитика или руководителя
Деревья решений применяются в следующих областях:
1. Банковское дело. Оценка кредитоспособности клиентов банка при выдаче
кредитов.
2. Промышленность. Контроль за качеством продукции (выявление дефектов),
испытания без разрушений (например проверка качества сварки) и т.д.
3. Медицина. Диагностика различных заболеваний.
4. Молекулярная биология. Анализ строения аминокислот.
Эволюционное программирование
При использовании эволюционного программирования гипотезы о виде
зависимости целевой переменной от других переменных формулируются в виде
программ на некотором внутреннем языке программирования. Процесс построения
программ строится как эволюция в мире программ (этим подход немного похож на
генетические алгоритмы). Когда система находит программу, более или менее
удовлетворительно выражающую искомую зависимость, она начинает вносить в нее
небольшие модификации и отбирает среди построенных дочерних программ те,
которые повышают точность. Таким образом, система «выращивает» несколько
генетических линий программ, которые конкурируют между собой в точности
выражения искомой зависимости. Найденные зависимости переводятся с
внутреннего языка системы на понятный пользователю язык (математические
формулы, таблицы и пр.).
Другое направление эволюционного программирования связано с поиском
зависимости целевых переменных от остальных в форме функций какого-то
определенного вида. Например, в одном из наиболее удачных алгоритмов этого
типа — методе группового учета аргументов (МГУА) зависимость ищут в форме
полиномов.
68
Генетические алгоритмы
Генетические алгоритмы — это стохастические, эвристические2
оптимизационные методы, которые основываются на теории эволюции с помощью
естественного отбора, выдвинутой Дарвином.
Генетические алгоритмы работают с совокупностью «особей» — популяцией,
каждая из которых представляет возможное решение данной проблемы. Каждая
особь оценивается мерой ее «приспособленности» согласно тому, насколько
«хорошо» соответствующее ей решение задачи. В природе это эквивалентно оценке
того, насколько эффективен организм при конкуренции за ресурсы. Наиболее
приспособленные особи получают возможность «воспроизводить» потомство с
помощью «перекрестного скрещивания» с другими особями популяции. Это
приводит к появлению новых особей, которые сочетают в себе некоторые
характеристики, наследуемые ими от родителей. Наименее приспособленные особи
с меньшей вероятностью смогут воспроизвести потомков, так что те свойства,
которыми они обладали, будут постепенно исчезать из популяции в процессе
эволюции. Иногда происходят мутации, или спонтанные изменения в генах.
Таким образом, из поколения в поколение, хорошие характеристики
распространяются по всей популяции. Скрещивание наиболее приспособленных
особей приводит к тому, что исследуются наиболее перспективные участки
пространства поиска. В конечном итоге популяция будет сходиться к оптимальному
решению задачи. Преимущество генетических алгоритмов состоит в том, что он
находит приблизительные оптимальные решения за относительно короткое время.
Генетические алгоритмы состоит из следующих компонент:
1. Хромосома. Решение рассматриваемой проблемы. Состоит из генов.
2. Начальная популяция хромосом.
3. Набор операторов для генерации новых решений из предыдущей
популяции.
4. Целевая функция для оценки приспособленности решений.
Чтобы применять генетические алгоритмы к задаче, сначала выбирается метод
кодирование решений в виде строки. Фиксированная длина (j-бит) двоичной
кодировки означает, что любая из 2j возможных бинарных строк представляет
возможное решение задачи. По существу, такая кодировка соответствует разбиению
пространства параметров на гиперкубы, которым соответствуют уникальные
комбинации битов в строке ― хромосоме. Для установления соответствия между
гиперкубами разбиения области и бинарными строками, описывающими номера
таких гиперкубов, кроме обычной двоичной кодировки может использоваться
рефлексивный код Грея.
Стандартные операторы для всех типов генетических алгоритмов это:
селекция, скрещивание и мутация.
Эври́стика (от др.-греч. εὑρίσκω — «отыскиваю», «открываю») — отрасль знания, изучающая творческое,
неосознанное мышление человека.
Эвристика связана с психологией, физиологией высшей нервной деятельности, кибернетикой и другими науками, но
сама как наука ещё полностью не сформировалась.
Эвристическими методами называются логические приемы и методические правила научного исследования и
изобретательского творчества, которые способны приводить к цели в условиях неполноты исходной информации и
отсутствия четкой программы управления процессом решения задачи.
2
69
Оператор селекции осуществляет отбор хромосом в соответствии со
значениями их функции приспособленности. Существуют как минимум два
популярных типа оператора селекции: рулетка и турнир.
Метод рулетки — отбирает особей с помощью n «запусков» рулетки. Колесо
рулетки содержит по одному сектору для каждого члена популяции. Размер i-ого
сектора пропорционален соответствующей величине
вычисляемой по
формуле:
При таком отборе члены популяции с более высокой приспособленностью с
большей вероятностью будут чаще выбираться, чем особи с низкой
приспособленностью.
Рис. 16 — Оператор селекции типа колеса рулетки с пропорциональными функции
приспособленности секторами
Турнирный отбор реализует n турниров, чтобы выбрать n особей. Каждый
турнир построен на выборке k элементов из популяции, и выбора лучшей особи
среди них. Наиболее распространен турнирный отбор с k=2.
Скрещивание (crossover) осуществляет обмен частями хромосом между
двумя (может быть и больше) хромосомами в популяции. Может быть
одноточечным или многоточечным. Одноточечный кроссовер работает следующим
образом. Сначала, случайным образом выбирается одна из точек разрыва. Точка
разрыва — участок между соседними битами в строке. Обе родительские структуры
разрываются на два сегмента по этой точке. Затем, соответствующие сегменты
различных родителей склеиваются и получаются два генотипа потомков.
Рис. 17 — Одноточечный оператор скрещивания (точка разрыва равна трем)
Мутация — стохастическое изменение части хромосом. Каждый ген строки,
которая подвергается мутации, с вероятностью Pmut (обычно очень маленькой)
меняется на другой ген.
70
Рис. 18 — Оператор мутации (четвертый ген мутировал)
Алгоритм работы генетического алгоритма (рис. 19) представляет собой
итерационный процесс, который продолжается до тех пор, пока не выполнятся
заданное число поколений или какой-либо иной критерий останова. На каждом
поколении генетического алгоритма реализуется отбор пропорционально
приспособленности, кроссовер и мутация.
Рис. 19 — Блок-схема генетического алгоритма
Первый шаг при построении генетических алгоритмов — это кодировка
исходных логических закономерностей в базе данных, которые именуют
хромосомами, а весь набор таких закономерностей называют популяцией хромосом.
Далее для реализации концепции отбора вводится способ сопоставления различных
хромосом. Популяция обрабатывается с помощью процедур репродукции,
изменчивости (мутаций), генетической композиции. Эти процедуры имитируют
биологические процессы. Наиболее важные среди них: случайные мутации данных в
индивидуальных хромосомах, переходы (кроссинговер) и рекомбинация
генетического материала, содержащегося в индивидуальных родительских
хромосомах, и миграции генов. В ходе работы процедур на каждой стадии эволюции
получаются популяции с все более совершенными индивидуумами.
Генетические алгоритмы удобны тем, что их легко распараллеливать.
Например, можно разбить поколение на несколько групп и работать с каждой из них
независимо, обмениваясь время от времени несколькими хромосомами. Существуют
также и другие методы распараллеливания генетических алгоритмов.
Генетические алгоритмы имеют ряд недостатков. Критерий отбора хромосом
и используемые процедуры являются эвристическими и далеко не гарантируют
нахождения «лучшего» решения. Как и в реальной жизни, эволюцию может
«заклинить» на какой-либо непродуктивной ветви. И, наоборот, можно привести
примеры, как два неперспективных родителя, которые будут исключены из
эволюции генетическим алгоритмом, оказываются способными произвести
71
высокоэффективного потомка. Это особенно становится заметно при решении
высокоразмерных задач со сложными внутренними связями.
Алгоритмы ограниченного перебора
Эти алгоритмы вычисляют частоты комбинаций простых логических событий
в подгруппах данных. Примеры простых логических событий: X = a; X < a; X > a; a
< X < b и др., где X — какой-либо параметр, "a" и "b" — константы. Ограничением
служит длина комбинации простых логических событий. На основании анализа
вычисленных частот делается заключение о полезности той или иной комбинации
для установления ассоциации в данных, для классификации, прогнозирования и пр.
Системы для визуализации многомерных данных
Визуализация данных — это способ представления многомерного
распределения данных на двумерной плоскости, при котором, по крайней мере,
качественно отражены основные закономерности, присущие исходному
распределению — его кластерная структура, топологические особенности,
внутренние зависимости между признаками, информация о расположении данных в
исходном пространстве и т.д. В качестве основных применений методов
визуализации можно указать следующие:
• лаконичное описание внутренних закономерностей, заключенных в наборе
данных;
• сжатие информации, заключенной в данных;
• восстановление пробелов в данных;
• решение задач прогноза и построения регрессионных зависимостей между
признаками.
Для того, чтобы описывать в многомерном пространстве вложенное
двумерное многообразие, используют обычно вектор-функцию r = r(u,v) от двух
координат u, v, которые называются внутренними координатами или параметрами.
Линии, вдоль которых одна из внутренних координат принимает постоянное
значение, задают на поверхности внутреннюю координатную сетку. Таким образом,
любая точка на поверхности задается, с одной стороны, только двумя внутренними
координатами (именно поэтому размерность многообразия, задаваемого формулой
r=r(u,v) равна по построению двум), а с другой стороны, будучи точкой в m-мерном
пространстве имеет m значений координат в исходном пространстве.
Для вычислительных процедур гораздо удобнее производить операции не с
самим многообразием, а с его точечной аппроксимацией, задаваемой с помощью
сетки узлов. Для описания положения прямоугольной сетки узлов в пространстве
достаточно m-p-q чисел, где m — размерность пространства, а р и q — число узлов
прямоугольной сетки по вертикали и горизонтали. Если число узлов сетки гораздо
меньше числа точек данных, то используя такую сетку в качестве модели данных,
можно получить сжатие информации, заключенной в данных, с точностью,
зависящей от способа построения карты и особенностями структуры данных.
Изначально карта может быть задана с помощью плоской равномерной сетки
узлов, как-то размещенных в пространстве признаков. Под действием тех или иных
72
вычислительных процедур карта может искривляться, прилегая к данным и отражая
особенности их структуры.
После того, как получена точечная аппроксимация многообразия, для того,
чтобы восстановить карту нужно воспользоваться подходящей процедурой
интерполяции между узлами. Самым простым вариантом интерполяции является
кусочно-линейная интерполяция. Для ее построения на сетке реализуется тот или
иной вариант триангуляции, в результате чего карта состоит из отдельных
треугольных кусков плоскостей.
Рис. 20 — Вид построенной карты
На рис.20 показано, как может выглядеть построенная карта.
В той или иной мере средства для графического отображения данных
поддерживаются всеми системами ИАД. Вместе с тем, существуют системы,
специализирующиеся исключительно на этой функции. В подобных системах
основное внимание сконцентрировано на дружелюбности пользовательского
интерфейса, позволяющего ассоциировать с анализируемыми показателями
различные параметры диаграммы рассеивания объектов (записей) базы данных. К
таким параметрам относятся цвет, форма, ориентация относительно собственной
оси, размеры и другие свойства графических элементов изображения. Кроме того,
системы визуализации данных снабжены удобными средствами для
масштабирования и вращения изображений.
Классификация стадий ИАД
Процесс ИАД состоит из трех стадий:
7. выявление закономерностей (свободный поиск);
8. использование
выявленных
закономерностей
для
предсказания
неизвестных значений (прогностическое моделирование).
9. анализ исключений, предназначенный для выявления и толкования
аномалий в найденных закономерностях.
На рис. 21 показаны стадии процесса ИАД.
73
Рис. 21 — Стадии ИАД
Свободный поиск
Свободный поиск определяется как процесс исследования исходной БД на
предмет поиска скрытых закономерностей без предварительного определения
гипотез относительно вида этих закономерностей. Другими словами, сама
программа берет на себя инициативу в деле поиска интересных аномалий, или шаблонов, в данных, освобождая аналитика от необходимости обдумывания и задания
соответствующих запросов. Этот подход особенно ценен при исследовании
больших баз данных, имеющих значительное количество скрытых закономерностей,
большинство из которых было бы упущено при непосредственном поиске путем
прямых запросов пользователя к исходным данным.
В качестве примера свободного поиска по инициативе системы рассмотрим
исследование реестра физических лиц. Если инициатива принадлежит
пользователю, он может построить запрос типа «Каков средний возраст директоров
предприятий отрасли промышленности строительных материалов, расположенных в
Луганске и находящихся в частной собственности?» и получить ответ — 48. В
системе, обеспечивающей стадию свободного поиска, пользователь может
поступить иначе и запросить у системы найти что-нибудь интересное относительно
того, что влияет на атрибут Возраст. Система начнет действовать так же, как и
аналитик-человек, т. е. искать аномалии в распределении значений атрибутов, в
результате чего будет произведен список логических правил типа "ЕСЛИ ..., ТО ...",
в том числе, например:
• ЕСЛИ Профессия = "Программист", ТО Возраст<=30 в 61% случаев;
• ЕСЛИ Профессия = "Программист", ТО Возраст<=60 в 98% случаев.
Аналогично, при исследовании реестра юридических лиц аналитика может
заинтересовать атрибут Форма_собственности. В результате свободного поиска
могут быть получены правила:
74
• ЕСЛИ Основной_вид_деятельности = "Общеобразовательные детские
школы", ТО Форма_собственности = "Муниципальная собственность" в
84% случаев;
• ЕСЛИ Вид_деятельности = "Наука и научное обслуживание", ТО
Форма_собственности = "Частная собственность" в 73% случаев.
Стадия свободного поиска может выполняться посредством:
• индукции правил условной логики (как в приведенных примерах) — с их
помощью, в частности, могут быть компактно описаны группы похожих
обучающих примеров в задачах классификации и кластеризации;
• индукции правил ассоциативной логики — то есть того, что было
определено в рамках классификации задач ИАД по типам извлекаемой
информации как выявление ассоциаций и последовательностей;
• определения трендов и колебаний в динамических процессах, то есть
исходного этапа задачи прогнозирования.
Стадия свободного поиска, как правило, должна включать в себя не только
генерацию закономерностей, но и проверку их достоверности на множестве данных,
не принимавшихся в расчет при их формулировании.
Прогностическое моделирование
Здесь, на второй стадии ИАД, используются плоды работы первой, то есть
найденные в БД закономерности применяются для предсказания неизвестных
значений:
• при классификации нового объекта мы можем с известной уверенностью
отнести его к определенной группе результатов рассмотрения известных
значений его атрибутов;
• при прогнозировании динамического процесса результаты определения
тренда и периодических колебаний могут быть использованы для
вынесения
предположений
о
вероятном
развитии
некоторого
динамического процесса в будущем.
Возвращаясь к рассмотренным примерам, продолжим их на данную стадию.
Зная, что некто Иванов программист, можно быть на 61% уверенным, что его
возраст <=30 годам, и на 98% — что он <=60 годам. Аналогично, можно сделать
заключение о 84% вероятности того, что некоторое новое юридическое лицо будет
находиться в муниципальной собственности, если его основной вид деятельности —
«Общеобразовательные детские школы».
Следует отметить, что свободный поиск раскрывает общие закономерности,
т.е. индуктивен, тогда как любой прогноз выполняет догадки о значениях
конкретных неизвестных величин, следовательно, дедуктивен. Кроме того,
результирующие конструкции могут быть как прозрачными, т. е. допускающими разумное толкование (как в примере с произведенными логическими правилами), так
и нетрактуемыми — «черными ящиками» (например, про построенную и обученную
нейронную сеть никто точно не знает, как именно она работает).
75
Анализ исключений
Предметом
данного
анализа
являются
аномалии
в
раскрытых
закономерностях, то есть необъясненные исключения. Чтобы найти их, следует
сначала определить норму (стадия свободного поиска), вслед за чем выделить ее
нарушения. Так, определив, что 84% общеобразовательных школ отнесены к
муниципальной форме собственности, можно задаться вопросом — что же входит в
16%, составляющих исключение из этого правила? Возможно, им найдется
логическое объяснение, которое также может быть оформлено в виде
закономерности. Но может также статься, что мы имеем дело с ошибками в
исходных данных, и тогда анализ исключений может использоваться в качестве
инструмента очистки сведений в хранилище данных.
76
Литература:
1. Информационные технологии анализа данных: учеб. пособие / А. Г.
Белик, В. Н. Цыганенко; Минобрнауки России, ОмГТУ. — Омск: Изд-во
ОмГТУ, 2015. — 80 с.
2. Введение в анализ данных: учебник и практикум для бакалавриата и
магистратуры / Б. Г. Миркин. — М. : Издательство Юрайт, 2014. — 174 с.
3. Системы поддержки принятия решений. Учебник и практикум для
бакалавриата и магистратуры. Халин В.Г. — Отв. ред., Чернова Г.В. —
Отв. ред. — М.: Издательство «Юрайт», 2015.— 494 с.
4. Ломакина, Л.С. Информационные технологии анализа и моделирования
текстовых структур: Монография / Л.С. Ломакина, А.С. Суркова. –
Воронеж: Издательство «Научная книга», 2015. – 208 c.
5. Д.С. Набатова. Математические и инструментальные методы принятия
решений. Учебник и практикум для бакалавриата и магистратуры. — М.:
Издательство Юрайт, 2017. — 292 с.
6. Интеллектуальный анализ данных и систем управления бизнес-правилами
в телекоммуникациях: Монография / Р.Р. Вейнберг. — М.: НИЦ ИНФРАМ, 2016. — 173 с.
7. Статистические методы анализа данных: Учебник / Л.И. Ниворожкина,
С.В. Арженовский, А.А. Рудяга [и др.]; под общ. ред. д-ра экон. наук,
проф. Л.И. Ниворожкиной. — М.: РИОР: ИНФРА-М, 2016. — 333 с.
8. Визгунов А. Н., Бабкин Э. А., Козырев О. Р., Куркин А. А.
Информационные системы поддержки принятия решений. — Н.
Новгород: Литера, 2011.
77