Анализ данных и технологии баз данных
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 1: Понятие «Анализ данных» – «Data Mining»
Понятие Анализ данных тесно связано с технологиями баз данных и понятием данные, которые будут подробно рассмотрены в следующей лекции.
Развитие технологии баз данных
1960-е гг.
В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы IBM.
1970-е гг.
В 1975 году появился первый стандарт ассоциации по языкам систем обработки данных - Conference on Data System Languages (CODASYL), определивший ряд фундаментальных понятий в теории систем баз данных, которые до сих пор являются основополагающими для сетевой модели данных. В дальнейшее развитие теории баз данных большой вклад был сделан американским математиком Э.Ф. Коддом, который является создателем реляционной модели данных.
1980-е гг.
В течение этого периода многие исследователи экспериментировали с новым подходом в направлениях структуризации баз данных и обеспечения к ним доступа. Целью этих поисков было получение реляционных прототипов для более простого моделирования данных. В результате, в 1985 году был создан язык, названный SQL. На сегодняшний день практически все СУБД обеспечивают данный интерфейс.
1990-е гг.
Появились специфичные типы данных - "графический образ", "документ", "звук", "карта". Типы данных для времени, интервалов времени, символьных строк с двухбайтовым представлением символов были добавлены в язык SQL. Появились технологии Data mining, хранилища данных, мультимедийные базы данных и web-базы данных.
Возникновение и развитие Data Mining обусловлено различными факторами, основными среди которых являются следующие [2]:
• совершенствование аппаратного и программного обеспечения;
• совершенствование технологий хранения и записи данных ;
• накопление большого количества ретроспективных данных ;
• совершенствование алгоритмов обработки информации.
Понятие Data Mining
Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации) [3].
Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) - один из основателей этого направления:
Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.
Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.
Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.
Знания - совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д.
Использование знаний (knowledge deployment) означает действительное применение найденных знаний для достижения конкретных преимуществ (например, в конкурентной борьбе за рынок).
Приведем еще несколько определений понятия Data Mining.
Data Mining - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.
Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).
Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).
В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности, свойственные подвыборкам данных, кои могут быть выражены в форме, понятной человеку.
"Mining" по-английски означает "добыча полезных ископаемых", а поиск закономерностей в огромном количестве данных действительно сродни этому процессу.
Цель поиска закономерностей - представление данных в виде, отражающем искомые процессы. Построение моделей прогнозирования также является целью поиска закономерностей.
Data Mining как часть рынка информационных технологий
Классификация аналитических систем
Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин " Business Intelligence " (BI), деловой интеллект или бизнес-интеллект. Этот термин предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений.
В 1996 году агентство уточнило определение данного термина.
Business Intelligence - программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений.
Понятие BI объединяет в себе различные средства и технологии анализа и обработки данных масштаба предприятия.
На основе этих средств создаются BI-системы, цель которых - повысить качество информации для принятия управленческих решений.
BI-системы также известны под названием Систем Поддержки Принятия Решений (СППР, DSS, Decision Support System). Эти системы превращают данные в информацию, на основе которой можно принимать решения, т.е. поддерживающую принятие решений.
Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов:
• средства построения хранилищ данных (data warehousing, ХД);
• системы оперативной аналитической обработки (OLAP);
• информационно-аналитические системы (Enterprise Information Systems, EIS);
• средства интеллектуального анализа данных (data mining);
• инструменты для выполнения запросов и построения отчетов (query and reporting tools).
Классификация Gartner базируется на методе функциональных задач, где программные продукты каждого класса выполняют определенный набор функций или операций с использованием специальных технологий.
Мнение экспертов о Data Mining
Приведем несколько кратких цитат [4] наиболее влиятельных членов бизнес-сообществ, которые являются экспертами в этой относительно новой технологии.
Руководство по приобретению продуктов Data Mining (Enterprise Data Mining Buying Guide) компании Aberdeen Group: " Data Mining - технология добычи полезной информации из баз данных. Однако в связи с существенными различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям необходимо тщательно оценивать предполагаемых разработчиков Data Mining и партнеров.
Чтобы максимально использовать мощность масштабируемых инструментов Data Mining коммерческого уровня, предприятию необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию, добытую из внешних источников, и установить специальную среду для работы Data Mining алгоритмов.
Результаты Data Mining в большой мере зависят от уровня подготовки данных, а не от "чудесных возможностей" некоего алгоритма или набора алгоритмов. Около 75% работы над Data Mining состоит в сборе данных, который совершается еще до того, как запускаются сами инструменты. Неграмотно применив некоторые инструменты, предприятие может бессмысленно растратить свой потенциал, а иногда и миллионы долларов".
Мнение Херба Эдельштайна (Herb Edelstein), известного в мире эксперта в области Data Mining, Хранилищ данных и CRM: "Недавнее исследование компании Two Crows показало, что Data Mining находится все еще на ранней стадии развития. Многие организации интересуются этой технологией, но лишь некоторые активно внедряют такие проекты. Удалось выяснить еще один важный момент: процесс реализации Data Mining на практике оказывается более сложным, чем ожидается.
IT-команды увлеклись мифом о том, что средства Data Mining просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный Data Mining-проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных ".
Прежде чем использовать технологию Data Mining, необходимо тщательно проанализировать ее проблемы, ограничения и критические вопросы, с ней связанные, а также понять, чего эта технология не может.
Data Mining не может заменить аналитика
Технология не может дать ответы на те вопросы, которые не были заданы. Она не может заменить аналитика, а всего лишь дает ему мощный инструмент для облегчения и улучшения его работы.
Сложность разработки и эксплуатации приложения Data Mining
Поскольку данная технология является мультидисциплинарной областью, для разработки приложения, включающего Data Mining, необходимо задействовать специалистов из разных областей, а также обеспечить их качественное взаимодействие.
Квалификация пользователя
Различные инструменты Data Mining имеют различную степень "дружелюбности" интерфейса и требуют определенной квалификации пользователя. Поэтому программное обеспечение должно соответствовать уровню подготовки пользователя. Использование Data Mining должно быть неразрывно связано с повышением квалификации пользователя. Однако специалистов по Data Mining, которые бы хорошо разбирались в бизнесе, пока еще мало.
Извлечение полезных сведений невозможно без хорошего понимания сути данных
Необходим тщательный выбор модели и интерпретация зависимостей или шаблонов, которые обнаружены. Поэтому работа с такими средствами требует тесного сотрудничества между экспертом в предметной области и специалистом по инструментам Data Mining. Построенные модели должны быть грамотно интегрированы в бизнес-процессы для возможности оценки и обновления моделей. В последнее время системы Data Mining поставляются как часть технологии хранилищ данных.
Сложность подготовки данных
Успешный анализ требует качественной предобработки данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% процентов всего Data Mining-процесса.
Таким образом, чтобы технология работала на себя, потребуется много усилий и времени, которые уходят на предварительный анализ данных, выбор модели и ее корректировку.
Большой процент ложных, недостоверных или бессмысленных результатов
С помощью Data Mining можно отыскивать действительно очень ценную информацию, которая вскоре даст большие дивиденды в виде финансовой и конкурентной выгоды.
Однако Data Mining достаточно часто делает множество ложных и не имеющих смысла открытий. Многие специалисты утверждают, что Data Mining -средства могут выдавать огромное количество статистически недостоверных результатов. Чтобы этого избежать, необходима проверка адекватности полученных моделей на тестовых данных.
Высокая стоимость
Качественная Data Mining-программа может стоить достаточно дорого для компании. Вариантом служит приобретение уже готового решения с предварительной проверкой его использования, например на демо-версии с небольшой выборкой данных.
Наличие достаточного количества репрезентативных данных
Средства Data Mining, в отличие от статистических, теоретически не требуют наличия строго определенного количества ретроспективных данных. Эта особенность может стать причиной обнаружения недостоверных, ложных моделей и, как результат, принятия на их основе неверных решений. Необходимо осуществлять контроль статистической значимости обнаруженных знаний.
Отличия Data Mining от других методов анализа данных
Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на "грубый" разведочный анализ, составляющий основу оперативной аналитической обработки данных (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей. Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным.
Большинство статистических методов для выявления взаимосвязей в данных используют концепцию усреднения по выборке, приводящую к операциям над несуществующими величинами, тогда как Data Mining оперирует реальными значениями.
OLAP больше подходит для понимания ретроспективных данных, Data Mining опирается на ретроспективные данные для получения ответов на вопросы о будущем.
Перспективы технологии Data Mining
Потенциал Data Mining дает "зеленый свет" для расширения границ применения технологии. Относительно перспектив Data Miningвозможны следующие направления развития:
• выделение типов предметных областей с соответствующими им эвристиками, формализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям;
• создание формальных языков и логических средств, с помощью которых будут формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях;
• создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные ;
• преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.
Если рассматривать будущее Data Mining в краткосрочной перспективе, то очевидно, что развитие этой технологии наиболее направлено к областям, связанным с бизнесом.
В краткосрочной перспективе продукты Data Mining могут стать такими же обычными и необходимыми, как электронная почта, и, например, использоваться пользователями для поиска самых низких цен на определенный товар или наиболее дешевых билетов.
В долгосрочной перспективе будущее Data Mining является действительно захватывающим - это может быть поиск интеллектуальными агентами как новых видов лечения различных заболеваний, так и нового понимания природы вселенной.
Однако Data Mining таит в себе и потенциальную опасность - ведь все большее количество информации становится доступным через всемирную сеть, в том числе и сведения частного характера, и все больше знаний возможно добыть из нее:
Не так давно крупнейший онлайновый магазин "Amazon" оказался в центре скандала по поводу полученного им патента "Методы и системы помощи пользователям при покупке товаров", который представляет собой не что иное как очередной продукт Data Mining, предназначенный для сбора персональных данных о посетителях магазина. Новая методика позволяет прогнозировать будущие запросы на основании фактов покупок, а также делать выводы об их назначении. Цель данной методики - то, о чем говорилось выше - получение как можно большего количества информации о клиентах, в том числе и частного характера (пол, возраст, предпочтения и т.д.). Таким образом, собираются данные о частной жизни покупателей магазина, а также членах их семей, включая детей. Последнее запрещено законодательством многих стран - сбор информации о несовершеннолетних возможен там только с разрешения родителей.
Исследования отмечают, что существуют как успешные решения, использующие Data Mining, так и неудачный опыт применения этой технологии [5]. Области, где применения технологии Data Mining, скорее всего, будут успешными, имеют такие особенности:
• требуют решений, основанных на знаниях ;
• имеют изменяющуюся окружающую среду;
• имеют доступные, достаточные и значимые данные ;
• обеспечивают высокие дивиденды от правильных решений.
Существующие подходы к анализу
Достаточно долго дисциплина Data Mining не признавалась полноценной самостоятельной областью анализа данных, иногда ее называют "задворками статистики" (Pregibon, 1997).
На сегодняшний день определилось несколько точек зрения на Data Mining. Сторонники одной из них считают его миражом, отвлекающим внимание от классического анализа данных. Сторонники другого направления - это те, кто принимает Data Mining как альтернативу традиционному подходу к анализу. Есть и середина, где рассматривается возможность совместного использования современных достижений в области Data Mining и классическом статистическом анализе данных.
Технология Data Mining постоянно развивается, привлекает к себе все больший интерес как со стороны научного мира, так и со стороны применения достижений технологии в бизнесе.
Ежегодно проводится множество научных и практических конференций, посвященных Data Mining, одна из которых - Международная конференция по Knowledge Discovery Data Mining (International Conferences on Knowledge Discovery and Data Mining).
Среди наиболее известных WWW-источников - сайт www.kdnuggets.com, который ведет один из основателей Data Mining Григорий Пиатецкий-Шапиро.
Периодические издания по Data Mining: Data Mining and Knowledge Discovery, KDD Explorations, ACM-TODS, IEEE-TKDE, JIIS, J. ACM, Machine Learning, Artificial Intelligence.
Материалы конференций: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, Machine learning (ICML), AAAI, IJCAI, COLT (Learning Theory).
Вопросы для самоконтроля:
1. Что такое «Data Mining»?
2. Перечислите классы аналитических систем, используемых для решения задачи анализа данных?
3. В чем заключается сложность подготовки данных для «Data Mining»?
4. В чем основные отличия Data Mining от других методов анализа данных?
5. Перечислите отечественных и зарубежных экспертов в области Data Mining. Каковы их мнения о данной технологии.
6. Укажите основные вехи становления технологии Data Mining.
7. Сформулируйте перспективы развития технологии Data Mining
Лекция 2: Понятие о данных
Что такое данные?
В широком понимании данные представляют собой факты, текст, графики, картинки, звуки, аналоговые или цифровые видео-сегменты.
Данные могут быть получены в результате измерений, экспериментов, арифметических и логических операций.
Данные должны быть представлены в форме, пригодной для хранения, передачи и обработки.
Иными словами, данные - это необработанный материал, предоставляемый поставщиками данных и используемый потребителями для формирования информации на основе данных.
Набор данных и их атрибутов
В таблице 2.1 представлена двухмерная таблица, представляющая собой набор данных.
Таблица 2.1 – Двухмерная таблица "объект-атрибут"
Атрибуты
Объекты
Код клиента
Возраст
Семейное положение
Доход
Класс
1
18
Single
125
1
2
22
Married
100
1
3
30
Single
70
1
4
32
Married
120
1
5
24
Divorced
95
2
6
25
Married
60
1
7
32
Divorced
220
1
8
19
Single
85
2
9
22
Married
75
1
10
40
Single
90
2
По горизонтали таблицы располагаются атрибуты объекта или его признаки. По вертикали таблицы - объекты.
Объект описывается как набор атрибутов.
Объект также известен как запись, случай, пример, строка таблицы и т.д.
Атрибут - свойство, характеризующее объект.
Например: цвет глаз человека, температура воды и т.д.
Атрибут также называют переменной, полем таблицы, измерением, характеристикой.
В результате операционализации понятий [6], т.е. перехода от общих категорий к конкретным величинам, получается набор переменных изучаемого понятия.
Переменная (variable) - свойство или характеристика, общая для всех изучаемых объектов, проявление которой может изменяться от объекта к объекту.
Значение (value) переменной является проявлением признака.
При анализе данных, как правило, нет возможности рассмотреть всю интересующую нас совокупность объектов. Изучение очень больших объемов данных является дорогостоящим процессом, требующим больших временных затрат, а также неизбежно приводит к ошибкам, связанным с человеческим фактором.
Вполне достаточно рассмотреть некоторую часть всей совокупности, то есть выборку, и получить интересующую нас информацию на ее основании.
Однако размер выборки должен зависеть от разнообразия объектов, представленных в генеральной совокупности. В выборке должны быть представлены различные комбинации и элементы генеральной совокупности.
Генеральная совокупность (population) - вся совокупность изучаемых объектов, интересующая исследователя.
Выборка (sample) - часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности.
Параметры - числовые характеристики генеральной совокупности.
Статистики - числовые характеристики выборки.
Часто исследования основываются на гипотезах. Гипотезы проверяются с помощью данных.
Гипотеза - предположение относительно параметров совокупности объектов, которое должно быть проверено на ее части.
Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов.
Пример гипотезы: между показателями продолжительности жизни и качеством питания есть связь. В этом случае целью исследования может быть объяснение изменений конкретной переменной, в данном случае - продолжительности жизни. Допустим, существует гипотеза, что зависимая переменная (продолжительность жизни) изменяется в зависимости от некоторых причин (качество питания, образ жизни, место проживания и т.д.), которые и являются независимыми переменными.
Однако переменная изначально не является зависимой или независимой. Она становится таковой после формулировки конкретной гипотезы. Зависимая переменная в одной гипотезе может быть независимой в другой.
Измерения
Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу.
В процессе подготовки данных измеряется не сам объект, а его характеристики.
Шкала - правило, в соответствии с которым объектам присваиваются числа.
Многие инструменты Data Mining при импорте данных из других источников предлагают выбрать тип шкалы для каждой переменной и/или выбрать тип данных для входных и выходных переменных (символьные, числовые, дискретные и непрерывные). Пользователю такого инструмента необходимо владеть этими понятиями.
Переменные могут являться числовыми данными либо символьными.
Числовые данные, в свою очередь, могут быть дискретными и непрерывными.
Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности.
Пример дискретных данных. Продолжительность маршрута троллейбуса (количество вариантов продолжительности конечно): 10, 15, 25 мин.
Непрерывные данные - данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность.
Пример непрерывных данных: температура, высота, вес, длина и т.д.
Шкалы
Существует пять типов шкал измерений: номинальная, порядковая, интервальная, относительная и дихотомическая.
Номинальная шкала (nominal scale) - шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия.
Номинальная шкала состоит из названий, категорий, имен для классификации и сортировки объектов или наблюдений по некоторому признаку.
Пример такой шкалы: профессии, город проживания, семейное положение.
Для этой шкалы применимы только такие операции: равно (=), не равно ( ).
Порядковая шкала (ordinal scale) - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними.
Шкала измерений дает возможность ранжировать значения переменных. Измерения же в порядковой шкале содержат информацию только о порядке следования величин, но не позволяют сказать "насколько одна величина больше другой", или "насколько она меньше другой".
Пример такой шкалы: место (1, 2, 3-е), которое команда получила на соревнованиях, номер студента в рейтинге успеваемости (1-й, 23-й, и т.д.), при этом неизвестно, насколько один студент успешней другого, известен лишь его номер в рейтинге.
Для этой шкалы применимы только такие операции: равно (=), не равно (≠), больше (>), меньше (<).
Интервальная шкала (interval scale) - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла.
Эта шкала позволяет находить разницу между двумя величинами, обладает свойствами номинальной и порядковой шкал, а также позволяет определить количественное изменение признака.
Пример такой шкалы: температура воды в море утром - 19 градусов, вечером - 24, т.е. вечерняя на 5 градусов выше, но нельзя сказать, что она в 1,26 раз выше.
Номинальная и порядковая шкалы являются дискретными, а интервальная шкала - непрерывной, она позволяет осуществлять точные измерения признака и производить арифметические операции сложения, вычитания, умножения, деления.
Для этой шкалы применимы только такие операции: равно (=), не равно (≠), больше (>), меньше (<), операции сложения (+) и вычитания (-).
Относительная шкала (ratio scale) - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы.
Пример такой шкалы: вес новорожденного ребенка (4 кг и 3 кг). Первый в 1,33 раза тяжелее.
Цена на картофель в супермаркете выше в 1,2 раза, чем цена на базаре.
Относительные и интервальные шкалы являются числовыми.
Для этой шкалы применимы только такие операции: равно (=), не равно (≠), больше (>), меньше (<), операции сложения (+) и вычитания (-), умножения (*) и деления (/).
Дихотомическая шкала (dichotomous scale) - шкала, содержащая только две категории.
Пример такой шкалы: пол (мужской и женский).
Пример использования разных шкал для измерений свойств различных объектов, приведен в таблице данных, изображенной в таблице 2.2.
Таблица 2.2 – Множество измерений свойств различных объектов
Номер объекта
Профессия (номинальная шкала)
Средний балл (интервальная шкала)
Образование (порядковая шкала)
1
слесарь
22
среднее
2
ученый
55
высшее
3
учитель
47
высшее
Пример использования различных шкал для измерений свойств одной системы, в данном случае температурных условий, приведен в таблице данных, изображенной в таблице 2.3.
Таблица 2.3 – Множество измерений свойств одной системы
Дата измерения
Облачность (номинальная шкала)
Температура в 8 часов утра (интервальная шкала)
Сила ветра (порядковая шкала)
1 сентября
облачно
22 С
Ветер сильный
2 сентября
пасмурно
17 С
Ветер слабый
3 сентября
ясно
23 С
Ветер очень сильный
Типы наборов данных
Данные, состоящие из записей
Наиболее часто встречающиеся данные - данные, состоящие из записей (record data) [7]. Примеры таких наборов данных: табличные данные, матричные данные, документальные данные, транзакционные или операционные.
Табличные данные - данные, состоящие из записей, каждая из которых состоит из фиксированного набора атрибутов.
Транзакционные данные представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений.
Пример транзакционной базы данных, содержащей перечень покупок клиентов магазина, приведен на рис. 2.1.
Рисунок 2.1 – Пример транзакционных данных
Графические данные
Примеры графических данных: WWW-данные; молекулярные структуры; графы (рис. 2.2); карты.
Рисунок 2.2. – Пример графа
С помощью карт, например, можно отследить изменения объектов во времени и пространстве, определить характер их распределения на плоскости или в пространстве. Преимуществом графического представления данных является большая простота их восприятия, чем, например, табличных данных.
Пример карты, являющейся картой Кохонена (моделью нейронных сетей, которые будут рассмотрены в одной из лекций нашего курса), представлен на рис. 2.3.
Рисунок 2.3 – Пример данных типа "Карта Кохонена"
Химические данные
Химические данные представляют собой особый тип данных. Пример таких данных: Benzene Molecule: C6H6 (рис. 2.4)
Рисунок 2.4 – Пример химических данных
Согласно опросу на сайте Kdnuggets, www.kdnuggets.com (апрель, 2004 г.) "Типы анализируемых данных", наибольшее число опрошенных анализирует данные из "плоских" (flat table) и реляционных таблиц (26% и 24% соответственно), далее идут временные ряды (14%) и данные в виде текста (11%).
Остальные анализируемые типы данных в порядке убывания: web-контенты, XML, графика, аудио, видео и др.
Здесь и в следующих лекциях приводятся результаты опросов, проведенных на сайте Kdnuggets, который признан одним из наиболее авторитетных и известных сайтов в сфере Data Mining.
Форматы хранения данных
Одна из основных особенностей данных современного мира состоит в том, что их становится очень много. Возможны четыре аспекта работы с данными: определение данных, вычисление, манипулирование и обработка (сбор, передача и др.).
При манипулировании данными используется структура данных типа "файл". Файлы могут иметь различные форматы.
Как уже было отмечено ранее, большинство инструментов Data Mining позволяют импортировать данные из различных источников, а также экспортировать результирующие данные в различные форматы.
Данные для экспериментов удобно хранить в каком-то одном формате.
В некоторых инструментах Data Mining эти процедуры называются импорт/экспорт данных, другие позволяют напрямую открывать различные источники данных и сохранять результаты Data Mining в одном из предложенных форматов.
Наиболее распространенные форматы, согласно опросу "Форматы хранения данных ", представлены на рис. 2.5.
Рисунок 2.5 – Наиболее распространенные форматы хранения данных
Наибольшее число опрошенных (23%) предпочитают хранить данные в формате той базы данных, которую они используют. В формате Text, CSV - 18%, по 14% опрошенных хранят данные в формате Text, space or tab separated и SAS; в формате Excel - 9%, SPSS - 8%, S-Plus/R - 4%, Weka ARFF - 6%, в других форматах инструментов Data Mining - 2%.
Как видим из результатов опроса, наиболее распространенным форматом хранения данных для Data Mining выступают базы данных.
Вопросы для самоконтроля:
1. Что такое данные в разрезе решения задачи анализа данных?
2. Каковы наиболее характерные для Data Mining типы наборов данных?
3. Какие форматы хранения данных применяются в Data Mining?
4. Какие шкалы для измерения данных используются при решении задачи анализа данных?
5. Выполните сравнительный анализ типов наборов данных, используемых в Data Mining. Укажите преимущества и недостатки отдельных типов наборов данных.
6. Приведите другие примеры данных различных типов, характерных для использования в Data Mining.
7. Сформируйте множество измерений на различных шкалах свойств распределенной телекоммуникационной системы. Сравните полученные множества. Укажите преимущества и недостатки использованных шкал для измерения данных.
Лекция 3: Методы и стадии Data Mining
Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов ) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.
К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.
Большинство аналитических методов, используемые в технологии Data Mining - это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта.
Метод (method) представляет собой норму или правило, определенный путь, способ, прием решений задачи теоретического, практического, познавательного, управленческого характера.
Понятие алгоритма появилось задолго до создания электронных вычислительных машин. Сейчас алгоритмы являются основой для решения многих прикладных и теоретических задач в различных сферах человеческой деятельности, в большинстве - это задачи, решение которых предусмотрено с использованием компьютера.
Алгоритм (algorithm) - точное предписание относительно последовательности действий (шагов), преобразующих исходные данные в искомый результат.
Классификация стадий Data Mining
Data Mining может состоять из двух [8] или трех стадий [9]:
Стадия 1. Выявление закономерностей (свободный поиск ).
Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование ).
В дополнение к этим стадиям иногда вводят стадию валидации [10], следующую за стадией свободного поиска. Цель валидации - проверка достоверности найденных закономерностей. Однако, мы будем считать валидацию частью первой стадии, поскольку в реализации многих методов, в частности, нейронных сетей и деревьев решений, предусмотрено деление общего множества данных на обучающее и проверочное, и последнее позволяет проверять достоверность полученных результатов.
Стадия 3. Анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях.
Итак, процесс Data Mining может быть представлен рядом таких последовательных стадий [11]:
СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) ->
-> ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ->
-> АНАЛИЗ ИСКЛЮЧЕНИЙ
1. Свободный поиск (Discovery)
На стадии свободного поиска осуществляется исследование набора данных с целью поиска скрытых закономерностей. Предварительные гипотезы относительно вида закономерностей здесь не определяются.
Закономерность (law) - существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления, развития различных явлений или процессов.
Система Data Mining на этой стадии определяет шаблоны, для получения которых в системах OLAP, например, аналитику необходимо обдумывать и создавать множество запросов. Здесь же аналитик освобождается от такой работы - шаблоны ищет за него система. Особенно полезно применение данного подхода в сверхбольших базах данных, где уловить закономерность путем создания запросов достаточно сложно, для этого требуется перепробовать множество разнообразных вариантов.
Свободный поиск представлен такими действиями:
• выявление закономерностей условной логики (conditional logic);
• выявление закономерностей ассоциативной логики (associations and affinities);
• выявление трендов и колебаний (trends and variations).
Допустим, имеется база данных кадрового агентства с данными о профессии, стаже, возрасте и желаемом уровне вознаграждения. В случае самостоятельного задания запросов аналитик может получить приблизительно такие результаты: средний желаемый уровень вознаграждения специалистов в возрасте от 25 до 35 лет равен 1200 условных единиц. В случае свободного поиска система сама ищет закономерности, необходимо лишь задать целевую переменную. В результате поиска закономерностей система сформирует набор логических правил "если ..., то ...".
Могут быть найдены, например, такие закономерности " Если возраст < 20 лет и желаемый уровень вознаграждения > 700 условных единиц, то в 75% случаев соискатель ищет работу программиста" или " Если возраст >35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90% случаев соискатель ищет руководящую работу". Целевой переменной в описанных правилах выступает профессия.
При задании другой целевой переменной, например, возраста, получаем такие правила: " Если соискатель ищет руководящую работу и его стаж > 15 лет, то возраст соискателя > 35 лет в 65 % случаев".
Описанные действия, в рамках стадии свободного поиска, выполняются при помощи :
• индукции правил условной логики (задачи классификации и кластеризации, описание в компактной форме близких или схожих групп объектов);
• индукции правил ассоциативной логики (задачи ассоциации и последовательности и извлекаемая при их помощи информация);
• определения трендов и колебаний (исходный этап задачи прогнозирования).
На стадии свободного поиска также должна осуществляться валидация закономерностей, т.е. проверка их достоверности на части данных, которые не принимали участие в формировании закономерностей. Такой прием разделения данных на обучающее и проверочное множество часто используется в методах нейронных сетей и деревьев решений и будет описан в соответствующих лекциях.
2. Прогностическое моделирование (Predictive Modeling)
Вторая стадия Data Mining - прогностическое моделирование - использует результаты работы первой стадии. Здесь обнаруженныезакономерности используются непосредственно для прогнозирования.
Прогностическое моделирование включает такие действия:
• предсказание неизвестных значений (outcome prediction);
• прогнозирование развития процессов (forecasting).
В процессе прогностического моделирования решаются задачи классификации и прогнозирования.
При решении задачи классификации результаты работы первой стадии (индукции правил) используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений.
При решении задачи прогнозирования результаты первой стадии (определение тренда или колебаний) используются для предсказания неизвестных (пропущенных или же будущих) значений целевой переменной (переменных).
Продолжая рассмотренный пример первой стадии, можем сделать следующий вывод.
Зная, что соискатель ищет руководящую работу и его стаж > 15 лет, на 65 % можно быть уверенным в том, что возраст соискателя > 35 лет. Или же, если возраст соискателя > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, на 90% можно быть уверенным в том, что соискатель ищет руководящую работу.
Сравнение свободного поиска и прогностического моделирования с точки зрения логики
Свободный поиск раскрывает общие закономерности. Он по своей природе индуктивен. Закономерности, полученные на этой стадии, формируются от частного к общему. В результате мы получаем некоторое общее знание о некотором классе объектов на основании исследования отдельных представителей этого класса.
Правило: "Если возраст соискателя < 20 лет и желаемый уровень вознаграждения > 700 условных единиц, то в 75% случаев соискатель ищет работу программиста"
На основании частного, т.е. информации о некоторых свойствах класса "возраст < 20 лет" и "желаемый уровень вознаграждения > 700 условных единиц", мы делаем вывод об общем, а именно: соискатели - программисты.
Прогностическое моделирование, напротив, дедуктивно. Закономерности, полученные на этой стадии, формируются от общего к частному и единичному. Здесь мы получаем новое знание о некотором объекте или же группе объектов на основании:
• знания класса, к которому принадлежат исследуемые объекты;
• знание общего правила, действующего в пределах данного класса объектов.
Знаем, что соискатель ищет руководящую работу и его стаж > 15 лет, на 65% можно быть уверенным в том, что возраст соискателя > 35 лет.
На основании некоторых общих правил, а именно: цель соискателя - руководящая работа и его стаж > 15 лет, мы делаем вывод о единичном - возраст соискателя > 35 лет.
Следует отметить, что полученные закономерности, а точнее, их конструкции, могут быть прозрачными, т.е. допускающими толкование аналитика (рассмотренные выше правила), и непрозрачными, так называемыми "черными ящиками". Типичный пример последней конструкции - нейронная сеть.
3. Анализ исключений (forensic analysis)
На третьей стадии Data Mining анализируются исключения или аномалии, выявленные в найденных закономерностях.
Действие, выполняемое на этой стадии, - выявление отклонений (deviation detection). Для выявления отклонений необходимо определить норму, которая рассчитывается на стадии свободного поиска.
Вернемся к одному из примеров, рассмотренному выше.
Найдено правило "Если возраст > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90 % случаев соискатель ищет руководящую работу". Возникает вопрос - к чему отнести оставшиеся 10 % случаев?
Здесь возможно два варианта. Первый из них - существует некоторое логическое объяснение, которое также может быть оформлено в виде правила. Второй вариант для оставшихся 10% - это ошибки исходных данных. В этом случае стадия анализа исключений может быть использована в качестве очистки данных [12].
Классификация методов Data Mining
Далее мы рассмотрим несколько известных классификаций методов Data Mining по различным признакам.
Классификация технологических методов Data Mining
Все методы Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования.
1. Непосредственное использование данных, или сохранение данных.
В этом случае исходные данные хранятся в явном детализированном виде и непосредственно используются на стадияхпрогностического моделирования и/или анализа исключений. Проблема этой группы методов - при их использовании могут возникнуть сложности анализа сверхбольших баз данных.
Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии.
2. Выявление и использование формализованных закономерностей, или дистилляция шаблонов.
При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии свободного поиска, у первой же группы методов данная стадия в принципе отсутствует. На стадиях прогностического моделирования и анализа исключений используются результаты стадии свободного поиска, они значительно компактнее самих баз данных. Напомним, что конструкции этих моделей могут быть трактуемыми аналитиком либо нетрактуемыми ("черными ящиками").
Методы этой группы: логические методы ; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях.
Логические методы, или методы логической индукции, включают: нечеткие запросы и анализы; символьные правила; деревья решений; генетические алгоритмы.
Методы этой группы являются, пожалуй, наиболее интерпретируемыми - они оформляют найденные закономерности, в большинстве случаев, в достаточно прозрачном виде с точки зрения пользователя. Полученные правила могут включать непрерывные и дискретные переменные. Следует заметить, что деревья решений могут быть легко преобразованы в наборы символьных правил путем генерации одного правила по пути от корня дерева до его терминальной вершины. Деревья решений и правила фактически являются разными способами решения одной задачи и отличаются лишь по своим возможностям. Кроме того, реализация правил осуществляется более медленными алгоритмами, чем индукция деревьев решений.
Методы кросс-табуляции: агенты, баесовские (доверительные) сети, кросс-табличная визуализация. Последний метод не совсем отвечает одному из свойств Data Mining - самостоятельному поиску закономерностей аналитической системой. Однако, предоставление информации в виде кросс-таблиц обеспечивает реализацию основной задачи Data Mining - поиск шаблонов, поэтому этот метод можно также считать одним из методов Data Mining [13].
Методы на основе уравнений.
Методы этой группы выражают выявленные закономерности в виде математических выражений - уравнений. Следовательно, они могут работать лишь с численными переменными, и переменные других типов должны быть закодированы соответствующим образом. Это несколько ограничивает применение методов данной группы, тем не менее они широко используются при решении различных задач, особенно задач прогнозирования.
Основные методы данной группы: статистические методы и нейронные сети
Статистические методы наиболее часто применяются для решения задач прогнозирования. Существует множество методов статистического анализа данных, среди них, например, корреляционно-регрессионный анализ, корреляция рядов динамики, выявление тенденций динамических рядов, гармонический анализ.
Другая классификация разделяет все многообразие методов Data Mining на две группы: статистические и кибернетические методы. Эта схема разделения основана на различных подходах к обучению математических моделей [14].
Следует отметить, что существует два подхода отнесения статистических методов к Data Mining. Первый из них противопоставляет статистические методы и Data Mining, его сторонники считают классические статистические методы отдельным направлением анализа данных. Согласно второму подходу, статистические методы анализа являются частью математического инструментария Data Mining. Большинство авторитетных источников придерживается второго подхода [5, 14].
В этой классификации различают две группы методов:
• статистические методы, основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных;
• кибернетические методы, включающие множество разнородных математических подходов.
Недостаток такой классификации: и статистические, и кибернетические алгоритмы тем или иным образом опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации.
Преимуществом такой классификации является ее удобство для интерпретации - она используется при описании математических средств современного подхода к извлечению знаний из массивов исходных наблюдений (оперативных и ретроспективных), т.е. в задачах Data Mining.
Рассмотрим подробнее представленные выше группы.
Статистические методы Data mining
В [14] эти методы представляют собой четыре взаимосвязанных раздела:
• предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.);
• выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и др.);
• многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.);
• динамические модели и прогноз на основе временных рядов.
Арсенал статистических методов Data Mining классифицирован на четыре группы методов:
1. Дескриптивный анализ и описание исходных данных.
2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ).
3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).
4. Анализ временных рядов (динамические модели и прогнозирование).
Кибернетические методы Data Mining
Второе направление Data Mining - это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта.
К этой группе относятся такие методы:
• искусственные нейронные сети (распознавание, кластеризация, прогноз);
• эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов);
• генетические алгоритмы (оптимизация);
• ассоциативная память (поиск аналогов, прототипов);
• нечеткая логика;
• деревья решений;
• системы обработки экспертных знаний.
Методы Data Mining также можно классифицировать по задачам Data Mining.
В соответствии с такой классификацией выделяем две группы. Первая из них - это подразделение методов Data Mining на решающие задачи сегментации (т.е. задачи классификации и кластеризации) и задачи прогнозирования.
В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и прогнозирующих результатов.
Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика.
К методам, направленным на получение описательных результатов, относятся итеративные методы кластерного анализа, в том числе: алгоритм k-средних, k-медианы, иерархические методы кластерного анализа, самоорганизующиеся карты Кохонена, методы кросс-табличной визуализации, различные методы визуализации и другие.
Прогнозирующие методы используют значения одних переменных для предсказания/прогнозирования неизвестных (пропущенных) или будущих значений других (целевых) переменных.
К методам, направленным на получение прогнозирующих результатов, относятся такие методы: нейронные сети, деревья решений, линейная регрессия, метод ближайшего соседа, метод опорных векторов и др.
Свойства методов Data Mining
Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств.
Среди основных свойств и характеристик методов Data Mining рассмотрим следующие: точность, масштабируемость, интерпретируемость, проверяемость, трудоемкость, гибкость, быстрота и популярность.
Масштабируемость - свойство вычислительной системы, которое обеспечивает предсказуемый рост системных характеристик, например, быстроты реакции, общей производительности и пр., при добавлении к ней вычислительных ресурсов.
В таблице 3.1 приведена сравнительная характеристика некоторых распространенных методов [15]. Оценка каждой из характеристик проведена следующими категориями, в порядке возрастания: чрезвычайно низкая, очень низкая, низкая/нейтральная, нейтральная/низкая, нейтральная, нейтральная/высокая, высокая, очень высокая.
Как видно из рассмотренной таблицы, каждый из методов имеет свои сильные и слабые стороны. Но ни один метод, какой бы не была его оценка с точки зрения присущих ему характеристик, не может обеспечить решение всего спектра задач Data Mining.
Большинство инструментов Data Mining, предлагаемых сейчас на рынке программного обеспечения, реализуют сразу несколько методов, например, деревья решений, индукцию правил и визуализацию, или же нейронные сети, самоорганизующиеся карты Кохонена и визуализацию.
В универсальных прикладных статистических пакетах (например, SPSS, SAS, STATGRAPHICS, Statistica, др.) реализуется широкий спектр разнообразнейших методов (как статистических, так и кибернетических). Следует учитывать, что для возможности их использования, а также для интерпретации результатов работы статистических методов (корреляционного, регрессионного, факторного, дисперсионного анализа и др.) требуются специальные знания в области статистики.
Универсальность того или иного инструмента часто накладывает определенные ограничения на его возможности. Преимуществом использования таких универсальных пакетов является возможность относительно легко сравнивать результаты построенных моделей, полученные различными методами. Такая возможность реализована, например, в пакете Statistica, где сравнение основано на так называемой "конкурентной оценке моделей". Эта оценка состоит в применении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик для выбора наилучшей из них.
Таблица 3.1 – Сравнительная характеристика методов Data Mining
Алгоритм
Точность
Масштабируемость
Интерпретируемость
Пригодность к использованию
Трудоемкость
Разносторонность
Быстрота
Популярность, широта использования
Классические методы (линейная регрессия)
нейтральная
высокая
высокая / нейтральная
высокая
нейтральная
нейтральная
высокая
низкая
нейронные сети
высокая
низкая
низкая
низкая
нейтральная
низкая
очень низкая
низкая
методы визуализации
высокая
очень низкая
высокая
высокая
очень высокая
низкая
чрезвычайно низкая
высокая / нейтральная
деревья решений
низкая
высокая
высокая
высокая / нейтральная
высокая
высокая
высокая / нейтральная
высокая / нейтральная
полиномиальные нейронные сети
высокая
нейтральная
низкая
высокая / нейтральная
нейтральная / низкая
нейтральная
низкая / нейтральная
нейтральная
k-ближайшего соседа
низкая
очень низкая
высокая / нейтральная
нейтральная
нейтральная / низкая
низкая
высокая
низкая
Вопросы для самоконтроля:
1. Каковы основные стадии Data Mining?
2. Какие известные методы анализа Data Mining эффективно применяются в области телекоммуникаций?
3. В чем различие между классическими методами анализа данных и методами технологии Data Mining?
4. Воспроизведите классификацию технологических методов Data Mining.
5. Выполните сравнительный анализ методов анализа данных «Свободный поиск» и «Прогностическое моделирование».
Лекция 4: Интеллектуальный анализ данных: базовые понятия
Целью интеллектуального анализа данных (англ. Data mining, другие варианты перевода - "добыча данных", "раскопка данных") является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XX века, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объемов данных [1,2]. И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей.
Классическим считается определение, данное одним из основателей направления Григорием Пятецким-Шапиро [2]: Data mining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации.
Учитывая разнообразие форм представления данных, используемых алгоритмов и сфер применения, интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:
• специализированных "коробочных" программных продуктов для интеллектуального анализа;
• математических пакетов;
• электронных таблиц (и различного рода надстроек над ними);
• средств интегрированных в системы управления базами данных (СУБД);
• других программных продуктов.
В рамках данного курса нас в первую очередь будут интересовать средства, интегрированные с СУБД. В качестве примера можно привести СУБД Microsoft SQL Server и входящие в ее состав службы Analysis Services, обеспечивающие пользователей средствами аналитической обработки данных в режиме on-line (OLAP)и интеллектуального анализа данных, которые впервые появились в MS SQL Server 2000.
Не только Microsoft, но и другие ведущие разработчики СУБД имеют в своем арсенале средства интеллектуального анализа данных.
Задачи интеллектуального анализа данных
В ходе проведения интеллектуального анализа данных проводится исследование множества объектов (или вариантов). В большинстве случаев его можно представить в виде таблицы, каждая строка которой соответствует одному из вариантов, а в столбцах содержатся значения параметров, его характеризующих. Зависимая переменная - параметр, значение которого рассматриваем как зависящее от других параметров (независимых переменных). Собственно эту зависимость и необходимо определить, используя методы интеллектуального анализа данных.
Рассмотрим основные задачи интеллектуального анализа данных.
Задача классификации заключается в том, что для каждого варианта определяется категория или класс, которому он принадлежит. В качестве примера можно привести оценку кредитоспособности потенциального заемщика: назначаемые классы здесь могут быть "кредитоспособен" и "некредитоспособен". Необходимо отметить, что для решения задачи необходимо, чтобы множество классов было известно заранее и было бы конечным и счетным.
Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения производится поиск шаблонов для определения числового значения. Иными словами, предсказываемый параметр здесь, как правило, число из непрерывного диапазона.
Отдельно выделяется задача прогнозирования новых значений на основании имеющихся значений числовой последовательности (или нескольких последовательностей, между значениями в которых наблюдается корреляция). При этом могут учитываться имеющиеся тенденции (тренды), сезонность, другие факторы. Классическим примером является прогнозирование цен акций на бирже.
Тут требуется сделать небольшое отступление. По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. Supervised learning) и обучение без учителя (от англ. Unsupervised learning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Иногда в этом же случае говорят об управляемых алгоритмах интеллектуального анализа. Задачи классификации и регрессии относятся как раз к этому типу.
Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных. При этом обучающая выборка не требуется. В качестве примера можно привести задачу анализа потребительской корзины, когда в ходе исследования выявляются товары, чаще всего покупаемые вместе. К этому же классу относится задача кластеризации.
Также можно говорить о классификации задач интеллектуального анализа данных по назначению [2], в соответствии с которой, они делятся на описательные (descriptive) и предсказательные (predictive). Цель решения описательных задач - лучше понять исследуемые данные, выявить имеющиеся в них закономерности, даже если в других наборах данных они встречаться не будут. Для предсказательных задач характерно то, что в ходе их решения на основании набора данных с известными результатами строится модель для предсказания новых значений.
Но вернемся к перечислению задач интеллектуального анализа данных.
Задача кластеризации - заключается в делении множества объектов на группы (кластеры) схожих по параметрам. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.
Другое название этой задачи - сегментация. Например, интернет-магазин может быть заинтересован в проведении подобного анализа базы своих клиентов, для того, чтобы потом сформировать специальные предложения для выделенных групп, учитывая их особенности.
Кластеризация относится к задачам обучения без учителя (или "неуправляемым" задачам).
Задача определения взаимосвязей, также называемая задачей поиска ассоциативных правил, заключается в определении часто встречающихся наборов объектов среди множества подобных наборов. Классическим примером является анализпотребительской корзины, который позволяет определить наборы товаров, чаще всего встречающиеся в одном заказе (или в одном чеке). Эта информация может потом использоваться при размещении товаров в торговом зале или при формировании специальных предложений для группы связанных товаров.
Данная задача также относится к классу "обучение без учителя".
Анализ последовательностей или сиквенциальный анализ одними авторами рассматривается как вариант предыдущей задачи, другими - выделяется отдельно. Целью, в данном случае, является обнаружение закономерностей в последовательностях событий. Подобная информация позволяет, например, предупредить сбой в работе информационной системы, получив сигнал о наступлении события, часто предшествующего сбою подобного типа. Другой пример применения - анализ последовательности переходов по страницам пользователей web-сайтов.
Анализ отклонений позволяет отыскать среди множества событий те, которые существенно отличаются от нормы. Отклонение может сигнализировать о каком-то необычном событии (неожиданный результат эксперимента, мошенническая операция по банковской карте …) или, например, об ошибке ввода данных оператором.
В таблице 4.1 приведены примеры задач интеллектуального анализа данных из различных областей. Более подробно некоторые из них будут рассмотрены в последующих разделах курса. Кроме того, можно рекомендовать обратиться к дополнительным источникам [1-4].
Таблица 4.1 – Примеры применения интеллектуального анализа данных
Информационные технологии
Торговля
Финансовая сфера
Классификация
Оценка кредитоспособности
Регрессия
Оценка допустимого кредитного лимита
Прогнозирование
Прогнозирование продаж
Прогнозирование цен акции
Кластеризации
Сегментация клиентов
Сегментация клиентов
Определения взаимосвязей
Анализ потребительской корзины
Анализ последовательностей
Анализ переходов по страницам web-сайта
Анализ отклонений
Обнаружение вторжений в информационные системы
Выявление мошенничества с банковскими картами
Вопросы для самоконтроля:
1. Что такое интеллектуальный анализ данных?
2. Каковы основные задачи интеллектуального анализа данных?
3. Какова сфера применения интеллектуального анализа данных?
4. Каковы основные стадии Data Mining?
5. Сравните любые два метода интеллектуального анализа данных. Укажите их сильные и слабые стороны.
Лекция 5: Интеллектуальный анализ данных в СУБД Microsoft SQL Server
Рассмотрим реализацию средств интеллектуального анализа данных в СУБД Microsoft SQL Server. Как было отмечено в предыдущей лекции, решаются эти задачи службами Analysis Services. На рисунке 5.1 схематично представлены компоненты СУБД MS SQL Server 2008 и выделена подсистема интеллектуального анализа данных [5].
Рисунок 5.1 – Службы и компоненты СУБД Microsoft SQL Server 2008
Службы Analysis Services предоставляют следующие функции и средства для создания решений по интеллектуальному анализу данных:
1. набор стандартных алгоритмов интеллектуального анализа данных;
2. конструктор интеллектуального анализа данных, предназначенный для создания и просмотра моделей интеллектуального анализа данных, управления ими и построения прогнозов;
3. язык расширений интеллектуального анализа данных(Data mininge Xtensionsto SQL, DMX).
Для работы с предоставляемыми средствами интеллектуального анализа используется среда Business Intelligence Development Studio, сокращенно BIDev Studio ( рис. 5.2, 5.3).
Рисунок 5.2 – Запуск SQL Server Business Intelligence Development Studio
Рисунок 5.3 – Создание нового проекта в Business Intelligence Development Studio
Также SQL Server 2008 и 2008 R2 поддерживают создание, управление и использование моделей интеллектуального анализа данных из MicrosoftExcel с помощью Надстроек интеллектуального анализа данных SQL Server 2008 для Office 2007. Надстройки свободно доступны для скачивания на сайте Microsoft по адресу (ссылка приводится для локализованной версии, возможно, выпущены более свежие версии): http://www.microsoft.com/downloads/ru-ru/details.aspx?FamilyID=a42c6fa1-2ee8-43b5-a0e2-cd30d0323ca3&displayLang=ru
Выполнению интеллектуального анализа данных с помощью надстроек посвящена первая часть лабораторных работ данного курса.
Введем ряд понятий [5]. Структура интеллектуального анализа данных может быть представлена как совокупность исходных данных и описания способов их обработки. Структура содержит модели, которые используются для анализа ее данных. В частности, одна структура может поддерживать несколько моделей. В структуре интеллектуального анализа данных можно выделить обучающий и проверочный набор данных, задав процентное отношение или объем данных.
Модель интеллектуального анализа данных представляет собой сочетание самих данных, алгоритма интеллектуального анализа данных и коллекции значений параметров и фильтров, управляющих использованием и обработкой данных. Модель интеллектуального анализа данных определяется на языке расширений интеллектуального анализа данных или с помощью мастера интеллектуального анализа данных в среде BI Dev Studio.
Алгоритм интеллектуального анализа данных представляет собой механизм, создающий модель интеллектуального анализа данных. Чтобы создать модель, алгоритм сначала анализирует набор данных, осуществляя поиск определенных закономерностей и трендов. Алгоритм использует результаты этого анализа для определения параметров модели интеллектуального анализа данных. Затем эти параметры применяются ко всему набору данных, чтобы выявить пригодные к использованию закономерности и получить подробную статистику.
Ниже перечислены алгоритмы интеллектуального анализа данных, реализованные в Microsoft SQL Server 2008 R2 (указание на Майкрософт говорит о том, что это ее реализации алгоритмов, а приводимые английские названия понадобятся нам в дальнейшем):
1. упрощенный алгоритм Байеса (Майкрософт) – Microsoft Naive Bayes;
2. алгоритм дерева принятия решений (Майкрософт) – Microsoft Decision Trees;
3. алгоритм временных рядов (Майкрософт) – Microsoft Time Series;
4. алгоритм кластеризации (Майкрософт) – Microsoft Clustering;
5. алгоритм кластеризации последовательностей (Майкрософт) – Microsoft Sequence Clustering;
6. алгоритм взаимосвязей Майкрософт – Microsoft Association Rules;
7. алгоритм нейронной сети (Майкрософт) – Microsoft Neural Network;
8. алгоритм линейной регрессии (Майкрософт) – Microsoft Linear Regression;
9. алгоритм логистической регрессии (Майкрософт) – Microsoft Logistic Regression.
Подробно с перечисленными алгоритмами мы познакомимся в следующих разделах, сейчас же приведем некоторые примеры использования интеллектуального анализа данных и соответствующие им алгоритмы [6].
Таблица 5.1 – Примеры использования алгоритмов интеллектуального анализа
Задача и пример
Подходящие алгоритмы
Прогнозирование дискретного атрибута.
Например, купит ли получатель целевой рассылки определенный продукт.
Алгоритм дерева принятия решений.
Упрощенный алгоритм Байеса.
Алгоритм кластеризации.
Алгоритм нейронной сети.
Прогнозирование непрерывного атрибута.
Например, прогноз продаж на следующий год.
Алгоритм дерева принятия решений.
Алгоритм временных рядов.
Прогнозирование последовательности.
Например, анализ маршрута перемещения по веб-узлу компании.
Алгоритм кластеризации последовательностей
Нахождение групп общих элементов в транзакциях.
Например, использование анализа покупательского поведения для предложения дополнительных продуктов заказчику.
Алгоритм взаимосвязей
Алгоритм дерева принятия решений
Нахождение групп схожих элементов.
Например, разбиение демографических данных на группы для лучшего понимания связей между атрибутами.
Алгоритм кластеризации.
Алгоритм кластеризации последовательностей.
Два слова надо сказать и о различиях в версиях СУБД Microsoft SQL Server 2008 и 2008 R2,в которых доступны средства интеллектуального анализа данных. Это версии Standard, Enterprise, а также версия для разработчиков Developer, функционально аналогичная Enterprise, но отличающаяся от нее лицензионными условиями использования. В таблице 5.2 приведены результаты сравнения возможностей (в соответствии со статьей MSDN "Возможности, поддерживаемые различными выпусками SQL Server 2008",http://msdn.microsoft.com/ru-ru/library/cc645993(v=SQL.100).aspx). По ходу изложения материала, тема различия версий СУБД еще будет неоднократно затрагиваться и некоторые непонятные пока возможности будут подробно рассмотрены.
Таблица 5.2 – Различия версий СУБД Microsoft SQL Server 2008 в области интеллектуального анализа данных
Возможность
Enterprise/ Developer
Standard
Стандартные алгоритмы
Да
Да
Средства интеллектуального анализа данных: мастера, редакторы, построители запросов
Да
Да
Перекрестная проверка
Да
Модели на фильтрованных подмножествах структур интеллектуального анализа данных
Да
Временные ряды: пользовательское объединение моделей ARTXP и ARIMA
Да
Временные ряды: прогноз новых данных
Да
Неограниченные параллельные запросы интеллектуального анализа данных
Да
Дополнительная настройка алгоритмов
Да
API-интерфейс для подключаемых модулей алгоритмов
Да
Параллельная обработка модели
Да
Временные ряды: прогноз перекрестных рядов
Да
Неограниченные атрибуты для правил взаимосвязи
Да
Прогнозирование последовательности
Да
Множественные цели прогнозирования для упрощенного алгоритма Байеса, нейронной сети и логистической регрессии
Да
В заключение рассмотрим схему взаимодействия аналитических служб SQL Server с внешними приложениями (рис. 5.4) [13].
Рисунок 5.4 – Схема взаимодействия аналитических служб SQL Server с внешними приложениями
На рисунке 5.4 видно, что внешние приложения, используя разнообразные средства (ADO.Net и др.) и протокол XMLA(XML for Analysis) "поверх" протокола TCP или HTTP(характерно для web-решений) могут взаимодействовать с аналитическими службами. При этом, в зависимости от типа запроса, задействуется или подсистема OLAP, или подсистема интеллектуального анализа данных. Обрабатываться запросы интеллектуального анализа могут с помощью как стандартных алгоритмов Майкрософт, так и алгоритмов разработки третьих фирм. Результат посредством XMLA передается обратно приложению.
Вопросы для самоконтроля:
1. Что такое Microsoft SQL Server?
2. В чем заключается интеллектуальность анализа данных?
3. Каковы особенности реализации интеллектуального анализа данных на базе СУБД?
4. Что такое модель интеллектуального анализа данных?
5. Какие инструментальные программные средства используются для интеллектуального анализа данных?
6. Какие внешние приложения включаются во взаимодействие с СУБД при проведении интеллектуального анализа данных?
7. Составьте блок-схему укрупненного алгоритма интеллектуального анализа данных.
Лекция 6: Этапы проведения интеллектуального анализа данных
Рассмотрим теперь этапы проведения интеллектуального анализа данных. Специалисты Майкрософт предлагают следующий вариант декомпозиции данной задачи [7]:
1. постановка задачи;
2. подготовка данных;
3. изучение данных;
4. построение моделей;
5. исследование и проверка моделей;
6. развертывание и обновление моделей.
На рисунке 6.1 схематично представлены перечисленные этапы и указаны средства MS SQL Server,с помощью которых они выполняются. Указанные этапы не обязательно будут пройдены один за другим. Например, на одном из промежуточных этапов может выясниться, что в текущей постановке для решения задачи не хватает данных и понадобится снова вернуться к первому этапу.
Рисунок 6.1 – Этапы интеллектуального анализа данных
На этапе постановки задачи нужно определить, что является целью анализа. В частности, требуется ответить на ряд вопросов, главный из которых - что именно необходимо определить в результате анализа. Также в этом списке:
• Нужно ли будет делать прогнозы на основании модели интеллектуального анализа данных или просто найти содержательные закономерности и взаимосвязи?
• Если требуется прогноз, какой атрибут набора данных необходимо спрогнозировать?
• Как связаны столбцы? Если существует несколько таблиц, как они связаны?
• Каким образом распределяются данные? Являются ли данные сезонными? Дают ли данные точное представление о предметной области?
Как правило, в процессе постановки задачи аналитик работает совместно со специалистами в предметной области.
Этап подготовки данных включает определение источников данных для анализа, объединение данных и их очистку. Используемые данные могут находиться в различных базах и на разных серверах. Более того, какие-то данные могут быть представлены в виде текстовых файлов, электронных таблиц, находиться в других форматах. В процессе объединения и преобразования данных часто используются возможности служб SQL Server Integration Services (рис.6.1). Это позволяет существенно автоматизировать процесс подготовки.
Собранные таким образом данные, как правило, нуждаются в дополнительной обработке, называемой очисткой. В процессе очистки при необходимости может производиться удаление "выбросов" (нехарактерных и ошибочных значений), обработка отсутствующих значений параметров, численное преобразование (например, нормализация) и т.д.
Следующим этапом является изучение данных, которое позволит понять, насколько адекватно подготовленный набор представляет исследуемую предметную область. Здесь может проводиться поиск минимальных и максимальных значений параметров, анализ распределений значений и других статистических характеристик, сравнение полученных результатов с представлениями о предметной области.
Четвертый этап - построение моделей. Как уже разбиралось в предыдущей лекции, сначала создается структура данных, а потом для структуры создается одна или несколько моделей. Модель включает указание на алгоритм интеллектуального анализа данных и его параметры, а также анализируемые данные. При определении модели могут использоваться различные фильтры. Таким образом, не все имеющиеся в описании структуры данные будут использоваться каждой созданной для нее моделью. На рисунке 6.2 показан пример, в котором для одной структуры создается несколько моделей, использующие различные наборы столбцов и фильтров.
Рисунок 6.2 – Несколько моделей, созданных в рамках одной структуры
Модель может проходить обучение, заключающееся в применении выбранного алгоритма к обучающему набору данных. После этого в ней сохраняются выявленные закономерности.
Новую модель можно определить с помощью мастера интеллектуального анализа данных в среде BI Dev Studio или с помощью языка DMX. Нередко для решения задачи создается несколько моделей, основанных на разных алгоритмах, чтобы была возможность сравнить результаты и выбрать наилучшую.
Пятый этап - проверка модели. Здесь целью является оценка качества работы созданной модели перед началом ее использования в "производственной среде". Если создавалось несколько моделей, то на этом этапе делается выбор в пользу той, что даст наилучший результат.
При решении предсказательных задач интеллектуального анализа качество выдаваемого моделью прогноза можно оценить на проверочном наборе данных, для которого известно значение прогнозируемого параметра. В MS SQL Server 2008 службы Analysis Services предоставляют средства, упрощающие разделение данных на обучающий и проверочный наборы. Такое секционирование можно выполнить автоматически во время построения модели интеллектуального анализа данных. Точность прогнозов, создаваемых моделями, можно проверить при помощи таких средств, как диаграмма точности прогнозов и матрица классификации.
Другой подход, называемый перекрестной проверкой, заключается в том, что создаются подмножества данных и сравниваются результаты работы модели на каждом подмножестве. Такой подход может использоваться как при решении предсказательных, так и описательных задач. Средства автоматизации перекрестной проверки доступны при использовании MS SQL Server 2008 версии Enterprise или Developer.
Наиболее эффективные модели развертываются в производственной среде. При этом, возможны сценарии интеграции средств интеллектуального анализа данных и пользовательских приложений. И конечный пользователь, в ответ на сформированный запрос, будет получать результаты анализа в виде отчета. При формировании отчетов о результатах проведенного анализа могут использоваться возможности службы SQL Server Reporting Services.
Со временем характеристики предметной области могут меняться, что потребует и изменения шаблонов интеллектуального анализа данных. Может потребоваться переобучение существующих моделей или создание новых. В ряде случаев SQL Server позволяет автоматизировать процесс обновления моделей за счет использования служб Integration Services.
Вопросы для самоконтроля:
1. Какие этапы интеллектуального анализа данных выделяются в цикле решения задачи анализа информационного массива?
2. В каких случаях возможные возвраты на предыдущие этапы интеллектуального анализа данных?
3. Какие этапы проведения интеллектуального анализа данных предполагают работу с моделями данных?
4. Какие модели могут быть созданы в рамках одной структуры данных?
5. Укажите особенности применения моделей данных при проведении интеллектуального анализа данных в производственной среде.
Лекция 7: Сферы применения Data Mining
Применение Data Mining для решения бизнес-задач
Банковское дело
Технология Data Mining используется в банковской сфере для решения ряда типичных задач.
Задача "Выдавать ли кредит клиенту?"
Классический пример применения Data Mining в банковском деле - решение задачи определения возможной некредитоспособности клиента банка. Эту задачу также называют анализом кредитоспособности клиента или "Выдавать ли кредит клиенту?".
Без применения технологии Data Mining задача решается сотрудниками банковского учреждения на основе их опыта, интуиции и субъективных представлений о том, какой клиент является благонадежным. По похожей схеме работают системы поддержки принятия решений и на основе методов Data Mining. Такие системы на основе исторической (ретроспективной) информации и при помощи методов классификации выявляют клиентов, которые в прошлом не вернули кредит.
Задача "Выдавать ли кредит клиенту?" при помощи методов Data Mining решается следующим образом. Совокупность клиентов банка разбивается на два класса (вернувшие и не вернувшие кредит); на основе группы клиентов, не вернувших кредит, определяются основные "черты" потенциального неплательщика; при поступлении информации о новом клиенте определяется его класс ("вернет кредит", "не вернет кредит").
Задача привлечения новых клиентов банка.
С помощью инструментов Data Mining возможно провести классификацию на "более выгодных" и "менее выгодных" клиентов. После определения наиболее выгодного сегмента клиентов банку есть смысл проводить более активную маркетинговую политику по привлечению клиентов именно среди найденной группы.
Другие задачи сегментации клиентов.
Разбивая клиентов при помощи инструментов Data Mining на различные группы, банк имеет возможность сделать свою маркетинговую политику более целенаправленной, а потому - эффективной, предлагая различным группам клиентов именно те виды услуг, в которых они нуждаются.
Задача управления ликвидностью банка. Прогнозирование остатка на счетах клиентов.
Проводя прогнозирования временного ряда с информацией об остатках на счетах клиентов за предыдущие периоды, применяя методы Data Mining, можно получить прогноз остатка на счетах в определенный момент в будущем. Полученные результаты могут быть использованы для оценки и управления ликвидностью банка.
Задача выявления случаев мошенничества с кредитными карточками.
Для выявления подозрительных операций с кредитными карточками применяются так называемые "подозрительные стереотипы поведения", определяемые в результате анализа банковских транзакций, которые впоследствии оказались мошенническими. Для определения подозрительных случаев используется совокупность последовательных операций на определенном временном интервале. Если система Data Mining считает очередную операцию подозрительной, банковский работник может, ориентируясь на эту информацию, заблокировать операции с определенной карточкой.
Страхование
Страховой бизнес связан с определенным риском. Здесь задачи, решаемые при помощи Data Mining, сходны с задачами в банковском деле.
Информация, полученная в результате сегментации клиентов на группы, используется для определения групп клиентов. В результате страховая компания может с наибольшей выгодой и наименьшим риском предлагать определенные группы услуг конкретным группам клиентов.
Задача выявление мошенничества решается путем нахождения некого общего стереотипа поведения клиентов-мошенников.
Телекоммуникации
В сфере телекоммуникаций достижения Data Mining могут использоваться для решения задачи, типичной для любой компании, которая работает с целью привлечения постоянных клиентов, - определения лояльности этих клиентов. Необходимость решения таких задач обусловлена жесткой конкуренцией на рынке телекоммуникаций и постоянной миграцией клиентов от одной компании в другую. Как известно, удержание клиента намного дешевле его возврата. Поэтому возникает необходимость выявления определенных групп клиентов и разработка наборов услуг, наиболее привлекательных именно для них. В этой сфере, так же как и во многих других, важной задачей является выявление фактов мошенничества.
Помимо таких задач, являющихся типичными для многих областей деятельности, существует группа задач, определяемых спецификой сферы телекоммуникаций.
Электронная коммерция
В сфере электронной коммерции Data Mining применяется для формирования рекомендательных систем и решения задач классификации посетителей Web-сайтов. Такая классификация позволяет компаниям выявлять определенные группы клиентов и проводить маркетинговую политику в соответствии с обнаруженными интересами и потребностями клиентов. Технология Data Mining для электронной коммерции тесно связана с технологией Web Mining [28].
Промышленное производство
Особенности промышленного производства и технологических процессов создают хорошие предпосылки для возможности использования технологии Data Mining в ходе решения различных производственных задач. Технический процесс по своей природе должен быть контролируемым, а все его отклонения находятся в заранее известных пределах;
т.е. здесь мы можем говорить об определенной стабильности, которая обычно не присуща большинству задач, встающих перед технологией Data Mining.
Основные задачи Data Mining в промышленном производстве [29]:
• комплексный системный анализ производственных ситуаций;
• краткосрочный и долгосрочный прогноз развития производственных ситуаций;
• выработка вариантов оптимизационных решений;
• прогнозирование качества изделия в зависимости от некоторых параметров технологического процесса;
• обнаружение скрытых тенденций и закономерностей развития производственных процессов;
• прогнозирование закономерностей развития производственных процессов;
• обнаружение скрытых факторов влияния;
• обнаружение и идентификация ранее неизвестных взаимосвязей между производственными параметрами и факторами влияния;
• анализ среды взаимодействия производственных процессов и прогнозирование изменения ее характеристик;
• выработку оптимизационных рекомендаций по управлению производственными процессами;
• визуализацию результатов анализа, подготовку предварительных отчетов и проектов допустимых решений с оценками достоверности и эффективности возможных реализаций.
Маркетинг
В сфере маркетинга Data Mining находит очень широкое применение.
Основные вопросы маркетинга "Что продается?", "Как продается?", "Кто является потребителем?"
В лекции, посвященной задачам классификации и кластеризации, подробно описано использование кластерного анализа для решения задач маркетинга, как, например, сегментация потребителей.
Другой распространенный набор методов для решения задач маркетинга - методы и алгоритмы поиска ассоциативных правил.
Также успешно здесь используется поиск временных закономерностей.
Розничная торговля
В сфере розничной торговли, как и в маркетинге, применяются:
• алгоритмы поиска ассоциативных правил (для определения часто встречающихся наборов товаров, которые покупатели покупают одновременно). Выявление таких правил помогает размещать товары на прилавках торговых залов, вырабатывать стратегии закупки товаров и их размещения на складах и т.д.
• использование временных последовательностей, например, для определения необходимых объемов запасов товаров на складе.
• методы классификации и кластеризации для определения групп или категорий клиентов, знание которых способствует успешному продвижению товаров.
Фондовый рынок
Вот список задач фондового рынка, которые можно решать при помощи технологии Data Mining [30]:
• прогнозирование будущих значений финансовых инструментов и индикаторов по их прошлым значениям;
• прогноз тренда (будущего направления движения - рост, падение, флэт) финансового инструмента и его силы (сильный, умеренно сильный и т.д.);
• выделение кластерной структуры рынка, отрасли, сектора по некоторому набору характеристик;
• динамическое управление портфелем;
• прогноз волатильности;
• оценка рисков;
• предсказание наступления кризиса и прогноз его развития;
• выбор активов и др.
Кроме описанных выше сфер деятельности, технология Data Mining может применяться в самых разнообразных областях бизнеса, где есть необходимость в анализе данных и накоплен некоторый объем ретроспективной информации.
Применение Data Mining в CRM
Одно из наиболее перспективных направлений применения Data Mining - использование данной технологии в аналитическом CRM.
CRM (Customer Relationship Management) - управление отношениями с клиентами.
При совместном использовании этих технологий добыча знаний совмещается с "добычей денег" из данных о клиентах.
Важным аспектом в работе отделов маркетинга и отдела продаж является составление целостного представления о клиентах, информация об их особенностях, характеристиках, структуре клиентской базы. В CRM используется так называемое профилирование клиентов, дающее полное представление всей необходимой информации о клиентах. Профилирование клиентов включает следующие компоненты: сегментация клиентов, прибыльность клиентов, удержание клиентов, анализ реакции клиентов. Каждый из этих компонентов может исследоваться при помощи Data Mining, а анализ их в совокупности, как компонентов профилирования, в результате может дать те знания, которые из каждой отдельной характеристики получить невозможно.
В результате использования Data Mining решается задача сегментации клиентов на основе их прибыльности. Анализ выделяет те сегменты покупателей, которые приносят наибольшую прибыль. Сегментация также может осуществляться на основе лояльности клиентов. В результате сегментации вся клиентская база будет поделена на определенные сегменты, с общими характеристиками. В соответствии с этими характеристиками компания может индивидуально подбирать маркетинговую политику для каждой группы клиентов.
Также можно использовать технологию Data Mining для прогнозирования реакции определенного сегмента клиентов на определенный вид рекламы или рекламных акций - на основе ретроспективных данных, накопленных в предыдущие периоды.
Таким образом, определяя закономерности поведения клиентов при помощи технологии Data Mining, можно существенно повысить эффективность работы отделов маркетинга, продаж и сбыта. При объединении технологий CRM и Data Mining и грамотном их внедрении в бизнес компания получает значительные преимущества перед конкурентами.
Исследования для правительства
В планах правительства США стоит создание системы, которая позволит отслеживать всех иностранцев, приезжающих в страну. Задача этого комплекса: начиная с пограничного терминала, на основе технологии биометрической идентификации личности и различных других баз данных контролировать, насколько реальные планы иностранцев соответствуют заявленным ранее (включая перемещения по стране, сроки отъезда и др.). Предварительная стоимость системы составляет более 10 млрд. долларов, разработчик комплекса - компания Accenture.
По данным аналитического отчета Главного контрольного управления американского Конгресса, правительственные ведомства США участвуют приблизительно в двухстах проектах на основе анализа данных (Data Mining ), собирающих разнообразную информацию о населении. Более ста из этих проектов направлены на сбор персональной информации (имена, фамилии, адреса e-mail, номера соцстрахования и удостоверений водительских прав), и на основе этой информации осуществляют предсказания возможного поведения людей. Поскольку в упомянутом отчете не приведена информация о секретных отчетах, надо полагать, что общее число таких систем значительно больше.
Несмотря на пользу, которую приносят системы отслеживания, эксперты упомянутого управления, так же как и независимые эксперты, предупреждают о значительном риске, с которым связаны подобные проекты. Причина опасений - проблемы, которые могут возникнуть при управлении и надзоре за такими базами.
Data Mining для научных исследований
Биоинформатика
Одна из научных областей применения технологии Data Mining - биоинформатика, направление, целью которого является разработка алгоритмов для анализа и систематизации генетической информации. Полученные алгоритмы используются для определения структур макромолекул, а также их функций, с целью объяснения различных биологических явлений.
Медицина
Несмотря на консервативность медицины во многих ее аспектах, технология Data Mining в последние годы активно применяется для различных исследований и в этой сфере человеческой деятельности. Традиционно для постановки медицинских диагнозов используются экспертные системы, которые построены на основе символьных правил, сочетающих, например, симптомы пациента и его заболевание. С использованием Data Mining при помощи шаблонов можно разработать базу знаний для экспертной системы.
Фармацевтика
В области фармацевтики методы Data Mining также имеют достаточно широкое применение. Это задачи исследования эффективности клинического применения определенных препаратов, определение групп препаратов, которые будут эффективны для конкретных групп пациентов. Актуальными здесь также являются задачи продвижения лекарственных препаратов на рынок.
Молекулярная генетика и генная инженерия
В молекулярной генетике и генной инженерии выделяют отдельное направление Data Mining, которое имеет название анализ данных в микро-массивах (Microarray Data Analysis, MDA). Подробно с применением Microarray Data Analysis можно ознакомиться в [22].
Некоторые применения этого направления:
• ранняя и более точная диагностика;
• новые молекулярные цели для терапии;
• улучшенные и индивидуально подобранные виды лечения;
• фундаментальные биологические открытия.
Примеры использования Data Mining - молекулярный диагноз некоторых серьезнейших заболеваний; открытие того, что генетический код действительно может предсказывать вероятность заболевания; открытие некоторых новых лекарств и препаратов.
Основные понятия, которыми оперирует Data Mining в областях "Молекулярная генетика и генная инженерия" - маркеры, т.е. генетические коды, которые контролируют различные признаки живого организма.
На финансирование проектов с использованием Data Mining в рассматриваемых сферах выделяют значительные финансовые средства.
Химия
Технология Data Mining активно используется в исследованиях органической и неорганической химии. Одно из возможных применений Data Mining в этой сфере - выявление каких-либо специфических особенностей строения соединений, которые могут включать тысячи элементов.
Далее мы рассмотрим технологии, в основу которых также положено понятие Mining или "добыча".
Web Mining
Web Mining можно перевести как "добыча данных в Web". Web Intelligence или Web Интеллект готов "открыть новую главу" в стремительном развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посетителя, наблюдая за его поведением, является серьезным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции.
Системы Web Mining могут ответить на многие вопросы, например, кто из посетителей является потенциальным клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей.
Технология Web Mining охватывает методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные знания и которые в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет технологиюData Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на Web-узлах.
Согласно таксономии Web Mining [31], здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining.
Web Content Mining подразумевает автоматический поиск и извлечение качественной информации из разнообразных источников Интернета, перегруженных "информационным шумом". Здесь также идет речь о различных средствах кластеризации и аннотировании документов.
В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, и подход, основанный на базах данных.
Подход, основанный на агентах (Agent Based Approach), включает такие системы:
• интеллектуальные поисковые агенты (Intelligent Search Agents);
• фильтрация информации / классификация;
• персонифицированные агенты сети.
Примеры систем интеллектуальных агентов поиска:
• Harvest (Brown и др., 1994),
• FAQ-Finder (Hammond и др., 1995),
• Information Manifold (Kirk и др., 1995),
• OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
• ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
• ShopBot (Doorenbos и др., 1996).
Подход, основанный на базах данных (Database Approach), включает системы:
• многоуровневые базы данных;
• системы web-запросов (Web Query Systems);
Примеры систем web-запросов:
• W3QL (Konopnicki и Shmueli, 1995),
• WebLog (Lakshmanan и др., 1996),
• Lorel (Quass и др., 1995),
• UnQL (Buneman и др., 1995 and 1996),
• TSIMMIS (Chawathe и др.., 1994).
Второе направление Web Usage Mining подразумевает обнаружение закономерностей в действиях пользователя Web-узла или их группы.
Анализируется следующая информация:
• какие страницы просматривал пользователь;
• какова последовательность просмотра страниц.
Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.
Web Usage Mining включает следующие составляющие:
• предварительная обработка;
• операционная идентификация;
• инструменты обнаружения шаблонов;
• инструменты анализа шаблонов.
При использовании Web Mining перед разработчиками возникает два типа задач. Первая касается сбора данных, вторая - использования методов персонификации. В результате сбора некоторого объема персонифицированных ретроспективных данных о конкретном клиенте, система накапливает определенные знания о нем и может рекомендовать ему, например, определенные наборы товаров или услуг. На основе информации о всех посетителях сайта Web-система может выявить определенные группы посетителей и также рекомендовать им товары или же предлагать товары в рассылках.
Задачи Web Mining согласно [31] можно подразделить на такие категории:
• Предварительная обработка данных для Web Mining.
• Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации;
• Анализ полученного знания.
Text Mining
Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text - поиск или обнаружение знаний в тексте).
В отличие от технологии Data Mining, которая предусматривает анализ упорядоченной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации.
Программы, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, - поиск так называемой подстроки в строке.
Call Mining
По словам Энн Беднарц [32], "добыча звонков" может стать популярным инструментом корпоративных информационных систем.
Технология Call Mining объединяет в себя распознавание речи, ее анализ и Data Mining. Ее цель - упрощение поиска в аудио-архивах, содержащих записи переговоров между операторами и клиентами. При помощи этой технологии операторы могут обнаруживать недостатки в системе обслуживания клиентов, находить возможности увеличения продаж, а также выявлять тенденции в обращениях клиентов.
Среди разработчиков новой технологии Call Mining ("добыча" и анализ звонков) - компании CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработано два подхода - на основе преобразования речи в текст и на базе фонетического анализа.
Примером реализации первого подхода, основанного на преобразовании речи, является система CallMiner. В процессе Call Mining сначала используется система преобразования речи, затем следует ее анализ, в ходе которого в зависимости от содержания разговоров формируется статистика телефонных вызовов. Полученная информация хранится в базе данных, в которой возможен поиск, извлечение и обработка.
Пример реализации второго подхода - фонетического анализа - продукция компании Nexidia. При этом подходе речь разбивается на фонемы, являющиеся звуками или их сочетаниями. Такие элементы образуют распознаваемые фрагменты. При поиске определенных слов и их сочетаний система идентифицирует их с фонемами.
Аналитики отмечают, что за последние годы интерес к системам на основе Call Mining значительно возрос. Это объясняется тем фактом, что менеджеры высшего звена компаний, работающих в различных сферах, в т.ч. в области финансов, мобильной связи, авиабизнеса, не хотят тратить много времени на прослушивание звонков с целью обобщения информации или же выявления каких-либо фактов нарушений.
По словам Дэниэла Хонг, аналитика компании Datamonitor: "Использование этих технологий повышает оперативность и снижает стоимость обработки информации".
Типичная инсталляция продукции от разработчика Nexidia обходится в сумму от 100 до 300 тыс. долл. Стоимость внедрения системы CallMiner по преобразованию речи и набора аналитических приложений составляет около 450 тыс. долл.
По мнению Шоллера, приложения Audio Mining и Video Mining найдут со временем гораздо более широкое применение, например, при индексации учебных видеофильмов и презентаций в медиабиблиотеках компаний. Однако технологии Audio Mining и Video Mining находятся сейчас на уровне становления, а практическое их применение - на самой начальной стадии.
Вопросы для самоконтроля:
1. Каковы распространенные сферы применения Data Mining?
2. В чем особенности применения Data Mining для решения бизнес-задач?
3. Что такое технология CRM и к каким задачам в этой технологии может применяться интеллектуальный анализ данных?
4. В чем особенности применения Data Mining в CRM?
5. В чем особенности применения Data Mining для научных исследований?
6. Предложите постановку задачи для проведения интеллектуального анализа данных в сфере бизнеса. Каковы основные особенности применения Data Mining в данной задаче?
7. Укажите наиболее перспективные сферы и направления интеллектуального анализа данных.