Бизнес-аналитика

👀 18387 просмотров
📌 18344 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Бизнес-аналитика», docx

Загружаем конспект в формате docx

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Бизнес-аналитика», Word формат

Бизнес-аналитика Тема 1 СОДЕРЖАНИЕ И МЕТОДЫ БИЗНЕС-АНАЛИТИКИ 1.1.АНАЛИЗ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ КАК ОБЪЕКТ АВТОМАТИЗАЦИИ Современный этап развития рыночных отношений в российской экономике (начало ХХI века) характеризуется началом экономического подъёма. Период времени быстрых, в значительной мере интуитивных, импровизационных, а зачастую и силовых решений меняется на зону продуманных, просчитанных выводов и решений – оперативных, инве- стиционных. Необходимо также принимать во внимание открытость экономики России и связанной с ней конкуренции с высокоразвитыми экономическими субъектами. В регионах мира со сложившейся развитой рыночной экономикой достижение заметного повышения прибы- ли (от долей процента) связано со сложной аналитической работой с использованием новейших достижений науки: математики всех направлений, информационных техноло- гий (IT), которые питают и подкрепляют экономические науки, менеджмент, маркетинг, социологию, юриспруденцию и т. д. Начинают приобретать определяющее значение знания о протекающих хозяйственных процессах. На успех ведения дела влияют как объективные, так и субъективные факторы. К объ- ективным факторам можно отнести закономерности протекания хозяйственных процес- сов, правовую среду, неписаные правила и традиции ведения дел, экономическую конъ- юнктуру и т. д. Большое значение имеет и субъективный фактор, под которым понимается влияние на ход бизнес-процессов работников предприятия и в особенности лиц, принимающих ре- шения (ЛПР). Для выработки и принятия соответствующих складывающейся обстановке решений необходима информация, которая должна удовлетворять требованиям полноты, досто- верности, своевременности (актуальности), полезности. Основополагающую роль в под- готовке принятия решений играет его обоснование по имеющейся у ЛПР информации. Её, как правило, получают из различных внутренних и внешних источников. Организа- ции собирают и хранят значительные объемы информации, например информацию о клиентах и оперативные данные, поступающие в организацию. Причем объемы и ско- рость этих информационных потоков постоянно увеличиваются. В интересах выработки адекватного решения используются внутренние информационные ресурсы, которые складываются из отражения деятельности (функционирования) объекта в документах, других видах и способах сбора, обработки, хранения информации, а также внешние по отношению к объекту информационные ресурсы, например, если это предприятие, кор- порации, отрасли, региона, а также глобальные – из средств массовой информации, спе- циальной литературы, всемирной информационной сети Internet. Таким образом, грани- цы информационного пространства как отображения деятельности предприятия и его взаимодействия с внешней средой, в рамках которого принимаются решения, выходят далеко за пределы предприятия. Объёмы информации, необходимой и используемой при принятии решений, достига- ют десятков и сотен мегабайт и даже терабайт. Информация характеризуется многопла- новостью, сложностью отображаемых объектов и систем, а также связей между объек- тами, явлениями и процессами, скрытостью закономерностей. Одной из первостепенных задач при подготовке и принятии решений является анализ имеющейся в распоряжении ЛПР информации, которая является фундаментом обосно- вания решения. Все чаще организации обращаются к возможностям бизнес-аналитики как к средству, позволяющему извлекать выгоду из огромного количества информации, собранной и хранящейся в корпоративных базах данных. Бизнес-аналитика – это средства, позволяющие организациям обработать всю посту- пающую информацию и достичь глубокого понимания ее сути, без которого не обойтись в условиях конкуренции в современной экономике. Бизнес-аналитика помогает достичь понимания взаимоотношений с клиентами и партнерами, основных показателей дея- тельности, а также добиться целостного представления о компании на всех уровнях – от руководства до рядовых сотрудников. Для успешного развития компании необходимо видеть причины происходящих про- цессов и играть на опережение, прогнозируя развитие событий и предпринимая соответ- ствующие шаги. Поэтому потребность в инструментах анализа и визуализации данных, а также моделирования начала приобретать массовый характер. Компаниям требуются инструменты для создания полномасштабных информационно-аналитических систем корпоративного уровня, в основе которых лежит централизованное хранилище данных, а также для построения систем финансовой и управленческой отчетности, построения информационных витрин данных для различных функциональных департаментов ком- пании. Использование передовых технологий должно обеспечить осуществление опти- мальной поддержки бизнес-процессов заказчиков и эффективное решение поставленных задач. Деятельность предприятия, другого объекта или системы отображается в информаци- онном пространстве. Информационное пространство – это совокупность информационных объектов, ин- формационно отображающих свойства системы и протекающие в ней процессы. Оно со- стоит из различных массивов информации в виде разного рода письменных (знаковых) и фиксированных на носителях информации кодограмм, буквенно-цифровых на есте- ственном языке, устных и визуальных сообщений. Все виды сообщений передаются непосредственно потребителям информации или по каналам связи, могут быть сохране- ны в различном виде с помощью современных технических средств и по мере необходи- мости могут воспроизводиться. Подготовка принятия решений и, соответственно, анализ происходят в этом простран- стве как среде, и производятся операции с элементами структуры этого пространства и связанных с ним других информационных пространств. Аналитик и другие лица, свя- занные с информационными процессами, используют в своей работе понятия, опреде- ляющие сущность, структуру, элементы информационного пространства, особенно при использовании современных информационных технологий. В управлении предприятием важными компонентами являются анализ и планирование его деятельности. При этом процесс анализа сочетается с прогнозированием хода раз- личных процессов. Они могут быть контролируемыми, т. е. управляемыми субъектом, или неконтролируемыми, на которые субъект не в состоянии оказать достаточно заметно влияющее воздействие. При анализе имеющейся информации наблюдаемые процессы можно разделить по этому признаку (влияем или не влияем на данный процесс) с дальнейшим выявлением существенных факторов, степени их влияния на рассматриваемый процесс и т. д. Такого рода анализ, сочетающийся с прогнозированием, является непременным условием эф- фективного планирования деятельности предприятия, обоснования принимаемых управ- ленческих решений. Наблюдаемые, или исследуемые, процессы – это, в первую очередь, протекающие на предприятии (в корпорации) бизнес-процессы. Под ними подразумевают совокупность работ по выполнению какой-либо задачи предприятия. На основе анализа хода этих процессов, внешних условий, внутреннего состояния предприятия, в том числе финан- сового, делаются определённые выводы, вырабатываются или корректируются цели предприятия. В соответствии с выработанными целевыми установками ставятся задачи, осуществляется планирование мероприятий и деятельности предприятия в целом. При этом учитываются принятые критерии оценки, вырабатываются управленческие реше- ния по реализации планов. Эта часть анализа называется стратегическим анализом. В процессе реализации планов должен осуществляться контроль и анализ хода их реа- лизации, который называют текущим анализом. Результаты его являются материалом для выработки решений по корректировке, с одной стороны, уже состоявшихся управ- ленческих решений, а с другой – по доработке самих планов или даже целевых устано- вок в случае значительных отклонений полученных показателей от запланированных, отсутствия ресурсов или в связи с какими-либо другими обстоятельствами. В целом содержание бизнес-анализа состоит в систематизации, оценке полученных параметров в соответствии с принятой системой показателей, изучении и оценке факто- ров, влияющих на деятельность предприятия, выявлении его сильных и слабых сторон, определении возможностей и рисков. 1.2 .МЕТОДЫ БИЗНЕС-АНАЛИТИКИ Методы бизнес-аналитики можно классифицировать по следующим признакам: 1. По целям: − оценка состояния и результатов деятельности предприятия; − постоянный контроль рациональности ведения хозяйственной деятельности, выяв- ление резервов для обеспечения выполнения поставленных задач; − прогнозирование хода внутренних процессов на предприятии и внешних факторов, влияющих на его деятельность. 2. По временному фактору: анализ, использующий прошлую информацию, отражённую в документации и на различных носителях и содержащуюся в информационной системе, – анализ фактов; анализ на базе как прошлой, так и обращённой в будущее, то есть прогнозной ин- формации, – анализ событий и отклонений; анализ будущей информации – по существу оценка бюджетов и планов, их альтер- натив. 3. По масштабности решаемых или обслуживаемых задач: • стратегический анализ – сюда можно отнести оценку эффективности целей, долго- срочные прогнозы, исторические оценки процессов и явлений и т. д.; • оперативный анализ – оценка текущего состояния, выявление узких мест и отклоне- ний; • система раннего предупреждения. 4. По предметным областям: • анализ в маркетинге; • анализ производственной или основной деятельности; • анализ в логистике; • анализ в обеспечении ресурсами; • анализ в финансовой сфере; • анализ в сфере инвестиций и инноваций. 5. По методам: • сравнительный анализ по подразделениям, предприятиям, регионам, временным периодам и т. д.; • анализ отклонений; • функционально-стоимостной анализ; • анализ цепочки создания стоимости и конкурентный анализ по Портеру; • анализ полей бизнеса (Profit Impact of Market Strategies – PIMS); • бенчмаркинг (Beanchmarking); • интеллектуальный анализ (Data mining). В процессе анализа используются различные математические методы, в том числе: − математической статистики; − многомерного статистического анализа, − эконометрики; − алгебры – линейная, логики, предикатов, нечёткой логики; − численные методы анализа. Какой-либо конкретный аналитический процесс или аналитическая работа могут ха- рактеризоваться одновременно несколькими из перечисленных признаков. Рассмотрим содержание некоторых методов по предметным областям и методикам проведения. Знание методов анализа необходимо в дальнейшем для сценариев OLAP и интеллектуального анализа. Это облегчает реализацию рассматриваемых ниже методик (ряд из них без использования этих средств будут мало эффективными). Методики проведения анализа в маркетинговой деятельности Анализ разрыва (Gap analysis) является средством долгосрочного (стратегического) планирования. Основой метода является сравнение стратегий оптимального и возможно- го развития. Составляется матрица оценок стратегий по принятым показателям, по ним строятся профили стратегий. Используются экспертные оценки по балльной качествен- ной системе. Портфолио-анализ – подбор такого портфеля инвестиций с учётом рисков (сочетания возможных потерь и доходности), который обеспечил бы наименьшие потери с макси- мально возможными доходами. Анализ маржинальной прибыли (МП) исследует реакцию величины маржинальной прибыли на маркетинговые мероприятия. Объектами анализа являются продукты, реги- оны, заказы, группы клиентов и т. д. Производится выявление причин убытков или рез- кого повышения прибыли, их локализация и вырабатываются предложения по ликвида- ции «узких» мест или распространению передового опыта. Величину маржинальной прибыли распределяют по различным объектам исследования: продуктам, группам про- дуктов, продуктовым сегментам рынка, предприятиям, корпорации в целом. Сравнительные расчёты определяют зависимость маржинальной прибыли или вы- ручки от расходов: на рекламу, послепродуктовое обслуживание клиентов, торговые из- держки, в том числе площади; других расходов на маркетинг. Анализ обеспечения ресурсами Общие подходы заключаются в исследовании рынков закупки товаров и анализе по- ставщиков, разделении материалов и комплектующих по номенклатуре, качеству, количе- ству, ценам у различных поставщиков. Выделяются факторы, влияющие на процесс снаб- жения, оценивается «совокупное предложение на рынке», а затем выделяются нужные или подходящие поставщики. АВС-анализ – метод, позволяющий выделить наиболее значимые для предприятия группы товаров. Рассчитываются количество и стоимость потребляемых материалов. По итогам расчёта формируются три группы товаров: А, В и С. Товары А обладают наибольшей кумулятивной стоимостью КС (Количество единиц товара ∙ Цена ед. това- ра). Товары группы С имеют наименьшую кумулятивную стоимость. При этом соблюда- ется условие: КС группы А=50 % всей КС; совместная КС групп А и В = 90 % всей КС. Такое разделение позволяет сосредоточить внимание на направлениях, где ожидается наибольшая польза. Этот метод применяется не только в анализе обеспечения ресурса- ми. Анализ возможных прерываний бизнес-процесса. Из-за непоступления исходных ма- териалов или необеспеченности другими ресурсами или услугами может быть нарушен производственный или другой процесс. Остановки могут быть частичными или полны- ми. Результатами их являются потери, затраты, упущенная выгода. Оцениваются факто- ры, связанные с убытками, готовностью поставщиков, подбираются альтернативы. Определение верхних границ цен. Под ними понимают максимальную цену, которую готов заплатить покупатель, в том числе и при закупке материалов. Этот уровень зависит от потребности и значимости товара или материала для обеспечиваемого бизнес- процесса. Цена альтернативного товара-заменителя служит ориентиром верхней границы цены. Анализ в области логистики Логистика – это наука и практика управления продвижением (перемещением и хране- нием) товара от производителя к потребителю. Анализ цепочек логистических процессов позволяет обеспечить руководство предпри- ятия информацией по предметам логистики и выработать соответствующие решения, осуществить согласование и оптимизацию материальных и сопутствующих им инфор- мационных потоков с другими процессами, протекающими на предприятии, и с партнё- рами. Определяются потребности в материалах, транспорте, складских площадях и т. д. исходя из планов заказов и производства. Выбирается методика управления складскими запасами по ритму или срокам поставок. Определяется потребность в поставке по мере достижения минимально допустимого объёма или по окончанию рассчитанного периода времени, например, вычислением средней скорости потребления по прошлым периодам или по производственной мощности, темпам производственного процесса. Анализ издержек логистических процессов выявляет места возникновения издержек, к ним относятся объекты приёма-выдачи материалов и полуфабрикатов, склады, система транспортирования, сопутствующий информационный обмен, включая документообо- рот. Далее в соответствии с принятыми в логистической цепи методами учёта определя- ются составляющие издержек. В процессе анализа оцениваются прогнозные и реальные издержки. Проводится контроль экономичности по принятой системе показателей, оце- нивается степень готовности поставок и продвижения, информационное обеспечение и другие показатели. Финансовый анализ Основой насчитывающей несколько десятков показателей системы оценки финансо- вого состояния предприятия являются показатели ликвидности и рентабельности, отра- жающие платежеспособность и прибыльность предприятия. Методами анализа улавли- ваются неблагоприятные или критические ситуации, принятые по результатам анализа меры обеспечивают приемлемые или оптимальные значения и соотношения показате- лей, подтверждающие выправление положения. Анализ в финансовой сфере тесно увя- зан с планированием. Каждые плановые предложения или решения должны тщательно оцениваться на предмет реализуемости планов, недопущения недостатка или избытка средств, достижения необходимой и достаточной эффективности их использования. Методическими инструментами финансового анализа, которые заложены в программ- ные информационно-аналитические средства, являются: • анализ потоков платежей (Cash flow analysis) – баланс притока и оттока финансо- вых средств. На его основе определяются показатели маржинальной прибыли, безубы- точности, в том числе точка безубыточности, точка закрытия предприятия, кромка без- опасности, эффект операционного рычага, коэффициент выручки. Важное значение имеет показатель работающего капитала, который должен быть положительным. Для прогнозирования критического состояния используется показатель Z-счёт Альтмана, вычисляемый по балансу и отчёту о прибылях и убытках; • финансовая «паутина». Для поддержки принятия решений важное значение имеют графические методы представления состояния объекта, в данном случае финансового состояния. Одним из таких инструментов является этот метод, который является вариан- том многомерного графического представления данных. Анализ инвестиций и инноваций Расчёты, связанные с инвестициями и проектированием, представляют собой самосто- ятельное направление финансово-экономического планирования, тесно связанного с ин- женерно-технологическими исследованиями и решениями. Задачи анализа в этой области экономической деятельности заключаются в сравни- тельных оценках альтернатив, мониторинге реализации инвестиционных и инновацион- ных проектов по принятой системе показателей. Помимо ставших традиционными фи- нансовых оценок по ряду специальных показателей используется также функционально- стоимостной анализ. В основе его лежат субъективные оценки проектов путём состав- ления иерархии целей, их взвешивания, составления таблиц функций и определения аль- тернатив реализации функций. Производятся расчёт полезности и формирование после- довательности в матрице ценности целей. Функционально-стоимостной анализ заверша- ется анализом чувствительности полученных данных к изменению весовых коэффици- ентов целей, оценкой и выдачей результата. Используются различные методы оценки инвестиционных и инновационных проектов в условиях неопределённости. К ним относятся: анализ ставки дисконтирования с поправкой на риск; метод достоверных эквивалентов с вариантами использования в качестве их матема- тического ожидания денежных потоков и состояния предпочтения; методики принятия решений без использования численных значений вероятностей, основанные на построении и анализе матрицы стратегий и состояний природы для инве- стиционного проекта методами максимакса, максимина, минимакса и компромиссного – Гурвица; опционный, использующий подходы, принятые при оценке ценных бумаг. Методы стратегического анализа Анализ стратегической позиции предприятия Для оценки стратегической позиции предприятия используются несколько методик. SWOT-анализ – аббревиатура английских слов strengths, weaknesses, opportunities, threats, т. е. сильные, слабые (имеются в виду стороны предприятия), возможности, опасности. На основе анализа внутренней и внешней среды, выявления ключевых фак- торов успеха, социальных аспектов строится четырёхклеточная матрица. Клетки её за- полняются соответствующими данными. Полученные данные позволяют сформировать стратегию предприятия, которая закладывается в планы, исполняется, результаты под- вергаются очередному этапу анализа. Матрица БКГ (Бостонской консультативной группы) – схожий подход. Результаты аналитической работы представляются таким же образом. Определяются позиции пред- приятия на рынке по сравнению с ведущей фирмой в данном сегменте рынка, все направления деятельности разбиваются на четыре группы. В их отношении вырабаты- ваются соответствующие стратегии. Наработаны типовые рекомендации, суть которых сводится к поддержке перспективных, ликвидации безнадёжных направлений деятель- ности. Матрица Мак-Кинси является развитием матрицы БКГ. Эта методика предусматрива- ет использование формализованных показателей привлекательности рынка и конкурент- ного статуса. В исходных данных используются экспертные оценки, прогнозные показа- тели. Анализ цепочки создания стоимости и конкурентный анализ по Портеру. Им предло- жено представить совокупность выполняемых предприятием функций в виде цепочек процессов создания стоимости. В начале и конце цепочек деятельность предприятия ин- тегрируется (согласуется) с деятельностью партнёров по бизнесу. Конкурентный анализ проводится на «поле сил», действующих на предприятии. Вы- делим пять основных сил: влияние покупателей, влияние поставщиков; возможность по- явления новых конкурентов, существование товаров-заменителей, действия конкурентов внутри отрасли. Исследуются факторы, обусловливающие эти силы, оценивается их со- отношение. По материалам анализа вырабатывается оптимальная стратегия. Конкретных рекомендаций методика не даёт и ограничивается качественным анализом. Анализ ситуации по слабым сигналам и оценка рисков Методика анализа ситуации по слабым сигналам даёт рекомендации по установке контрольных точек, определяет или устанавливает уровни нестабильности, осведомлён- ности. Предусматриваются варианты реакции на сигналы. Оценка рисков и управление ими. Риск рассматривается как возможность потерь в виде убытков, упущенной выгоды или как степень нестабильности, непредсказуемых исходов. Проводится качественный и количественный анализ рисков. При качественном анали- зе выявляются факторы, зоны опасности, виды рисков. Количественный анализ исполь- зует методы аналогий, Монте-Карло, экспертные, анализа чувствительности (что..., ес- ли...), сценариев. Анализ отклонений В комплексе аналитических работ на предприятии анализ отклонений играет довольно существенную роль. После разработки системы целей, выбора стратегий и рассчитанных на их основе планов и бюджетов в процессе их реализации необходим контроль. В идеа- ле он должен сопровождать каждый процесс и быть непрерывным. На практике он реа- лизуется выборочно для наиболее значимых и существенных процессов с допустимой периодичностью. Выводы о степени реализации планов и бюджетов делают посредством анализа отклонений числовых и (или) качественных показателей в принятой на пред- приятии системе. Различают абсолютные и относительные показатели. В экономической и других пред- метных областях имеется проблема знака отклонения. Иногда снижение значения пока- зателя означает «хорошо» или наоборот. Это обстоятельство необходимо учитывать, например прирост прибыли или убытков. Селективные отклонения предусматривают сравнения во временном аспекте. Отрезок времени текущего года или другого периода сравнивается с таким же – предыдущего. Кумулятивное отклонение получаем при сравнении значений показателей, получен- ных нарастающим итогом. Рассматриваются отклонения «план – факт», «факт – факт» – сравнение с прошлым фактом в сопоставимом отрезке времени, «план – желаемый результат», когда сравни- вается плановый показатель с желательным с учётом изменившихся условий. Оценку отклонений производят по допустимым пределам и по влиянию на прибыль или другой обобщающий показатель, например ROI. В процессе анализа выявляются места и причины отклонений. Для оценки величин от- клонений может быть использована методика цепных подстановок, которая представля- ет собой совокупность формул и схем расчёта на основе цепочек создания стоимости, позволяющую в итоге вычислить отклонения по обобщающему показателю на основе имеющихся исходных данных. Для реализации этого метода необходимо реализовать на предприятии систему классификации и кодирования показателей, которая была рассмот- рена выше. В интегрированных экономических информационных системах имеются мо- дули, выполняющие подобные задачи на основе принятой в конкретном программном ин- струментальном средстве системы классификации и кодирования. Исследование причинно-следственных связей и других интересующих лиц, принима- ющих решения (ЛПР) и аналитиков ведётся с использованием методов интеллектуально- го анализа. Анализ отклонения может быть обращён как в ретроспективу, так и в пер- спективу. Исследование ретроспективы ведётся в интересах извлечения знаний и фор- мирования на их основе выводов на перспективу. Анализ полей бизнеса Это исследование воздействия рыночных стратегий на прибыль для данного предпри- ятия или отдельных полей бизнеса, или видов деятельности на базе информации о более чем 2 000 предприятиях, содержащейся в базах данных специализированных фирм. Учи- тывается взаимовлияние специфической внешней среды данного вида бизнеса и внут- ренней ситуации на предприятии. В качестве обобщающих показателей используются ROI и денежные потоки – Cash-balance. Бенчмаркинг Одним из условий выживаемости предприятия, что особенно актуально для нынешних российских условий, является достижение мирового уровня рыночной привлекательности продукции или услуг. Здесь имеется в виду совокупная оценка свойств продукции, связан- ных с ней услуг, а также процессов на самом предприятии. Целью анализа является выяв- ление лучшего в отрасли или на данном поле бизнеса продукта или предприятия, выявле- ние и оценка уровня собственного отставания или опережения. Сравниваются также про- изводственные, управленческие и иные функции. На основании анализа вырабатываются меры по устранению отставания или закреплению успехов. 1.3 .ИНФОРМАЦИОННЫЙ ОБМЕН, СВЯЗАННЫЙ С АНАЛИТИЧЕСКОЙ РАБОТОЙ Аналитическая работа на предприятии осуществляется специальной группой. Она может быть автономной или включённой в какое-либо подразделение. В последнее вре- мя создаются подразделения контроллинга, в чьи функции в качестве основной включа- ется эта деятельность. В отдельных, особо сложных ситуациях пользуются услугами консультантов. На малых предприятиях эта работа может быть возложена на одного из заместителей руководителя или эксперта. Для уяснения функций информационно-аналитической системы необходимо изучить информационный обмен, связанный с аналитической работой. В общей постановке ана- лиз основан на переработке информации, которую аналитики должны где-то получить, и выдаче информации заинтересованным лицам или организационным единицам. Источники информации для анализа делятся на внутренние и внешние. К внутренним источникам относятся: − бухгалтерский учёт, включая аналитический и складской; − статистический учёт; − управленческий учёт; − деловая переписка; − материалы различных исследований и обследований, выполненных на предприятии; − текущая документация, в том числе материалы ревизий и аудиторских проверок и т. д.; − зафиксированные данные опросов; − устная информация; − информация из баз данных, эксплуатирующихся на предприятии ЭИС и автономных автоматизированных рабочих мест (АРМ). Из перечисленных видов учёта бухгалтерский и статистический относятся к обяза- тельным видам учёта. К внешним источникам информации относятся: • установочная информация из государственных органов и вышестоящих организа- ций (для зависимых предприятий) – правовые и руководящие документы, инструкции и т. д., определяющие условия функционирования; • информация из специализированных информационных организаций и их информа- ционных хранилищ, к которым относятся различные фонды, финансовые и биржевые, и т. д.; • библиотечные фонды и информационные хранилища; • средства массовой и специализированной информации; • глобальные информационные ресурсы, например сеть Internet и другие; • данные деловой разведки и прочие возможные источники информации. С другой стороны, служба анализа выдаёт информацию заинтересованным потребите- лям. Основной потребитель её – лица, принимающие решения (ЛПР). На предприятии потребителями её являются также службы управления предприятием. К ним относятся: • бухгалтерская и финансовая службы; • служба контроллинга или её подразделения, если аналитики входят в её состав; • маркетинговое подразделение; • служба логистики; • технологические и производственные; • информационная и PR; • другие заинтересованные структуры и лица. На предприятии должен быть установлен порядок доступа к такой информации по при- чине её особой ценности и подчас конфиденциальности. Информация для лиц, принимающих решения, и смежных служб может представляться на бумажных носителях в виде аналитических записок, отчётов, предложений, справок и т. д. Виды и формы документов должны соответствовать российским и международным стандартам документооборота. Это не означает, что исключаются какие-либо иные фор- мы. Тема 2 OLAP-ТЕХНОЛОГИИ 2.1. ТРЕБОВАНИЯ К ИНФОРМАЦИОННЫМ АНАЛИТИЧЕСКИМ СИСТЕМАМ В основе концепции OLAP, или оперативной аналитической обработки данных (On- Line Analytical Processing), лежит многомерное концептуальное представление данных (Multidimensional conceptual view). Термин OLAP введен Коддом (E. F. Codd) в 1993 году. Главная идея данной системы заключается в построении многомерных таблиц, которые могут быть доступны для за- просов пользователей. Эти многомерные таблицы, или так называемые многомерные кубы, строятся на основе исходных и агрегированных данных. И исходные, и агрегиро- ванные данные для многомерных таблиц могут храниться как в реляционных, так и в многомерных базах данных. Взаимодействуя с OLAP-системой, пользователь может осуществлять гибкий просмотр информации, получать различные срезы данных, выпол- нять аналитические операции детализации, свертки, сквозного распределения, сравнения во времени. Вся работа с OLAP-системой происходит в терминах предметной области. В конце 90-х годов получил распространение свод требований к информационно- аналитическим системам в виде «теста FASMI» – аббревиатуры английских слов, опре- деляющих требования к OLAP-системам: Fast Analysis Shared Multidimensional Infor- mation (быстрый анализ разделяемой многомерной информации). Рассмотрим содержание перечисленных свойств информационно-аналитической си- стемы. Fast (быстрый) – это свойство выражается во временных требованиях к ответам си- стемы на запросы пользователей. Ответ должен быть получен обычно за время в пределах секунды. Более сложные запросы допускается обрабатывать в течение пяти секунд, и лишь отдельные запросы допускаются с 20-секундной реакцией. Такие требования свя- заны с психофизиологичекими показателями аналитиков и ЛПР, обусловлены достиже- нием наиболее значимых результатов анализа при выполнении этих требований. Специ- альные исследования показали, что при времени ответа более 30 секунд наступает раз- дражение и возможна реакция в виде перезапуска системы. Analysis (анализ) – возможности системы выполнять аналитические работы различно- го характера в предметной области пользователя собственными средствами, не прибегая к программированию. Для описания специфических для данного пользователя анали- тических процессов могут применяться встроенные средства в виде языков высокого уровня, электронных таблиц со встроенными функциями, графических конструкторов, визуальных средств. Shared (разделяемый) – система должна обеспечивать необходимый уровень защиты при множественном доступе для исключения взаимных помех, несанкционированного доступа, ведь ценность результатов анализа гораздо выше исходной информации. Multidimensional (многомерный) – определяющее требование. Средства OLAP- системы должны обеспечить работу с данными в многомерном представлении на кон- цептуальном уровне с полной поддержкой иерархий. Требование считается выполнен- ным независимо от того, какой тип базы данных используется, не устанавливаются рам- ки количества измерений. Information (информация) – должна обеспечиваться возможность получения её из лю- бых необходимых источников. Инструментальные средства оперируют с необходимыми объёмами и структурами данных. Свойство многомерности является наиболее характерным, отличительным от других систем свойством, в частности OLTP. Информационное пространство, отображающее функционирование объекта (например, предприятия), многомерно. Естественно стремление аналитика и ЛПР к тому, чтобы иметь дело с моделью данных в наиболее естественном виде. Это обстоятельство приве- ло к тому, что с помощью современных информационных технологий, имеющих широ- кие возможности интерпретации данных, были созданы соответствующие многомерные модели. Теоретические основы были заложены в трудах крупных российских учёных Ясина, Королёва и др. ещё в 70-х годах XX века. В трудах Кодда, Инмона легко узнают- ся основополагающие идеи этих и других учёных, которые были реализованы в большом числе проектов в разных предметных областях. 2.2. МНОГОМЕРНАЯ МОДЕЛЬ ДАННЫХ В последнее десятилетие XX века основной моделью данных, использованной в мно- гочисленных инструментальных средствах создания и поддержки баз данных – СУБД, была реляционная модель. Данные в ней представлены в виде множества связанных ключевыми полями двумерных таблиц – отношений. Для устранения дублирования, противоречивости, уменьшения трудозатрат на ведение баз данных применяется фор- мальный аппарат нормализации отношений. Однако применение его связано с дополни- тельными затратами времени на формирование ответов на запросы к базам данных, хотя и экономятся ресурсы памяти. Многомерная модель данных представляет исследуемый объект в виде многомерного куба, чаще используют трёхмерную модель. По осям или граням куба откладываются из- мерения или реквизиты-признаки. Реквизиты-основания являются наполнением ячеек куба. Пример трехмерного куба информационного пространства «Объем продаж» при- веден на рис. 1. Многомерный куб, или, как иногда называют, пул данных, может быть представлен комбинацией трёхмерных кубов с целью облегчения восприятия и объёмного представ- ления при формировании отчётных и аналитических документов и мультимедийных презентаций по материалам аналитических работ в системе поддержки принятия реше- ний. Многомерные данные могут быть отображены инструментами в виде СУБД на основе реляционных моделей данных, а также и специальными многомерными инструменталь- ными средствами. Рис. 1. Трехмерный куб информационного пространства «Объем продаж» Представление многомерных данных в рамках реляционных моделей может выпол- няться в виде трёх вариантов схем: «звезда», «снежинка», «созвездие». Линейное пред- ставление на плоскости отображено на рис. 2. а) б) в) Рис. 2. Линейное представление схем многомерных данных: а) «звезда»; б) «снежинка»; в) созвездие Данные схемы являются системами таблиц реляционной модели. На рис. 3 представлена схема базы данных Northwind, входящей в комплект поставки СУБД MS SQL Server и MS Access, а также варианты схем построенных на их основе кубов данных. Рис. 3. Схема базы данных Northwind В многомерном пуле информации создаётся большая центральная таблица, называе- мая таблица факта (fact table) (рис. 4). В ней помещаются все данные относительно ин- тересующего пользователя обобщающего показателя. Её окружают меньшие таблицы, содержащие данные по признакам, так называемые таблицы размерности, иногда их называют таблицами измерений (dimensional table) (рис. 5). Таблицы размерности являются родительскими по отношению к таблице факта. Таб- лица факта является дочерней. Могут быть также консольные таблицы (outrigger table). Они присоединяются к таблицам размерности и детализируют отдельные атрибуты. Консольные таблицы являются родительскими по отношению к таблицам размерности. Таблицы фактов содержат числовые или качественные (содержательные) значения. Рис. 4. Таблица факта При разработке базы данных по схеме «звезда» или по другой многомерной схеме необходимо тщательно проанализировать предметную область и поместить в централь- ную таблицу факта все характеризующие исследуемый объект данные, предварительно разработав систему признаков. Консольные и таблицы размерности, а также таблица факта соединяются идентифи- цирующими связями. Первичные ключи родительских таблиц являются внешними клю- чами дочерних. Например, первичный ключ таблицы размерности является внешним ключом таблицы факта. Схема «звезда» состоит только из таблиц размерности и табли- цы факта (рис. 6). Рис. 5. Таблица измерений Рис. 6. Система таблиц по схеме «звезда Развитием схемы «звезда» является схема «снежинка» (snowflake schema). Её отличает от первой схемы большое количество консольных таблиц, они имеются практически на каждой таблице размерности и могут иметь несколько уровней иерархии, как показано на рис. 7. Рис. 7. Система таблиц по схеме «снежинка» Схема «созвездие» (fact constellation schema) получается из нескольких таблиц фактов. В этом варианте многомерной модели через таблицы размерности сообщаются несколь- ко таблиц фактов, отображающих несколько объектов с общими атрибутами. В схемах «снежинка» и «созвездие» применение консольных таблиц приводит к до- полнительным затратам времени на реализацию запроса. При проектировании этот фак- тор должен учитываться. При создании многомерных моделей на основе реляционной базы данных рекомендуется создавать длинные и узкие таблицы фактов и сравнительно небольшие и широкие таблицы размерности (измерений). Многомерные модели данных на основе многомерных СУБД отличаются отсутствием или неполнотой нормализации. Допускаются дублирование или избыточность данных. Ячейки гиперкубов, формируемые такими средствами, имеют одинаковую размерность, что приводит к избыточному расходу ресурсов системы. 2.3 ТИПЫ МНОГОМЕРНЫХ OLAP-СИСТЕМ В рамках OLAP-технологий на основе того, что многомерное представление данных может быть организовано как средствами реляционных СУБД, так и многомерных спе- циализированных средств, различают три типа многомерных OLAP-систем: • многомерный (Multidimensional) OLAP-MOLAP; • реляционный (Relation) OLAP-ROLAP; • смешанный, или гибридный (Hibrid) OLAP-HOLAP. Выше по существу изложены сходство и различия между многомерной и реляционной моделью OLAP-систем. Сущность смешанной OLAP-системы заключается в возможности использования многомерного и реляционного подхода в зависимости от ситуации: раз- мерности информационных массивов, их структуры, частоты обращений к тем или иным записям, вида запросов и т. д. Рассмотрим подробнее достоинства и недостатки приведённых разновидностей OLAP-систем. Многомерные OLAP-системы В многомерных СУБД данные организованы не в виде реляционных таблиц, а в виде упорядоченных многомерных массивов, или гиперкубов, когда все хранимые данные должны иметь одинаковую размерность, что означает необходимость образовывать мак- симально полный базис измерений. Данные могут быть организованы в виде поликубов, в этом варианте значения каждого показателя хранятся с собственным набором измере- ний, обработка данных производится собственным инструментом системы. Достоинствами MOLAP являются: • более быстрое, чем при ROLAP, получение ответов на запросы – затрачиваемое время на один-два порядка меньше; • из-за ограничений SQL затрудняется реализация многих встроенных функций. К ограничениям MOLAP относятся: • сравнительно небольшие размеры баз данных – десятки гигабайт; • за счёт денормализации и предварительной агрегации многомерные массивы ис- пользуют в 2,5–100 раз больше памяти, чем исходные данные; • отсутствуют стандарты на интерфейс и средства манипулирования данными; • имеются ограничения при загрузке данных. Исходные и многомерные данные хранятся в многомерной БД или в многомерном ло- кальном кубе. Такой способ хранения обеспечивает высокую скорость выполнения OLAP-операций, но многомерная база в этом случае чаще всего будет избыточной. Куб, построенный на ее основе, будет сильно зависеть от числа измерений. При увеличении количества измерений объем куба будет экспоненциально расти. Иногда это может при- вести к «взрывному росту» объема данных, парализующему в результате запросы поль- зователей. Реляционные OLAP-системы В настоящее время в массовых средствах, обеспечивающих аналитическую работу, преобладает использование инструментов на основе реляционного подхода. В ROLAP- продуктах исходные данные хранятся в реляционных БД или в плоских локальных таб- лицах на файл-сервере. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства. При этом скорость построения куба будет сильно зависеть от типа источника данных, и поэтому время отклика системы порой становится неприем- лемо большим. Достоинствами ROLAP-систем являются: возможность оперативного анализа непосредственно содержащихся в хранилище данных, так как большинство исходных баз данных -реляционного типа; при переменной размерности задачи выигрывают ROLAP, так как не требуется фи- зическая реорганизация базы данных; ROLAP-системы могут использовать менее мощные клиентские станции и серверы, причём на серверы ложится основная нагрузка по обработке сложных SQL-запросов; уровень защиты информации и разграничения прав доступа в реляционных СУБД намного выше, чем в многомерных. Недостатком ROLAP-систем является меньшая производительность, необходимость тщательной проработки схем базы данных, специальная настройка индексов, анализ ста- тистики запросов и учёт выводов анализа при доработках схем баз данных, что приводит к значительным дополнительным трудозатратам. Выполнение же этих условий позволя- ет при использовании ROLAP-систем добиться схожих с MOLAP-системами показате- лей в отношении времени доступа и даже превзойти в экономии памяти. Гибридные OLAP-системы Представляют собой сочетание инструментов, реализующих реляционную и много- мерную модели данных. При таком подходе используются достоинства первых двух подходов и компенсируются их недостатки. В наиболее развитых программных продук- тах такого назначения реализован именно этот принцип. Использование гибридной ар- хитектуры в OLAP-системах – это наиболее приемлемый путь решения проблем в при- менении программных инструментальных средств в многомерном анализе. В HOLAP- продуктах исходные данные остаются в реляционной базе, а агрегаты размещаются в многомерной. Построение OLAP-куба выполняется по запросу OLAP-средства на основе реляционных и многомерных данных. Такой подход позволяет избежать взрывного ро- ста объёма данных. При этом можно достичь оптимального времени исполнения клиент- ских запросов. Рынок OLAP-систем Сейчас на рынке представлено огромное многообразие OLAP-систем. Разработано не- сколько классификаций продуктов этого типа, например классификация по способу хра- нения данных, по месту нахождения OLAP-машины, по степени готовности к примене- нию. Классификацию по способу хранения данных мы уже рассмотрели: MOLAP, ROLAP, HOLAP. Следующая классификация – по месту размещения OLAP-машины. По этому признаку OLAP-продукты делятся на OLAP-серверы и OLAP-клиенты. В серверных OLAP-средствах вычисления и хранение агрегатных данных выполняют- ся отдельным сервером. Клиентское приложение получает только результаты запросов к многомерным кубам, которые хранятся на сервере. Некоторые OLAP-серверы поддер- живают хранение данных только в реляционных базах, другие – только в многомерных. Многие современные OLAP-серверы поддерживают все три способа хранения данных: MOLAP, ROLAP и HOLAP. Одним из самых распространенных в настоящее время сер- верных решений является OLAP-сервер корпорации Microsoft. OLAP-клиент устроен по- другому. Построение многомерного куба и OLAP-вычисления выполняются в памяти клиентского компьютера. С помощью OLAP-сервера может быть организовано физическое хранение обрабо- танной многомерной информации, что позволяет быстро выдавать ответы на запросы пользователя. Кроме того, предусматривается преобразование данных из реляционных и других баз в многомерные структуры в режиме реального времени. Каким образом реляционные и многомерные средства работают совместно? OLAP- продукты вливаются в существующую корпоративную инфраструктуру путем интегри- рования с реляционными системами. Администраторы баз данных либо загружают ре- ляционные данные в многомерный кэш, либо настраивают кэш для доступа к SQL- данным. Тема 3 КОНЦЕПЦИЯ ОРГАНИЗАЦИИ ХРАНЕНИЯ ДАННЫХ 3.1. ПОНЯТИЕ ИНФОРМАЦИОННОГО ХРАНИЛИЩА Подготовка принятия решений требует сосредоточения значительного, а подчас ко- лоссального количества информации на месте его подготовки. Естественно стремление приблизить места хранения и использования информации. Проблемы подготовки приня- тия решений разрешаются с использованием инструментальных систем поддержания принятия решения Decision Support System (DSS). В них большое место стали занимать OLAP-технологии. Проблема сбора и хранения информации выделилась как занимаю- щая особое место во всей системе управления предприятием (корпорацией) и оформи- лась в концепцию информационных хранилищ Data Warehouse (DW). Data Warehouse выполняет задачи сбора информации из баз данных, отображающих отдельные бизнес-процессы, автоматизированных рабочих мест, информационных си- стем и других источников информации, в том числе из глобальных информационных се- тей, например Internet. Такие источники данных называют операционными базами дан- ных. Сбор информации сочетается, как правило, с доработкой исходных данных, которая заключается в проверке достоверности, устранении противоречивости, сортировке, си- стематизации, построении заданной единой структуры хранилища и т. д. Выделим свойства информационных хранилищ: • предметная ориентированность; • интегрированность; • неизменчивость; • поддержка хронологии. Свойство предметной ориентированности означает компоновку пулов информации по определённым предметным областям или целям, обеспечивающим подготовку и при- нятие необходимых решений в соответствующей системе DSS. Интегрированность предусматривает сбор и доработку (предварительную обработку) информации по определённой предметной области из различных источников и превра- щение её в организованный по заданным правилам, подчинённым определённой цели, массив в виде гиперкуба или системы поликубов информации. Неизменчивость состоит в том, что информация не подвергается частым обновлени- ям, а только в случае крайней необходимости. В основном наращивается по заданному, чётко определённому графику. Пользователь имеет только право чтения информации. Поддержка хронологии заключается в обязательности привязки данных ко времени. Информация, содержащаяся в хранилище, рассматривается в историческом аспекте. Используют следующие типы привязки ко времени: • к моменту совершения события или факта; • к моменту фиксации его информационными средствами; • комбинированные методы, сочетающие оба подхода. Реализация концепции Data Warehouse может быть осуществлена несколькими спосо- бами – имеются несколько вариантов концепций информационного хранилища. 3.2. КОНЦЕПЦИЯ ЦЕНТРАЛИЗОВАННОГО ХРАНИЛИЩА ДАННЫХ Такой подход означает, что при нескольких источниках информации – операционных базах данных – создаётся единое централизованное хранилище. В первичных источни- ках информация хранится в «сыром», недоработанном виде, то есть в структуре инфор- мационного пространства данного источника информации или операционной БД. Вся поступающая в Data Warehouse информация должна быть преобразована в принятую в данном DW структуру. Передача данных из операционных БД в информационное хра- нилище, которая сопровождается доработкой, может быть организована по заданному временному графику и правилам доработки с соблюдением принципов Инмона. Допус- каются неожиданные запросы «на лету», что предъявляет более строгие требования к инструментальным средствам информационных хранилищ. При реализации такой концепции возникает потребность в мощном компьютере. В за- висимости от масштабов предметной области это будет или персональный компьютер с предельно высокими характеристиками, особенно в части требований к объёмам памяти, или майнфрейм и даже суперкомпьютер. Необходимо наличие развитых средств теле- коммуникаций, обеспечивающих информационный обмен «операционные БД – инфор- мационное хранилище». Это требование относится к любому варианту концепции ин- формационного хранилища. Схема централизованного хранения данных приведена на рис. 8. Центральное храни- лище данных Операци- онная база данных 1 Операци- онная база данных 2 Операци- онная база данных N Рис. 8. Схема централизованного хранения данных 3.3. КОНЦЕПЦИЯ РАСПРЕДЕЛЁННОГО ХРАНИЛИЩА ДАННЫХ Возможен и имеет место противоположный подход к хранению данных на основе распределения функций информационного хранилища по местам их возникновения или группировки нескольких операционных баз данных вокруг локального или регионально- го информационного хранилища. Эти хранилища могут быть ориентированы на опреде- лённую предметную область или на регион в корпоративных структурах. Система ло- кальных хранилищ действует в качестве распределённого хранилища. Не исключается и наличие центрального хранилища, но в такой структуре требования к его размерности значительно облегчаются. Этот подход предусматривает трансляцию каждого запроса к каждому источнику (базе данных), обработку, увязывание, согласование, компоновку извлечённых данных «на ле- ту» и предоставление их пользователю. Такой подход при экономии ресурсов на создание крупного централизованного хра- нилища имеет ряд недостатков: • в связи с нормализованностью данных в операционных базах и длительностью до- ступа из «центра» общее время отклика такой системы выходит за рамки допустимого; • должны быть обеспечены постоянство нахождения в сети и открытость всех источ- ников информации, так как отсутствие какого-либо из них может сорвать весь процесс анализа; • возможны противоречивость и несогласованность ответов из различных источников из-за различных форматов представления, разницы в темпах обновления, правила при- вязки ко времени, изменения смысловой нагрузки данных и т. д.; • практическая невозможность комплексного исторического обзора содержащейся в разнородных источниках информации из-за различного порядка её хранения – навязать единый порядок весьма затруднительно. Схема распределённого информационного хра- нилища приведена на рис. 9. Информаци- онное храни- лище 1 Информаци- онное храни- лище 2 Операционная база 1 Операционная база 1.n Операцион- ная база 2 Операционная база 2.m Информационное хранилище 3 Операционная база 3 Операционная база 3.k Рис. 9. Схема распределённого информационного хранилища 3.4. КОНЦЕПЦИЯ АВТОНОМНЫХ ВИТРИН ДАННЫХ Одним из вариантов организации централизованного хранения и представления ин- формации является концепция витрин данных (Data Mart). Она предложена Forrester Re- search в 1991 году. При таком подходе информация, относящаяся к крупной предметной области, напри- мер информационному пространству крупной корпоративной системы, имеющей не- сколько достаточно самостоятельных направлений деятельности, группируется по этим направлениям в специально организованных базах данных, которые называют витрина- ми данных. Этот подход является развитием концепции распределённого информационного храни- лища в части придания функций предметной ориентированности некоторым локальным информационным хранилищам. Такой подход позволяет обойтись сравнительно менее ресурсоёмкими аппаратными и программными средствами, обеспечивает повышение адаптируемости системы к изме- няющимся условиям, расширяет доступность для внедрения. Пользователь предприятия или другого подразделения корпорации получает своё информационное хранилище, об- служивающее местные потребности. 3.5. КОНЦЕПЦИЯ ЕДИНОГО ИНТЕГРИРОВАННОГО ХРАНИЛИЩА И МНОГИХ ВИТРИН ДАННЫХ В 1994 году было предложено объединить две концепции: единого интегрированного хранилища и связанных с ним и получающих из него информацию витрин данных. В та- ком варианте имеется крупное информационное хранилище агрегированной и подрабо- танной информации, которое может удовлетворить потенциальные запросы по отдель- ным направлениям деятельности. Здесь очевидны преимущества: данные заранее агрегируются, обеспечивается единая хронология, согласованы различные форматы, устраняются противоречивость и неодно- значность данных – информация приобретает необходимую кондицию для быстрого и достаточного полного удовлетворения необходимого множества запросов. Недостатком является необходимость применения высокопроизводительных аппарат- ных средств и специализированных многомерных или гибридных программных инстру- ментальных средств. В таком варианте информационная аналитическая система приобретает иерархическую многоуровневую структуру, содержащую следующие уровни: • общекорпоративное централизованное хранилище данных; • витрины данных по направлениям деятельности; • локальные или региональные базы и хранилища данных; • операционные базы данных, автоматизированные рабочие места пользователей ав- тономных программ. Пунктам концентрации информации соответствуют иерархические уровни использова- ния при подготовке, принятии и реализации решений данных, которые являются появ- ляющейся в результате функционирования предприятия (корпорации) информации: • уровень лиц, принимающих решения, который может быть совмещён с уровнем витрин данных; • уровень рабочих мест аналитиков и других заинтересованных пользователей. Рассмотренные концепции охватывают лишь те стороны функционирования систем аналитики, которые относятся к организации хранения данных. Они не определяют тре- бования и подходы к выполнению анализа, способы представления данных в информа- ционном хранилище – реляционный или многомерный. Тема 4 DATA MINING 4.1. ИСТОРИЯ DATA MINING За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой ин- формации, появился и побочный продукт этой активности – горы собранных данных. Термин «Data Mining» получил свое название из двух понятий: поиска ценной инфор- мации в большой базе данных (data) и добычи горной руды (mining). Оба процесса тре- буют или просеивания огромного количества сырого материала, или разумного исследо- вания и поиска искомых ценностей. «Data Mining» часто переводится как добыча данных, извлечение информации, рас- копка данных, интеллектуальный анализ данных, средства поиска закономерностей, из- влечение знаний, анализ шаблонов, извлечение зерен знаний из гор данных, раскопка знаний в базах данных, информационная проходка данных, промывание данных. Поня- тие «обнаружение знаний в базах данных» (Knowledge Discovery in Databases, KDD) многие считают синонимом Data Mining. Понятие «Data Mining», появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. Что же такое Data Mining? Data Mining – мультидисциплинарная область, возникшая и развивающаяся на базе таких наук, как прикладная статистика, распознавание образов, искусственный интел- лект, теория баз данных и др. (рис. 10). Теория баз данных Другие дисциплины Статистика Машинное обу- чение Data Mining Визуализация Алгоритмизация Искусственный интеллект Распознавание образов Рис. 10. Data Mining как мультидисциплинарная область Приведем краткое описание некоторых дисциплин, на стыке которых появилась тех- нология Data Mining. Статистика – это наука о методах сбора данных, их обработки и анализа для выяв- ления закономерностей, присущих изучаемому явлению. Статистика является совокуп- ностью методов планирования, эксперимента, сбора данных, их представления и обоб- щения, а также анализа и получения выводов на основании этих данных. Она оперирует данными, полученными в результате наблюдений либо экспериментов. Машинное обучение можно охарактеризовать как процесс получения программой но- вых знаний. Митчелл в 1996 году дал такое определение: «Машинное обучение – это наука, которая изучает компьютерные алгоритмы, автоматически улучшающиеся во время работы». Одним из наиболее популярных примеров алгоритма машинного обуче- ния являются нейронные сети. Искусственный интеллект – научное направление, в рамках которого ставятся и ре- шаются задачи аппаратного или программного моделирования видов человеческой дея- тельности, традиционно считающихся интеллектуальными. Термин «интеллект» (intelligence) происходит от латинского intellectus, что означает ум, рассудок, разум, мыслительные способности человека. Соответственно, искусственный интеллект (AI, Artificial Intelligence) толкуется как свойство автоматических систем брать на себя от- дельные функции интеллекта человека. Искусственным интеллектом называют свойство интеллектуальных систем выполнять творческие функции, которые традиционно счита- ются прерогативой человека. Каждое из направлений, сформировавших Data Mining, имеет свои особенности. Понятие «Data Mining» тесно связано с технологиями баз данных. Развитие техноло- гии баз данных прошло несколько этапов. 1960-е гг. В 1968 году была введена в эксплуатацию первая промышленная СУБД- система IMS фирмы IBM. 1970-е гг. В 1975 году появился первый стандарт ассоциации по языкам систем обра- ботки данных – Conference on Data System Languages (CODASYL), определивший ряд фундаментальных понятий в теории систем баз данных, которые до сих пор являются основополагающими для сетевой модели данных. 1980-е гг. В течение этого периода многие исследователи экспериментировали с но- вым подходом в направлениях структуризации баз данных и обеспечения к ним доступа. Целью этих поисков было получение реляционных прототипов для более простого мо- делирования данных. В результате в 1985 году был создан язык, названный SQL. На се- годняшний день практически все СУБД обеспечивают данный интерфейс. 1990-е гг. Появились специфичные типы данных: «графический образ», «документ», «звук», «карта». Типы данных для времени, интервалов времени, символьных строк с двухбайтовым представлением символов были добавлены в язык SQL. Появились техно- логии Data Mining, хранилища данных, мультимедийные базы данных и web-базы дан- ных. Возникновение и развитие Data Mining обусловлено различными факторами, основ- ными среди которых являются следующие: • совершенствование аппаратного и программного обеспечения; • совершенствование технологий хранения и записи данных; • накопление большого количества ретроспективных данных; • совершенствование алгоритмов обработки информации. 4.2. ПОНЯТИЕ DATA MINING Data Mining – это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Суть и цель технологии Data Mining можно охарактеризовать так: это технология, ко- торая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Неочевидные – т. е. найденные закономерности не обнаруживаются стандартными ме- тодами обработки информации или экспертным путем. Объективные – т. е. обнаруженные закономерности будут полностью соответствовать действительности в отличие от экспертного мнения, которое всегда является субъектив- ным. Практически полезные – т. е. выводы имеют конкретное значение, которому можно найти практическое применение. Знания – совокупность сведений, которая образует целостное описание, соответству- ющее некоторому уровню осведомленности об описываемом вопросе, предмете, про- блеме и т. д. Использование знаний (knowledge deployment) означает действительное применение найденных знаний для достижения конкретных преимуществ (например, в конкурентной борьбе за рынок). Существует множество определений понятия «Data Mining». Вот некоторые из них: • Data Mining – это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования; • Data Mining – это процесс выделения, исследования и моделирования больших объ- емов данных для обнаружения неизвестных до этого структур (patterns) с целью дости- жения преимуществ в бизнесе (определение SAS Institute); • Data Mining – это процесс, цель которого обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов и применением статистических и ма- тематических методов (определение Gartner Group). В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности, свойственные подвыборкам данных и выраженные в форме, понятной человеку. Построение моделей прогнозирования также является це- лью поиска закономерностей. 4.3. ОТЛИЧИЯ DATA MINING ОТ ДРУГИХ МЕТОДОВ АНАЛИЗА ДАННЫХ Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на «грубый» разведочный анализ, составляющий основу оперативной аналити- ческой обработки данных (On Line Analytical Processing, OLAP), в то время как одно из основных положений Data Mining – поиск неочевидных закономерностей. Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоя- тельно строить гипотезы о взаимосвязях. Преимущество Data Mining по сравнению с другими методами анализа является очевидным. Большинство статистических методов для выявления взаимосвязей в данных используют концепцию усреднения по выборке, приводящую к операциям над несуществующими величинами, тогда как Data Mining оперирует реальными значениями. OLAP больше подходит для понимания ретроспек- тивных данных, Data Mining опирается на ретроспективные данные для получения отве- тов на вопросы о будущем. 4.4. ПЕРСПЕКТИВЫ ТЕХНОЛОГИИ DATA MINING Потенциал Data Mining дает «зеленый свет» для расширения границ применения тех- нологии. Относительно перспектив Data Mining возможны следующие направления раз- вития: • выделение типов предметных областей с соответствующими им эвристиками, фор- мализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям; • создание формальных языков и логических средств, с помощью которых будут формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях; • создание методов Data Mining, способных не только извлекать из данных законо- мерности, но и формировать определенные теории, опирающиеся на эмпирические дан- ные; • преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области. Если рассматривать будущее Data Mining в краткосрочной перспективе, то очевидно, что развитие этой технологии наиболее направлено к областям, связанным с бизнесом. Продукты Data Mining могут стать такими же обычными и необходимыми, как элек- тронная почта, и, например, использоваться для поиска самых низких цен на определен- ный товар или наиболее дешевых билетов. Однако Data Mining таит в себе и потенциальную опасность, ведь все большее количе- ство информации становится доступным через всемирную сеть, в том числе и сведения частного характера, и все больше знаний возможно добыть из нее. Не так давно круп- нейший онлайновый магазин Amazon оказался в центре скандала по поводу полученного им патента «Методы и системы помощи пользователям при покупке товаров», который представляет собой по сути очередной продукт Data Mining, предназначенный для сбора персональных данных о посетителях магазина. Новая методика позволяет прогнозиро- вать будущие запросы на основании фактов покупок, а также делать выводы об их назначении. Цель данной методики – получение как можно большего количества ин- формации о клиентах (пол, возраст, предпочтения и т. д.). Существуют как успешные решения, использующие Data Mining, так и неудачный опыт применения этой технологии. Области, где применение технологии Data Mining, скорее всего, будет успешным, имеют такие особенности: • требуют решений, основанных на знаниях; • имеют изменяющуюся окружающую среду; • имеют доступные, достаточные и значимые данные; • обеспечивают высокие дивиденды от правильных решений. 4.5. КЛАССИФИКАЦИЯ СТАДИЙ DATA MINING Data Mining может состоять из двух или трех стадий. Стадия 1. Выявление закономерностей (свободный поиск). Стадия 2. Использование выявленных закономерностей для предсказания неизвест- ных значений (прогностическое моделирование). В дополнение к этим стадиям иногда вводят стадию валидации, следующую за стади- ей свободного поиска. Цель валидации – проверка достоверности найденных закономер- ностей. Однако многие аналитики считают валидацию частью первой стадии, поскольку в реализации многих методов, в частности нейронных сетей и деревьев решений, преду- смотрено деление общего множества данных на обучающее и проверочное, и последнее позволяет проверять достоверность полученных результатов. Стадия 3. Анализ исключений – стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях. Свободный поиск (Discovery) На стадии свободного поиска осуществляется исследование набора данных с целью поиска скрытых закономерностей. Предварительные гипотезы относительно вида зако- номерностей здесь не определяются. Закономерность (law) – существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления, развития различных явлений или процессов. Система Data Mining на этой стадии определяет шаблоны, для получения которых в системах OLAP, например, аналитику необходимо обдумывать и создавать множество запросов. Здесь же аналитик освобождается от такой работы – шаблоны ищет за него си- стема. Особенно полезно применение данного подхода в сверхбольших базах данных, где уловить закономерность путем создания запросов достаточно сложно, для этого тре- буется перепробовать множество разнообразных вариантов. Свободный поиск представлен такими действиями: • выявление закономерностей условной логики (conditional logic); • выявление закономерностей ассоциативной логики (associations and affinities); • выявление трендов и колебаний (trends and variations). Допустим, имеется база данных кадрового агентства с данными о профессии, стаже, возрасте и желаемом уровне вознаграждения. В случае самостоятельного задания запро- сов аналитик может получить приблизительно такие результаты: средний желаемый уровень вознаграждения специалистов в возрасте от 25 до 35 лет равен 1 200 условных единиц. В случае свободного поиска система сама ищет закономерности, необходимо лишь задать целевую переменную. В результате поиска закономерностей система сфор- мирует набор логических правил «если ..., то ...». Могут быть найдены, например, такие закономерности «Если возраст менее 20 лет и желаемый уровень вознаграждения более 700 условных единиц, то в 75 % случаев соис- катель ищет работу программиста» или «Если возраст более 35 лет и желаемый уровень вознаграждения более 1 200 условных единиц, то в 90 % случаев соискатель ищет руко- водящую работу». Целевой переменной в описанных правилах выступает профессия. При задании другой целевой переменной, например возраста, получаем такие правила: «Если соискатель ищет руководящую работу и его стаж более 15 лет, то возраст соиска- теля – более 35 лет в 65 % случаев». Описанные действия в рамках стадии свободного поиска выполняются при помощи: • индукции правил условной логики (задачи классификации и кластеризации, описа- ние в компактной форме близких или схожих групп объектов); • индукции правил ассоциативной логики (задачи ассоциации и последовательности и извлекаемая при их помощи информация); • определения трендов и колебаний (исходный этап задачи прогнозирования). На стадии свободного поиска также должна осуществляться валидация закономерно- стей, т. е. проверка их достоверности на части данных, которые не принимали участие в формировании закономерностей. Такой прием разделения данных на обучающее и про- верочное множества часто используется в методах нейронных сетей и деревьев решений и будет описан в соответствующих лекциях. Прогностическое моделирование (Predictive Modeling) Вторая стадия Data Mining – прогностическое моделирование – использует результаты работы первой стадии. Здесь обнаруженные закономерности используются непосред- ственно для прогнозирования. Прогностическое моделирование включает такие действия: − предсказание неизвестных значений (outcome prediction); − прогнозирование развития процессов (forecasting). В процессе прогностического моделирования решаются задачи классификации и про- гнозирования. При решении задачи классификации результаты работы первой стадии (индукции пра- вил) используются для отнесения нового объекта с определенной уверенностью к одно- му из известных, предопределенных классов на основании известных значений. При решении задачи прогнозирования результаты первой стадии (определение тренда или колебаний) используются для предсказания неизвестных (пропущенных или же бу- дущих) значений целевой переменной (переменных). Продолжая рассмотренный пример первой стадии, можем сделать следующий вывод. Зная, что соискатель ищет руководящую работу и его стаж более 15 лет, на 65 % можно быть уверенным в том, что возраст соискателя –более 35 лет. Или же, если возраст соис- кателя более 35 лет и желаемый уровень вознаграждения – более 1 200 условных еди- ниц, на 90 % можно быть уверенным в том, что соискатель ищет руководящую работу. Сравнивая свободный поиск и прогностическое моделирование с точки зрения логи- ки, можно отметить следующее. Свободный поиск раскрывает общие закономерности. Закономерности, полученные на этой стадии, формируются от частного к общему. В ре- зультате мы получаем некоторое общее знание о некотором классе объектов на основа- нии исследования отдельных представителей этого класса. Правило: «Если возраст со- искателя менее 20 лет и желаемый уровень вознаграждения более 700 условных еди- ниц, то в 75 % случаев соискатель ищет работу программиста». На основании частного, т. е. информации о некоторых свойствах класса – «возраст более 20 лет» и «желаемый уровень вознаграждения более 700 условных единиц» – мы делаем вывод об общем, а именно: соискатели – программисты. Закономерности, полученные на стадии прогностического моделирования, формиру- ются от общего к частному и единичному. Здесь мы получаем новое знание о некотором объекте или же группе объектов на основании: • знания класса, к которому принадлежат исследуемые объекты; • знания общего правила, действующего в пределах данного класса объектов. Знаем, что соискатель ищет руководящую работу и его стаж более 15 лет, на 65 % можно быть уверенным в том, что возраст соискателя более 35 лет. На основании некоторых общих правил, а именно: цель соискателя – руководящая ра- бота и его стаж более 15 лет – и мы делаем вывод о единичном: возраст соискателя – бо- лее 35 лет. Следует отметить, что полученные закономерности, а точнее, их конструкции, могут быть прозрачными, т. е. допускающими толкование аналитика, и непрозрачными, так называемыми «черными ящиками». Типичный пример последней конструкции – нейронная сеть. Анализ исключений (forensic analysis) На третьей стадии Data Mining анализируются исключения или аномалии, выявленные в найденных закономерностях. Действие, выполняемое на этой стадии, – выявление от- клонений (deviation detection). Для выявления отклонений необходимо определить нор- му, которая рассчитывается на стадии свободного поиска. Вернемся к одному из примеров, рассмотренных выше. Найдено правило «Если воз- раст более 35 лет и желаемый уровень вознаграждения более 1 200 условных единиц, то в 90 % случаев соискатель ищет руководящую работу». Возникает вопрос, к чему отне- сти оставшиеся 10 % случаев. Здесь возможны два варианта. Первый из них – существует некоторое логическое объ- яснение, которое также может быть оформлено в виде правила. Второй вариант для оставшихся 10 % – это ошибки исходных данных. В этом случае стадия анализа исклю- чений может быть использована в качестве очистки данных. 4.6. КЛАССИФИКАЦИЯ МЕТОДОВ DATA MINING Все методы Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования. 1. Непосредственное использование данных, или сохранение данных. В этом случае ис- ходные данные хранятся в явном детализированном виде и непосредственно использу- ются на стадиях прогностического моделирования и (или) анализа исключений. Пробле- ма этой группы методов – при их использовании могут возникнуть сложности анализа сверхбольших баз данных. Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии. 2. Выявление и использование формализованных закономерностей, или дистилляция шаблонов. При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии свободного поиска, у первой же группы методов данная стадия в принципе от- сутствует. На стадиях прогностического моделирования и анализа исключений исполь- зуются результаты стадии свободного поиска, они значительно компактнее самих баз данных. Конструкции этих моделей могут быть трактуемыми аналитиком либо нетрак- туемыми («черными ящиками»). Методы этой группы: логические методы, методы визу- ализации, методы кросс-табуляции, методы, основанные на уравнениях. Логические методы, или методы логической индукции, включают: нечеткие запросы и анализы, символьные правила, деревья решений, генетические алгоритмы. Методы этой группы являются, пожалуй, наиболее интерпретируемыми – они оформляют найденные закономерности в большинстве случаев в достаточно прозрачном виде с точки зрения пользователя. Полученные правила могут включать непрерывные и дискретные пере- менные. Следует заметить, что деревья решений могут быть легко преобразованы в наборы символьных правил путем генерации одного правила по пути от корня дерева до его терминальной вершины. Деревья решений и правила фактически являются разными способами решения одной задачи и отличаются лишь по своим возможностям. Кроме того, реализация правил осуществляется более медленными алгоритмами, чем индукция деревьев решений. Методы кросс-табуляции: агенты, баесовские (доверительные) сети, кросс-табличная визуализация. Последний метод не совсем отвечает одному из свойств Data Mining – са- мостоятельному поиску закономерностей аналитической системой. Однако предостав- ление информации в виде кросс-таблиц обеспечивает реализацию основной задачи Data Mining – поисках шаблонов, поэтому этот метод можно также считать одним из методов Data Mining. Методы на основе уравнений выражают выявленные закономерности в виде математи- ческих выражений, уравнений. Следовательно, они могут работать лишь с численными переменными и переменные других типов должны быть закодированы соответствую- щим образом. Это несколько ограничивает применение методов данной группы, тем не менее они широко используются при решении различных задач, особенно задач прогно- зирования. Основные методы данной группы: статистические методы и нейронные сети. Статистические методы наиболее часто применяются для решения задач прогнозирова- ния. Существует множество методов статистического анализа данных, среди них, например, корреляционно-регрессионный анализ, корреляция рядов динамики, выявле- ние тенденций динамических рядов, гармонический анализ. Различают статистические методы, основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных, и кибернетические методы, включающие множество разнородных математических подходов. Недостатком такой классификации является то, что и статистические, и кибернетические алгоритмы опираются на сопоставление статистического опыта с результатами мониторинга теку- щей ситуации. Преимуществом является удобство для интерпретации – она используется при описании математических средств современного подхода к извлечению знаний из массивов исходных наблюдений (оперативных и ретроспективных), т. е. в задачах Data Mining. Статистические методы Data mining Статистические методы Data mining представляют собой четыре взаимосвязанных раздела: • предварительный анализ природы статистических данных (проверка гипотез стаци- онарности, нормальности, независимости, однородности, оценка вида функции распре- деления, ее параметров и т. п.); • выявление связей и закономерностей (линейный и нелинейный регрессионный ана- лиз, корреляционный анализ и др.); • многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.); • динамические модели и прогноз на основе временных рядов. Арсенал статистических методов Data Mining классифицирован на четыре группы ме- тодов: 1. Дескриптивный анализ и описание исходных данных. 2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дис- персионный анализ). 3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.). 4. Анализ временных рядов (динамические модели и прогнозирование). Кибернетические методы Data Mining Второе направление Data Mining – это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта. К этой группе относятся такие методы: • искусственные нейронные сети (распознавание, кластеризация, прогноз); • эволюционное программирование (в т. ч. алгоритмы метода группового учета аргу- ментов); • генетические алгоритмы (оптимизация); • ассоциативная память (поиск аналогов, прототипов); • нечеткая логика; • деревья решений; • системы обработки экспертных знаний. Методы Data Mining также можно классифицировать по задачам (более подробно за- дачи Data Mining мы рассмотрим позже). В соответствии с такой классификацией выделяются две группы. Первая из них – это подразделение методов Data Mining на решающие задачи сегментации (т. е. задачи клас- сификации и кластеризации) и задачи прогнозирования. В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и прогнозирующих результатов. Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика. Прогнозирующие методы используют значения одних переменных для предсказания (прогнозирования) неизвестных (пропущенных) или будущих значений других (целевых) переменных. К методам, направленным на получение прогнозирующих результатов, относятся такие методы: нейронные сети, деревья решений, линейная регрессия, метод ближайшего со- седа, метод опорных векторов и др. 4.7. СФЕРЫ ПРИМЕНЕНИЯ DATA MINING Следует сразу сказать, что область использования Data Mining ничем не ограничена – она везде, где имеются какие-либо данные. Рассмотрим, где Data Mining работает и дает реальные результаты. Выделяются два направления применения систем Data Mining как массового продукта и как инструмента для проведения уникальных исследований. На сегодняшний день наибольшее распространение технология Data Mining получила при решении бизнес- задач. Возможно, причина в том, что именно в этом направлении отдача от использова- ния инструментов Data Mining может составлять, по некоторым источникам, до 1 000 % и затраты на ее внедрение могут достаточно быстро окупиться. Сейчас технология Data Mining используется практически во всех сферах деятельности человека, где накоплены ретроспективные данные. Рассматрим четыре основные сферы применения технологии Data Mining подробно: • применение Data Mining для решения бизнес-задач. Основные направления: банков- ское дело, финансы, страхование, CRM, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие; • применение Data Mining для решения задач государственного уровня. Основные направления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом; • применение Data Mining для научных исследований. Основные направления: меди- цина, биология, молекулярная генетика и генная инженерия, биоинформатика, астроно- мия, прикладная химия, исследования, касающиеся наркотической зависимости, и др.; • применение Data Mining для решения web-задач. Основные направления: поисковые машины (search engines), счетчики и др. Применение Data Mining для решения бизнес-задач Банковское дело. Технология Data Mining используется в банковской сфере для реше- ния ряда типичных задач. Задача «Выдавать ли кредит клиенту?» Классический пример применения Data Mining в банковском деле – решение задачи определения возможной некредитоспособ- ности клиента банка. Эту задачу также называют анализом кредитоспособности клиента или «Выдавать ли кредит клиенту?». Без применения технологии Data Mining задача ре- шается сотрудниками банковского учреждения на основе их опыта, интуиции и субъек- тивных представлений о том, какой клиент является благонадежным. По похожей схеме работают системы поддержки принятия решений и на основе методов Data Mining. Та- кие системы на основе исторической (ретроспективной) информации и при помощи ме- тодов классификации выявляют клиентов, которые в прошлом не вернули кредит. Задача «Выдавать ли кредит клиенту?» при помощи методов Data Mining решается следующим образом. Совокупность клиентов банка разбивается на два класса (вернув- шие и не вернувшие кредит); на основе группы клиентов, не вернувших кредит, опреде- ляются основные «черты» потенциального неплательщика, при поступлении информа- ции о новом клиенте определяется его класс («вернет кредит», «не вернет кредит»). Задача привлечения новых клиентов банка. С помощью инструментов Data Mining возможно провести классификацию на «более выгодных» и «менее выгодных» клиентов. После определения наиболее выгодного сегмента клиентов банку есть смысл проводить более активную маркетинговую политику по привлечению клиентов именно среди найденной группы. Другие задачи сегментации клиентов. Разбивая клиентов при помощи инструментов Data Mining на различные группы, банк имеет возможность сделать свою маркетинговую политику более целенаправленной, а потому эффективной, предлагая различным груп- пам клиентов именно те виды услуг, в которых они нуждаются. Задача управления ликвидностью банка, прогнозирование остатка на счетах клиен- тов. При прогнозировании временного ряда с информацией об остатках на счетах кли- ентов за предыдущие периоды, применяя методы Data Mining, можно получить прогноз остатка на счетах в определенный момент в будущем. Полученные результаты могут быть использованы для оценки и управления ликвидностью банка. Задача выявления случаев мошенничества с кредитными карточками. Для выявления подозрительных операций с кредитными карточками применяются так называемые «по- дозрительные стереотипы поведения», определяемые в результате анализа банковских транзакций, которые впоследствии оказались мошенническими. Для определения подо- зрительных случаев используется совокупность последовательных операций на опреде- ленном временном интервале. Если система Data Mining считает очередную операцию подозрительной, банковский работник может, ориентируясь на эту информацию, забло- кировать операции с определенной карточкой. Страхование. Страховой бизнес связан с определенным риском. Здесь задачи, реша- емые при помощи Data Mining, сходны с задачами в банковском деле. Информация, по- лученная в результате сегментации клиентов на группы, используется для определения групп клиентов. В результате страховая компания может с наибольшей выгодой и наименьшим риском предлагать определенные группы услуг конкретным группам кли- ентов. Задача выявление мошенничества решается путем нахождения некоего общего стереотипа поведения клиентов-мошенников. Телекоммуникации. В сфере телекоммуникаций достижения Data Mining могут ис- пользоваться для решения задачи, типичной для любой компании, которая работает с целью привлечения постоянных клиентов, – определения лояльности этих клиентов. Необходимость решения таких задач обусловлена жесткой конкуренцией на рынке теле- коммуникаций и постоянной миграцией клиентов от одной компании в другую. Как из- вестно, удержание клиента намного дешевле его возврата, поэтому возникает необходи- мость выявления определенных групп клиентов и разработка наборов услуг, наиболее привлекательных именно для них. В этой сфере, так же, как и во многих других, важной задачей является выявление фактов мошенничества. Помимо таких задач, являющихся типичными для многих областей деятельности, существует группа задач, определяемых спецификой сферы телекоммуникаций. Электронная коммерция. В сфере электронной коммерции Data Mining применяется для формирования рекомендательных систем и решения задач классификации посетите- лей web-сайтов. Такая классификация позволяет компаниям выявлять определенные группы клиентов и проводить маркетинговую политику в соответствии с обнаруженны- ми интересами и потребностями клиентов. Технология Data Mining для электронной коммерции тесно связана с технологией Web Mining. Промышленное производство. Особенности промышленного производства и техно- логических процессов создают хорошие предпосылки для возможности использования технологии Data Mining в ходе решения различных производственных задач. Технологи- ческий процесс по своей природе должен быть контролируемым, а все его отклонения находятся в заранее известных пределах, т. е. здесь мы можем говорить об определенной стабильности, которая обычно не присуща большинству задач, встающих перед техно- логией Data Mining. Основные задачи Data Mining в промышленном производстве: • комплексный системный анализ производственных ситуаций; • краткосрочный и долгосрочный прогноз развития производственных ситуаций; • выработка вариантов оптимизационных решений; • прогнозирование качества изделия в зависимости от некоторых параметров техно- логического процесса; • обнаружение скрытых тенденций и закономерностей развития производственных процессов; • прогнозирование закономерностей развития производственных процессов; • обнаружение скрытых факторов влияния; • обнаружение и идентификация ранее неизвестных взаимосвязей между производ- ственными параметрами и факторами влияния; • анализ среды взаимодействия производственных процессов и прогнозирование из- менения ее характеристик; • выработка оптимизационных рекомендаций по управлению производственными процессами; • визуализация результатов анализа, подготовка предварительных отчетов и проектов допустимых решений с оценками достоверности и эффективности возможных реализа- ций. Маркетинг. В сфере маркетинга Data Mining находит очень широкое применение. Основные вопросы маркетинга «Что продается?», «Как продается?», «Кто является по- требителем?». Широко применяются такие методы анализа для решения задач маркетин- га, как, например, сегментация потребителей. Другой распространенный набор методов для решения задач маркетинга – методы и алгоритмы поиска ассоциативных правил. Также успешно здесь используется поиск временных закономерностей. Розничная торговля. В сфере розничной торговли, как и в маркетинге, применяются: • алгоритмы поиска ассоциативных правил (для определения часто встречающихся наборов товаров, которые покупатели покупают одновременно). Выявление таких пра- вил помогает размещать товары на прилавках торговых залов, вырабатывать стратегии закупки товаров и их размещения на складах и т. д.; • использование временных последовательностей, например для определения необхо- димых объемов запасов товаров на складе; • методы классификации и кластеризации для определения групп или категорий кли- ентов, знание которых способствует успешному продвижению товаров. Фондовый рынок. Приведем список задач фондового рынка, которые можно решать при помощи технологии Data Mining: • прогнозирование будущих значений финансовых инструментов и индикаторов по их прошлым значениям; • прогноз тренда (будущего направления движения – рост, падение, флэт) финансового инструмента и его силы (сильный, умеренно сильный и т. д.); • выделение кластерной структуры рынка, отрасли, сектора по некоторому набору ха- рактеристик; • динамическое управление портфелем; • прогноз волатильности; • оценка рисков; • предсказание наступления кризиса и прогноз его развития; • выбор активов и др. Кроме описанных выше сфер деятельности, технология Data Mining может приме- няться в самых разнообразных областях бизнеса, где есть необходимость в анализе дан- ных и накоплен некоторый объем ретроспективной информации. Применение Data Mining в CRM Одно из наиболее перспективных направлений применения Data Mining – использова- ние данной технологии в аналитическом CRM. CRM (Customer Relationship Management) – управление отношениями с клиентами. При совместном использовании этих технологий добыча знаний совмещается с «до- бычей денег» из данных о клиентах. Важным аспектом в работе отдела маркетинга и от- дела продаж является составление целостного представления о клиентах, информация об их особенностях, характеристиках, структуре клиентской базы. В CRM используется так называемое профилирование клиентов, дающее полное представление всей необходимой информации о них. Профилирование клиентов включает следующие компоненты: сег- ментацию клиентов, прибыльность клиентов, удержание клиентов, анализ реакции кли- ентов. Каждый из этих компонентов может исследоваться при помощи Data Mining, а анализ их в совокупности как компонентов профилирования в результате может дать те знания, которые из каждой отдельной характеристики получить невозможно. В результате использования Data Mining решается задача сегментации клиентов на ос- нове их прибыльности. Анализ выделяет те сегменты покупателей, которые приносят наибольшую прибыль. Сегментация также может осуществляться на основе лояльности клиентов. В результате сегментации вся клиентская база будет поделена на определен- ные сегменты с общими характеристиками. В соответствии с этими характеристиками компания может индивидуально подбирать маркетинговую политику для каждой группы клиентов. Также можно использовать технологию Data Mining для прогнозирования реакции определенного сегмента клиентов на определенный вид рекламы или рекламных акций – на основе ретроспективных данных, накопленных в предыдущие периоды. Таким образом, определяя закономерности поведения клиентов при помощи техноло- гии Data Mining, можно существенно повысить эффективность работы отделов марке- тинга, продаж и сбыта. При объединении технологий CRM и Data Mining и грамотном их внедрении в бизнес компания получает значительные преимущества перед конкурен- тами. Исследования для правительства В планах правительства США стоит создание системы, которая позволит отслеживать всех иностранцев, приезжающих в страну. Задача этого комплекса – начиная с погра- ничного терминала, на основе технологии биометрической идентификации личности и различных других баз данных контролировать, насколько реальные планы иностранцев соответствуют заявленным ранее (включая перемещения по стране, сроки отъезда и др.). Предварительная стоимость системы составляет более 10 млрд долларов, разработчик комплекса – компания Accenture. По данным аналитического отчета Главного контроль- ного управления американского Конгресса, правительственные ведомства США участ- вуют приблизительно в двухстах проектах на основе анализа данных (Data Mining), со- бирающих разнообразную информацию о населении. Более ста из этих проектов направ- лены на сбор персональной информации (имена, фамилии, адреса e-mail, номера соцстрахования и удостоверений водительских прав), и на основе этой информации осуществляются предсказания возможного поведения людей. Поскольку в упомянутом отчете не приведена информация о секретных отчетах, надо полагать, что общее число таких систем значительно больше. Несмотря на пользу, которую приносят системы от- слеживания, эксперты управления, так же, как и независимые эксперты, предупреждают о значительном риске, с которым связаны подобные проекты. Причина опасений – про- блемы, которые могут возникнуть при управлении и надзоре за такими базами. Data Mining для научных исследований Биоинформатика. Одна из научных областей применения технологии Data Mining – биоинформатика – направление, целью которого является разработка алгоритмов для анализа и систематизации генетической информации. Полученные алгоритмы исполь- зуются для определения структур макромолекул, а также их функций с целью объясне- ния различных биологических явлений. Медицина. Несмотря на консервативность медицины во многих ее аспектах техноло- гия Data Mining в последние годы активно применяется для различных исследований и в этой сфере человеческой деятельности. Традиционно для постановки медицинских диа- гнозов используются экспертные системы, которые построены на основе символьных правил, сочетающих, например, симптомы пациента и его заболевание. С использованием Data Mining при помощи шаблонов можно разработать базу знаний для экспертной систе- мы. Фармацевтика. В области фармацевтики методы Data Mining также имеют достаточ- но широкое применение. Это исследование эффективности клинического применения определенных препаратов, определение групп препаратов, которые будут эффективны для конкретных групп пациентов. Актуальными здесь также являются задачи продвиже- ния лекарственных препаратов на рынок. Молекулярная генетика и генная инженерия. В молекулярной генетике и генной инже- нерии выделяют отдельное направление Data Mining, которое называют анализом данных в микромассивах (Microarray Data Analysis, MDA). Некоторые области применения этого направления: • ранняя и более точная диагностика; • новые молекулярные цели для терапии; • улучшенные и индивидуально подобранные виды лечения; • фундаментальные биологические открытия. Примеры использования Data Mining – молекулярный диагноз некоторых серьезней- ших заболеваний; открытие того, что генетический код действительно может предска- зывать вероятность заболевания; открытие некоторых новых лекарств и препаратов. Основные понятия, которыми оперирует Data Mining в областях молекулярной гене- тики и генной инженерии, – маркеры, т. е. генетические коды, которые контролируют различные признаки живого организма. На финансирование проектов с использованием Data Mining в рассматриваемых сферах выделяют значительные финансовые средства. Химия. Технология Data Mining активно используется в исследованиях органической и неорганической химии. Одно из возможных применений Data Mining в этой сфере – вы- явление каких-либо специфических особенностей строения соединений, которые могут включать тысячи элементов. Web Mining. Web Mining можно перевести как «добыча данных в Web». Web Intelligence, или web-интеллект, готов «открыть новую главу» в стремительном развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посе- тителя, наблюдая за его поведением, является серьезным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции. Системы Web Mining могут от- ветить на многие вопросы, например, кто из посетителей является потенциальным кли- ентом web-магазина, какая группа клиентов web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей. Технология Web Mining охватывает методы, которые способны на основе данных сай- та обнаружить новые ранее неизвестные знания и которые в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет техно- логию Data Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на web-узлах. Можно выделить два основных направления: Web Content Mining и Web Usage Mining. Web Content Mining подразумевает автоматический поиск и извлечение качественной информации из разнообразных источников Интернета, перегруженных «информацион- ным шумом». Здесь также идет речь о различных средствах кластеризации и аннотиро- вании документов. Второе направление – Web Usage Mining – подразумевает обнаружение закономерно- стей в действиях пользователя web-узла или их группы. Анализируется следующая информация: • какие страницы просматривал пользователь; • какова последовательность просмотра страниц. Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра web-узла. Web Usage Mining включает следующие составляющие: • предварительная обработка; • операционная идентификация; • инструменты обнаружения шаблонов; • инструменты анализа шаблонов. При использовании Web Mining перед разработчиками возника.т два типа задач. Пер- вый касается сбора данных, второй – использования методов персонификации. В резуль- тате сбора некоторого объема персонифицированных ретроспективных данных о кон- кретном клиенте система накапливает определенные знания о нем и может рекомендо- вать ему, например, определенные наборы товаров или услуг. На основе информации о всех посетителях сайта web-система может выявить определенные группы посетителей и также рекомендовать им товары или же предлагать товары в рассылках. Задачи Web Mining можно подразделить на такие категории: • предварительная обработка данных для Web Mining; • обнаружение шаблонов и открытие знаний с использованием ассоциативных пра- вил, временных последовательностей, классификации и кластеризации; • анализ полученного знания. Text Mining. Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text – поиск или обнаружение знаний в тексте). В отличие от технологии Data Mining, которая предусматривает анализ упорядочен- ной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации. Программы, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основаны некоторые Text Mining-системы, – поиск так называемой подстроки в строке. Call Mining. «Добыча звонков» может стать популярным инструментом корпоратив- ных информационных систем. Технология Call Mining объединяет распознавание речи, ее анализ и Data Mining. Ее цель – упрощение поиска в аудиоархивах, содержащих запи- си переговоров между операторами и клиентами. При помощи этой технологии операто- ры могут обнаруживать недостатки в системе обслуживания клиентов, находить воз- можности увеличения продаж, а также выявлять тенденции в обращениях клиентов. Среди разработчиков новой технологии Call Mining (добыча и анализ звонков) – компа- нии CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработаны два подхода: на основе преобразования речи в текст и на базе фонетического анализа. Примером реализации первого подхода, основанного на преобразовании речи, являет- ся система Call Miner. В процессе Call Mining сначала используется система преобразо- вания речи, затем следует ее анализ, в ходе которого в зависимости от содержания раз- говоров формируется статистика телефонных вызовов. Полученная информация хранит- ся в базе данных, в которой возможны поиск, извлечение и обработка. Пример реализации второго подхода – фонетического анализа – продукция компании Nexidia. При этом подходе речь разбивается на фонемы, являющиеся звуками или их со- четаниями. Такие элементы образуют распознаваемые фрагменты. При поиске опреде- ленных слов и их сочетаний система идентифицирует их с фонемами. Аналитики отме- чают, что за последние годы интерес к системам на основе Call Mining значительно воз- рос. Это объясняется тем фактом, что менеджеры высшего звена компаний, работающих в различных сферах, в т. ч. в области финансов, мобильной связи, авиабизнеса, не хотят тратить много времени на прослушивание звонков с целью обобщения информации или же выявления каких-либо фактов нарушений. Использование этих технологий повышает оперативность и снижает стоимость обработки информации. Тема 5 ЗАДАЧИ DATA MINING 5.1. ВИДЫ ЗАДАЧ DATA MINING Напомним, что в основу технологии Data Mining положена концепция шаблонов, представляющих собой закономерности. В результате обнаружения этих скрытых от не- вооруженного глаза закономерностей решаются задачи Data Mining. Различным типам закономерностей, которые могут быть выражены в форме, понятной человеку, соответ- ствуют определенные задачи Data Mining. Задачи (tasks) Data Mining называют закономерностями (regularity) или техниками (techniques). Единого мнения относительно того, какие задачи следует относить к Data Mining, нет. Большинство авторитетных источников перечисляют следующие: классификация, кла- стеризация, прогнозирование, ассоциация, визуализация, анализ и обнаружение откло- нений, оценивание, анализ связей, подведение итогов. Наиболее распространенные зада- чи Data Mining – классификация, кластеризация, ассоциация, прогнозирование. Классификация (Classification) – наиболее простая и распространенная задача Data Mining. В результате решения задачи классификации обнаруживаются признаки, кото- рые характеризуют группы объектов исследуемого набора данных – классы; по этим признакам новый объект можно отнести к тому или иному классу. Для решения задачи классификации могут использоваться методы: ближайшего сосе- да (Nearest Neighbor), k-ближайшего соседа (k-Nearest Neighbor), байесовские сети (Bayesian Networks), индукция деревьев решений, нейронные сети (neural networks). Кластеризация (Clustering) является логическим продолжением идеи классификации. Это задача более сложная; особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение «без учителя» особого вида нейронных сетей – самоорганизующихся карт Кохонена. Ассоциация (Associations). В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими со- бытиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил – алгоритм Apriori. Последовательность (Sequence), или последовательная ассоциация (sequential association), позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление законо- мерностей не между одновременно наступающими событиями, а между событиями, свя- занными во времени (т. е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Фактически ассоциация является частным слу- чаем последовательности с временным лагом, равным нулю. Эту задачу Data Mining также называют задачей нахождения последовательных шаблонов (sequential pattern). Правило последовательности: после события X через определенное время произойдет событие Y. Пример. После покупки квартиры жильцы в 60 % случаев в течение двух недель при- обретают холодильник, а в течение двух месяцев в 50 % случаев приобретается телеви- зор. Решение данной задачи широко применяется в маркетинге и менеджменте, напри- мер при управлении циклом работы с клиентом (Customer Lifecycle Management). Прогнозирование (Forecasting). В результате решения задачи прогнозирования на ос- нове особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применя- ются методы математической статистики, нейронные сети и др. Определение отклонений, или выбросов (Deviation Detection), анализ отклонений, или выбросов. Цель решения данной задачи – обнаружение и анализ данных, наиболее отли- чающихся от общего множества данных, выявление так называемых нехарактерных шаблонов. Оценивание (Estimation) сводится к предсказанию непрерывных значений признака. Анализ связей (Link Analysis) – задача нахождения зависимостей в наборе данных. Визуализация (Visualization, Graph Mining). В результате визуализации создается гра- фический образ анализируемых данных. Для решения задачи визуализации используют- ся графические методы, показывающие наличие закономерностей в данных. Пример ме- тодов визуализации – представление данных в 2-D и 3-D измерениях. Подведение итогов (Summarization) – задача, цель которой – описание конкретных групп объектов из анализируемого набора данных. 5.2. КЛАССИФИКАЦИЯ ЗАДАЧ DATA MINING Согласно классификации по стратегиям задачи Data Mining подразделяются на следу- ющие группы: • обучение с учителем; • обучение без учителя; • другие. Категория «обучение с учителем» представлена следующими задачами Data Mining: классификация, оценка, прогнозирование. Категория «обучение без учителя» представлена задачей кластеризации. Задачи Data Mining в зависимости от используемых моделей могут быть дескриптив- ными и прогнозирующими. В соответствии с этой классификацией задачи Data Mining представлены группами описательных и прогнозирующих задач. В результате решения описательных (descriptive) задач аналитик получает шаблоны, описывающие данные, которые поддаются интерпретации. Эти задачи описывают об- щую концепцию анализируемых данных, определяют информативные, итоговые, отли- чительные особенности данных. Концепция описательных задач подразумевает характе- ристику и сравнение наборов данных. Характеристика набора данных обеспечивает краткое и сжатое описание некоторого набора данных. Сравнение обеспечивает сравнительное описание двух или более наборов данных. Прогнозирующие (predictive) задачи основываются на анализе данных, создании моде- ли, предсказании тенденций или свойств новых или неизвестных данных. Достаточно близким к данной классификации является подразделение задач Data Mining на следующие: исследования и открытия, прогнозирования и классификации, объяснения и описания. Автоматическое исследование и открытие (свободный поиск). Пример задачи: обна- ружение новых сегментов рынка. Для решения данного класса задач используются мето- ды кластерного анализа. Прогнозирование и классификация. Пример задачи: предсказание роста объемов про- даж на основе текущих значений. Методы: регрессия, нейронные сети, генетические ал- горитмы, деревья решений. Задачи классификации и прогнозирования составляют груп- пу так называемого индуктивного моделирования, в результате которого обеспечивается изучение анализируемого объекта или системы. В процессе решения этих задач на осно- ве набора данных разрабатывается общая модель или гипотеза. Объяснение и описание. Пример задачи: характеристика клиентов по демографиче- ским данным и историям покупок. Методы: деревья решения, системы правил, правила ассоциации, анализ связей. Если доход клиента больше, чем 50 условных единиц, и его возраст более 30 лет, тогда класс клиента – первый. В интерпретации обобщенной моде- ли аналитик получает новое знание. Группировка объектов происходит на основе их сходства. 5.3. СВЯЗЬ ПОНЯТИЙ «ДАННЫЕ», «ИНФОРМАЦИЯ», «ЗНАНИЯ», «РЕШЕНИЯ» Главная ценность Data Mining – это практическая направленность данной технологии, путь от сырых данных к конкретному знанию, от постановки задачи к готовому прило- жению, при поддержке которого можно принимать решения. Многочисленность поня- тий, которые объединились в Data Mining, а также разнообразие методов, поддержива- ющих данную технологию, начинающему аналитику могут напомнить мозаику, части которой мало связаны между собой. Как же мы можем связать в одно целое задачи, методы, действия, закономерности, приложения, данные, информацию, решения? Рассмотрим два потока: 1) данные – информация – знания и решения; 2) задачи – действия и методы решения – приложения. Эти потоки являются отображением одного процесса, результатом которого должно быть знание и принятие решения. Принятие решений требует информации, которая основана на данных. Данные обес- печивают информацию, которая поддерживает решения, и т. д. Рассмотренные понятия являются составной частью так называемой информационной пирамиды, в основании которой находятся данные; следующий уровень – это информа- ция; затем идет решение; завершает пирамиду уровень знания. По мере продвижения вверх по информационной пирамиде объемы данных переходят в ценность решений, т. е. ценность для бизнеса. А, как известно, целью Business Intelligence является преобра- зование объемов данных в ценность бизнеса. Следует отметить, что уровни анализа (данные, информация, знания) практически со- ответствуют этапам эволюции анализа данных, которая происходила на протяжении по- следних лет. Верхний уровень – приложений – является уровнем бизнеса (если мы имеем дело с за- дачей бизнеса), на нем менеджеры принимают решения. Примеры приложений: пере- крестные продажи, контроль качества, удерживание клиентов. Средний уровень – действий – по своей сути является уровнем информации, именно на нем выполняются действия Data Mining. На рисунке приведены такие действия: про- гностическое моделирование (было рассмотрено ранее), анализ связей, сегментация дан- ных и другие. Нижний уровень – определения задачи Data Mining, которую необходимо решить применительно к данным, имеющимся в наличии. На рисунке приведены задачи пред- сказания числовых значений, классификация, кластеризация, ассоциация. Рассмотрим задачу удержания клиентов (определения надежности клиентов фирмы). Первый уровень: данные – база данных по клиентам. Есть данные о клиенте (возраст, пол, профессия, доход). Определенная часть клиентов, воспользовавшись продуктом фирмы, осталась ей верна; другие клиенты больше не приобретали продукты фирмы. На этом уровне мы определяем тип задачи – это задача классификации. На втором уровне определяем действие – прогностическое моделирование. С помо- щью прогностического моделирования мы с определенной долей уверенности можем отнести новый объект, в данном случае, – нового клиента, к одному из известных клас- сов: постоянный клиент, или это, скорее всего, его разовая покупка. На третьем уровне мы можем воспользоваться приложением для принятия решения. В результате приобретения знаний фирма может существенно снизить расходы, напри- мер, на рекламу, зная заранее, каким из клиентов следует активно рассылать рекламные материалы. Информация в аспекте Data Mining Для бизнеса информация является исходной составляющей принятия решений. Рас- смотрим понятие информации в аспекте Data Mining. Несмотря на распространенность данного понятия мы не всегда можем точно его определить и отличить от понятия дан- ных. Информация по своей сути имеет многогранную природу. С развитием человечества, в том числе с развитием компьютерных технологий, информация обретает все новые и но- вые свойства. Информация – любые не известные ранее сведения о каком-либо событии, сущности, процессе и т. п., являющиеся объектом некоторых операций, для которых существует содержательная интерпретация. Под операциями здесь подразумеваются восприятие, передача, преобразование, хранение и использование. Для восприятия информации необходима некоторая воспринимающая система, которая может интерпретировать ее, преобразовывать, определять соответствие определенным правилам и т. п. Таким обра- зом, понятие информации следует рассматривать только при наличии источника и полу- чателя информации, а также канала связи между ними. Свойства информации: • полнота информации. Это свойство характеризует качество информации и опреде- ляет достаточность данных для принятия решений, т. е. информация должна содержать весь необходимый набор данных. Например, «Продажи товара А начнут сокращаться» – эта информация неполная, поскольку неизвестно, когда именно они начнут сокращаться. Пример полной информации. «Начиная с первого квартала, продажи товара А начнут со- кращаться». Этой информации достаточно для принятия решений; • достоверность информации. Информация может быть достоверной и недостовер- ной. В недостоверной информации присутствует информационный шум, и чем он выше, тем ниже достоверность информации; • ценность информации. Ценность информации не может быть абстрактной. Инфор- мация должна быть полезной и ценной для определенной категории пользователей; • адекватность информации. Это свойство характеризует степень соответствия ин- формации реальному объективному состоянию. Адекватная информация – это полная и достоверная информация; • актуальность информации. Информация должна быть актуальной, т. е. не устарев- шей. Это свойство информации характеризует степень соответствия информации насто- ящему моменту времени; • ясность информации. Информация должна быть понятна тому кругу лиц, для кото- рого она предназначена; • доступность информации. Доступность характеризует меру возможности получить определенную информацию. На это свойство информации влияют одновременно доступ- ность данных и доступность адекватных методов; • субъективность информации. Информация носит субъективный характер, она опре- деляется степенью восприятия субъекта (получателя информации). Требования, предъявляемые к информации в Data Mining: • динамический характер информации. Информация существует только в момент вза- имодействия данных и методов, т. е. в момент информационного процесса. Остальное время она пребывает в состоянии данных; • адекватность используемых методов. Информация извлекается из данных. Однако в результате использования одних и тех же данных может появляться разная информа- ция. Это зависит от адекватности выбранных методов обработки исходных данных. Данные по своей сути являются объективными. Методы являются субъективными, в основе методов лежат алгоритмы, субъективно составленные и подготовленные. Таким образом, информация возникает и существует в момент диалектического взаимодей- ствия объективных данных и субъективных методов. Всю информацию, возникающую в процессе функционирования бизнеса и управления им, можно классифицировать определенным образом. В зависимости от источника по- лучения информацию разделяют на внутреннюю и внешнюю (например, информация, описывающая явления, происходящие за пределами фирмы, но имеющие к ней непо- средственное отношение). Также информация может быть классифицирована на фактическую и прогнозную. К фактической информации о бизнесе относится информация, характеризующая свер- шившиеся факты; она является точной. Прогнозная информация является рассчитывае- мой или предполагаемой, поэтому ее нельзя считать точной, она может иметь опреде- ленную погрешность. Информация и знания Знания – совокупность фактов, закономерностей и эвристических правил, с помощью которых решается поставленная задача. Все чаще истинные знания образуются на основе распределенных взаимосвязей раз- нородной информации. Когда информация собрана и передана для получения явно не определенного заранее результата, то вы получаете знания. Сама по себе информация в чистом виде бессмысленна. Отсюда следует вывод, что информация – это чье-то такти- ческое знание, передаваемое в виде символов и при помощи каких-либо прикладных средств. Знания – это абсолютное использование информации и данных совместно с потенциа- лом практического опыта людей, способностями, идеями, интуицией, убежденностью и мотивациями. Знания имеют определенные свойства, которые отличают их от информации. 1. Структурированность. Знания должны быть «разложены по полочкам». 2. Удобство доступа и усвоения. Для человека это – способность быстро понять и за- помнить или, наоборот, вспомнить; для компьютерных знаний – средства доступа к зна- ниям. 3. Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает «коэффициент полезного содержания». В данный список лаконичность была добавлена из-за всем известной проблемы шума и мусорных документов, характерной именно для компьютерной информации Интернета и электронного документооборота. 4. Непротиворечивость. Знания не должны противоречить друг другу. 5. Процедуры обработки. Знания нужны для того, чтобы их использовать. Одно из главных свойств знаний – возможность их передачи другим и способность делать выво- ды на их основе. Для этого должны существовать процедуры обработки знаний. Способ- ность делать выводы означает для машины наличие процедур обработки и вывода и под- готовленность структур данных для такой обработки, т. е. наличие специальных форма- тов знаний. Сопоставим и сравним понятия «информация», «данные», «знание». Для того чтобы уверенно оперировать этими понятиями, необходимо не только понимать суть этих по- нятий, но и видеть отличия между ними. Сложность понимания отличий – в их кажу- щейся синонимичности. Вспомним, что понятие Data Mining переводится на русский язык при помощи этих же трех понятий: как добыча данных, извлечение информации, раскопка знаний. Для того чтобы прочувствовать разницу, рассмотрим применение этих трех понятий на простом примере. Для начала сделаем попытку разобраться в этих терминах на про- стых примерах: • студент, который сдает экзамен, нуждается в данных; • студент, который сдает экзамен, нуждается в информации; • студент, который сдает экзамен, нуждается в знаниях. При рассмотрении первого варианта – студент нуждается в данных – возникает мысль, что студенту нужны данные, например для вычислений. Информацией во втором вари- анте может выступать конспект или учебник. В результате их использования студент по- лучает лишь информацию, которая в определенных случаях может перейти в знания. Третий вариант звучит наиболее логично. Информация, в отличие от данных, имеет смысл. Понятия «информация» и «знания» являются понятиями более высокого уровня, чем «данные», которое возникло относи- тельно недавно. Понятие информации непосредственно связано с сущностью процессов внутри информационной системы, тогда так понятие «знание» скорее ориентировано на качество процессов. Понятие «знание» тесно связано с процессом принятия решений. Несмотря на различия рассмотренные понятия не являются разрозненными и несвя- занными. Они есть часть одного потока: у истока его находятся данные, в процессе пе- редачи которых возникает информация, и в результате использования информации, при определенных условиях, возникают знания. В процессе движения вверх по информационной пирамиде объемы данных переходят в ценность знаний. Однако большие объемы данных вовсе не означают и, тем более, не гарантируют получение знаний. Существует определенная зависимость ценности полу- ченных знаний от качества и мощности процедур обработки данных. Типичным приме- ром информации, которую нельзя превратить в знание, является текст на иностранном языке. При отсутствии словаря и переводчика эта информация вообще не имеет ценно- сти, она не может перейти в знание. При наличии словаря процесс перехода от инфор- мации к знанию возможен, но длителен и трудоемок. При наличии переводчика инфор- мация действительно переходит в знания. Таким образом, для получения ценных знаний необходимы качественные процедуры обработки. Процесс перехода от данных к знаниям занимает много времени и стоит до- рого. Поэтому очевидно, что технология Data Mining с ее мощными и разнообразными алгоритмами является инструментом, при помощи которого, продвигаясь вверх по ин- формационной пирамиде, мы можем получать действительно качественные и ценные знания. 5.4. ЗАДАЧА КЛАССИФИКАЦИИ В DATA MINING Классификация является наиболее простой и одновременно наиболее часто решаемой задачей Data Mining. Ввиду распространенности задач классификации необходимо чет- кое понимание сути этого понятия. Классификация – системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам по каким-либо существенным признакам для удобства их иссле- дования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства. Классификация – упорядоченное по некоторому принципу множество объектов, кото- рые имеют сходные классификационные признаки (одно или несколько свойств), вы- бранные для определения сходства или различия между этими объектами. Классификация требует соблюдения следующих правил: • в каждом акте деления необходимо применять только одно основание; • деление должно быть соразмерным, т. е. общий объем видовых понятий должен равняться объему делимого родового понятия; • члены деления должны взаимно исключать друг друга, их объемы не должны пере- крещиваться; • деление должно быть последовательным. Различают: • вспомогательную (искусственную) классификацию, которая производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка; • естественную классификацию, которая производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений. Она является результа- том и важным средством научного исследования, т. к. предполагает и закрепляет резуль- таты изучения закономерностей классифицируемых объектов. В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть: простой – деление родового понятия только по признаку и только один раз до рас- крытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противореча- щим другому (т. е. соблюдается принцип «А и не А»); сложной – применяется для деления одного понятия по разным основаниям и синтеза этих простых делений в единое целое. Примером такой классификации является перио- дическая система химических элементов. Под классификацией будем понимать отнесение объектов (наблюдений, событий) к одному из заранее известных классов. Классификация – это закономерность, позволяющая делать вывод относительно опре- деления характеристик конкретной группы. Таким образом, для проведения классифи- кации должны присутствовать признаки, характеризующие группу, к которой принадле- жит то или иное событие или объект (обычно при этом на основании анализа уже клас- сифицированных событий формулируются некие правила). Классификация относится к стратегии обучения с учителем (supervised learning), кото- рую также именуют контролируемым или управляемым обучением. Задачей классификации часто называют предсказание категориальной зависимой пе- ременной (т. е. зависимой переменной, являющейся категорией) на основе выборки не- прерывных и (или) категориальных переменных. Например, можно предсказать, кто из клиентов фирмы является потенциальным покупателем определенного товара, а кто – нет, кто воспользуется услугой фирмы, а кто – нет, и т. д. Этот тип задач относится к за- дачам бинарной классификации, в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1). Другой вариант классификации возникает, если зависимая переменная может прини- мать значения из некоторого множества предопределенных классов. Например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случа- ях рассматривается множество классов для зависимой переменной. Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам). Многомерная классификация была разработана биологами при решении проблем дис- криминации для классифицирования организмов, в которой организмы разделялись на подвиды в зависимости от результатов измерений их физических параметров. Биология была и остается наиболее востребованной и удобной средой для разработки многомер- ных методов классификации. Рассмотрим задачу классификации на простом примере. Допустим, имеется база дан- ных о клиентах туристического агентства с информацией о возрасте и доходе за месяц. Есть рекламный материал двух видов: более дорогой и комфортный отдых и более де- шевый, молодежный отдых. Соответственно, определены два класса клиентов: класс 1 и класс 2. База данных приведена в таблице 1. База данных клиентов туристического агентства Таблица 1 Код клиента Возраст Доход Класс 1 18 25 1 2 22 100 1 3 30 70 1 4 32 120 1 5 24 15 2 6 25 22 1 7 32 50 2 8 19 445 2 9 22 75 1 10 40 90 2 Задача. Определить, к какому классу принадлежит новый клиент и какой из двух ви- дов рекламных материалов ему стоит отсылать. Для наглядности представим нашу базу данных в двумерном измерении (возраст и доход), в виде множества объектов, принад- лежащих классам 1 и 2. На рис. 11 приведены объекты из двух классов. 1 класс 2 класс Рис. 11. Множество объектов базы данных в двумерном измерении Решение нашей задачи будет состоять в том, чтобы определить, к какому классу отно- сится новый клиент, на рисунке обозначенный белой меткой. Процесс классификации Цель процесса классификации состоит в том, чтобы построить модель, которая ис- пользует прогнозирующие атрибуты в качестве входных параметров и получает значе- ние зависимого атрибута. Процесс классификации заключается в разбиении множества объектов на классы по определенному критерию. Классификатором называется некая сущность, определяющая, какому из предопреде- ленных классов принадлежит объект по вектору признаков. Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математи- ческий аппарат классификации. Таким описанием в нашем случае выступает база дан- ных. Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта. Набор исходных данных (или выборку данных) разбивают на два множества: обуча- ющее и тестовое. Обучающее множество (training set) – множество, которое включает данные, исполь- зующиеся для обучения (конструирования) модели. Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обу- чения модели. Тестовое множество (test set) также содержит входные и выходные значения приме- ров. Здесь выходные значения используются для проверки работоспособности модели. Процесс классификации состоит из двух этапов: конструирования модели и ее исполь- зования. Конструирование модели – описание множества предопределенных классов. Каждый пример набора данных относится к одному предопределенному классу. На этом этапе используется обучающее множество, на нем происходит конструирование модели. По- лученная модель представлена классификационными правилами, деревом решений или математической формулой Использование модели – классификация новых или неизвестных значений. Оценка правильности (точности) модели: известные значения из тестового примера сравнивают- ся с результатами использования полученной модели. Уровень точности – процент пра- вильно классифицированных примеров в тестовом множестве. Тестовое множество, т. е. множество, на котором тестируется построенная модель, не должно зависеть от обуча- ющего множества. Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен. Методы, применяемые для решения задач классификации Для классификации используются различные методы. Основные из них: • классификация с помощью деревьев решений; • байесовская (наивная) классификация; • классификация при помощи искусственных нейронных сетей; • классификация методом опорных векторов; • статистические методы, в частности линейная регрессия; • классификация при помощи метода ближайшего соседа; • классификация CBR-методом; • классификация при помощи генетических алгоритмов. На рис. 12, 13 схематично приведены примеры решения задач методом линейной ре- грессии, методом деревьев решений, методом нейронных сетей. Рис. 12. Решение задач классификации методом деревьев решений Рис. 13. Решение задач классификации методом нейронных сетей Точность классификации: оценка уровня ошибок Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) – это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множе- ством. Точность классификации тестового множества сравнивается с точностью класси- фикации обучающего множества. Если классификация тестового множества дает при- близительно такие же результаты по точности, как и классификация обучающего множе- ства, считается, что данная модель прошла кросс-проверку. Разделение на обучающее и тестовое множества осуществляется путем деления вы- борки в определенной пропорции: например, обучающее множество – две трети данных, тестовое – одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется приме- нять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться. Оценивание классификационных методов Оценивание методов следует проводить исходя из следующих характеристик: ско- рость, робастность, интерпретируемость, надежность. Скорость характеризует время, которое требуется на создание модели и ее использо- вание. Робастность, т. е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных. Интерпретируемость обеспечивает возможность понимания модели аналитиком. Свойства классификационных правил: • размер дерева решений; • компактность классификационных правил. Надежность методов классификации предусматривает возможность работы этих ме- тодов при наличии в наборе данных шумов и выбросов. 5.5. ЗАДАЧА КЛАСТЕРИЗАЦИИ DATA MINING Задача кластеризации сходна с задачей классификации, является ее логическим про- должением, но ее отличие в том, что классы изучаемого набора данных заранее не пред- определены. Синонимами термина «кластеризация» являются «автоматическая классифи- кация», «обучение без учителя» и «таксономия». Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры, или классы). Если данные выборки представить как точки в призна- ковом пространстве, то задача кластеризации сводится к определению «сгущений то- чек». Цель кластеризации – поиск существующих структур. Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает воз- можность провести разведочный анализ и изучить «структуру данных». Само понятие «кластер» определено неоднозначно: в каждом исследовании свои кла- стеры. Переводится понятие «кластер» (cluster) как «скопление», «гроздь». Кластер можно охарактеризовать как группу объектов, имеющих общие свойства. Характеристи- ками кластера можно назвать два признака: • внутреннюю однородность; • внешнюю изолированность. Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как органи- зовать данные в наглядные структуры, т. е. развернуть таксономии. Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явле- ний. В таблице 2 приведено сравнение некоторых параметров задач классификации и кластеризации. Сравнение классификации и кластеризации Таблица 2 Характеристика Классификация Кластеризация Контролируе- мость обучения Контролируемое обучение Неконтролируемое обу- чение Стратегия Обучение с учителем Обучение без учителя Наличие метки класса Обучающее множество сопровождается меткой, указывающей класс, к которому относится наблюдение Метки класса обучающе- го множества неизвестны Основание для классифика- ции Новые данные классифицируются на основании обучающего множества Дано множество данных с целью установления суще- ствования классов или кла- стеров данных На рис. 14 схематически представлены задачи классификации и кластеризации. Классификация: классы определены изначально Кластеризация: классы не предопределены, осуществ- ляется поиск наиболее по- хожих однородных групп Рис. 14. Сравнение задач классификации и кластеризации Кластеры могут быть непересекающимися, или эксклюзивными (non-overlapping, exclusive), и пересекающимися (overlapping). Схематическое изображение непересекаю- щихся и пересекающихся кластеров дано на рис. 15. Рис. 15. Непересекающиеся и пересекающиеся кластеры Следует отметить, что в результате применения различных методов кластерного ана- лиза могут быть получены кластеры различной формы. Например, возможны кластеры «цепочного» типа, когда они представлены длинными «цепочками» – кластеры удли- ненной формы, и т. д., а некоторые методы могут создавать кластеры произвольной формы. Различные методы могут стремиться создавать кластеры определенных размеров (например, малых или крупных) либо предполагать в наборе данных наличие кластеров различного размера. Некоторые методы кластерного анализа особенно чувствительны к шумам или выбросам, другие – менее. В результате применения различных методов кластеризации могут быть получены не- одинаковые результаты, это нормально и является особенностью работы того или иного алгоритма. Данные особенности следует учитывать при выборе метода кластеризации. На сегодняшний день разработано более сотни различных алгоритмов кластеризации. Рассмотрим краткую характеристику подходов к кластеризации: • алгоритмы, основанные на разделении данных (Partitioning algorithms), в т. ч. итера- тивные: разделение объектов на k кластеров; итеративное перераспределение объектов для улучшения кластеризации; • иерархические алгоритмы (Hierarchy algorithms), в т. ч. агломерация – каждый объ- ект первоначально является кластером, кластеры, соединяясь друг с другом, формируют больший кластер и т. д.; • методы, основанные на концентрации объектов (Density-based methods), т. е. на воз- можности соединения объектов; игнорируют шумы, нахождение кластеров произволь- ной формы; • грид-методы (Grid-based methods) – квантование объектов в грид-структуры; • модельные методы (Model-based) –использование модели для нахождения класте- ров, наиболее соответствующих данным. Оценка качества кластеризации Оценка качества кластеризации может быть проведена на основе следующих проце- дур: • ручная проверка; • установление контрольных точек и проверка на полученных кластерах; • определение стабильности кластеризации путем добавления в модель новых пере- менных; • создание и сравнение кластеров с использованием различных методов. Разные методы кластеризации могут создавать разные кластеры, и это является нор- мальным явлением. Однако создание схожих кластеров различными методами также указывает на правильность кластеризации. Процесс кластеризации Процесс кластеризации зависит от выбранного метода и почти всегда является итера- тивным. Он может стать увлекательным процессом и включать множество эксперимен- тов по выбору разнообразных параметров, например меры расстояния, типа стандарти- зации переменных, количества кластеров и т. д. Однако эксперименты не должны быть самоцелью, ведь конечной целью кластеризации является получение содержательных сведений о структуре исследуемых данных. Полученные результаты требуют дальней- шей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров. Применение кластерного анализа Кластерный анализ применяется в различных областях. Он полезен, когда нужно классифицировать большое количество информации. Так, в медицине используется кла- стеризация заболеваний, лечения заболеваний или их симптомов, а также таксономия пациентов, препаратов и т. д. В археологии устанавливаются таксономии каменных со- оружений и древних объектов и т. д. В маркетинге это может быть задача сегментации конкурентов и потребителей. В менеджменте примером задачи кластеризации будет раз- биение персонала на различные группы, классификация потребителей и поставщиков, выявление схожих производственных ситуаций, при которых возникает брак. В социо- логии задача кластеризации – разбиение респондентов на однородные группы. Кластерный анализ в маркетинговых исследованиях В маркетинговых исследованиях кластерный анализ применяется достаточно широко как в теоретических исследованиях, так и практикующими маркетологами, решающими проблемы группировки различных объектов. При этом решаются вопросы о группах клиентов, продуктов и т. д. Так, одной из наиболее важных задач при применении кластерного анализа в марке- тинговых исследованиях является анализ поведения потребителя, а именно: группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение. Важ- ной задачей, которую может решить кластерный анализ, является позиционирование, т. е. определение ниши, в которой следует позиционировать новый продукт, предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствую- щие характеристики товара для возможности попадания в этот сегмент. С помощью ана- лиза такой карты возможно определение новых, незанятых ниш на рынке, в которых можно предлагать существующие товары или разрабатывать новые. Кластерный анализ также может быть удобен, например, для анализа клиентов компа- нии. Для этого все клиенты группируются в кластеры, и для каждого кластера выраба- тывается индивидуальная политика. Такой подход позволяет существенно сократить объекты анализа и в то же время индивидуально подойти к каждой группе клиентов. В 1971 году были проведены исследования по сегментации клиентов по сфере интере- сов на основе данных, характеризующих предпочтения клиентов. В 1974 году – по иден- тификации групп семей-потребителей продуктов. В результате были разработаны стра- тегии позиционирования бренда. Основой для исследований были рейтинги, которые ре- спонденты присваивали продуктам и брендам. В 1981 году был проведен анализ поведе- ния покупателей новых автомобилей на основе данных факторных нагрузок, получен- ных при анализе набора переменных. Несмотря на кажущуюся похожесть задач классификации и кластеризации решаются они разными способами и при помощи разных методов. Различие задач – прежде всего в исходных данных. Классификация, являясь наиболее простой задачей Data Mining, относится к стратегии «обучение с учителем», для ее решения обучающая выборка должна содержать значения как входных переменных, так и выходных (целевых) переменных. Кластеризация, напротив, является задачей Data Mining, относящейся к стратегии «обучение без учите- ля», т. е. не требует наличия значения целевых переменных в обучающей выборке. Задача классификации решается при помощи различных методов, наиболее простой – линейная регрессия. Выбор метода должен базироваться на исследовании исходного набора данных. Наиболее распространенные методы решения задачи кластеризации: ме- тод k-средних (работает только с числовыми атрибутами), иерархический кластерный анализ (работает также с символьными атрибутами), метод SOM. 5.6. ЗАДАЧА ПРОГНОЗИРОВАНИЯ В DATA MINING Задачи прогнозирования решаются в самых разнообразных областях человеческой де- ятельности, таких, как наука, экономика, производство и множество других сфер. Про- гнозирование является важным элементом организации управления как отдельными хо- зяйствующими субъектами, так и экономикой в целом. Развитие методов прогнозирования непосредственно связано с развитием информаци- онных технологий, в частности – с ростом объемов хранимых данных и усложнением методов и алгоритмов прогнозирования, реализованных в инструментах Data Mining. Задача прогнозирования, пожалуй, может считаться одной из наиболее сложных задач Data Mining, она требует тщательного исследования исходного набора данных и мето- дов, подходящих для анализа. Прогнозирование (от греческого prognosis), в широком понимании этого слова, опре- деляется как опережающее отражение будущего. Целью прогнозирования является пред- сказание будущих событий. Прогнозирование (forecasting) является одной из задач Data Mining и одновременно одним из ключевых моментов при принятии решений. Прогностика (prognostics) – теория и практика прогнозирования. Прогнозирование направлено на определение тенденций динамики конкретного объ- екта или события на основе ретроспективных данных, т. е. анализа его состояния в про- шлом и настоящем. Таким образом, решение задачи прогнозирования требует некоторой обучающей выборки данных. Прогнозирование – установление функциональной зависимости между зависимыми и независимыми переменными. Прогнозирование является распространенной и востребованной задачей во многих областях человеческой деятельности. В результате прогнозирования уменьшается риск принятия неверных, необоснованных или субъективных решений. Примеры его задач: прогноз движения денежных средств, прогнозирование урожайности агрокультуры, про- гнозирование финансовой устойчивости предприятия. Типичной в сфере маркетинга является задача прогнозирования рынков (market forecasting). В результате решения данной задачи оцениваются перспективы развития конъюнктуры определенного рынка, изменения рыночных условий на будущие периоды, определяются тенденции рынка (структурные изменения, потребности покупателей, из- менения цен). Обычно в этой области решаются следующие практические задачи: • прогноз продаж товаров (например, с целью определения нормы товарного запаса); • прогнозирование продаж товаров, оказывающих влияние друг на друга; • прогноз продаж в зависимости от внешних факторов. Помимо экономической и финансовой сферы задачи прогнозирования ставятся в са- мых разнообразных областях: медицине, фармакологии; популярным сейчас становится политическое прогнозирование. В самых общих чертах решение задачи прогнозирования сводится к решению таких подзадач: • выбор модели прогнозирования; • анализ адекватности и точности построенного прогноза. Сравнение задач прогнозирования и классификации Прогнозирование сходно с задачей классификации. Многие методы Data Mining ис- пользуются для решения задач классификации и прогнозирования. Это, например, ли- нейная регрессия, нейронные сети, деревья решений (которые иногда так и называют – деревья прогнозирования и классификации). Задачи классификации и прогнозирования имеют сходства и различия. При решении обеих задач используется двухэтапный процесс построения модели на основе обучаю- щего набора и ее использования для предсказания неизвестных значений зависимой пе- ременной. Различие задач классификации и прогнозирования состоит в том, что в первой задаче предсказывается класс зависимой переменной, а во второй – числовые значения зависи- мой переменной, пропущенные или неизвестные (относящиеся к будущему). Возвращаясь к примеру о туристическом агентстве, мы можем сказать, что определе- ние класса клиента является решением задачи классификации, а прогнозирование дохо- да, который принесет этот клиент в будущем году, будет решением задачи прогнозиро- вания. Прогнозирование и временные ряды Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов. Существует понятие Data Mining временных рядов (Time-Series Data Mining). На основе ретроспективной информации в виде временных рядов возможно решение различных задач Data Mining. Рассмотрим два принципиальных отличия временного ря- да от простой последовательности наблюдений: • члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независимыми; • члены временного ряда не являются одинаково распределенными. Временной ряд – последовательность наблюдаемых значений какого-либо признака, упорядоченных в неслучайные моменты времени. Отличием анализа временных рядов от анализа случайных выборок является предпо- ложение о равных промежутках времени между наблюдениями и их хронологический порядок. Привязка наблюдений ко времени играет здесь ключевую роль, тогда как при анализе случайной выборки она не имеет никакого значения. Типичный пример временного ряда – данные биржевых торгов. Информация, накопленная в разнообразных базах данных предприятия, является вре- менными рядами, если она расположена в хронологическом порядке и произведена в по- следовательные моменты времени. Анализ временного ряда осуществляется с целью: − определения природы ряда; − прогнозирования будущих значений ряда. В процессе определения структуры и закономерностей временного ряда предполага- ется обнаружение: шумов и выбросов, тренда, сезонной компоненты, циклической ком- поненты. Определение природы временного ряда может быть использовано как своеоб- разная «разведка» данных. Знание аналитика о наличии сезонной компоненты необхо- димо, например, для определения количества записей выборки, которое должно прини- мать участие в построении прогноза. Шумы и выбросы будут подробно обсуждаться в последующих лекциях курса. Они усложняют анализ временного ряда. Существуют различные методы определения и фильтрации выбросов, дающие возможность исключить их с целью более качественного Data Mining. Тренд, сезонность и цикл Основными составляющими временного ряда являются тренд и сезонная компонента. Составляющие этих рядов могут представлять собой либо тренд, либо сезонную компо- ненту. Тренд является систематической компонентой временного ряда, которая может изменяться во времени. Трендом называют неслучайную функцию, которая формируется под действием об- щих или долговременных тенденций, влияющих на временной ряд. Примером тенден- ции может выступать, например, фактор роста исследуемого рынка. Автоматического способа обнаружения трендов во временных рядах не существует. Но если временной ряд включает монотонный тренд (т. е. отмечено его устойчивое воз- растание или устойчивое убывание), анализировать временной ряд в большинстве случа- ев нетрудно. Существует большое разнообразие постановок задач прогнозирования, которое можно подразделить на две группы: прогнозирование односерийных рядов и прогнозирование мультисерийных, или взаимовлияющих, рядов. Группа прогнозирования односерийных рядов включает задачи построения прогноза одной переменной по ретроспективным данным только этой переменной, без учета вли- яния других переменных и факторов. Группа прогнозирования мультисерийных, или взаимовлияющих, рядов включает за- дачи анализа, где необходимо учитывать взаимовлияющие факторы на одну или не- сколько переменных. Кроме деления на классы по односерийности и многосерийности, ряды также бывают сезонными и несезонными, т. е. подразумевается наличие или отсутствие у временного ряда такой составляющей, как сезонность, т. е. включение сезонной компоненты. Сезонная составляющая временного ряда является периодически повторяющейся компонентой временного ряда. Свойство сезонности означает, что через примерно рав- ные промежутки времени форма кривой, которая описывает поведение зависимой пере- менной, повторяет свои характерные очертания. Свойство сезонности важно при опре- делении количества ретроспективных данных, которые будут использоваться для про- гнозирования. Рассмотрим пример. На рис. 16 приведен фрагмент ряда, который иллюстрирует пове- дение переменной «объемы продаж товара Х» за период, составляющий один месяц. При изучении кривой, приведенной на рисунке, аналитик не может сделать предположений относительно повторяемости формы кривой через равные промежутки времени. Рис. 16. Фрагмент временного ряда за сезонный период Однако при рассмотрении более продолжительного ряда (за 12 месяцев), изображен- ного на рис. 17, можно увидеть явное наличие сезонной компоненты. Следовательно, о сезонности продаж можно говорить, только когда рассматриваются данные за несколько месяцев. Таким образом, в процессе подготовки данных для прогнозирования аналитику следует определить, обладает ли ряд, который он анализирует, свойством сезонности. Рис. 17. Фрагмент временного ряда за 12 сезонных периодов Определение наличия компоненты сезонности необходимо для того, чтобы входная информация обладала свойством репрезентативности. Ряд можно считать несезонным, если при рассмотрении его внешнего вида нельзя сделать предположений о повторяемо- сти формы кривой через равные промежутки времени. Иногда по внешнему виду кривой ряда нельзя определить, является он сезонным или нет. Существует понятие сезонного мультиряда. В нем каждый ряд описывает поведение факторов, которые влияют на зависимую (целевую) переменную. Пример такого ряда – ряды продаж нескольких товаров, подверженных сезонным колебаниям. При сборе дан- ных и выборе факторов для решения задачи по прогнозированию в таких случаях следу- ет учитывать, что влияние объемов продаж товаров друг на друга здесь намного меньше, чем воздействие фактора сезонности. Важно не путать понятия сезонной компоненты ряда и сезонов природы. Несмотря на близость их звучания эти понятия разнятся. Так, например, объемы продаж мороженого летом намного больше, чем в другие сезоны, од- нако это является тенденцией спроса на данный товар. Очень часто тренд и сезонность присутствуют во временном ряде одновременно. Пример. Прибыль фирмы растет на протяжении нескольких лет (т. е. во временном ряде присутствует тренд); ряд также содержит сезонную компоненту. Отличия циклической компоненты от сезонной: 1) продолжительность цикла, как правило, больше, чем один сезонный период; 2) циклы, в отличие от сезонных периодов, не имеют определенной продолжительно- сти. При выполнении каких-либо преобразований понять природу временного ряда значи- тельно проще, такими преобразованиями могут быть, например, удаление тренда и сглаживание ряда. Перед началом прогнозирования необходимо ответить на следующие вопросы: 1. Что нужно прогнозировать? 2. В каких временных элементах (параметрах)? 3. С какой точностью прогноза? При ответе на первый вопрос мы определяем переменные, которые будут прогнозиро- ваться. Это могут быть, например, уровень производства конкретного вида продукции в следующем квартале, прогноз суммы продажи этой продукции и т. д. При выборе переменных следует учитывать доступность ретроспективных данных, предпочтения лиц, принимающих решения, окончательную стоимость Data Mining. Часто при решении задач прогнозирования возникает необходимость предсказания не самой переменной, а изменений ее значений. Второй вопрос при решении задачи прогнозирования – определение следующих пара- метров: • периода прогнозирования; • горизонта прогнозирования; • интервала прогнозирования. Период прогнозирования – основная единица времени, на которую делается прогноз. Например, мы хотим узнать доход компании через месяц. Период прогнозирования для этой задачи – месяц. Горизонт прогнозирования – это число периодов в будущем, которые покрывает про- гноз. Если мы хотим узнать прогноз на 12 месяцев вперед с данными по каждому меся- цу, то период прогнозирования в этой задаче – месяц, горизонт прогнозирования – 12 месяцев. Интервал прогнозирования – частота, с которой делается новый прогноз. Интервал прогнозирования может совпадать с периодом прогнозирования. При выборе параметров необходимо учитывать, что горизонт прогнозирования дол- жен быть не меньше, чем время, которое необходимо для реализации решения, принято- го на основе этого прогноза. Только в этом случае прогнозирование будет иметь смысл. С увеличением горизонта прогнозирования точность прогноза, как правило, снижает- ся, а с уменьшением горизонта – повышается. Мы можем улучшить качество прогнозирования, уменьшив время, необходимое на ре- ализацию решения, для которого реализуется прогноз, и, следовательно, уменьшив при этом горизонт и ошибку прогнозирования. При выборе интервала прогнозирования следует выбирать между двумя рисками: во- время не определить изменения в анализируемом процессе и высокой стоимостью про- гноза. При длительном интервале прогнозирования возникает риск не идентифицировать изменения, произошедшие в процессе, при коротком возрастают издержки на прогнози- рование. При выборе интервала необходимо также учитывать стабильность анализируе- мого процесса и стоимость проведения прогноза. Точность прогноза Точность прогноза, требуемая для решения конкретной задачи, оказывает большое влияние на прогнозирующую систему. Ошибка прогноза зависит от используемой си- стемы прогноза. Чем больше ресурсов имеет такая система, тем больше шансов полу- чить более точный прогноз. Однако прогнозирование не может полностью уничтожить риски при принятии решений. Поэтому всегда учитывается возможная ошибка прогно- зирования. Точность прогноза характеризуется ошибкой прогноза. Наиболее распространенные виды ошибок: • средняя ошибка (СО) вычисляется простым усреднением ошибок на каждом шаге. Недостаток этого вида ошибки – положительные и отрицательные ошибки аннулируют друг друга; • средняя абсолютная ошибка (САО) рассчитывается как среднее абсолютных оши- бок. Если она равна нулю, то мы имеем совершенный прогноз. В сравнении со средней квадратической ошибкой эта мера «не придает слишком большого значения» выбросам; • сумма квадратов ошибок (SSE), среднеквадратическая ошибка, вычисляется как сумма (или среднее) квадратов ошибок. Это наиболее часто используемая оценка точно- сти прогноза; • относительная ошибка (ОО). Предыдущие меры использовали действительные зна- чения ошибок. Относительная ошибка выражает качество подгонки в терминах относи- тельных ошибок. Виды прогнозов Прогноз может быть краткосрочным, среднесрочным и долгосрочным. Краткосрочный прогноз представляет собой прогноз на несколько шагов вперед, т. е. осуществляется построение прогноза не более, чем на 3 % от объема наблюдений или на 1– 3 шага вперед. Среднесрочный прогноз – это прогноз на 3–5 % от объема наблюдений, но не более 7– 12 шагов вперед; также под этим типом прогноза понимают прогноз на один или поло- вину сезонного цикла. Для построения краткосрочных и среднесрочных прогнозов вполне подходят статистические методы. Долгосрочный прогноз – это прогноз более, чем на 5 % от объема наблюдений. При построении данного типа прогнозов статистические методы практически не используют- ся, кроме случаев очень «хороших» рядов, для которых прогноз можно просто «нарисо- вать». До сих пор мы рассматривали аспекты прогнозирования, так или иначе связанные с процессом принятия решения. Существуют и другие факторы, которые необходимо учи- тывать при прогнозировании. Задача 1. Известно, что анализируемый процесс относительно стабилен во времени, изменения происходят медленно, процесс не зависит от внешних факторов. Задача 2. Анализируемый процесс нестабилен и очень сильно зависит от внешних факторов. Решение первой задачи должно быть сосредоточено на использовании большого ко- личества ретроспективных данных. При решении второй задачи особое внимание следу- ет обратить на оценки специалиста в предметной области – эксперта, чтобы иметь воз- можность отразить в прогнозирующей модели все необходимые внешние факторы, а также уделить время для сбора данных по этим факторам (сбор внешних данных часто намного сложнее сбора внутренних данных информационной системы). Доступность данных, на основе которых будет осуществляться прогнозирование, – важный фактор построения прогнозной модели. Для возможности выполнения качествен- ного прогноза данные должны быть представительными, точными и достоверными. Среди распространенных методов Data Mining, используемых для прогнозирования, отметим нейронные сети и линейную регрессию. Выбор метода прогнозирования зависит от многих факторов, в том числе от парамет- ров прогнозирования. Выбор метода следует производить с учетом всех специфических особенностей набора ретроспективных данных и целей, с которыми он строится. Программное обеспечение Data Mining, используемое для прогнозирования, должно обеспечивать пользователя точным и достоверным прогнозом. Однако получение такого прогноза зависит не только от программного обеспечения и методов, заложенных в его основу, но также и от других факторов, среди которых – полнота и достоверность ис- ходных данных, своевременность и оперативность их пополнения, квалификация поль- зователя. 5.7. ЗАДАЧА ВИЗУАЛИЗАЦИИ Визуализация – это инструментарий, который позволяет увидеть конечный результат вычислений, организовать управление вычислительным процессом и даже вернуться назад к исходным данным, чтобы определить наиболее рациональное направление даль- нейшего движения. В результате использования визуализации создается графический образ данных. При- менение визуализации помогает в процессе анализа данных увидеть аномалии, структу- ры, тренды. При рассмотрении задачи прогнозирования мы использовали графическое представление временного ряда и увидели, что в нем присутствует сезонная компонента. Выше мы рассматривали задачи классификации и кластеризации и для иллюстрации распределения объектов в двумерном пространстве также использовали визуализацию. Применение визуализации является более экономичным: линия тренда или скопление точек на диаграмме рассеивания позволяют аналитику намного быстрее определить за- кономерности и прийти к нужному решению. Таким образом, здесь идет речь об исполь- зовании в Data Mining не символов, а образов. Главное преимущество визуализации – практически полное отсутствие необходимо- сти в специальной подготовке пользователя. При помощи визуализации ознакомиться с информацией очень легко, достаточно всего лишь бросить на нее взгляд. Визуализация данных может быть представлена в виде графиков, схем, гистограмм, диаграмм и т. д. Роль визуализации можно описать такими ее возможностями: • поддержка интерактивного и согласованного исследования; • помощь в представлении результатов; • использование глаз (зрения), чтобы создавать зрительные образы и осмысливать их. Визуализацию можно считать ключевым фактором в исследовании данных, получен- ных при помощи инструментов Data Mining. В таких случаях говорят о визуальном Data Mining. Методы визуализации, среди которых представления информации в одно-, двух-, трех- мерном и более измерениях, а также другие способы отображения информации, напри- мер параллельные координаты, «лица Чернова», нами будут рассмотрены ниже. Тема 6 МЕТОДЫ ВИЗУАЛИЗАЦИИ ДАННЫХ С возрастанием количества накапливаемых данных даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining становится все сложнее «пе- реваривать» и интерпретировать полученные результаты. А, как известно, одно из поло- жений Data Mining – поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять. К способам визуального или графического представления данных относят графики, диа- граммы, таблицы, отчеты, списки, структурные схемы, карты и т. д. Визуализация традицион- но рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли. Традиционные методы визуализации могут находить следующее применение: • представлять пользователю информацию в наглядном виде; • компактно описывать закономерности, присущие исходному набору данных; • снижать размерность или сжимать информацию; • восстанавливать пробелы в наборе данных; • находить шумы и выбросы в наборе данных. 6.1. ВИЗУАЛИЗАЦИЯ ИНСТРУМЕНТОВ DATA MINING Каждый из алгоритмов Data Mining использует определенный подход к визуализации. Ранее мы рассмотрели ряд методов Data Mining. В ходе использования каждого из мето- дов получают определенные визуализаторы, при помощи которых интерпретируются ре- зультаты, полученные в результате работы соответствующих методов и алгоритмов: • для деревьев решений это визуализатор дерева решений, список правил, таблица со- пряженности; • для нейронных сетей в зависимости от инструмента это могут быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения; • для карт Кохонена – карты входов, выходов, другие специфические карты; • для линейной регрессии в качестве визуализатора выступает линия регрессии. • для кластеризации – дендрограммы, диаграммы рассеивания. Диаграммы и графики рассеивания часто используются для оценки качества работы того или иного метода. Все эти способы визуального представления или отображения данных могут выполнять одну из функций: • являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети); • помогают интерпретировать полученный результат; • являются средством оценки качества построенной модели; • сочетают перечисленные выше функции (дерево решений, дендрограмма). Визуализация Data Mining-моделей Первая функция (иллюстрация построения модели) по сути является визуализацией Data Mining-модели. Существует много различных способов представления моделей, но графическое ее представление дает пользователю максимальную «ценность». Пользова- тель в большинстве случаев не является специалистом в моделировании, чаще всего он эксперт в своей предметной области. Поэтому модель Data Mining должна быть пред- ставлена на наиболее естественном для него языке или, хотя бы, содержать минимальное количество различных математических и технических элементов. Таким образом, доступность является одной из основных характеристик модели Data Mining. Несмотря на это существует и такой распространенный и наиболее простой спо- соб представления модели, как «черный ящик». В этом случае пользователь не понимает поведения той модели, которой пользуется. Однако он получает результат – выявленные закономерности. Классическим примером такой модели является модель нейронной се- ти. Другой способ представления модели – представление ее в интуитивном, понятном виде. В этом случае пользователь действительно может понимать то, что происходит «внутри» модели. Таким образом можно обеспечить его непосредственное участие в процессе. Такие модели обеспечивают пользователю возможность обсуждать ее логику с коллегами, клиентами и другими пользователями или объяснять ее. Понимание модели ведет к пониманию ее содержания. В результате понимания воз- растает доверие к модели. Классическим примером является дерево решений. Построен- ное дерево решений действительно улучшает понимание модели, т. е. используемого ин- струмента Data Mining. Кроме понимания, такие модели обеспечивают пользователя возможностью взаимо- действовать с моделью, задавать ей вопросы и получать ответы. Примером такого взаи- модействия является средство «что, если». При помощи диалога «система – пользова- тель» пользователь может получить понимание модели. Теперь перейдем к функциям, которые помогают интерпретировать и оценить резуль- таты построения Data Mining-моделей. Это всевозможные графики, диаграммы, табли- цы, списки и т. д. Примерами средств визуализации, при помощи которых можно оценить качество мо- дели, являются диаграмма рассеивания, таблица сопряженности, график изменения ве- личины ошибки. Диаграмма рассеивания представляет собой график отклонения значений, прогнози- руемых при помощи модели, от реальных. Эти диаграммы используют для непрерывных величин. Визуальная оценка качества построенной модели возможна только по оконча- нии процесса построения модели. Таблица сопряженности используется для оценки результатов классификации. Такие таблицы применяются для различных методов классификации. Оценка качества постро- енной модели возможна только по окончании процесса построения модели. График изменения величины ошибки демонстрирует изменение величины ошибки в процессе работы модели. Например, в процессе работы нейронных сетей пользователь может наблюдать за изменением ошибки на обучающем и тестовом множествах и оста- новить обучение для недопущения «переобучения» сети. Здесь оценка качества модели и его изменения может оцениваться непосредственно в процессе построения модели. 6.2. МЕТОДЫ ВИЗУАЛИЗАЦИИ Методы визуализации в зависимости от количества используемых измерений принято классифицировать на две группы: 1) представление данных в одном, двух и трех измерениях; 2) представление данных в четырех и более измерениях. Представление данных в одном, двух и трех измерениях К этой группе методов относятся хорошо известные способы отображения информа- ции, которые доступны для восприятия человеческим воображением. Практически лю- бой современный инструмент Data Mining включает способы визуального представления из этой группы. В соответствии с количеством измерений представления это могут быть следующие способы: • одномерное (univariate) измерение, или 1-D; • двумерное (bivariate) измерение, или 2-D; • трехмерное, или проекционное (projection) измерение, или 3-D. Следует заметить, что наиболее естественно человеческий глаз воспринимает двумер- ные представления информации. При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных: • его кластерную структуру и распределение объектов на классы (например, на диа- грамме рассеивания); • топологические особенности; • наличие трендов; • информацию о взаимном расположении данных; • существование других зависимостей, присущих исследуемому набору данных. Если набор данных имеет более трех измерений, то возможны такие варианты: − использование многомерных методов представления информации (они рассмотрены ниже); − снижение размерности до одно-, двух- или трехмерного представления. Существуют различные способы снижения размерности, один из них – факторный анализ. Представление данных в четырех измерениях Представления информации в четырехмерном и более измерениях недоступны для че- ловеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации. Наиболее известные способы многомерного представления информации: • параллельные координаты; • «лица Чернова»; • лепестковые диаграммы. Параллельные координаты В параллельных координатах переменные кодируются по горизонтали, вертикальная линия определяет значение переменной. Пример набора данных, представленного в де- картовых координатах и параллельных координатах, дан на рис. 18. Рис. 18. Набор данных в декартовых координатах и в параллельных координатах «Лица Чернова» Основная идея представления информации в «лицах Чернова» состоит в кодировании значений различных переменных в характеристиках или чертах человеческого лица. Пример такого «лица» приведен на рис. 19. Рис. 19. «Лицо Чернова» Для каждого наблюдения рисуется отдельное «лицо». На каждом «лице» относитель- ные значения переменных представлены как формы и размеры отдельных черт лица (например, длина и ширина носа, размер глаз, размер зрачка, угол между бровями). Анализ информации при помощи такого способа отображения основан на способно- сти человека интуитивно находить сходства и различия в чертах лица. На рис. 20 представлен набор данных, каждая запись которого выражена в виде «лица Чернова». Рис. 20. Пример многомерного изображения данных при помощи «лиц Чернова» Перед использованием методов визуализации необходимо: • проанализировать, следует ли изображать все данные или же какую-то их часть; • выбрать размеры, пропорции и масштаб изображения; • выбрать метод, который может наиболее ярко отобразить закономерности, прису- щие набору данных. Многие современные средства анализа данных позволяют строить сотни типов раз- личных графиков и диаграмм, поэтому выбор метода визуализации, если он самостоя- тельно осуществляется пользователем, не так прост и легок, как может показаться на первый взгляд. Наличие большого количества средств визуализации, представленных в инструменте, который применяет пользователь, может даже вызвать растерянность. Одну и ту же информацию можно представить при помощи различных средств. Для того чтобы средство визуализации могло выполнять свое основное назначение – пред- ставлять информацию в простом и доступном для человеческого восприятия виде, – необходимо придерживаться законов соответствия выбранного решения содержанию отображаемой информации и ее функциональному назначению. Иными словами, нужно сделать так, чтобы при взгляде на визуальное представление информации можно было сразу выявить закономерности в исходных данных и принимать на их основе решения. Среди двумерных и трехмерных средств наиболее широко известны линейные графи- ки, линейные, столбиковые, круговые секторные и векторные диаграммы. При помощи линейного графика можно отобразить тенденцию, передать изменения какого-либо признака во времени. Для сравнения нескольких рядов чисел такие графики наносятся на одни и те же оси координат. Гистограмму применяют для сравнения значений в течение некоторого периода или же соотношения величин. Круговые диаграммы используют, если необходимо отобразить соотношение частей и целого, т. е. для анализа состава или структуры явлений. Составные части целого изоб- ражаются секторами окружности. Секторы рекомендуют размещать по их величине: вверху – самый крупный, остальные – по движению часовой стрелки в порядке умень- шения их величины. Круговые диаграммы также применяют для отображения результа- тов факторного анализа, если действия всех факторов являются однонаправленными. При этом каждый фактор отображается в виде одного из секторов круга. Выбор того или иного средства визуализации зависит от поставленной задачи (напри- мер, нужно определить структуру данных или же динамику процесса) и от характера набора данных. 6.3. КАЧЕСТВО ВИЗУАЛИЗАЦИИ Современные аналитические средства, в том числе и Data Mining, немыслимы без ка- чественной визуализации. В результате использования средств визуализации должны быть получены наглядные и выразительные, ясные и простые изображения за счет ис- пользования разнообразных средств: цвета, контраста, границ, пропорций, масштаба и т. д. В связи с ростом требований к средствам визуализации, а также необходимостью сравнивания их между собой в последние годы был сформирован ряд принципов каче- ственного визуального представления информации. Принципы Тафта (Tufte's Principles) графического представления данных высокого качества гласят: • предоставляйте пользователю самое большое количество идей, в самое короткое время, с наименьшим количеством чернил на наименьшем пространстве; • говорите правду о данных. Основные принципы компоновки визуальных средств представления информации: − лаконичности; − обобщения и унификации; − акцента на основных смысловых элементах; − автономности; − структурности; − стадийности; − использования привычных ассоциаций и стереотипов. Принцип лаконичности говорит о том, что средство визуализации должно содержать лишь те элементы, которые необходимы для сообщения пользователю существенной информации, точного понимания ее значения или принятия (с вероятностью не ниже до- пустимой величины) соответствующего оптимального решения. Кроме того, средство визуализации должно обладать высокой надежностью и скоро- стью, которая устроит пользователя, принимающего на основе этой информации реше- ния. Отдельным направлением визуализации является наглядное представление про- странственных характеристик объектов. В большинстве случаев такие средства выделя- ют на карте отдельные регионы и обозначают их различными цветами в зависимости от значения анализируемого показателя. 6.4. ОСНОВНЫЕ ТЕНДЕНЦИИ В ОБЛАСТИ ВИЗУАЛИЗАЦИИ При помощи средств визуализации поддерживаются важные задачи бизнеса, среди ко- торых – процесс принятия решений. В связи с этим возникает необходимость перехода средств визуализации на более высокий качественный уровень, который характеризуется появлением абсолютно новых средств визуализации и взглядов на ее функции, а также развитием ряда тенденций в этой области. Среди основных тенденций в области визуализации выделяются: • разработка сложных видов диаграмм; • повышение уровня взаимодействия с визуализацией пользователя; • увеличение размеров и сложности структур данных, представляемых визуализацией. Разработка сложных видов диаграмм. Большинство визуализаций данных построено на основе диаграмм стандартного типа (секторные диаграммы, графики рассеяния и т. д.). Эти способы являются одновременно старейшими, наиболее элементарными и распространенными. В последние годы перечень видов диаграмм, поддерживаемых ин- струментальными средствами визуализации, существенно расширился. Поскольку по- требности пользователей весьма многообразны, инструменты визуализации поддержи- вают самые различные типы диаграмм. Например, известно, что бизнес-пользователи предпочитают секторные диаграммы и гистограммы, тогда как ученых больше устраи- вают визуализации в виде графиков рассеяния и диаграмм констелляции. Пользователи, работающие с геопространственными данными, сильнее заинтересованы в картах и про- чих трехмерных представлениях данных. Электронные инструментальные панели, в свою очередь, более популярны среди руководителей, использующих бизнес- аналитические технологии для контроля показателей работы компании. Такие пользова- тели нуждаются в наглядной визуализации в виде «спидометров», «термометров» и «светофоров». Средства создания диаграмм и презентационной графики предназначены главным об- разом для визуализации данных. Однако возможности такой визуализации обычно встроены и во множество различных других программ и систем: в инструменты репор- тинга и OLAP, средства для Text Mining и Data Mining, а также в CRM-приложения и приложения для управления бизнесом. Для создания встроенной визуализации многие поставщики реализуют визуализационную функциональность в виде компонент, встраи- ваемых в различные инструменты, приложения, программы и web-страницы (в том чис- ле инструментальные панели и персонализированные страницы порталов). Повышение уровня взаимодействия с визуализацией пользователя. Еще совсем недав- но большая часть средств визуализации представляла собой статичные диаграммы, предназначенные исключительно для просмотра. Сейчас широко используются динами- ческие диаграммы, уже сами по себе являющиеся пользовательским интерфейсом, в ко- тором пользователь может напрямую и интерактивно манипулировать визуализацией, подбирая новое представление информации. Например, базовое взаимодействие позво- ляет пользователю вращать диаграмму или изменять ее тип в поисках наиболее полного представления данных. Кроме того, пользователь может менять визуальные свойства, к примеру, шрифты, цвета и рамки. В визуализациях сложного типа (графиках рассеяния или диаграммах констелляции) пользователь может выбирать информационные точки с помощью мыши и перемещать их, облегчая тем самым понимание представления дан- ных. Более совершенные методы визуализации данных часто включают диаграмму или лю- бую другую визуализацию как составной уровень. Пользователь может углубляться (drill down) в визуализацию, исследуя подробности обобщенных ею данных, или углубляться в OLAP, Data Mining или другие сложные технологии. Сложное взаимодействие позволяет пользователю изменять визуализацию для нахож- дения альтернативных интерпретаций данных. Взаимодействие с визуализацией подра- зумевает минимальный по своей сложности пользовательский интерфейс, в котором пользователь может управлять представлением данных, «кликая» на элементы визуали- зации, «перетаскивая» и помещая представления объектов данных или выбирая пункты меню. Инструменты OLAP или Data Mining превращают непосредственное взаимодей- ствие с визуализацией в один из этапов итерационного анализа данных. Средства Text Mining, или управления документами, придают такому непосредственному взаимодей- ствию характер навигационного механизма, помогающего пользователю исследовать библиотеки документов. Визуальный запрос является наиболее современной формой сложного взаимодействия пользователя с данными. В нем пользователь может, например, видеть крайние инфор- мационные точки графика рассеяния, выбирать их мышкой и получать новые визуализа- ции, представляющие именно эти точки. Приложение визуализации данных генерирует соответствующий язык запроса, управляет принятием запроса базой данных и визуально представляет результирующее множество. Пользователь может сфокусироваться на ана- лизе, не отвлекаясь на составление запроса. Увеличение размеров и сложности структур данных, представляемых визуализацией. Элементарная секторная диаграмма или гистограмма визуализируют простые последо- вательности числовых информационных точек. Однако новые усовершенствованные ти- пы диаграмм способны визуализировать тысячи таких точек и даже сложные структуры данных, например, нейронные сети. Скажем, средства OLAP (а также инструменты ге- нерации запросов и выпуска отчетов) уже давно поддерживают диаграммы для своих онлайновых отчетов. Новые визуализационные программы обновляют контент за счет периодически повторяющегося считывания данных. Фактически пользователи визуали- зационных программ, отслеживающие линейные процессы (колебания фондового рынка, показатели работы компьютерных систем, сейсмограммы, сетки полезности и др.), нуж- даются в загрузке данных в режиме реального времени или близком к нему режиме. Пользователи инструментов Data Mining обычно анализируют очень большие наборы численных данных. Традиционные типы диаграмм для бизнеса (секторные диаграммы и гистограммы) плохо справляются с представлением тысяч информационных точек. По- этому инструменты Data Mining почти всегда поддерживают некую форму визуализации данных, способную отражать структуры и закономерности исследуемых наборов данных в соответствии с тем аналитическим подходом, который используется в инструменте. Помимо того, что визуализация поддерживает обработку структурированных данных, она также является ключевым средством представления схем так называемых неструк- турированных данных, например текстовых документов, т. е. Text Mining. В частности, средства Text Mining могут осуществлять парсинг больших пакетов документов и фор- мировать предметные указатели понятий и тем, освещенных в этих документах. Когда предметные указатели созданы с помощью нейросетевой технологии, пользователю не- просто продемонстрировать их без некоторой формы визуализации данных. Визуализа- ция в таком случае преследует две цели: визуальное представление контента библиотеки документов и навигационный механизм, который пользователь может применять при исследовании документов и их тем. Как показывают многие исследования, визуализация является одним из наиболее пер- спективных направлений анализа данных, в т. ч. Data Mining. В этом направлении можно выделить такие проблемы, как сложность ориентации среди огромного количества ин- струментов, предлагающих решения по визуализации, а также непризнание рядом спе- циалистов методов визуализации как полноценных средств анализа и навязывание им вспомогательной роли при использовании других методов. Однако у визуализации есть неоспоримые преимущества: она может служить источником информации для пользова- теля, не требуя теоретических знаний и специальных навыков работы, может выступить тем языком, который объединит профессионалов из различных проблемных областей, может превратить исходный набор данных в изображение, благодаря которому у иссле- дователя могут появиться абсолютно новые, неожиданные решения.