Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Литература:
1. Deductor 4 (или 5). Руководство аналитика.
2. Сайт компании разработчика www.basegroup.ru
Введение
Общеизвестно, что основой управления, и в особенности управления экономикой, является полная, достоверная и своевременно полученная информация. Деятельность по обеспечению информацией любого процесса обычно называют информационным обеспечением. Информационное обеспечение плановой экономики принципиально отличается от информационного обеспечения рыночной экономики. В условиях плановой экономики информация собиралась централизовано. В каждой отрасли или ведомстве в рамках отраслевой автоматизированной системы управления функционировала информационная служба, в полном объеме удовлетворявшая потребностям планирования и управления. Информацию, характеризующую деятельность предприятий отрасли, эта служба своевременно и в должном объеме получала от подчиненных предприятий. Помимо этого существовала система отраслевых институтов технико-экономических исследований и информации, в которых также накапливались сведения, необходимые для управления отраслями. В союзных министерствах и ведомствах, таких как Госснаб, Госплан и др., имелись крупные вычислительные центры, в которых собиралась, хранилась и обрабатывалась информация, необходимая для решения задач этих ведомств. Планирование развития экономики осуществлялось Госпланом, другими союзными структурами, отраслевыми министерствами и ведомствами. Изменения внешней среды также отслеживались этими структурами, а управляющие воздействия в соответствии с этими изменениями, как правило, корректировали следующий годовой или пятилетний план.
Отраслевые и союзные плановые органы устанавливали для каждого предприятия:
• какую продукцию и в каких количествах выпускать;
• каким требованиям должна соответствовать выпускаемая продукция;
• кто будет поставлять сырье и комплектующие;
• какую заработную плату следует платить рабочим и служащим с учетом квалификации и стажа работы;
• какие энергоресурсы будут выделены для обеспечения производства;
• куда должна быть отгружена выпущенная продукция и ряд других параметров.
Целью предприятия в условиях плановой экономики являлось выполнение плана при директивно заданных ограничениях. Достижение этой цели осуществлялось за счет эффективной организации производства, и, естественно, в таких условиях руководитель должен был быть технологом, т. е. знать технологии производства, используемое оборудование и уметь организовать людей для выполнения плана. Для информационного обеспечения управления предприятием, особенно средним или крупным, создавались базы данных. Информация, содержащаяся в них, обычно называемая внутренней информацией, отражала в динамике работу отдельных цехов, подразделений и предприятия в целом, движение материалов, необходимых для производства, запасы на складах, финансовые показатели и ряд других. Специалисты, которые занимались автоматизацией информационного обеспечения управления на предприятиях, должны были знать вычислительную технику, программирование и уметь проектировать, эксплуатировать и развивать информационные системы (базы данных) на предприятиях.
Вхождение России в мировое экономическое пространство определило переход от плановой экономики к рыночной. В настоящее время каждое российское предприятие самостоятельно строит свой бизнес. Перед предприятиями, ведущими коммерческую деятельность, стоит цель максимально использовать имеющиеся корпоративные ресурсы (финансовые, технико-технологические, кадровые, информационные, правовые и ряд других) для обеспечения стабильного развития предприятия в настоящее время и в будущем. Эта цель может быть достигнута в условиях, когда каждое предприятие функционирует в едином информационном пространстве. Стратегию бизнеса следует формировать на основе оценки ресурсов самого предприятия и состояния внешней среды.
На каждом предприятии должен быть свой «Госплан», который в условиях рынка выполняет функции маркетингового подразделения. Исследования, проводимые в таком подразделении, определяют стратегию фирмы, предприятия. Основная концепция предприятий в условиях рынка - выпускать то, на что есть спрос. На основе анализа рынков сбыта решается задача, какую продукцию выпускать конкретному предприятию. Анализ деятельности конкурентов позволяет определить, за счет чего может быть достигнута победа в конкурентной борьбе - за счет более высокого качества выпускаемой продукции или за счет меньших затрат на ее производство и, следовательно, возможности установить более низкую цену на рынках сбыта. Для решения этих вопросов необходимо иметь информацию о ценах на продукцию конкурентов, стоимости сырья, комплектующих, электроэнергии, топлива, рабочей силы и прогноз этих значений на ближайшие 2-3 года. Следует также определить затраты на транспортировку продукции к месту сбыта и многое другое.
Американская ассоциация маркетинга определяет маркетинговое исследование (marketing research) как систематический поиск, сбор, обработку и интеграцию информации, относящейся ко всем проблемам маркетинга товаров и услуг. Это определение, отражающее мировой опыт предпринимательской деятельности в условиях рынка, отводит информации об окружающей среде первостепенное значение. Информацию об окружающей среде обычно называют внешней информацией. Практика показывает, что доля внешней информации в общем объеме используемых фирмой данных составляет 85-95 % в зависимости от специфики фирмы, предприятия.
Анализ бизнес информации - основные принципы
Любая организация в процессе своей деятельности стремится повысить прибыль и уменьшить расходы. В этом ей помогают новые компьютерные технологии, использование разнообразных программ автоматизации бизнес-процессов. Это учетные, бухгалтерские, складские системы и многие другие. Чем аккуратнее и полнее ведется сбор и систематизация информации, тем полнее будет представление о процессах в организации.
Современные носители информации позволяют хранить десятки и сотни гигабайт информации, но без использования специальных средств анализа накопленной информации такие носители превращаются просто в свалку бесполезных сведений. Очень часто принятие правильного решения затруднено тем, что хотя данные и имеются, они являются неполными, или, наоборот, избыточными, замусорены информацией, которая вообще не имеет отношения к делу, несистематизированными или систематизированными неверно. Тогда прибегают к помощи программных средств, которые позволяют привести информацию к виду, который дает возможность с достаточной степенью достоверности оценить содержащиеся в ней факты и повысить вероятность принятия оптимального решения.
Таким образом, анализ информации является неотъемлемой частью ведения бизнеса и одним из важных факторов повышения его конкурентоспособности. При этом в подавляющем большинстве случаев анализ сводится к применению одних и тех же базовых механизмов.
Есть два подхода к анализу данных с помощью информационных систем.
В первом варианте программа используется для визуализации информации - извлечения данных из источников и предоставления их человеку для самостоятельного анализа и принятия решений. В этом случае лицо, принимающее решение (ЛПР), использует компьютер только как средство извлечения данных, а выводы делает уже самостоятельно. Обычно данные, предоставляемые программой, являются простой таблицей, и в таком виде их очень сложно анализировать, особенно если данных много. Для решения такого рода задач используются системы отчетности, многомерный анализ данных, диаграммы и прочие способы визуализации. В первом случае практически все, что связано собственно с механизмами принятия решений, возлагается на человека. В некоторых случаях этого вполне достаточно, но если ЛПР интересуют знания, находящиеся достаточно глубоко, если так можно выразиться, то просто механизмы извлечения данных тут не помогут. Необходима более серьезная обработка.
Второй вариант использования программного обеспечения для анализа – это построение моделей. Модель имитирует некоторый процесс, например, изменение объемов продаж некоторого товара, поведение клиентов и другое. Для построения модели необходимо сделать предобработку данных и далее к ним применять математические методы анализа: кластеризацию, классификацию, регрессию и т. д. В этом случае ЛПР получает не сырые, а прошедшие серьезную обработку данные, т.е. человек уже работает с моделями, подготовленными компьютером. Построенную модель можно использовать для принятия решений, объяснения причин, оценки значимости факторов, моделирования различных вариантов развития… Все применяемые механизмы предобработки и анализа позволяют ЛПР работать на более высоком уровне.
Как визуализация, так и построение моделей осуществляются путем применения к данным базовых методов анализа. Это достаточно известные методы, и они используются в самых разнообразных сферах деятельности.
Первый вариант подходит для решения тактических и оперативных задач, а второй – для тиражирования знаний и решения стратегических проблем.
Идеальным случаем была бы возможность применять оба подхода к анализу. Они позволяют покрыть почти все потребности организации в анализе бизнес информации. Варьируя методики в зависимости от задач, мы будем иметь возможность в любом случае выжать максимум из имеющейся информации.
Аналитический подход к моделированию
Модель в традиционном понимании представляет собой результат отображения одной структуры (изученной) на другую (малоизученную). Любая модель строится и исследуется при определенных допущениях, гипотезах. Делается это обычно с помощью математических методов.
В качестве примера рассмотрим экономическую систему. Расчет величины ожидаемого спроса s на будущий месяц (t+1) производится на основе формулы s(t+1)=[s(t)+s(t-1)+s(t-2)]/3, т.е. как среднее от продаж за предыдущие три месяца. Это простейшая математическая модель прогноза продаж. При построении этой модели были приняты следующие гипотезы: 1. Во-первых, годовая сезонность в продажах отсутствует; 2. Во-вторых, на величину продаж не влияют никакие внешние факторы: действия конкурентов, макроэкономическая ситуация и т.д.
Использовать такую модель легко, имея данные о продажах за предыдущие месяцы, по формуле мы получим прогноз на будущий месяц.
Такой подход к моделированию в литературе называют аналитическим. Аналитический подход к моделированию базируется на том, что исследователь при изучении системы отталкивается от модели (рис. 1). В этом случае аналитик по тем или иным соображениям выбирает подходящую модель. Как правило, это теоретическая модель, закон, известная зависимость, представленная чаще всего в функциональном виде (например, уравнение, связывающее выходной параметр y с входными воздействиями x1, x2…). Варьирование входными параметрами даст исследователю некоторый результат на выходе, который моделирует поведение системы в различных условиях.
Рис. 1. Движение от модели к результату
При аналитическом подходе модель не «подстраивается» под действительность, а мы пытаемся подобрать существующую аналитическую модель таким образом, чтобы она адекватно отражала реальность.
Модель всегда исследуется каким-либо методом (численным, качественным и т.п.). Поэтому выбор метода моделирования часто означает выбор модели.
Информационный подход к моделированию
При использовании традиционного, аналитического подхода к решению задач анализа в бизнесе неизбежно возникнут проблемы. Основным фактором, определяющим неблагополучие в использовании аналитических методов для решения бизнес-задач, является несоответствие между этими методами и реальностью, которые они призваны отражать. Существуют трудности, связанные с формализацией бизнес-процессов. Здесь факторы, определяющие явления, столь многообразны и многочисленны, их взаимосвязи так «переплетены», что почти никогда не удается создать модель, удовлетворяющую таким же условиям. Простое «наложение» известных аналитических методов, законов, зависимостей на изучаемую картину реальности не принесет успеха.
Поэтому в последние годы получил распространение информационный подход к моделированию, ориентированный на использование данных. Его цель – освобождение аналитика от рутинных операций и возможных сложностей в понимании и применении современных математических методов.
В информационном подходе реальный объект рассматривается как «черный ящик», имеющий ряд входов и выходы, и моделируются некоторые связи между выходами и входами. Иными словами, известна только структура модели (например: нейронная сеть, линейная регрессия), а сами параметры модели «подстраиваются» под данные, которые описывают поведение объекта. Для корректировки параметров модели используется обратная связь – отклонение результата моделирования от действительности, а процесс настройки модели часто носит итеративный (т.е. цикличный) характер (рис. 2).
Рис. 2. Построение модели от данных
Таким образом, в информационном подходе отправной точкой являются данные, характеризующие исследуемый объект, и модель «подстраивается» под действительность. И если в аналитическом подходе мы можем выбрать модель, даже не имея никаких экспериментальных данных, характеризующих свойства системы, и начать ее использовать, то в информационном подходе без данных невозможно построить модель, так как ее параметры полностью определяются ими.
Пример. В банковском риск-менеджменте широко известна модель Дюрана для расчета рейтинга кредитоспособности заемщика, которая получила распространение в 40-50-е гг. XX вв. Дюран на основе собственного опыта разработал балльную модель для оценки заемщика по совокупности его имущественных и социальных параметров (возраст, пол, профессия и т.д.). Преодолев границу некоторого порога, заемщик считался кредитоспособным. Эта модель представляет собой аналитическую зависимость y=f(x). Если у современного российского банка стоит задача рассчитать рейтинг заемщика, он может воспользоваться существующей моделью Дюрана. Однако, будет ли адекватной в современной российской действительности модель, разработанная в середине прошлого века на Западе? Естественно не будет, так как она никак не учитывает закономерности между современными заемщиками и дефолтностью по кредитам. Если же этот банк возьмет существующие собственные данные по кредитным историям и на их основе построит модель, рассчитывающую рейтинг клиента, то, вполне вероятно, получит работоспособную на практике модель расчета кредитного рейтинга клиента.
В первом случае, когда мы брали модель Дюрана, мы использовали аналитический подход. Во втором – информационный, но для построения модели нам понадобились данные – кредитные истории заемщиков банка.
Аналитические модели более универсальны, тогда как модели, полученные с помощью информационного подхода, учитывают специфику моделируемого объекта, явления.
С другой стороны, концепция «моделей от данных» требует тщательного подхода к качеству исходных данных, поскольку ошибочные, аномальные и зашумленные данные могут дать модели и выводы, не имеющие никакого отношения к действительности, а значит, ввести исследователя в заблуждение. Поэтому в информационном моделировании важную роль играет консолидация данных, их очистка и даже обогащение.
Модель, построенная на некотором множестве данных, описывающих реальный объект или систему, может оказаться не работающей на практике, поэтому в информационном моделировании применяют специальные приемы: разделение данных на обучающее и тестовое множества, оценка обучающей и обобщающей способностей модели, проверка предсказательной силы модели.
В дальнейшем под анализом данных будет пониматься именно информационный подход.
Обычно анализ производят аналитики и эксперты предметной области предприятия. Они подготавливают данные к пригодному для анализа виду, применяют к ним различные методы анализа, приводят результаты к легко воспринимаемому виду. Результаты анализа необходимы лицам предприятия, принимающим решения, например, руководителям отделов, менеджерам. Они могут совершенно не разбираться в методах анализа, но у них есть потребность в их результатах.
Таким образом, требуется, с одной стороны, выделить и формализовать знание эксперта о предметной области, с другой, обеспечить возможность использовать эти знания человеком, не разбирающимся в особенностях использования механизмов анализа, т.е. решить проблему тиражирования знаний.
Интерпретация результатов компьютерной обработки возлагается на человека. Просто различные методы дают различную пищу для размышлений. В самом простом случае – это таблицы и диаграммы, а в более сложном – модели и правила. Полностью исключить участие человека невозможно, т.к. тот или иной результат не имеет никакого значения, пока не будет применен к конкретной предметной области. Однако имеется возможность тиражировать знания. Например, ЛПР при помощи какого-либо метода определил, какие показатели влияют на кредитоспособность покупателей, и представил это в виде правила. Правило можно внести в систему выдачи кредитов и таким образом значительно снизить кредитные риски, поставив их оценки на поток. При этом от человека, занимающегося собственно выпиской документов, не требуется глубокого понимания причин того или иного вывода. Фактически это перенос методов, когда-то примененных в промышленности, в область управления знаниями. Основная идея – переход от разовых и не унифицированных методов к конвейерным.
Часто при описании того или иного продукта, анализирующего бизнес информацию, применяют термины типа риск-менеджмент, прогнозирование, сегментация рынка… Но в действительности решения каждой из этих задач сводятся к применению одного из описанных ниже методов анализа. Например, прогнозирование – это задача регрессии, сегментация рынка – это кластеризация, управление рисками – это комбинация кластеризации и классификации, возможны и другие методы. Поэтому данный набор технологий позволяет решать большинство бизнес задач. Фактически, они являются атомарными (базовыми) элементами, из которых собирается решение той или иной задачи.
Рассмотрим, что представляет собой аналитическая система.
В качестве первичного источника данных должны выступать базы данных систем управления предприятием, офисные документы, Интернет, потому что необходимо использовать все сведения, которые могут пригодиться для принятия решения. Причем речь идет не только о внутренней для организации информации, но и о внешних данных (макроэкономические показатели, конкурентная среда, демографические данные и т.п.).
Хотя в хранилище данных не реализуются технологии анализа, оно является той базой, на которой нужно строить аналитическую систему. В отсутствие хранилища данных на сбор и систематизацию необходимой для анализа информации будет уходить большая часть времени, что в значительной степени сведет на нет все достоинства анализа. Ведь одним из ключевых показателей любой аналитической системы является возможность быстро получить результат.
Следующим элементом схемы является семантический слой. Вне зависимости от того, каким образом будет анализироваться информация, необходимо, чтобы она была понятна ЛПР, поскольку в большинстве случаев анализируемые данных располагаются в различных базах данных, а ЛПР не должен вникать в нюансы работы с СУБД, то требуется создать некий механизм, трансформирующий термины предметной области в вызовы механизмов доступа к БД. Эту задачу и выполняет семантический слой. Желательно, чтобы он был один для всех приложений анализа, таким образом легче применять к задаче различные подходы.
Любая система поддержки принятия решений, прежде всего, должна обладать средствами отбора и предоставления пользователю данных в удобной для восприятия и анализа форме.
Системы отчетности предназначены для того, чтобы дать ответ на вопрос "что происходит". Первый вариант его использования: регулярные отчеты используются для контроля оперативной ситуации и анализа отклонений. Например, система ежедневно готовит отчеты об остатках продукции на складе, и когда его значение меньше средней недельной продажи, необходимо реагировать на это подготовкой заказа на поставку, т. е. в большинстве случаев это стандартизированные бизнес операции. Чаще всего некоторые элементы этого подхода в том или ином виде реализованы в компаниях (пусть даже просто на бумаге), однако нельзя допускать, чтобы это был единственный из доступных подходов к анализу данных. Второй вариант применения систем отчетности: обработка нерегламентированных запросов. Когда ЛПР хочет проверить какую-либо мысль (гипотезу), ему необходимо получить пищу для размышлений подтверждающую либо опровергающую идею, т. к. эти мысли приходят спонтанно, и отсутствует точное представление о том, какого рода информация потребуется, необходим инструмент, позволяющий быстро и в удобном виде эту информацию получить. Извлеченные данные обычно представляются либо в виде таблиц, либо в виде графиков и диаграмм, хотя возможны и другие представления. Самый распространенный на сегодня подход – это механизм OLAP (Online Analytical Processing – оперативная аналитическая обработка данных).
Основной проблемой при решении, задач прогнозирования является вовсе не возможность извлечения интересующих данных в виде таблиц и диаграмм, а построение адекватной модели. Дальше все достаточно просто. На вход имеющейся модели подается новая информация, пропускается через нее, а результат и есть прогноз. Но построение модели является совершенно нетривиальной задачей. Конечно, можно заложить в систему несколько готовых и простых моделей, например, линейную регрессию или что-то аналогичное, довольно часто именно так и поступают, но это проблему не решает. Реальные задачи почти всегда выходят за рамки таких простых моделей. А следовательно, такая модель будет обнаруживать только явные зависимости, ценность обнаружения которых незначительна, что и так хорошо известно и так, или будут строить слишком грубые прогнозы, что тоже совершенно неинтересно. Например, если вы будете при анализе курса акций на фондовом рынке исходить из простого предположения, что завтра акции будут стоить столько же, сколько и сегодня, то в 90% случаев вы угадаете. И насколько ценны такие знания? Интерес для брокеров представляют только оставшиеся 10%. Примитивные модели в большинстве случаев дают результат примерно того же уровня.
Правильным подходом к построению моделей является их пошаговое улучшение. Начав с первой, относительно грубой модели, необходимо по мере накопления новых данных и применения модели на практике улучшать ее. Собственно задача построения прогнозов и тому подобные вещи выходят за рамки механизмов систем отчетности. Для решения задач более глубокого анализа применяется совершенно другой набор технологий, объединенных под названием Knowledge Discovery in Databases.
Knowledge Discovery in Databases (KDD - извлечение знаний из баз данных) – это процесс преобразования данных в знания. Это процесс поиска полезных знаний в «сырых данных». KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных, интерпретации полученных результатов. Data Mining – это процесс обнаружения в "сырых" данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Привлекательность этого подхода заключается в том, что вне зависимости от предметной области мы применяем одни и те же операции:
1. Извлечь данные (Подготовить исходный набор данных).
Этот этап заключается в создании набора данных, в том числе слиянии сведений из различных источников, определение выборки, которая и будет в последствии анализироваться. Для этого должны существовать развитые инструменты доступа к различным источникам данных: файлам разных форматов, базам данных, учетным системам. В нашем случае для этого нужен семантический слой.
2. Предобработать и очистить данные.
Для того чтобы эффективно применять методы анализа, следует обратить серьезное внимание на вопросы предобработки данных. Данные могут содержать пропуски, шумы, аномальные значения и т.д. Кроме того, данные могут быть избыточны, недостаточны и т.д. В некоторых задачах требуется дополнить данные некоторой априорной информацией. Наивно предполагать, что если подать любые данные на вход системы в существующем виде, то на выходе получим полезные знания. Применение для анализа "грязных" данных может полностью свести на нет применяемые в дальнейшем механизмы анализа. Данные должны быть качественны и корректны с точки зрения используемого метода анализа. Более того, иногда размерность исходного пространства может быть очень большой, и тогда желательно применение специальных алгоритмов понижения размерности: отбор наиболее значимых признаков и отображение данных в пространство меньшей размерности.
3. Трансформировать данные. Различные методы анализа требуют данных, подготовленных в специальном виде. Например, где-то в качестве входов может использоваться только цифровая информация.
4. Провести, собственно, анализ – Data Mining.
Data Mining, обеспечивает решение всего 6 задач – классификация, кластеризация, регрессия, ассоциация, последовательность и анализ отклонений.
5. Обработать полученные результаты. Постобработка данных. Тестирование, интерпретация результатов и практическое применение полученных знаний в бизнесе.
Описанный процесс повторяется итеративно, а реализация этих этапов позволяет автоматизировать процесс извлечения знаний.
Например, нужно сделать прогноз объемов продаж на следующий месяц. Есть сеть магазинов розничной торговли. Первым шагом будет сбор истории продаж в каждом магазине и объединение ее в общую выборку данных. Следующим шагом будет предобработка собранных данных. Например, их группировка по месяцам, сглаживание кривой продаж, устранение факторов, слабо влияющих на объемы продаж. Далее следует построить модель зависимости объемов продаж от выбранных факторов. Это можно сделать с помощью линейной регрессии или нейронных сетей. Имея такую модель, можно получить прогноз, подав на вход модели нашу историю продаж. Зная прогнозное значение, его можно использовать, например, для оптимизации размещения товара на складе.
DM - Data Mining – добыча данных. DM обеспечивает решение всего шести задач:
1. Классификация - это отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
Классификация используется в случае, если заранее известны классы отнесения объектов. Например, отнесение нового товара к той или иной товарной группе, отнесение клиента к какой- либо категории. При кредитовании это может быть, например, отнесение клиента по каким-то признакам к одной из групп риска.
2. Кластеризация - это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
Кластеризация может использоваться для сегментирования и построения профилей клиентов (покупателей). При достаточно большом количестве клиентов становится трудно подходить к каждому индивидуально. Поэтому клиентов удобно объединить в группы – сегменты со сходными признаками. Выделять сегменты клиентов можно по нескольким группам признаков. Это могут быть сегменты по сфере деятельности, по географическому расположению. После сегментации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыль, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных предпочтений.
3. Регрессия, в том числе задачи прогнозирования. Установление функциональной зависимости между входными и непрерывными выходными переменными.
Регрессия чаще всего используется при прогнозировании объемов продаж, в этом случае зависимой величиной являются объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. Или, например, при кредитовании физических лиц вероятность возврата кредита зависит от личных характеристик человека, сферы его деятельности, наличия имущества.
4. Ассоциация - выявление зависимостей между связанными событиями, указывающих, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом потребительской корзины (market basket analysis).
Ассоциации помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ним бутылочку соуса.
5. Последовательные шаблоны - установление закономерностей между связанными во времени событиями. Например, после события X через определенное время произойдет событие Y.
Последовательные шаблоны могут быть использованы, например, при планировании продаж или предоставлении услуг. Например, если человек приобрел фотопленку, то через неделю он отдаст ее на проявку и закажет печать фотографий.
6. Анализ отклонений - выявление наиболее нехарактерных шаблонов.
Для анализа отклонений необходимо сначала построить шаблон типичного поведения изучаемого объекта. Например, поведение человека при использовании кредитных карт. Тогда будет известно, что клиент (покупатель) использует карту регулярно два раза в месяц и приобретает товар в пределах определенной суммы. Отклонением будет, например, не запланированное приобретение товара по данной карте на большую сумму. Это может говорить об ее использовании другим лицом, то есть о факте мошенничества.
Перечисленные выше базовые методы анализа данных используются для создания аналитических систем. Причем, под такой системой понимается не только какая-то одна программа. Некоторые механизмы анализа могут быть реализованы на бумаге, некоторые на компьютере с использованием электронных таблиц, баз данных и других приложений. Однако, такой подход при частом использовании не эффективен. Намного лучшие результаты даст применение единого хранилища данных и единой программы, содержащей в себе всю функциональность, необходимую для реализации концепции KDD.
Реальные бизнес задачи решаются практически всегда одним из указанных выше методов или их комбинацией. Практически все задачи – прогнозирование, сегментация рынка, оценка рисков, оценка эффективности рекламных кампаний, оценка конкурентных преимуществ и множество других – сводятся к описанным выше. Поэтому, имея в распоряжении инструмент, решающий приведенный список задач, можно говорить, что вы готовы решить любую задачу бизнес анализа.
Если вы обратили внимание, мы нигде не упоминали о том, какой инструмент будет использоваться для анализа, какие технологии, т.к. сами задачи и методы их решения не зависят от инструментария. Это всего лишь описание грамотного подхода к проблеме. Благодаря этому имеется возможность создания унифицированной программной платформы, в которой реализованы основные механизмы анализа, такой как Deductor.
Структура аналитической платформы Deductor
Deductor 5 предназначен для эффективного решения проблемы тиражирования знаний. Deductor - это аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.
Deductor 5 состоит из пяти частей:
1. Warehouse – многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически обеспечивает всю необходимую поддержку процесса анализа данных.
2. Studio – аналитическое приложение, позволяющее пройти все этапы построения прикладного решения. Это программа, предназначенная для анализа информации из различных источников данных. Она реализует функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование.
3. Viewer – рабочее место конечного пользователя, одно из средств тиражирования знаний. это облегченная версия Deductor Studio, предназначенная для отображения построенных в Deductor Studio отчетов. Она не включает в себя механизмов создания сценариев, но обладает полноценными возможностями по их выполнению и визуализации результатов. Deductor Viewer является средством тиражирования знаний для конечных пользователей, которым не требуется знать механику получения результатов или изменять способы их получения.
4. Server – служба, обеспечивающая удаленную аналитическую обработку данных;
5. Client – клиент доступа к Deductor Server. Обеспечивает доступ к серверу из сторонних приложений и управление его работой.
Deductor 5 содержит большое количество методов подготовки, трансформации, обработки и визуализации данных.