Справочник от Автор24
Поделись лекцией за скидку на Автор24

Понятия данных и знаний. Методы обработки данных. Оперативная аналитическая обработка данных (online analytical processing, OLAP)

  • 👀 830 просмотров
  • 📌 801 загрузка
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Понятия данных и знаний. Методы обработки данных. Оперативная аналитическая обработка данных (online analytical processing, OLAP)» pdf
Лекция 2. Современные технологии анализа данных 1 ТЕХНОЛОГИИ ОБРАБОТКИ ИНФОРМАЦИИ к.т.н., доцент Буряченко Владимир Викторович [email protected] Содержание лекции 2 Понятия данных и знаний. 2. Методы обработки данных. 3. Оперативная аналитическая обработка данных (online analytical processing, OLAP). 4. Концепция хранилищ данных. 5. Технология Data Mining. 1. Понятия «данные» и «знания» 3 Данные – это:  факты, цифры, сведения о реальных и абстрактных лицах, предметах, объектах и событиях, соответствующих определенной предметной области, представленные в цифровом, символьном, графическом, звуковом и любом другом формате;  информация, представленная в виде, пригодном для ее передачи и обработки автоматическими средствами, при возможном участии автоматизированными средствами с человеком;  фактический материал, представленный в виде информации, чисел, символов или букв, используемый для описания личностей, объектов, ситуаций или других понятий с целью последующего анализа, обсуждения или принятия соответствующих решений. Методы обработки данных 4  Чтобы извлечь из данных информацию, необходимо подобрать соответствующий форме данных адекватный метод получения информации.  По своей природе данные являются объективными, так как это результат регистрации объективно существующих сигналов, вызванных изменениями в материальных телах или полях.  Методы являются субъективными. В основе искусственных методов лежат алгоритмы (упорядоченные последовательности команд), составленные и подготовленные людьми (субъектами). Понятие «знаний» 5 Знания – это:  вид информации, отражающей знания, опыт и восприятие человека – специалиста (эксперта) в определенной предметной области;  множество всех текущих ситуаций в объектах данного типа и способы перехода от одного описания объекта к другому;  осознание и толкование определенной информации, с учетом путей наилучшего ее использования для достижения конкретных целей. Характеристиками знаний являются: внутренняя интерпретируемость, структурируемость, связанность и активность. «Знания есть факты плюс убеждения плюс правила». Технологии анализа данных 6  Методы обработки данных развивались в рамках направления, называемого прикладной статистикой. Специфика обработки данных:  данные имеют неограниченный объем;  данные являются разнородными (количественными, качественными, текстовыми);  результаты должны быть конкретны и понятны;  инструменты для обработки сырых данных должны быть просты в использовании. Технологии анализа данных 7  Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, не может решать возникшие проблемы.  Одна из главных причин – концепция усреднения по выборке.  Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP). Оперативная аналитическая обработка данных 8  Выделяют 12 правил или 18 особенностей (Е. Кодд, 1993), характеризующих OLAP.  Быстрый Анализ Разделяемой Многомерной Информации – или, кратко – FASMI (в переводе с английского – Fast Analysis of Shared Multidimensional Information) – 1995 г. Оперативная аналитическая обработка данных 9  FAST (Быстрый) – означает, что система должна обеспечивать пользователям секунд. выдачу большинства ответов в пределах приблизительно пяти  ANALYSIS (Анализ) – означает, что система может справляться с любым логическим и статистическим анализом, характерным для данного приложения, без программирования и обеспечивает сохранение результатов в виде, доступном для конечного пользователя. Оперативная аналитическая обработка данных 10  SHARED (Разделяемый) – означает, что система осуществляет все требования защиты конфиденциальности (возможно до уровня ячейки) и, если множественный доступ для записи необходим, обеспечивает блокировку модификаций на соответствующем уровне.  OLAP продукты имеют тенденцию предполагать, что во всех приложениях OLAP требуется только чтение, и предоставляют упрощенные средства защиты. Оперативная аналитическая обработка данных 11  MULTIDIMENSIONAL (Многомерный) – система должна обеспечить многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий, поскольку это наиболее логичный способ анализировать бизнес и организации.  INFORMATION – информация должна быть получена в том месте сети, где она необходима пользователю и в том виде, в каком она необходима. Пример использования OLAP в продажах товаров 12  Если выделить основные цифры (факты), и разрезы (измерения) которыми манипулирует коммерсант, стараясь расширить или оптимизировать свой бизнес, то получится таблица, подходящая для анализа продаж как универсальный шаблон, требующий небольших корректив для каждого конкретного предприятия. Пример использования OLAP в продажах товаров 13 Поля таблицы:  «Время»;  «Категория товара»;  «Товар»;  «Регион»;  «Продавец»;  «Покупатель»;  «Сумма»;  «Количество». Примеры использования OLAP-анализа 14  Факторный (структурный) анализ – анализ структуры продаж для выявления важнейших составляющих в интересующем разрезе.  Анализ динамики – выявление тенденций, сезонных колебаний.  Анализ зависимостей – сравнение объемов продаж разных товаров во времени для выявления необходимого ассортимента – «корзины».  Сопоставление (сравнительный анализ) – сравнение результатов продаж во времени, или за заданный период, или для заданной группы товаров. Примеры использования OLAP-анализа 15  Этими видами анализа возможности OLAP не исчерпываются.  Например, применяя в качестве алгоритма вычисления промежуточных и окончательных итогов среднее арифметическое, или функции статистического анализа – дисперсия, среднее отклонение и т. д. можно получить самые изощренные виды аналитических отчетов. Концепция хранилищ данных 16  Традиционные системы обработки данных (СОД), реализованные на самой различной основе, успешно работают, порождают и пополняют многочисленные многотомные электронные архивы.  Без предварительной доработки и согласования, архивные данные бесполезны и не могут быть непосредственно использованы в задачах анализа. Концепция хранилищ данных 17  Автором концепции Хранилищ Данных (Data Warehouse) является Б. Инмон, который определил Хранилища Данных, как:  «Предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления», обеспечивающие менеджеров и аналитиков достоверной информацией необходимой для оперативного анализа и принятия решений. Концепция хранилищ данных 18  Интеграция ранее разъединенных детализированных данных: исторические архивы, данные из традиционных СОД, данные из внешних источников объединяются в едином Хранилище Данных, их согласование и возможно агрегация.  Разделение наборов данных используемых для операционной обработки и наборов данных используемых для решения задач анализа. Концепция хранилищ данных 19 Цель концепции Хранилищ Данных:  прояснить отличия в характеристиках данных в операционных и аналитических системах, определить требования к данным помещаемым в целевую БД Хранилища Данных,  определить общие принципы и этапы её построения, основные источники данных,  дать рекомендации по решению потенциальных проблем, возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД. Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных 20 Характеристика Операционные Аналитические Частота обновления Высокая частота, маленькими порциями Малая частота, большими порциями Источники данных В основном внутренние В основном внешние Объемы хранимых данных Сотни мегабайт, гигабайты Гигабайты и терабайты Возраст данных Текущие (за период от нескольких месяцев до одного года) Текущие и исторические (за период в несколько лет, десятки лет) Назначение Фиксация, оперативный поиск и преобразование данных Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование Концепция Хранилищ Данных 21  это не концепция анализа данных, скорее это концепция подготовки данных для анализа.  Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.  Концепция Хранилищ Данных предполагает не просто единый логический взгляд данные организации (как иногда это трактуется). Она предполагает реализацию единого интегрированного источника данных. Основные требования к данным в Хранилище Данных 22 Предметная ориентированность Все данные о некотором предмете (бизнес объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес-анализе форме Интегрированность Все данные о разных бизнес объектах взаимно согласованы и хранятся в едином общекорпоративном Хранилище Неизменчивость Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения Поддержка хронологии Данные хронологически структурированы и отражают историю за достаточный для выполнения задач бизнес анализа и прогнозирования период времени Технология Data Mining 23  В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных.  Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Скрытые данные 24  Найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). Уровень знаний, извлекаемых из данных Аналитические инструменты Поверхностный Язык простых запросов Неглубокий Оперативная аналитическая обработка Скрытый «Раскопка данных» – Data Mining Технология Data Mining 25  В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро – один из основателей этого направления:  Data Mining – это технология обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.  Часто эту технологию называют интеллектуальным анализом данных. Типы закономерностей, выявляемых технологией Data Mining 26  Ассоциация имеет место в том случае, если несколько     событий связаны друг с другом. Если существует цепочка связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в базах данных (БД) в виде временных рядов. Пример применения Data Mining в торговле 27  Анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе.  Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов.  Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением. Современные программные средства для анализа данных 28  SAS  Statistica  Deductor SAS Business analytics Deductor
«Понятия данных и знаний. Методы обработки данных. Оперативная аналитическая обработка данных (online analytical processing, OLAP)» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ

Тебе могут подойти лекции

Смотреть все 462 лекции
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot