Задача консолидации.Консолидация Данных

👀 1455 просмотров
📌 1387 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Задача консолидации.Консолидация Данных», docx

Загружаем конспект в формате docx

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Задача консолидации.Консолидация Данных», Word формат

Задача консолидации Консолидация Данных Введение Ценность и достоверность знаний, полученных в результате интеллектуального анализа данных, зависит не только от эффективности используемых аналитических методов и алгоритмов, но и от того, насколько правильно подобраны и подготовлены исходные данные для анализа. Обычно руководителям проектов по бизнес-аналитике с нуля приходится сталкиваться со следующими ситуациями: • Данные на предприятии расположены в различных источниках самых разнообразных форматов и типов в отдельных файлах офисных документов (Ехсеl, Word, обычных текстовых файлах), в учетных системах (1С, Парус и др.), в базах данных (Oracle, Access, dBase и др.) • Данные могут быть избыточными или, наоборот, недостаточными • Данные являются связными – содержат факторы, мешающие их правильной обработке и анализу (пропуски, аномальные значения, дубликаты и противоречия) Поэтому, прежде чем приступить к анализу данных, необходимо : • Доведение данных до приемлемого уровня качества и информативности • Организовать их интегрирование в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполняемых аналитических запросов. Консолидация —- комплекс методов, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены хранилище данных – аналитическую систему. Основные критерии оптимальности с точки зрения консолидации данных: • Обеспечение высокой скорости доступа к данным • Компактность хранения • Автоматическая поддержка целостности структуры данных; • Контроль непротиворечивости данных. Источники данных Ключевым понятием консолидации является источник данных — объект, содержащий структурированные данные и используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат. Основные задачи консолидации данных: • выбор источников данных; • разработка стратегии консолидации; • оценка качества данных; • обогащение; • очистка; • перенос в хранилище данных. Выбор источников данных - можно выделить три основных подхода к организации хранения данных. • Данные, хранящиеся в отдельных (локальных) файлах, например, в текстовых файлах с разделителями, документах Word, Ехсеl данные в котором организованы в виде столбцов и записей. Преимущество данные создаваться и редактироваться с помощью простых офисных приложений. К недостаткам не всегда оптимальны, компактности представления данных и поддержки их структурной целостности. • Базы данных (БД) различных СУБД, таких как Огас1е, SQL Server, Firebird, dBase, FохРго, Ассезз и т. д. Файлы БД лучше поддерживают целостность структуры данных, поскольку тип и свойства их полей жестко задаются при построении таблиц. Однако требуются специалисты с более высоким уровнем подготовки. • Специализированные хранилища данных (ХД) являются наиболее предпочтительным решением, поскольку их структура и функционирование специально оптимизируются для работы с аналитической платформой. Главное преимущество ХД перед остальными типами источников данных — наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу. Очистка данных – комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д. Обогащение - процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач. Его необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа. Обобщенная схема процесса консолидации Место консолидации в общем процессе анализа данных может быть представлено в виде структурной схемы (рис 2.1) Рис. 2.1. Процесс консолидации данных В основе процедуры консолидации лежит процесс ЕТL (ехtraction, transformation, loading), Процесс ЕТL решает задачи извлечения данных из разнотипных источников, их преобразования к виду, пригодному для хранения в определенной структуре, а также загрузки в соответствующую базу или хранилище данных Процесс сбора, хранения и оперативной обработки данных на типичном предприятии обычно содержит несколько уровней. На верхнем уровне располагаются реляционные SQL-ориентированные СУБД типа SQL-Server, Оrас1е и т. д. На втором серверы с некоторой системой оперативной обработки данных OLТР. И наконец, на самом нижнем уровне расположены локальные ПК отдельных пользователей с персональными источниками данных. Из источников данных всех перечисленных уровней информация в соответствии с некоторым регламентом должна перемещаться в ХД. Для этого необходимо обеспечить выгрузку данных из источников, провести их преобразование к виду, соответствующему структуре ХД, а при необходимости выполнить их обогащение и очистку. Таким образом, консолидация данных является сложной многоступенчатой процедурой и важнейшей составляющей аналитического процесса, обеспечивающей высокий уровень аналитических решений. Введение в хранилища данных Введение С появлением персональных компьютеров корпоративные системы, предназначенные для оперативной обработки информации, стали доступными для множества мелких и средних фирм, предприятий. Системы оперативной обработки информации получили название ОLТР (On-line Transaction Processing — оперативная, то есть в режиме реального времени, обработка транзакций). Транзакция — некоторый набор операций над базой данных, который рассматривается как единое завершенное, сточки зрения пользователя, действие над некоторой информацией, обычно связанное с обращением к базе данных. Обобщенная структура системы ОLТР представлена на рис. 2.2. Типичным примером применения OLTP-систем является массовое обслуживание клиентов, например, бронирование авиабилетов или оплата услуг телефонных компаний. Обе эти ситуации имеют два общих свойства: очень большое число клиентов и непрерывное поступление информации. В данной задаче транзакция включает в себя набор таких действий, как: • запрос оператора о наличии свободных мест на тот или иной рейс; • отклик ВЦ с предоставлением соответствующей информации; • ввод оператором информации о клиенте, номере заказанного места и оплаченной сумме (возможно, будет присутствовать еще какая-либо служебная вспомогательная информация); • передача новой информации в базу данных и внесение в нее соответствующих изменений; • передача оператору подтверждения о том, что операция выполнена успешно. Такие транзакции выполняются тысячи раз в день в сотнях пунктов продаж. Очевидно, что основным приоритетом в данном случае является обеспечение минимального времени отклика при максимальной загрузке системы. Рассмотрим характерные черты данного процесса, свойственные в той или иной мере всем OLTP-системам. • Запросы и отчеты полностью регламентированы. Оператор не может сформировать собственный запрос, чтобы уточнить или проанализировать какую-либо информацию. • Как только перелет завершился, информация об обслуживании данного клиента теряет смысл, становится неактуальной и подлежит удалению по прошествии определенного времени (то есть исторические данные не поддерживаются). • Операции производятся над данными с максимальным уровнем детализации, то есть по каждому клиенту в отдельности. Анализ пассажиропотоков с целью их оптимизации, в случаи нехватки или низкого уровни спроса билетов на определенные маршруты позволяет сделать предположение о целесообразности увеличении или сокращении рейсов. Для проведения таких исследований необходимы как минимум три вещи: * необходима дополнительная информация о би знес- среде: о конкурентах, рыночных тенденциях, ценах на топливо н пр. Очевидно, что типичная 01ЛТ-система не может обеспечить ничего из перечисленного. Следовательно, необходимо использовать более развитые систем хранения данных, ориентированных на анализ. Предпосылки появления ХД Появление потребности в информационных системах, которые позволяли бы проводить глубокую аналитическую обработку, поиск скрытых структур и закономерностей в массивах данных, стратегическое и оперативное планирование, формирование нерегламентированных запросов, принятие решений и прогнозирование. Понимание преимуществ, которые способен дать интеллектуальный анализ, привело к появлению нового класса систем — информационных систем поддержки принятия решений (СППР), ориентированных на аналитическую обработку данных с целью получения знаний, Обобщенная структурная схема информационной СППР представлена на рис. 2.3. • Для выполнения сложных аналитических запросов необходима обработка больших массивов данных из разнообразных источников. • Для выполнения запросов, связанных с анализом тенденций, прогнозированием протяженных во времени процессов, необходимы исторические данные, накопленные за достаточно длительный период, что не обеспечивается обычными ОЬТР- системами. • При аналитической обработке предпочтение отдается не детальным данным, а обобщенным (агрегированным). Очевидно, что для анализа продаж крупного супермаркета интерес представляет не информация об отдельных покупках, а о продажах за период день, неделя, месяц, год. В связи с этим можно выделить ряд принципиальных отличии СПИР и ОЬТР- систем. Эти отличия представлены в табл. 2.1. Таблица 2.1. Отличия СППР и ОЬТР-систем Свойство ОЫР-система СППР Цели использования данных Быстрый поиск, простейшие алгоритмы обработки Аналитическая обработка с целью поиска скрытых закономерностей, Уровень обобщения (детализации) данных Детализированные Как детализированные, так и обобщенные Требования к качеству данных Возможны некорректные данные (ошибки регистрации, ввода и т. д.) Ошибки в данных не допускаются, поскольку могут привести к не- Формат хранения данных Данные могут храниться в различных форматах в зависимости от при- Данные хранятся и обрабатываются в едином формате Время хранения данных Как правило, не более года (в пределах отчетного Г оды, десятилетия Изменение данных Данные могут добавляться, изменяться и удаляться Допускается только пополнение; ранее Периодичность Часто, но в небольших Редко, но в больших Должен бы 11.» обеспечен [Должен бы/ь ЫнМШЧИН доступ ко всем текущим 1/ннлун к не/орич#сяим По (опоратинным) данным рсть н'шмм&шшм ш Стандартные, настроенные I кре! тши I ирошиняе* заранее [формируемые ЬИШШ / ИМ0М Несколько секунд [До нескольких мину/ Как видно из табл. 2.1, требования к СГП1Р и ОМ Р системам существенно отличаются. Поэтому в СГП 1Р используются специализированные базы данных, которые называются хрннилишлми данных (ХД). Основные особенности концепции ХД Хранилище данных разновидность систем хранения, ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивост ь и хронолог ию данных, а также высокую скорость выполнения аналитических запросов. Важнейшим элементом ХД является семант ический слой механизм, позволяющий аналитику оперировать данными посредст вом бизнес - терминов предметной области. Семантический слой дает пользователю возможность сосредоточиться на анализе и не задумываться о механизмах получения данных. Базы данных в ОЬ ГР-системах характеризуются очень высокой динамикой изменения записей из-за повседневной работы большого числа пользователей (откуда, кстати, велика вероятность появления противоречий, ошибок, нарушения целостности Ночных иШ ()•)> Что касается ХД, то данные из него не удаляются, а пополнение происходит в соответствии с определенным регламентом (раз о час, день, неделю, в определенное время). Основные требования к ХД • высокая скорость получения данных из хранилища; • автоматическая поддержка внутренней непротиворечивости данных; • возможность получения и сравнения срезов данных; • наличие удобных средств для просмотра данных в хранилище; 2.2. Основные концепции хранилищ данных Основные положения концепции ХД В основе концепции ХД лежат следующие положения: • интеграция и согласование данных из различных источников, таких как обычные системы оперативной обработки, базы данных, учетные системы, офисные документы, электронные архивы, расположенные как внутри предприятия, так и во внешнем окружении; • разделение наборов данных, используемых системами выполнения транзакций и СППР. Свойства ХД: предметно-ориентированный, интегрированный, неизменяемый и поддерживающий хронологию набор данных, предназначенный для обеспечения принятия управленческих решений. Ориентированность -ХД должно разрабатываться с учетом специфики конкретной предметной области, а не аналитических приложений, с которыми его предполагается использовать. Структура ХД должна отражать представления аналитика об информации, с которой ему приходится работать. Интегрированность означает, что должна быть обеспечена возможность загрузки в ХД информации из источников, поддерживающих различные форматы данных и созданных в различных приложениях — учетных системах, базах данных, электронных таблицах и других офисных приложениях, поддерживающих структурированность данных (например, текстовые файлы с разделителями). Принцип не изменчивости предполагает, что, в отличие от обычных систем оперативной обработки данных, в ХД данные после загрузки не должны подвергаться каким-либо изменениям, за исключением добавления новых данных. Поддержка хронологии означает соблюдение порядка следования записей, для этого в структуру ХД вводятся ключевые атрибуты Дата и Время. Физически упорядочить записи в хронологическом порядке возрастания атрибута Дата, можно уменьшить время выполнения аналитических запросов. Использование концепции ХД в СППР и анализе данных способствует достижению таких целей, как: • своевременное обеспечение аналитиков и руководителей всей информацией, необходимой для выработки обоснованных и качественных управленческих решений; • создание единой модели представления данных в организации; • создание интегрированного источника данных, предоставляющего удобный доступ к разнородной информации и гарантирующего получение одинаковых ответов на одинаковые запросы из различных аналитических приложений. Задачи, решаемые ХД Основными задачами, которые требуется решить в процессе разработки ХД, являются: | выбор структуры хранения данных, обеспечивающей высокую скорость выполнения запросов и минимизацию объема оперативной памяти; | первоначальное заполнение и последующее пополнение хранилища; | обеспечение единой методики работы с разнородными данными и создание удобного интерфейса пользователя. Обобщенная концептуальная схема ХД представлена на рис. 2.4. Ь I . "~г~ Пользователь Рис. 2.4. Концептуальная схема ХД Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные. Дггалширо ванные и агрег ированные данные Данные в ХД хранятся как в детализированном, так и в агрегированном виде, Данные в легализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям, регистрируемым 01Л Р- сислсмами. I акими данными могут быть ежедневные продажи, количество ВШКМДО/дошых изделий и т. д. Это неделимые значения, попытка дополнительно детализировать которые лишает их логического смысла. Многие задачи анализа (например, прогнозирование) требуют использования данных определенной степени обобщения. Например, суммы продаж, взятые подиям, могут /гать очень неравномерный ряд данных, что затруднит выявление характерных периодов, закономерностей или тенденций. Однако, если обобщить гги данные в пределах недели или месяца и взять сумму, среднее, максимальное и минимальное значения за соответствующий период, то полученный ряд может оказаться более информативным. Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные — агрегированными (иногда — агрегатами). Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержатся в ХД вместе с детализированными данными. 11осколмсу один и тот же набор детализированных данных может породить несколько наборов агрегированных данных с различной степенью обобщения^ объем ХД возрастает, иногда существенно. Например, набор, содержащий данные о продажах по дням в течение года, помимо своих 360 значений, порождает 52 значения с обобщением по неделям и 12 — по месяцам. Если при этом вычисляются все виды агрегации — сумма, среднее, максимальное и минимальное значения за соответствующий период, — то количество хранящихся агрегированных значений составит уже (52 + 12) • 4 в 256. Иногда это приводит к «взрывному», неконтролируемому росту ХД и вызывает серьезные технические проблемы: хранилище «распухает», из-за того что непрерывный поток входных данных автоматически агрегируется в соответствии с настройками ХД. Однако с этим приходится мириться: если бы аг регированные данные не содержались в ХД, а вычислялись в процессе пыполпспия запросов, время выполнения запроса увеличилось бы в несколько раз. Метаданные

БАЗЫ ДАННЫХ

#Лекция

Задача консолидации.Консолидация Данных

Тебе могут подойти лекции

Системы управления базами данных

Зависимости. Замыкание множества атрибутов. Покрытия и эквивалентность

Посторонние атрибуты

Нормализация базы данных.

Пример нормализации схемы базы данных

Система управления базой данных

Особенности организации учетной информации в управлении экономическим объектом.

Управление данными

SQL — структурированный язык запросов. Операторы определения данных DDL

Базы данных

Задача консолидации.Консолидация Данных

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ