Справочник от Автор24
Поделись лекцией за скидку на Автор24

Интеграция информационных ресурсов. Проблема интеграции данных. Классификации методов интеграции

  • 👀 249 просмотров
  • 📌 178 загрузок
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Интеграция информационных ресурсов. Проблема интеграции данных. Классификации методов интеграции» pdf
Технологии обработки информации. Лекция 9. Интеграция информационных ресурсов Содержание 1. 2. 3. 4. 2 Проблема интеграции данных Классификации методов интеграции Программное обеспечение интеграции данных Планирование ETL проекта Интеграция данных Интеграция данных включает объединение данных, находящихся в различных источниках, и предоставление данных пользователям в унифицированном виде. Этот процесс становится существенным как в коммерческих задачах (когда двум похожим компаниям необходимо объединить их базы данных), так и в научных (комбинирование результатов исследования из различных биоинформационных репозиториев и др.). Роль интеграции данных возрастает, когда увеличивается объём и необходимость совместного использования данных.    3 Системная интеграция: проблема 4 Востребованность ИТ-профессий в мире 1. 2. 3. 5 Разработчик бизнес-архитектуры - занимается моделированием совместимости главных стратегий компании с технологиями. Специалист по информации - работает с большим потоком неструктурированной или полуструктурированной информации, которая получена из самых разных источников, включая веб-страницы, журналы учета заданий и т.д. Для такой работы необходимы сотрудники с разнообразными умениями от подготовки данных для анализа до обработки статистики. Computerworld.com Инженер по данным/знаниям. Интеграция данных включает объединение данных, находящихся в различных источниках, и предоставление данных пользователям в унифицированном виде. Уровни интеграции:      6 физический - конверсия данных из различных источников в требуемый единый формат их физического представления логический – создание единой глобальной схемы данных семантический - единого представления данных с учетом их семантических свойств в контексте единой онтологии предметной области Проблема интеграции данных ETL процессы (Extraction, Transformation, Load) занимают 60 - 80% времени при работе с данными: • Извлечение и очистка данных. • Трансформации данных. • Загрузка данных. 7 Типы несоответствия схем данных Конфликты неоднородности (используются различные модели данных для различных источников). Конфликты именования (в различных схемах используется различная терминология, что приводит к омонимии и синонимии в именовании). Семантические конфликты (выбраны различные уровни абстракции для моделирования подобных сущностей реального мира). Структурные конфликты (одни и те же сущности представляются в разных источниках разными структурами данных).     8 Типы несоответствия собственно данных Различие формата данных. Различие в представлении значений. Потеря актуальности данных одним из источников. Наличие ошибок операторского ввода (или ошибок распознавания бланков) в отдельных источниках данных. Намеренное внесение искажений с целью затруднить идентификацию сущностей.      9 Методы интеграции данных  Консолидация;  федерализация;  распространение;  SOA (сервисный подход);  семантическая 10 интеграция. Консолидация данных  Данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения.  11 Такое место хранения может быть использовано для подготовки отчетности и проведения анализа, как в случае хранилища данных, или как источник данных для других приложений. Федерализация данных  Обеспечивает единую виртуальную картину нескольких первичных источников данных.  12 Для получения сведений о некотором процессе, обрабатываемом в нескольких оперативных приложениях, процессор федерализации данных извлекает данные из соответствующих первичных складов данных, интегрирует их таким образом, чтобы они отвечали виртуальной картине и требованиям запроса, и отправляет результаты бизнесприложению, от которого пришел запрос. Распространение данных  Подразумевает копирование данных из одного места в другое.  13 Этот подход обычно используется для операций реального времени и базируется на механизмах "проталкивания", т. е. является событийно-управляемым. Сервисный подход – SOA (1)   Service Oriented Architecture: модульный подход к разработке программного обеспечения, основанный на использовании распределённых, слабо связанных (англ. loose coupling) заменяемых компонентов, оснащённых стандартизированными интерфейсами для взаимодействия по стандартизированным протоколам.   14 Данные остаются у владельцев и даже их местонахождение неизвестно; при запросе происходит обращение к определённым сервисам, которые связаны с источниками, где находится информация и ее конкретный адрес. Сервисный подход – SOA (2) SOA Интерфейс приложения (frontend) Службы Сервисный репозиторий Контракты Реализация Интерфейсы Сервисная шина Бизнес-логика Данные 15 http://commons.wikimedia.org/wiki/File:SOA_Elements.png?uselang=ru Интеграция на основе метамодели (семантическая интеграция) 16 Классификация методов интеграции данных по Клаусу Диттриху http://www.osp.ru/os/2009/10/11170978/ 17 Задачи при интеграции данных    Технологические Организационные Экономические 18 Технологические задачи        Гетерогенные источники данных с различными форматами. Структурированные, полуструктурированные и неструктурированные данные. Данные поступают в разное время. Очень большие объемы данных. Качество данных (пропуски, нет смысла, ошибки). Придание смысла данным при слиянии их из разных форматов при неполноте данных в отдельных источниках. Преобразование данных в унифицированный формат, пригодный для бизнес-анализа. 19 Технологические требования       Загрузка данных в наибыстрейшее время (нет возможности «ночного» периода, 7 х 24 часа On-Line). Потребность загрузки данных в несколько приемников практически одновременно. Постоянная доступность данных с минимальными задержками в актуальности данных. Разнообразие источников данных (OLTP, OLAP, веб-сервисы, неструктурированные данные, унаследованные системы). Разнообразие приемников данных (порталы, персонализированные отчеты, PDA, мобильные телефоны). Масштабируемость и производительность. 20 Организационные задачи   Получение серьезной поддержки руководства компании команде по проекту интеграции данных, настоять на координации и компромиссах по выбору форматов данных и бизнес-процессов получения данных в подразделениях компании. Определиться с единообразными технологиями для разного круга задач, так как многие подразделения используют совершенно разные системы и способы.  21 Люди консервативны в своих привычках, не любят переучиваться. До 60% времени при получении и интеграции данных – ручной процесс. Экономические задачи Интеграция данных – дорогостоящий процесс. Факторы, увеличивающие стоимость проекта:  Административные преграды, недостаток координации, недостаточная поддержка руководства  Недостаточная функциональность имеющихся средств для ETL процессов, необходимость разработки нового ETL кода. 22 Интеграционные платформы  Microsoft BizTalk Server  Microsoft SQL Server  Oracle SOA Suite  IBM WebSphere 23 SQL Server 2008 Integration Services Службы Integration Services - платформа для построения высокопроизводительных решений интеграции данных и решений потока операций, включая операции извлечения, преобразования и загрузки (ETL) для хранилищ данных. • • • • • Графические инструменты Мастера для построения и отладки пакетов Источники данных для извлечения данных Источники назначения для загрузки данных Преобразования для очистки, статистической обработки, слияния и копирования данных • Задачи для выполнения функций потока операций • Служба управления и администрирования пакетов • API-интерфейсы для программирования объектной модели 24 До появления служб интеграции данных Alerts and escalation Call center data: semi-structured Text Mining Data mining ETL Staging Staging Legacy data: binary files ETL Handcoding Cleansing and ETL ETL Application database 25 Staging Warehouse Reports Mobile data Integration Services 2008 Оповещения Text mining Компоненты Data mining компоненты Нереляционные источники Слияние Стандартные источники БД Очистка данных PDA CALL центры – полуструктурированные данные OLAP системы Унаследованные системы Приложения БД 26 SQL Server Integration Services Отчет Типовые сценарии в Integration Services      Слияние данных из гетерогенных хранилищ данных Очистка, преобразование и стандартизация данных Заполнение хранилищ данных и витрин данных Встраивание бизнес-аналитики в процесс преобразования данных Автоматизация административных функций и загрузки данных 27 Пример: Очистка данных Пакет SSIS Data Cleaning Sample из Integration Services Samples. Fussy Lookup – нестрогое соответствие новых клиентов старым записям Fussy Grouping – нечеткий поиск фамилий дубликатов. 28 Планирование ETL проекта для хранилища данных Гетерогенные источники данных Staging область Хранилище данных Киоски данных 29 Конечные пользователи Заполнение хранилища данных в SSIS 1. 2. 3. 4. 30 Источники и приемники данных. Оценка и проверка исходных данных. Промежуточное хранение данных (Staging storage). Загрузка в хранилище и витрины данных. Источники и приемники данных     Выбрать источники данных (все форматы). Выбрать приемники данных (DW, Data Mart), определить структуру записываемых данных. Определить время извлечения и записи данных (extraction and load windows), длительность извлечения и загрузки данных. Документировать диаграмму потока данных: описать список источников, методов доступа, учетные записи, протоколы, характеристики сети. 31 Промежуточное хранение данных (Staging storage) В сложных ETL процессах может потребоваться промежуточное хранение данных после чтения перед загрузкой в хранилище:  Реляционная БД;  Файлы «как есть» - raw (binary) files. После извлечения данных:  Необходимость быстро освободить источник данных;  Выполнение ETL с заданной контрольной точки без повторного рестарта. Перед загрузкой данных:  Асинхронное поступление данных, ожидание всех данных;  Фиксируется моментальный снимок данных на заданную дату, возможность получения отчетности по этому снимку данных;  Возможность рестарта с контрольной точки без необходимости выполнять пакет с самого начала;  Возможность провести трансформацию некоторых данных на SQL Server перед окончательной загрузкой в хранилище;  Возможность проверить и удалить невалидные данные или дубликаты после окончания трансформаций перед загрузкой. 32 Загрузка в хранилище и витрины данных      Загрузка измерений и мер. Создание первичных и вторичных ключей. Создание индексов. Удаление временных таблиц. Обработка измерений и секций кубов. 33 Архитектура SQL Server 2008 Integration Services Термины • Источник (и) - Sources • Приёмник(и) - Destinations • Преобразование данных (Transformation) •Время исполнения • Пакет (Package) • Задача (Task) • Буфер (Buffer) • Труба (pipeline) потока данных Конструктор служб SSIS • Поток управления (Control Flow) • Поток данных (Data Flow) • Обработчики событий в пакете и объектов пакета (Event Handlers) • Просмотр содержимого пакета • Просмотр выполнения пакета 34
«Интеграция информационных ресурсов. Проблема интеграции данных. Классификации методов интеграции» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ

Тебе могут подойти лекции

Смотреть все 462 лекции
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot