Современные методы анализа данных
Выбери формат для чтения
Загружаем конспект в формате ppt
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Современны е методы
анализа данны х
Анализ данных (Data Analysis)
-
прикладная
научная
дисциплина,
представляющая
собой
систему
взаимосвязанных методов и технологий
обработки исходной информации, полученной
из наблюдений, экспериментов, опросов,
статистических отчетов, существующих баз
данных, компьютерных систем управления
различными сферами деятельности с целью
выявления
(подтверждения,
уточнения)
скрытых
закономерностей
определенной
предметной
области
для
принятия
управленческих решений.
Место анализа данных в
познавательном процессе
Анализ данны х — это исследования с
целью обнаружения в имеющейся
информации скрытых закономерностей и
взаимосвязей.
Источники
информации
Данны е
Анализ
данны х
Знание
Данны е
Информация
Знание
Данны е – это отдельные факты, характеризующие
объекты, процессы и явления в предметной области, а
также их свойства.
Информация - это результат преобразования и
анализа данных.
Знания - это зафиксированная и проверенная
практикой обработанная информация, это выявленные
закономерности предметной области (принципы, связи,
законы), позволяющие решать задачи в этой области.
Инструменты анализа данны х
Статистические
методы и модели
Математические методы и модели
Data Mining (интеллектуальные
методы и модели)
Компьютерные программы
Последовательность работы
Выдвижение гипотез
Сбор и систематизация данных
Построение модели, объясняющей
имеющиеся факты
Тестирование модели и интерпретация
результатов
Применение полученной модели
Общая схема анализа
Визуализация данны х
В случае визуализации аналитик
формулирует некоторым образом запрос к
системе, извлекает нужную информацию из
различных источников и просматривает
полученные результаты.
На основе имеющихся данных он делает
выводы, которые и являются результатом
анализа.
Способы визуализации
Таблицы
Диаграммы,
гистограммы
OLAP-кубы
Карты,
проекции, срезы
Представление информации в виде отчетов
Отчет «Динамика
загрязнения объ екта»
10
Представление информации
в виде отчетов
Дерево решений
Диаграмма
«Процентное соотношение
качества вод региона»
11
Визуализатор «нейросеть»
Визуализатор «Карта Кохонена»
Классификация районов
0 – развиты й
1 – развиваю щийся
2 – наименее развиты й
13
Географическое отображение
данных
в MapInfo
наименее развитые
развивающиеся
развитые
14
Построение моделей
Построение моделей является универсальным
способом изучения окружающего мира. Этот
способ позволяет обнаруживать зависимости,
прогнозировать, разбивать на группы и решать
множество других интеллектуальных задач.
Но самое главное, что полученные таким образом
знания можно тиражировать , т.е. построенную
одним человеком модель могут применять другие
без необходимости понимания методик, при
помощи которых эти модели построены.
Модели Data Mining
Линейная логистическая регрессия аппроксимация линейной и вероятностной
зависимости между входными и выходными
переменными.
Дерево решений - классификатор,
полученный из обучающего множества,
содержащего объекты и их характеристики, на
основе обучения.
Ассоциативны е правила – выявление
закономерностей между связанными
событиями.
Модели Data Mining
•Нейронны е
сети - представляют собой
совокупность нейроподобных элементов процессоров, определенным образом связанных
друг с другом и внешней средой с помощью связей,
определяемых весовыми коэффициентами.
«Применение
современных информационных технологий
и интеллектуальных методов анализа в задаче оценки
недвижимости»
Модели
18
Классификации
Дерево
решений
Нейро
сеть
Прогнозирования
Множ.
регрессия
Нейро
сеть
МОДЕЛЬ ПРОГНОЗИРОВАНИЯ НА ОСНОВЕ
МНОЖ ЕСТВЕННОЙ РЕГРЕССИИ
Факторы
19
Уравнение
регрессии
МОДЕЛЬ ПРОГНОЗИРОВАНИЯ НА ОСНОВЕ
НЕЙРОННОЙ СЕТИ
Жилая
площадь
Площадь
кухни
20
Общая
площадь
Модель множественной линейной регрессии
зависимости дохода от показателей «промы шленность»,
«с/х», «инвестиции»
21
11
Значение моделей Data Mining
Построенные
модели являются, по сути,
формализованными знаниями эксперта, а
следовательно, их можно тиражировать .
Найденные знания должны быть
применимы и к новым данным с некоторой
степенью достоверности.
Источники
Айвазян С.А. Прикладная статистика. Основы
моделирования и первичная обработка данных. М.:
Финансы и статистика, 2003.
Барсегян А.А. Технологии анализа данных: Data
Mining, Visual Mining, Text Mining, OLAP/ А.А.
Барсегян. – СПб.: БХВ-Петербург, 2007. – 284 с.
Паклин Н. Б., Орешков В.И. Бизнес-аналитика: от
данных к знаниям /Н.Б.Паклин, В.И. Орешков –
СПб.: Питер, 2010. – 704 с.
Практикум по анализу данных на компьютере / И.А.
Кацко, Н.Б. Паклин /под ред. Г.В. Гореловой – М.:
КолосС, 2009. – 278 с.
Источники
Дюк В., Самойленко А. Data Mining. Учебный
курс – СПб.: Питер, 2001.
Осовский С. Нейронные сети для обработки
информации. – М.: Финансы и статистика,
2002.
Data Mining – добыча данных/ BaseGroup
Labs. Режим доступа http://www.basegroup.ru/library/methodology/da
ta_mining/
Программное обеспечение
АП Deductor - ИИС, ориентированная на
решение задач анализа самого широкого
спектра:
Системы
аналитической отчетности
Многомерный анализ
Прогнозирование
Поиск закономерностей
Управление рисками
Сегментация клиентов/товаров/услуг
Построение профилей потребителей
Оценка эффективности рекламы и т.д.
Состав платформы Deductor
Studio – рабочее место
аналитика
Viewer – рабочее место
конечного пользователя
Warehouse – хранилище данных
Server – аналитический сервер
Client – клиент доступа к
аналитическому серверу
Сценарий в Deductor
5 мастеров: импорт, подклю чение,
обработка, визуализация, экспорт
.
Загрузка данны х
Рис. Относительны й путь
Рис. Абсолю тны й путь
Проблемы импорта
Мастера обработки