Справочник от Автор24
Найди эксперта для помощи в учебе
Найти эксперта
+2

Технологии извлечения знаний

Определение 1

Технологии извлечения знаний — это технология формирования знаний из структурированных (реляционных баз данных, XML) и неструктурированных источников (тексты, документы, изображения).

Сущность понятий Knowledge Discovery in Databases и Data Mining

Известны следующие термины, Knowledge Discovery in Databases, то есть, обнаружение знаний в базах данных, и Data Mining, то есть, добыча данных, интеллектуальный анализ данных или глубинный анализ данных.

Термин Data Mining был сформирован на базе следующих понятий:

  1. Поиск ценной информации в большой базе данных (data).
  2. Добыча горной руды (mining).

Оба этих процесса предполагают или просеивание очень большого количества сырого материала, или направленное исследование и обнаружение требуемых ценностей.

Термин Data Mining иногда понимается как добыча данных, извлечение информации, раскопки данных, интеллектуальный анализ данных, набор средств для поиска закономерностей, извлечение знаний, выполнение анализа шаблонов, обнаружение зерен знаний в горах данных, раскопки знаний в базах данных, информационная проходка данных, «промывание» данных. Понятие «обнаружение знаний в базах данных», то есть, Knowledge Discovery in Databases, (KDD) отчасти может считаться как синоним Data Mining.

Понятие Data Mining, которое появилось в начале 1978-го года, получило высокую известность в современной трактовке ориентировочно в первой половины девяностых годов прошлого века. До той поры обработка и анализ данных выполнялись в границах прикладной статистики, причем главным образом, ставились проблемы обработки сравнительно малых баз данных.

Технологии извлечения знаний

Data Mining является многодисциплинарной сферой, которая возникла и развивалась на основе:

  • прикладной статистики,
  • распознавания образов,
  • искусственного интеллекта,
  • теории баз данных и других.
«Технологии извлечения знаний» 👇
Помощь эксперта по теме работы
Найти эксперта
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

Data Mining является процессом поддержки выработки и принятия решений, который основан на обнаружении в информационных данных неявных, то есть скрытых, закономерностей, выступающих как шаблоны информации.

Одним из достаточно точных определений технологии Data Mining может считаться следующее:

Определение 2

Data Mining является процессом поиска в сырых данных ранее неизвестных, нетривиальных, полезных, с точки зрения практики, и доступных интерпретации знаний, требуемых для принятия решений в разных областях деятельности людей.

Сущность и цели технологии Data Mining могут быть охарактеризованы как технология, предназначенная для поиска в больших объемах данных неочевидных, объективных и являющихся полезными в практической деятельности закономерностей.

Существует ряд дисциплин, на стыке которых и возникла технология Data Mining. Одной из них является статистика, то есть, наука о методиках сбора данных, их обработки и анализа для обнаружения закономерностей, которые присущи исследуемому явлению. Статистика выступает как совокупность методик планирования эксперимента, сбора данных, их отображения и обобщения, а также анализа и формирования итоговых выводов на базе этих данных. Статистика способна оперировать данными, которые были получены в результате наблюдений либо экспериментов.

Машинное обучение может быть охарактеризовано как процесс формирования и получения программой новых знаний. Известно следующее определение машинного обучения, машинным обучением является наука, изучающая компьютерные алгоритмы, которые способны в автоматическом режиме улучшаться в процессе работы. Одним из самых известных примеров алгоритма машинного обучения могут считаться нейронные сети.

Искусственным интеллектом является научное направление, в границах которого могут быть поставлены и решены задачи аппаратного или программного моделирования типов человеческой деятельности, обычно считающиеся интеллектуальными. Искусственным интеллектом считается свойство интеллектуальных систем исполнять творческие функции, которые всегда оставались прерогативой только человека.

Появление и развитие Data Mining объясняется разными факторами, главными из которых являются следующие:

  1. Необходимость совершенствования аппаратного и программного обеспечения.
  2. Необходимость совершенствования технологий хранения и записи данных.
  3. Было накоплено значительное количество ретроспективных данных.
  4. Необходимость совершенствования алгоритмов информационной обработки.

Основой технологии Data Mining является концепция шаблонов (patterns), которые считаются закономерностями, присущими выборкам данных и способными отображаться в формате, понятном человеку. «Mining» переводится с английского как добыча полезных ископаемых, а поиск закономерностей в очень больших объемах данных и в самом деле может быть причислен к этому процессу. Целью поиска закономерностей является отображение данных в формате, который отражает искомые процессы. Формирование модели прогнозирования тоже может быть целью поиска закономерностей.

Knowledge Discovery in Databases (KDD) является процессом обнаружения полезных познаний в «сырых» данных. KDD состоит из следующих действий:

  1. Процесс подготовки данных.
  2. Осуществление выбора информативных признаков.
  3. Выполнение очистки данных.
  4. Реализация методов Data Mining.
  5. Последующая обработка данных и интерпретация полученных итоговых результатов.

Необходимо подчеркнуть, что основанием всех этих процессов однозначно выступают методики DM, которые как раз и позволяют обнаружить знания. Такими знаниями могут являться правила, которые описывают связи между свойствами данных, то есть, это могут быть деревья решений, часто встречающиеся шаблоны (ассоциативные правила), а также итоги классификации (нейронные сети) и кластеризации данных (карты Кохонена) и так далее. Основателями концепции KDD являются Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro) и Усама Файад (Usama Fayyad), которые и заложили ее базовый фундамент.

Дата написания статьи: 01.07.2022
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot