Интеллектуальные поисковые системы — это поисковых системы нового поколения, которые используют технологии искусственного интеллекта, в частности анализ естественных языков и машинное обучение, для того чтобы получить наиболее релевантные результаты.
Введение
Одним из самых перспективных направлений использования искусственного интеллекта для решения прикладных задач является проектирование интеллектуальных информационно-поисковых систем. Прежде всего они предназначены для работы в сети Интернет. Очень большие объемы сохраняемой информации, разнообразный формат отображения одного и того же материала, разные уровни релевантности запросу являются факторами, которые сделали задачу поиска в больших хранилищах данных очень актуальной.
Первые поисковые системы были совсем несложными. Они представляли собой обычный поиск подстроки в строке (набора символов в файле), которым обладают сегодня практически все текстовые редакторы. Более совершенные методики поиска входили в состав систем управления базами данных, где найти нужно было уже не просто подстроку, а запись с необходимыми значениями в заданных полях. Возникли запросы, имеющие логические связки И, ИЛИ, НЕ, и способные обрабатывать не только текстовые, но еще и числовые данные.
Интеллектуальные поисковые системы
Если рассматривать поисковые модели, то на текущий момент существуют следующие подходы к поиску:
- Выполнение поиска по подстроке.
- Выполнение поиска по маске.
- Осуществление тематического поиска (на базе классификации).
- Выполнение поиска на основе Булевой модели.
- Выполнение поиска по ключевым словам.
- Выполнение поиска на основе векторной модели.
- Осуществление интерактивного поиска.
Поиск по подстроке является традиционным поиском подстроки в строке, когда информация может считаться найденной, если в файле попалось такое сочетание символов, которое точно соответствует строке запроса. Затем пользователю выкладывается для просмотра обнаруженное место в файле (как правило, текстовом) и он должен принять решение об окончании или продолжении поиска.
Поиск по маске представляет собой более сложный вариант поиска по подстроке, когда отдельные компоненты подстроки заменяются специальными символами, которые указывают, что в данной позиции могут быть произвольные символы или произвольные символы заданного класса.
При тематическом поиске (на базе классификации) все известные поисковой машине документы должны разбиваться по темам и классам, обладающим определенной иерархией и поддерживающим отношение включения. Классы между собой не должны пересекаться. Пользователям разрешается отправлять запросы лишь по заранее сформулированным темам.
В Булевой модели запрос выступает как высказывание, возможно с пропозициональными связками И, ИЛИ, НЕ. Пользователям предоставляются информационные единицы, для которых данное высказывание является истинным.
В поиске по ключевым словам документ описывается совокупностью ключевых слов. При наличии их в запросе соответствующий документ может быть предоставлен пользователю.
В векторной модели документы и запросы могут быть охарактеризованы системой атрибутов, обладающих весами и представляемыми в форме векторов. Затем уровень соответствия документа запросу может быть оценен по степени близости соответствующих векторов друг другу.
Интерактивный поиск является развитием векторной модели. В ходе поиска должно учитываться, какие из предложенных документов смогли заинтересовать пользователя. Затем поисковая машина должна скорректировать критерии и продолжить поиск.
Все эти системы поиска обладают определенным набором недостатков, и это проблемы практически всех современных поисковых систем. Наиболее перспективным направлением здесь считается использование методик искусственного интеллекта. Функционирование интеллектуальной системы поиска информации может быть представлено в виде следующего алгоритма:
- Осуществление лексического анализа, то есть, восприятия текста.
- Выполнение морфологического анализа, то есть, определение значения слов.
- Выполнение синтаксического анализа, то есть, выявление членов предложения.
- Осуществление семантического анализа, то есть, выявление смысла предложения.
Следует отметить, что первые три пункта являются характерными для современных поисковых машин, а последний пункт превращает поиск в интеллектуальный. Лексический анализ состоит в разбиении текстовой информации на отдельные абзацы, предложения, слова, определении национального языка изложения, типа предложения, выявлении типа лексических выражений и так далее. Он не должен представлять большой сложности при его осуществлении.
Морфологический анализ может быть сведен к распознаванию в автоматическом режиме частей речи всех слов текста, то есть, для каждого слова должен быть поставлен в соответствие лексико-грамматический класс. Необходимо подчеркнуть, что качество морфологического анализа может сильно зависеть от используемого языка.
Синтаксический анализ состоит в выделении в автоматическом режиме семантических компонентов предложения, таких как, именные группы, терминологические целые, предикативные основы. Это может способствовать повышению интеллектуальности процесса обработки текстовой информации на базе обеспечения работы с более общими семантическими компонентами.
Семантический анализ состоит в определении уровня информативности текстовой информации и выделении информационно-логического основания текста. Выполнение автоматизированного семантического анализа текста подразумевает решение задачи определения и оценки смыслового содержания текста. Такая задача считается сложно формализуемой по причине необходимости сформировать совершенный механизм экспертной оценки качественного уровня информации. Именно семантический анализ текста является основой интеллектуальности интеллектуальных поисковых систем.