Информационно-поисковые языки как объект лингвистического изучения
Рост числа информационный технологий и соответствующее ему увеличение количества информации породило проблему ориентации в информационном поле пользователя, который стал нуждаться в эффективных и удобных инструментах поиска необходимых сведений. Это привело к созданию и разработке автоматизированных поисковых систем в разных сферах деятельности, которые были призваны расширить возможности работы с информацией и облегчить процесс ее нахождения при работе с большими объемами данных.
Создание и совершенствование подобных автоматических систем поиска невозможно без разработки лингвистического (формального) аспекта поиска, который осуществляется на базе естественного языка.
Информационно-поисковый язык представляет собой поисковый инструмент, созданный на базе естественного языка, имеющий формальную структуру и содержание и используемый для хранения информации в базе данных и ее поиска по заданным критериям.
Чтобы включить информацию в базы данных и затем использовать формальные языки для ее обнаружения, необходимо сначала подвергнуть информацию процедуре описания (обработки) с помощью средств информационно-поискового языка. Этот процесс называется индексированием. Результат этой процедуры – появление поискового образа документа, то есть его презентация средства информационно-поискового языка.
Для обнаружения соответствующей информации в базе данных также используются запросы, составленные на информационно-поисковом языке, что позволяет системе опознавать запрос и отбирать информацию в соответствии с его содержанием.
Информационно-поисковый язык как инструмент поиска не может быть идентичен естественному языку в силу большей формальности и структурированности, при этом он обладает собственными специфическими чертами:
- Наличие необходимой разрешительной силы, которая заключается в возможности языка дифференцировать информационные особенности документов.
- Однозначность, связанная с тем, что средства поиска максимально избавлены от нежелательной омонимии или полисемии, искажающей результаты отбора информации.
- Гибкость и способность к модификации в соответствии с запросом пользователями.
Типы информационно-поисковых языков и их характеристики
Информационно-поисковые языки подразделяются на ряд разновидностей:
- Классифицирующие языки, которые создаются с целью структурирования информации путем отнесения ее к определенным классам. Типичный пример такого языка – библиотечный классификатор, используемый в автоматизированных системах библиографического поиска. Другой пример использования данных языков – построение фасетных классификаций. Например, в корпусе публицистических текстов единицы хранения структурированы по таким параметрам, как автор, жанр, тип источника, время публикации и проч., что позволяет структурировать тексты по данным критериям при хранении и поиске.
- Языки дескрипторного типа – варианты информационно-поисковых языков, используемых при полностью автоматическом поиске. Они основаны на применении дескрипторов – определенных обозначений поисковой области. Каждый документ, который хранится в базе данных, сопровождается набором дескрипторов, которые отражают его содержание, тематику и другие особенности. Система дескрипторов, сопровождающая документ, задает параметры его поиска в системе. Наиболее востребованный в настоящее время способ применения языков дескрипторного типа создание поисковых систем, которые сопровождаются определенным тезаурусом, в который входят все используемые в системе дескрипторы. Это позволяет связать между собой документы на основании связи дескрипторов по принципу родовидовых отношений и другим параметрам (например: часть – целое / причина – следствие). Применительно к дескрипторным языкам появляется понятием синтаксиса языка, который описывает характер связей между дескрипторами при составлении запроса.
При использовании дескрипторных языков лингвисты и разработчики программного обеспечения сталкиваются с такими явлениями, как омонимия и полисемия, то есть совпадение разных формальное совпадение разных дескрипторов, или же, наоборот, семантическая избыточность дескрипторов, что снижает точность поиска. Еще один аспект использования информационно-поисковых систем связан с тем, что в силу формального характера этих языков необходимо ручное индексирование (то есть описание) данных, входящих в информационную систему. При этом надежность и точность такого описания неизбежно страдают. Поэтому в данный момент ведутся разработки бестезаурусных поисковых систем, которые осуществляют поиск по корпусам текстов непосредственно на основании слов, словосочетаний естественного языка.
Отдельную проблему составляют способы репрезентации данных поискового запроса, поскольку с лингвистической точки зрения они представляют собой результат машинной обработки запроса, который пользователь должен «перекодировать» в системе естественного языка.
Таким образом, информационно-поисковые языки представляют собой отдельный вид формальных языков, который может быть изучен лингвистикой в аспекте его структуры и функционирования.