Программы анализа и лингвистической обработки текста — это компьютерные программы и информационные данные, которые способны обеспечить анализ, обработку, сохранение и поиск аудиоданных, изображений и текстов на естественном языке.
Введение
Компьютерная лексикография призвана помогать формировать словари при помощи компьютерных программ. Основными направлениями машинной лексикографии являются следующие направления:
- Совокупность теоретических и практических аспектов формирования компьютерных словарей для NLP-систем (Natural Language Processing), то есть, систем обработки естественного языка.
- Формирование словарей, которые представляют собой машинные версии обычных словарей.
- Автоматическое формирование из текста при помощи компьютерных средств разных словарей, таких как, частотные, терминологические, конкордансов и так далее, которые включают лексикографические базы данных.
Первый и третий пункты предполагают разработку программ поддержки лексикографических работ. Если сказать проще, то компьютерная лексикография предназначена для составления автоматических словарей, а также и для автоматического создания словарей.
Программы анализа и лингвистической обработки текста
Интеллектуальным анализом текста (text mining) является технология получения структурированной информации из совокупности текстовых документов. Как правило, это понятие включает в свой состав следующие, достаточно объемные задачи:
- Задача категоризации текста.
- Задача извлечения информации.
- Задача информационного поиска.
Иногда, когда обсуждается применение интеллектуального анализа текста в бизнесе, подразумевается не просто структурированная информация, а так называемое углубленное понимание предмета анализа, способное оказать помощь в принятии бизнес-решений. Текстовая аналитика может быть определена как технологические и бизнес процессы использования алгоритмических подходов к обработке и извлечению информации из текста и достижению глубокого понимания.
Поиск по документам организации является хорошо известным приложением информационного поиска в области корпоративного документооборота. Клиентами подобных решений являются как крупные или средние коммерческие организации, так и некоторые государственные организации. Но тогда возникает вполне резонный вопрос, зачем формировать собственные поисковые системы, когда существуют Яндекс и Google? Но здесь необходимо подчеркнуть, что задача поиска в сети Интернет и задача корпоративного поиска обладают целым набором существенных отличий:
- Отсутствует статистика по поисковым запросам. Анализ статистики поисковых запросов в сети Интернет выполняет главную задачу, а именно, обобщение данных по аналогичным запросам способно предоставить эффективные сигналы ранжирования, которые подходят для удовлетворения запросов от огромного количества пользователей. Данный момент, кстати, является крайне важным для обобщающей способности механизма машинного обучения ранжированию (learning to rank), который повсеместно используется при поиске в сети Интернет. В корпоративном поиске количество пользователей очень мало, а кроме того эти пользователи обычно формируют практически уникальные поисковые запросы. И это делает очень сложным использование сигналов, которые считаются традиционными для поиска в Интернете.
- Полнота является более важным фактором, чем точность. В сети Интернет присутствует большой объем коллекции документов и значительная избыточность. В корпоративном поиске более важной считается именно полнота поисковых результатов.
- Наличие персонализации. В поиске в сети Интернет присутствуют очень ограниченные возможности персонализации, таких, как история запросов, география. В корпоративном поиске существенно больше возможностей по причине наличия доступной и достоверной информации о персональных данных пользователей поисковой системы. К примеру, когда пользователь формирует запрос «квартальный отчет», то система обязана знать, что у программистов, менеджеров или генеральных директоров разные квартальные отчеты.
- Наличие доступного и свежего поискового индекса. В сети Интернет данные свойства являются желательными, но не критичными. В корпоративном поиске они имеют абсолютный приоритет. Неактуальный поисковый индекс важного документа, к примеру, имеющего информацию о заказчике, способен привести к нарушению координированной работы сотрудников из различных отделов.
Помимо этого, важными считаются такие аспекты задачи, как присутствие структурированных справочников и баз знаний организации, наличие необходимости объединения с разными программными подсистемами сохранения и аналитики, а также необходимость поддерживать разные форматы данных.
В Википедии можно найти достаточно большой перечень программных продуктов в области корпоративного поиска. Мировыми лидерами среди них считаются программы HP Autonomy и Coveo. Тем не менее даже эти программные продукты не лишены недостатков (к примеру, нет поддержки русского языка). Это означает, что данное направление все еще считается перспективным для создания приложений.
Поиск продуктов для интернет-магазинов может рассматриваться как отдельная разновидность корпоративного поиска. Одной из таких программ является программа сайта E-commerce search. При этом, здесь важность поиска считается практически определяющей для бизнеса клиента, то есть, e-retail все время думает о повышении показателей конверсии и скорости сбыта товара. В соответствии с результатами недавнего обзора российского e-commerce, подготовленному аналитическим агентством DataInsight, важность поиска как функции интернет-магазина отметили более двадцати процентов покупателей. Причем, общеизвестно, что пользователи, которые ищут на что-то сайте, это сама по себе высоко конверсионная группа посетителей.