Лингвистическое и программное обеспечение — это компьютерные программы и данные, которые обеспечивают анализ, обработку, сохранение и поиск аудиоданных, рисунков и текстов на естественном языке.
Введение
Семантической сетью является информационная модель предметной области, обладающая видом ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) определяют отношения между ними. В качестве объектов могут выступать понятия, события, свойства, процессы. То есть, семантическая сеть может считаться одним из методов отображения знаний. В этом названии объединены термины из разных наук, а именно, семантика в языкознании занимается изучением смысла единиц языка, а сеть в математике является разновидностью графа, то есть, совокупности вершин, объединённых дугами (рёбрами), которым соответствует определённое число. В семантических сетях роль вершин исполняют понятия базы знаний, а дуги (причем имеющие направления) определяют отношения между ними. Всё вышесказанное означает, что семантические сети отражает семантику предметной области в форме понятий и отношений.
Лингвистическое и программное обеспечение
Для любой семантической сети существует разделение по арности, то есть количеству аргументов или операндов, и числу типов отношений. По числу типов отношений, сети подразделяются на следующие типы:
- Однородные семантические сети, обладающие лишь одним типом отношений (стрелок). Примером подобной сети может служить классификация биологических видов.
- Неоднородные семантические сети, в которых количество типов отношений более двух. Неоднородные сети достаточно интересны с практической точки зрения, но они обладают повышенной сложностью при исследованиях. Неоднородные сети могут быть представлены как переплетение древовидных многослойных структур. В качестве примера такой сети можно привести Семантическую сеть Википедии.
По количеству операндов (арности) семантические сети подразделяются на следующие типы:
- Семантические сети с бинарными отношениями, которые связывают только два понятия. Бинарные отношения являются очень простыми и удобными и отображаются на графе в форме стрелки между двух концептов. Помимо этого, они играют очень важную роль в математике.
- Семантические сети с отношениями, связывающими более двух объектов, то есть N-арные. При этом появляется определённая сложность, а именно, как может быть изображена подобная связь на графе. Концептуальные графы решают эту проблему путём представления каждого отношения в форме отдельного узла.
По размеру семантические сети подразделяются на следующие типы:
- Сети, предназначенные для решения конкретных задач, к примеру, задач, решаемых системами искусственного интеллекта.
- Семантические сети отраслевого масштаба, которые могут служить базой для реализации конкретных систем, не претендуя на всеобщее значение.
- Глобальные семантические сети. Теоретически такие сети должны существовать, так как всё в этом мире имеет взаимные связи. Вероятно, такой сетью может стать Всемирная паутина.
Количество типов отношений в семантической сети задаётся её проектировщиками, на основании конкретных целевых установок. В реальном мире количество таких отношений может стремиться к бесконечности. Все отношение могут считаться, по сути, предикатами, простыми или составными. Скорость работы с базой знаний определяется тем обстоятельством, насколько эффективно выполнены программные приложения, обрабатывающие нужные отношения.
Чаще всего появляется необходимость в описании отношений между компонентами, множествами и частями объектов. Отношение между объектом и множеством, которое обозначает, что объект принадлежит этому множеству, именуется отношением классификации (ISA). Связь ISA предопределяет, что свойства объекта должны наследоваться от множества. Обратное к ISA отношение применяется для обозначения примеров. Иерархические отношения способны образовать древовидную структуру.
Семантические сети могут быть использованы для анализа текста, в основе которого заложено представление смысла текста в виде ассоциативной семантической сети. Семантической сетью является множество понятий (слов и словосочетаний), которые связаны между собой. В семантическую сеть могут включаться наиболее часто встречающиеся слова текста, несущие главную смысловую нагрузку. Для каждого понятия создаётся совокупность ассоциативных (смысловых) связей, то есть, перечень других понятий, в сочетании с которыми оно попадалось в предложениях текста. При этом предполагается, что чем более часто встречаются вместе два понятия в предложениях текста, тем более высок уровень вероятности того, что они могут быть связаны по смыслу.
Оригинальные лингвистические алгоритмы применяют морфологический и синтаксический анализ, а также тезаурус русского языка для того, чтобы отождествить близкие по смыслу слова и словосочетания. К примеру, такие сообщения, как «утеря ряда библиотечных книжек» и «потеря трёх библиотечных книжечек», могут быть сведены к единому понятию «потеря библиотечной книги».
Помимо этого, из числа понятий могут быть исключены общеупотребимые слова, не несущие самостоятельной смысловой нагрузки или имеющие более широкое значение. Так, слова «концепция» и «развитие» сами по себе не считаются понятиями, которые характеризуют содержание документа. Однако они способны образовать понятие, которое может быть выражено сочетанием типа «концепция развития сельского хозяйства».
Все понятия можно рассматривать как имя соответствующей темы документа. Статистические данные о связях понятий в текстовой информации и синтаксических ролях понятий во фразах предоставляют возможность оценки их вклада в общее содержание документа и, таким образом, осуществлять ранжирование тем по информативности. В результате каждой теме семантической сети присваивается так называемый тематический вес.