Сущность и механизм машинного перевода на основе трансформации
Машинный перевод на основе трансформации – это один из наиболее распространённых методов машинного перевода.
Машинный перевод на основе трансформации отличается от более простой модели прямого машинного перевода тем, что он рассматривает процесс перевода в качестве трёх последовательных этапов:
- на первом этапе текст на исходном языке анализируется, чтобы определить грамматическую, морфологическую, синтаксическую и семантическую структуру этого текста;
- на втором этапе результирующая структура переводится в структуру, которая подходит для производства текста на языке перевода;
- на третьем этапе осуществляется генерация (то есть непосредственное создание, производство) текста.
Машинный перевод на основе трансформации благодаря такой организации процесса позволяет комбинированно использовать данные как исходного языка, так и языка перевода. Это вызвано тем, что в основе устройства машинного перевода на основе трансформации лежит та же идея, что и в основе межъязыкового машинного перевода.
Эта идея заключается в получении промежуточного представления, необходимого для осуществления перевода. Это представление позволяет зафиксировать смысл первоначального предложения, что впоследствии может привести к построению правильного перевода. Однако машинный перевод на основе трансформации характеризуется определённой степенью зависимости от конкретной пары языков, что отличается от межъязыкового машинного перевода, в котором промежуточное представление должно быть независимым и от исходного языка, и от языка перевода.
Несмотря на существующие различия (зачастую существенные) между способами работы систем машинного перевода на основе трансформации, они все в целом функционируют по одной и той же схеме. Суть этой схемы состоит в применении совокупности лингвистических правил, которые определяются соответствиями между структурой исходного языка и языка перевода.
После анализа входного текста формируется промежуточное представление, из которого затем формируется перевод с использованием двуязычных словарей и правил грамматического построения. Данный подход позволяет создать перевод достаточно высокого качества. В частности, создаются переводы, точность соответствия оригиналу которых составляет порядка 90%. Хотя эта точность, прежде всего, зависит от конкретной языковой пары и степенью близости двух конкретных языков.
Характеристика процесса машинного перевода
Система машинного перевода, основанная на правилах, предполагает проведение морфологического и синтаксического анализа исходного текста. В результате этого анализа должно быть получено синтаксическое представление. В дальнейшем оно может быть изменено в сторону меньшей конкретизации. Это изменение требуется для того, чтобы уделять повышенное внимание фрагментам, которые считаются наиболее существенными для перевода. В то же время другие виды информации игнорируются.
Процесс трансформации представляет собой преобразование окончательного представления, которое до сих пор существует на исходном языке, в представление, которое уже на языке перевода соответствует тому же уровню конкретизации.
Эти два рассмотренных представления принято именовать промежуточными представлениями.
Когда требуется представление на языке перевода трансформировать в готовый текст, осуществляют процесс, который состоит из аналогичных этапов, но только произведённых в обратном порядке.
Сущность методов анализа и разновидностей трансформаций
Прежде, чем получить окончательный результат, специалисты могут обратиться к различным методам анализа и трансформации. Методы и приоритеты, которые выбираются ими в данном случае, в значительной мере зависят от устройства самой генерирующей гибридной системы. Однако, как правило, множество систем, существующих в настоящее время, включают в себя следующие этапы:
- морфологический анализ – это классификация (по принадлежности к частям речи и по грамматическим категориям) и иные виды анализа поверхностных форм входного текста;
- лексическая категоризация – это определение верного значения многозначного слова, употреблённого в определённом контексте, что может сопровождаться маркированием частей речи и разрешением смысловой омонимии;
- лексическая трансформация – это перевод словарного значения, что выражается в поиске в словаре начальной формы слова и последующем выборе перевода;
- структурная трансформация – это процессы согласования грамматических категорий и изменения порядка слов или фраз, что способствует образованию фраз и фрагментов текста;
- морфологическая трансформация – это создание на основе данных, которые были получены на предыдущем этапе, окончательные готовые формы на языке перевода.
Система машинного перевода на основе трансформации характеризуется такой особенностью, как наличие стадии, заключающейся в осуществлении перевода промежуточного представления текста на исходном языке в промежуточное представление текста на языке перевода. Этот процесс может происходить на одном из трёх уровней лингвистического анализа:
- поверхностная (синтаксическая) трансформация – это уровень лингвистического анализа, который характеризуется передачей синтаксических структур между исходным языком и языком перевода;
- глубокая (семантика) трансформация – это уровень лингвистического анализа, который характеризуется созданием семантического представления, которое состоит из нескольких передающих определённый смысл структур и зависит от исходного языка, и созданием предикатов;
- структурная трансформация – это уровень лингвистического анализа, который используется для перевода между отдаленно связанными друг с другом языками.
Также возможна ситуация осуществления перевода в промежутке между этими уровнями лингвистического анализа.