Системы машинного перевода

Перевод – вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке при обеспечении их смысловыми эквивалентами.

Типы перевода по степени автоматизации:

1)   Традиционный (ручной, выполненный человеком)

2)   Автоматизированный

а)         Перевод, выполняемый ПК с помощью человека (ПК обращается за справками к человеку);

б)         Перевод, выполняемый человеком с помощью ПК:

–                В памяти ПК двуязычный словарь и текстовый редактор;

–                Системы ТМ ( Translation Memory) – в их основе лежит принцип сбора и хранения фрагментов переведённых человеком текстов на 2 языках, они хранятся в специальном накопителе перевода и служат бесценным подспорьем при последующем выполнении переводов той же тематики.

3)   Машинный (автоматический) – выполняемое ПК действие по преобразованию текста на одном языке в текст на другом языке при сохранении эквивалентности).

 

Первые теоретические разработки по машинному переводу относятся к 30-40-м, но практическое применение идея машинного перевода нашла в 50-е. Первый машинный перевод был выполнен в Джорджстаунском университете в 1954. В Москве первый  машинный перевод был выполнен в 1955. Так как большинство слов имеют несколько значений, то основная трудность заключается именно в выборе нужного варианта, для чего человек использует контекст, жизненный опыт, который фактически невозможно формализовать и загрузить в ПК, => идеального машинного перевода быть не может и человек постоянно участвует в редактировании текста.

Типы систем МП:

1)   На правилах языка (модель перевода человеком)

а)         Структуры систем МП, основанных на первой системе:

–                В процессе морфемного анализа слов предложения исходного языка каждое слово получает наборы лексико-грамматических признаков ( часть речи, род и т.д.), ПК формирует эти наборы с опорой на специализированные двуязычные словари;

–                Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения;

–                Синтаксический синтез заключается:

  1. В создании предложения переводного языка определённой синтаксической структуры, определяемой правилами языков;
  2. Замена слов исходного языка на их переводные эквиваленты из словарей.

–                Морфологический синтез каждого слова предполагаемого родного языка сводится к постановкам каждого слова в нужную форму, для чего ПК использует лексико-грамматические признаки слов переводного языка.

 

б)         Успех СМП зависит от автоматических словарей. Для всех слов закодированного вида указываются грамматические признаки и лексико-семантическая информация.

в)         Используются два типа представления лексических единиц в автоматическом словаре:

–                В виде словоформ (словарь включает всевозможные лексические единицы и подаётся гнёздами);

–                В виде квазиосновы ( числа, стоящие после, условно обозначают наборы суффиксов и окончаний, присоединяемых к основе для получения соответствующей формы, эти числа называются типами формообразования, а сами суффиксы и окончания – машинными окончаниями.

г)         Выбор типа лексической единицы зависит от:

–                Типа языка (для флективных рациональнее использовать квазиоснову, для языков аналитического типа – словоформу);

–                От объёма словаря и вычислительных ресурсов ПК;

–                От типа системы СМП (для информативного перевода применяют квазиосноу, для профессионального – словоформу).

 

д)         Системы первой технологии опираются на готовые словари, для их разработки нужно много времени, а также для настройки системы для каждой тематики перевода:

–                Подключение специализированных словарей;

–                Добавление незнакомых слов в пользовательский словарь;

–                Резервирование собственных имён;

–                Подключение баз ТМ;

–                Выбор подходящего вариативного перевода для многозначных слов и редактирование перевода.

 

е)         Использование программ этой технологии даёт выигрыш только при переводе огромных массивов однородной документации с большим количеством повторений.

 

ж)       Преимущества систем первой технологии:

–                Синтаксическая и морфологическая точность;

–                Стабильность и предсказуемость результатов;

–                Возможность настройки на предметную область.

 

з)          Недостатки:

–                Трудоёмкость и длительность разработки;

–                Необходимость пополнения словарей;

–                «Машинный» акцент.

 

2)        Системы второй технологии (основаны на поиске наиболее вероятного перевода с использованием данных из параллельных корпусов);

а)              Преимущества:

–                Легко построить при наличии двуязычного корпуса;

–                Перенос технологии на любые пары языков

–                Лексическая гладкость.

 

 

 

б)         Недостатки:

–                Ограниченность параллельных корпусов и их качество;

–                Плохая справляемость с морфологией и синтаксисом;

–                Искажение информации.

 

Обе технологии обладают своими преимуществами и недостатками и не решили задачу по достижению качественного МП. Система Promt разработала «Гибридную технологию перевода». Такой перевод сохраняет преимущества традиционной технологии (формирование синтаксически связанного и грамматически правильного текста) и преимущества статистического метода (быстрое обучение, получение данных из параллельных корпусов в автоматическом режиме и гладкость текстов).

КОММЕНТАРИИ