Перевести письмо от зарубежного партнера или фрагмент из документации — эти и другие задачи, вызванные необходимостью быстро понять содержание текста на иностранном языке, возникают очень часто. Сегодня преодолеть языковой барьер помогают онлайновые сервисы перевода. Мы расскажем о технологиях, на которых основана работа подобных сервисов, познакомимся с ними самими и попытаемся выбрать лучшего.

Технологии

Существуют две основные технологии машинного перевода: основанная на правилах (Rule-Based Machine Translation, RBMT) и статистическая (Statistical Machine Translation, SMT). В первой, для получения перевода, к тексту применяются известные правила языка, реализованные в виде лингвистических алгоритмов. Статистическая технология таких алгоритмов не использует: она постепенно «выучивает» язык, сравнивая тысячи параллельных текстов — то есть текстов, содержащих одну и ту же информацию, но на разных языках — и подбирая на этой основе наиболее вероятный вариант перевода.

Рассмотрим эти технологии более подробно.

Процесс перевода, основанный на правилах, можно условно разделить на несколько этапов.

  1. Морфологический анализ, в ходе которого указывается род, число, лицо и другие морфологические характеристики слов. При этом возникает проблема многозначности: одно и то же слово может относиться к разным частям речи. Например, английское «blow» может употребляться и как глагол (дуть, веять) и как существительное (дуновение). На данном этапе фиксируются оба варианта перевода.
  2. Отдельные слова объединяются в группы. Например, группа «many nice letters» (много хороших писем) состоит из количественного слова «many» для определения множественного числа, прилагательного «nice» и существительного множественного числа «letters». Это позволяет решить вопрос с грамматической многозначностью и удалить «лишние» значения слов.
  3. Синтаксический анализ предложений, то есть определение членов предложения и их места в предложении. Сначала программа ищет сказуемое. Затем перед найденным сказуемым ищется подлежащее. Если его там нет, то алгоритм ищет подлежащее за сказуемым. Если подлежащего нет и там, то считается, что подлежащее отсутствует, как это бывает, например, в безличных предложениях («Принесли торт»).
  4. Согласование найденных частей предложений и групп зависимых слов — синтез предложений.

Подобный подход к переводу используется в сервисах SYSTRANet компании SYSTRAN и Translate.Ru российской компании ПРОМТ.

Использование правил было единственным способом машинного перевода, вплоть до 2006 года, когда появился сервис Google Translate, основанный на другом — статистическом — подходе к переводу.

Для своей работы система статистического перевода нуждается в обширной базе параллельных текстов. Источниками таких текстов могут быть разноязычные версии сайтов организаций, например, базы данных документов ЕС. При этом для корректной работы переводчика необходимо иметь в базе не просто большое, а огромное число параллельных документов. Немудрено, что первым доступным статистическим переводчиком стал сервис крупнейшего поисковика — компании Google. Вскоре, за ним последовали конкуренты: Bing с Microsoft Translator и Яндекс с Яндекс.Перевод.

Последняя система, по словам разработчиков, состоит из трех основных частей: модели перевода, модели языка и декодера.

Модель перевода — это таблица, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их переводы на другой язык и указана вероятность этих переводов. Модель перевода создается в три этапа: сначала подбираются параллельные документы, затем в них — пары предложений, и, наконец, — пары слов или словосочетаний.

Вторая составляющая системы машинного перевода — модель языка. Для ее создания система изучает сотни тысяч различных текстов на нужном языке и составляет список всех употребленных в них слов и словосочетаний с указанием частоты их использования. Модель языка — это представление знаний системы о языке, на который нужно перевести текст.

Непосредственно переводом занимается третья составляющая переводчика — декодер. Для каждого предложения исходного текста он подбирает все варианты перевода, сочетая между собой фразы из модели перевода, и сортирует их по убыванию вероятности. Затем все получившиеся варианты декодер оценивает с помощью модели языка.

Например, пользователь захотел перевести фразу «to be or not to be». Допустим, что из всех вариантов ее перевода в модели перевода максимальную вероятность имеет сочетание «быть или не бывает», за ним с небольшим отрывом следует сочетание «быть или не быть» и т. д. После модели перевода декодер обращается к модели языка, которая подскажет ему, что «быть или не быть» употребляется чаще, чем «быть или не бывает». В итоге декодер выберет предложение с наилучшим сочетанием вероятности (с точки зрения модели перевода) и частоты употребления (с точки зрения модели языка).

Каждая технология имеет свои плюсы и минусы. Система перевода, работающая на основе правил, обычно выдает более или менее связный перевод, по которому пользователь сможет догадаться о смысле текста. В ней есть возможности настройки для перевода текстов со специализированной терминологией, в частности, возможность подключения тематических словарей.

Система статистического перевода хорошо справляется с переводом устойчивых словосочетаний. Такие системы лучше обучаемы: если в языке что-то меняется, например, люди начинают писать какое-нибудь слово по-другому, то система заметит это, как только к ней попадут новые тексты. С другой стороны, «статистический» перевод одного и того же термина может оказаться различным, в зависимости от контекста, что не всегда желательно. В то же время, технология, основанная на правилах, может обеспечить одинаковый перевод одного и того же термина.

Качество «статистического» перевода напрямую зависит от объема и разносторонности базы параллельных текстов. Зачастую таких текстов не хватает и перевод между поддерживаемыми системой языками выполняется через промежуточный перевод на английский. Есть языки, которые проходят двойной процесс перевода. Например, перевод с белорусского и украинского языков сначала выполняется на русский, потом — на английский, и лишь затем — на целевой язык. В этом можно убедиться, сравнив прямой перевод и перевод, выполненный по указанной цепочке. Впрочем, эта ситуация вполне может измениться, когда будет накоплена достаточная база параллельных текстов.

Все это наводит на мысль об объединении преимуществ обеих технологий. И действительно, компания ПРОМТ приобрела у Google базы параллельных текстов (объем корпуса текстов — более 24 Гб в сжатом виде) и в конце 2010 года представила гибридную технологию перевода. Суть такого совмещения в том, что вместо одного варианта перевода, программа порождает множество вариантов, число которых у одного предложения, в зависимости от многозначности слов, конструкций и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволит выбрать из предложенных вариантов наиболее вероятный. Возможно, что сейчас свои шаги навстречу синтезу технологий совершают и компании, занимающиеся системами статистического перевода.

Чтобы улучшить качество перевода, онлайн-переводчики регулярно обновляют. Каждое обновление сначала проходит проверку. Для этого используется алгоритм оценки качества машинного перевода BLEU (Bilingual Evaluation Understudy): перевод специально подобранных текстов, полученный системой, сравнивается с эталонным и, если данные от вновь изученных документов ухудшили качество перевода, то они отбраковываются. В ряде сервисов организуется обратная связь с пользователем: тот может предложить свой вариант перевода (Google Translate и Translate.Ru) или одобрить/осудить выполненный системой перевод (Bing). Однако такой подход, при всей своей привлекательности, может, напротив, привести к ухудшению качества перевода из-за невысокой квалификации добровольных помощников. По-видимому, здесь необходима организация сообщества, члены которого получат право дополнять систему лишь по достижении определенной квалификации.

Сервисы

В настоящее время существует несколько десятков сервисов онлайнового перевода. Мы выбрали пять из них, опираясь на известность сервиса и наличие в нем независимой поддержки русского языка (например, ряд зарубежных сервисов использует для этого модуль перевода компании ПРОМТ, а другие — технологии от компании SYSTRAN). Для знакомства мы расположили сервисы в порядке увеличения поддержки восточнославянских языков — начиная с тех, что поддерживают только русский язык к тем, что поддерживают русский, украинский и белорусский языки.

5. SYSTRANet

SYSTRANet.png

По умолчанию SYSTRANet предлагает перевод текстов, веб-страниц и работу со словарем. Зарегистрированные пользователи дополнительно получают доступ к переводу RSS-лент, файлов и функции «Собственный словарь». Также бесплатная учетная запись позволяет применять опции «Перевод во время набора», «Альтернативные значения слов» и др.

SYSTRANet позволяет также переводить файлы форматов txt, rtf, htm. Для повышения качества перевода разработчики предлагают специализированные словари по девяти тематикам. Всего в системе заявлено более 35 направлений перевода.

4. Translate.Ru

Translate_Ru.png

Онлайн-переводчик Translate.Ru компании ПРОМТ — старейший в Рунете. В данный момент им поддерживаются 9 языков. Translate.Ru позволяет выбрать тематику текста для более точного перевода. Всего доступно 16 тематических словарей («Спорт», «Путешествия», «Компьютеры» и т. д.). Поддерживается предварительная проверка орфографии и функция словаря. Для того, чтобы посмотреть список вариантов перевода, требуется выделить слово в окне исходного текста и затем нажать на кнопку «Словарь» на панели инструментов — в отдельном окне отобразятся все известные системе варианты.

Окно словаря в Translate.Ru

В Translate.Ru существует ограничение на количество вводимых символов: незарегистрированный пользователь может ввести 3 тысячи знаков, а после регистрации ограничение составит 10 тысяч.

3. Bing Translator

Bing.png

Переводчик поисковика Bing основан на Microsoft Translator — облачном сервисе статистического перевода от Microsoft. Он поддерживает 44 языка, среди которых есть русский и украинский, имеет функции озвучивания текста, поиска текста в поисковой системе, перевода веб-страниц и отсылки перевода по e-mail.

Ограничение на размер переводимого текста составляет 5 тысяч символов.

1–2. Google Translate

Google.png

Сервис перевода от компании Google — наиболее популярный в Интернете. В нем реализована поддержка 80 языков, включая русский, украинский и белорусский. Есть функция мгновенного перевода, когда результат отображается сразу же после ввода исходного текста. Направление перевода определяется автоматически. Если вставить в поле перевода веб-ссылку, то переведена будет вся страница. Также можно выполнить перевод документов стандартных офисных форматов и формата PDF.

Ссылка для загрузки документа с диска в Google Translate

Из полезных функций Google Translate особо следует отметить возможность получить альтернативный перевод отдельных слов и словосочетаний. Кроме того, в системе присутствует голосовой ввод и возможность прослушать звучание оригинального текста и перевода — так, например, можно воспроизводить звуки с планшета или смартфона, запоминать их, и объясняться в чужой стране.

Ограничений на количество слов в обрабатываемом тексте нет.

1–2. Яндекс.Перевод

Yandex_Translate.png

Сервис онлайн-перевода от Яндекса появился в 2011 году и на данный момент предоставляет возможность перевода на 46 языках, среди которых есть русский, украинский и белорусский. Яндекс.Перевод работает в двух режимах: перевод текстов и перевод веб-страниц. Чтобы перевести веб-страницу, необходимо в поле ввода вставить ссылку и нажать на кнопку «Перевести».

Сервис поддерживает автоматическое определение языка, функцию мгновенного перевода и подсказки при наборе текста (по первым буквам сервис пытается определить продолжение слова, либо с учетом контекста подсказывает наиболее вероятное следующее слово). Для русского, английского и украинского языков доступна проверка правописания. Можно также прослушать произношение перевода и оригинального текста.

Помимо перевода текста Яндекс.Перевод позволяет просматривать подробные словарные статьи из машинного словаря, которые включают в себя сгруппированные переводы, примеры использования, транскрипцию для английских слов, части речи и т. д. Кроме того, в поле ввода текста есть возможность посмотреть синонимы к тому или иному слову, что позволяет улучшить качество перевода. Для просмотра словаря и списка синонимов необходимо кликнуть левой кнопкой мыши на любое слово и удерживать 1 секунду. При выборе любого синонима мышкой он автоматически заменит исходное слово. Синонимы доступны для русских, английских, украинских и белорусских слов.

Переводчик Яндекса, как и сервис от Google, базируется на изучении параллельных текстов, но работает несколько по-иному, сравнивая не только отдельные слова, но и словосочетания из двух, трех, четырех или пяти слов, идущих подряд и ориентируясь, таким образом не столько на перевод отдельных слов, сколько на перевод целых смысловых блоков.

Если качество полученного перевода вас не удовлетворяет, можно воспользоваться обратной связью с разработчиками или отправиться по ссылке «Посмотреть перевод в Google и Bing». Наличие такой ссылки фактически превращает переводчик от Яндекс в интегратор сервисов перевода.

Тесты

Попробуем теперь сервисы перевода в деле. Для этого мы используем несколько коротких тематических тестов (было интересно, как сработает подбор тематики словарей в Translate.Ru), анекдот и пример косвенной речи (с которой, как и с пассивным залогом, нередко случаются проблемы). Перевод будем выполнять только на русский язык. Конечно, подобное тестирование далеко от полноты, обеспечиваемой методикой BLEU, но и оно может дать «информацию к размышлению» или, в крайнем случае, позволит нескучно провести несколько минут, наблюдая за усилиями наших электронных помощников. Итак…

Авто. The cabin space has been updated and there are new paint and wheel options. Buyers will also be able to choose among an array of engines burning gasoline or diesel and with three or four cylinders. Options range from a 1.0-liter inline-three with 74 horsepower all the way up to a 1.4-liter turbo four with 148 hp. The suspension and steering systems have been reworked as well. (Seat reveals facelifted Ibiza hatchback family in Barcelona)

У всех переводчиков возникли проблемы с расположением «as well». Например, Google предложил следующий вариант: «Подвески и системы рулевого управления были переработаны, а также»). Зато все разобрались с лошадиными силами, даже в виде «hp», а Google и Яндекс еще и показали варианты перевода. Причем у каждого — свои. Translate.Ru без указания темы «Автомобили» упорно считал «cabin» каютой. Зато настроившись выдал, пожалуй, наиболее приемлемый вариант перевода. С другой стороны подошел к этому словосочетанию SYSTRANet: «The cabin space» он перевел как «Космос кабины».

Футбол. Riyad Mahrez hit an early brace as Leicester City took another step towards Premier League safety with victory over lacklustre Southampton. The Algerian forward found the net with a low drive on seven minutes and soon doubled his tally when turning home Jamie Vardy's pull-back. (Riyad Mahrez hit an early brace)

Текст оказался очень трудным. Переводчики один за другим предлагали бить или жать ранние скобки («hit an early brace»), а Google услужливо предложил еще и фигурные скобки. Приятно, что все переводчики кроме SYSTRANet верно определили клуб "Лестер Сити", а Яндекс даже выделил его название в кавычки. Translate.Ru с футбольными настройками был единственным, кто верно определил «net» как нечто связанное с сеткой ворот: «Алжирец вперед нашел ворота…» («The Algerian forward found the net»), а Яндекс — единственным, кто определил, что нашел их именно форвард (после чего Яндексу уже было не до ворот). «Low drive» был и «низкой ездой» (Яндекс) и «низким диском» (Bing), и… Но не будем о грустном (это не значит, что я болел за Саутгемптон). Всех превзошел SYSTRANet: «Алжирское переднее нашло сеть с низким приводом…»

Гаджеты. Phablets are essentially a larger phone or a smaller tablet with cellular radio capability. While there are smaller 8 inch tablets like the iPad Mini and Samsung Galaxy Tab 8 that sport cellular capability, the phablet definition is limited to screen sizes under 7 inches — perhaps that being the limit of how ridiculous it looks to put such a device to your ear to use as a phone. (Is the phablet the future of smartphones?)

Все переводчики справились с задачей: их переводы позволили в основном понять смысл сообщения. Никто, однако, не справился со «sport». Зато вежливый Translate.Ru переводил: «your ear» исключительно как «Ваше ухо».

Анекдот.
— Is it really true that everything between Rosalie and you, Michael, is over? A whole year you were keeping company.
— Just imagine!
— And did you tell her about your rich uncle whose only heir you are.
— It was just because I told her about it. She left me to become my auntie.

Длинные тире не стали проблемой при переводе. Лучше других справились с задачей Google и Яндекс. Оба сообразили, что «Она оставила меня, чтобы стать моей тетушкой». Правда, Яндекс почему-то решил переименовать героя в Михаила.

Косвенная речь.
He said I was pretty.
He said I was so intelligent.
He said I danced so well.
He said I had got lovely hair.
He said he would never forget that day.

При выполнении этого задания Яндекс оказался почти совершенен:

Он сказал, что я симпатичная.
Он сказал, что я такая умная.
Он сказал, что я танцевала так хорошо.
Он сказал, что у меня прекрасные волосы.
Он сказал, что он никогда не забудет тот день.

Google также был хорош. Любопытно, однако, что Яндекс посчитал объект речи (обладающий прекрасными волосами, симпатичный и хорошо танцующий) дамой, тогда как Google предложил мужской вариант, например, «я получил прекрасный волосы». Но надо отдать ему должное, среди вариантов перевода женский род также присутствовал. Возможно, здесь проявляется то, что Яндекс анализирует более длинные группы слов. Bing не определился: иногда объектом речи была дама, иногда джентльмен. Дальше всех в обобщениях пошел SYSTRANet, который использовал средний род: «я станцевало настолько хорошо». Нелегко многим тестируемым далось последнее предложение. Вариант от Translate: «Он сказал, что никогда не будет забывать в тот день».

«Так какой же переводчик самый лучший?» — спросит читатель. Если речь идет о десктопном переводчике «на каждый день», то, на мой взгляд, это будут Google или Яндекс.

Судите сами. Все системы справились с переводом на русский примерно одинаково: результат их усилий позволил понять смысл текста. Разве что, отстал SYSTRANet. Если помимо русского языка, вы используете белорусский или украинский — ваш выбор Google или Яндекс. По богатству возможностей лидирует Google: в нем есть перевод документов и голосовой ввод, чего нет в Яндексе. Однако перевод всего документа — «фича» не слишком востребованная, так как ретивый переводчик может испортить форматирование исходного документа. Голосовой ввод — тоже пока экзотика, хотя и весьма перспективная. А вот в части обычного перевода Яндекс сделал существенный шаг вперед и теперь, пожалуй, не уступает Google.

Опубликовано на KV.by.



Комментарии

comments powered by Disqus