• Вы находитесь тут:
  • Bad Android
  • Блоги
  • Как мобильные приложения для перевода устраняют позорные ляпы

Как мобильные приложения для перевода устраняют позорные ляпы

Мобильные приложения для перевода совершенствуются ежедневно. Впрочем, они до сих пор не идеальны. Особенно когда речь идет о языках национальных меньшинств. Помогут глубокие нейронные сети и искусственный интеллект сгладить неловкие ляпы?

Ошибки перевода

По данным компании Google, во время Чемпионата мира по футболу-2018, который этим летом проводили в России, был колоссальный всплеск в использовании Google Translate. С помощью этого переводческого средства футбольные фаны пытались поддерживать разговоры с хозяевами чемпионата и болельщиками из других стран мира.

Особым спросом пользовались слова «стадион» и «пиво».

Сегодня традиционные книги-разговорники уже уходят в прошлое. Как показал опрос, недавно проведенный British Council, около двух третей респондентов в возрасте от 16 до 34 лет теперь полагаются на мобильные приложения для перевода, когда им нужна помощь в общении с местным населением страны, где они оказались.

Конечно, эти приложения совершенствуются с каждым днем. Но все равно их нельзя считать абсолютно надежными. Пятая часть респондентов сообщила, что во время отпусков у них возникали недоразумения из-за неправильного перевода, который им предложил телефон.

Особенно остро эта проблема встает для вещателей, принадлежащих к национальным меньшинствам.

Например, валийцы (жители Уэльса) постоянно замечают «неадекватные» переводы. В частности, надпись на знаке «Внимание, ведутся взрывные работы» перевели как «Gweithwyr yn ffrwydro» («Рабочие взрываются»).

А летом этого года пользователь Google Translate обнаружил интересную вещь: если набрать слово «dog» (собака) 18 раз, то перевод на языке маори звучит так: «Часы Судного дня показывает три минуты до двенадцати. Мы переживаем характеры и развитие драматических событий в мире, что свидетельствует о неуклонном приближении к концу времен и возвращение Иисуса».

Так почему в эпоху суперкомпьютеров и машинного обучения до сих пор появляются глюки перевода?

Большая проблема — в многозначности слов. Часто они имеют более чем одно значение. Эти так называемые омографы могут завести в тупик не только отдыхающих, но и правительства стран.

Возьмем, например, немецкоязычную версию экспертного доклада о Brexit, выпущенную в июле, где фразу «реализация демократии» перевели как «demokratische Übung», хотя «Übung» означает физические упражнения, а не практику.

Чтобы избежать таких ошибок, разработчики приложений для перевода постоянно совершенствуют методы машинного обучения. Предоставляя пользователю ответ, эти программы используют предварительно переведенные тексты. В них они проверяют контекст употребления слова и выбирают вероятнее всего значение.

В начале 2018 года компания Microsoft объявила, что ей удалось достичь «уровня качества переводов, который можно сравнить с человеческим». Машинными средствами было переведено несколько газетных статей с китайского языка на английский, и группа независимых экспертов установила, что их качество не уступает переводам от двух профессиональных переводчиков.

Как объясняют в Microsoft, причина этого значительного достижения — использование глубоких нейронных сетей, а также статистического машинного перевода.

Проще говоря, для этого машине понадобилось отшлифовать первый «примерный» перевод, несколько раз просматривая результаты под разными углами, сравнивая, сопоставляя и учась, подобно тому, как это делает человек.

Сначала происходит грубый перевод, который затем шлифуется путем повторения различных вариантов, их сравнения и, в конечном итоге, обучение. Похожим образом перевода обучаются и люди.

Разработанный компанией инструмент для перевода имеет четкое представление о грамматической структуре предложения в каждом языке, которое сложилось из массива выполненных ранее переводов.

Машинный перевод, качество которого сопоставимо с качеством перевода, выполненным человеком, кажется весьма впечатляющим достижением.

Но даже в Microsoft признают, что перевод новостных статей — не то же самое, что перевод живой беседы, для которой свойственны идиомы, акценты и диалектические особенности.

В прошлом году компания Google представила беспроводные наушники-вкладыши Pixel Buds, которые в режиме реального времени переводят из 40 языков (хотя точность их перевода до сих пор остается дискуссионной).

Pixel Bud

А в нью-йоркском стартапе Waverly Labs разработали собственную модель наушника — Pilot Translating Earpiece — и программу для смартфона, которая, по утверждению представителей компании, может перекладывать из 15 языков практически в режиме реального времени.

И когда два языка перевода такие редкие, что для них не существует широкой базы переведенных документов (например, с сингальского на пушту), проблема осложняется.

Можно сделать перевод с сингальского на английском, а затем перевести этот результат на пушту, однако вследствие этого неизбежно возникнут ошибки, о которых уже говорилось выше.

В отношении апокалиптического толкования множества собак маорийской, то причиной удивительного результата может быть то, что для редких языков программы слишком полагаются на имеющиеся документы на обоих языках. В этом случае таким документом является Библия.

«Если тренировать свою модель с помощью параллельных предложений с оригинала и перевода древнего манускрипта, а затем попытаться перевести разговор между современными людьми, может случиться конфуз, потому что по содержанию и стилю современные разговоры очень отличаются от древних писаний», — рассказывает исследователь искусственного интеллекта в компании Facebook Гийом Лампл.

«А еще модель может сгенерировать сегменты слов, которые нашла в тех писаниях. Такая проблема, скорее всего, будет возникать с языками, для которых существует мало ресурсов, поэтому и количество параллельных предложений очень мала, а существенный общий объем параллельных данных представляют собой древние документы».

Но новый проект господина Лампла и группы других исследователей из компании Facebook и Университета Сорбонна в Париже может предложить способ избежать этой проблемы.

Ученые используют тексты оригиналов, состоящих всего из нескольких сотен тысяч предложений каждого языка, но никаких непосредственно переведенных предложений.

Фактически их система изучает шаблоны, по которым употребляются слова. Например, слова «кот» и «пушистый» в английском языке имеют тенденцию возникать в таком же взаимосвязи, как «gato» и «peludo» в испанском. Система изучает эти так называемые векторы представления слова, что позволяет ей получить «достаточно точный» двуязычный словарь.

Далее она применяет такие же техники проверки, как и Microsoft Translator, чтобы создать окончательный вариант перевода — и к библейским текстам как справочного материала не обращается.

Господин Лампл отмечает, что технику создания шаблонов можно использовать шире, чем для языков, что находятся в современном употреблении. Например, с помощью этого метода можно расшифровывать мертвые языки.

«Впрочем, есть значительная преграда — количество предложений на языках, которые мы можем собрать. Например, рукопись Войнича (кодекс XV века, который до сих пор не могут перевести) содержит лишь несколько сотен страниц текста, что мало для работы нашей модели», — признается ученый.

«Но если бы нам удалось собрать адекватное количество текста, мы могли бы реанимировать мертвые языки».

Однако это еще не все — дальше открываются интересные перспективы.

«А что, если удастся пообщаться с доброжелательными пришельцами? — рассуждает господин Лампл. — Только сначала надо, чтобы они наговорили много текста, к тому же на такие темы, на которые мы общаемся между собой».

Возможно, это именно тот случай, когда «Трудности перевода» удачно дополняют «Затерянных в космосе»?

0

Комментарии


Чтобы оставить комментарий, пожалуйста, авторизируйтесь!
  • Вы находитесь тут:
  • Bad Android
  • Блоги
  • Как мобильные приложения для перевода устраняют позорные ляпы
  • Вы находитесь тут:
  • Bad Android
  • Блоги
  • Как мобильные приложения для перевода устраняют позорные ляпы