Перейти к основному содержанию
Узнайте больше о дистанционной работе и обучении во время вспышки COVID-19
Перейти к основному контенту

Розетта Стоун вызывает Skype!

Skype Translator

Для начала уточним: помните, чем знаменит кусок скалы, найденный в Розетте наполеоновскими войсками? Правильно, лет за двести до нашей эры на нем был высечен один и тот же текст на трех языках. Благодаря чему догадливые египтологи XIX века начали читать непонятные ранее иероглифы. Также Розеттский камень можно считать прародителем всех инструментов, которые оперируют параллельными корпусами, включая самообучающийся Skype Translator. Он может в режиме реального времени голосом озвучить перевод с русского и на русский язык, да еще и вывести на экран субтитры. Как он это делает, объяснить непросто.

Розеттский камень

Поэтому начать нужно с чего-то более душевного и понятного: с Билла Мюррея, правда, без сурка.

Вместо пролога: Сантори тайм!

Сегодняшний день начался с анонса доступности новых возможностей в сервисах Skype Translator и Microsoft Translator. Синхронный речевой перевод видеовызовов получил поддержку русского языка. То есть любой пользователь получает личного цифрового переводчика-синхрониста, который поможет понять собеседника, говорящего на незнакомом тебе наречии, даже если это самый сложный для изучения язык Поднебесной (диалект мандарин).

Сервис продолжает развиваться, постоянно добавляются новые языки, и не за горами тот момент, когда молодые люди, впервые увидевшие замшелую классику Lost in translation, не поймут знаменитой комедийной сцены в начале фильма.

Японский режиссер быстро и энергично объясняет актерскую задачу, но переводчица ограничивается коротким «Смотрите в камеру». После этого именитый актер, который не понимает элементарных вещей, смотрится совсем уж неадекватным пенсионером Голливуда.

Хорошо, что мы это смотрим на экране. Если бы мы оказались на месте героя Билла Мюррея в реальной рабочей обстановке или жизненной ситуации, нам было бы не до смеха. И так пока что еще может произойти, окажись мы в Японии. А вот видеообщение с носителем китайского, английского или испанского не составит проблем. Более того, для многих иностранцев также впервые станет доступным понимание сложнейшего русского языка. Мы как-то привыкли думать о своих заботах, но и о собеседниках забывать не стоит.

translate-ru

Благодаря функции «Переводчик Skype» по окончании каждой фразы собеседника мы видим перевод сказанного прямо на экране и можем слушать ее озвучивание в наушниках. По окончании – это не через полчаса, а практически одновременно. Так просто для пользователя, но сколько же для этого пришлось проделать разработчикам. Даже улучшить ваш язык …

Skype Translator

По мотивам А.С. Пушкина…

Всем хочется, чтобы их понимали. Для этого нужно изъясняться стройно, четко, внятно, как классик литературы. В живой беседе чаще происходит далеко не так. Это добавляет забот нашему сервису. А точнее сервисам, поскольку одна и та же технология, работающая в облаке, используется и в Skype, и в Microsoft Translator, и в других инструментах.

Итак, Skype Translator выполняет последовательно несколько операций, прежде чем мы услышим синхронный перевод или увидим переведенный текст на экране. Сначала ему требуется разобрать аудиопоток, распознать речь, преобразовать ее в текст, оценить правдоподобие расшифровки, подчистить и нормализовать с целью адаптации к дальнейшему переводу, и лишь затем перевести и воспроизвести.

2000Распознаванием речи в 2016 году удивить сложно, люди и так привыкли общаться с виртуальными помощниками, мобильными устройствами, браузерами. Правда, обычно все сервисы и девайсы в режиме «вопрос-ответ» реагируют на достаточно короткие речевые команды. Вариантов фраз и запросов может быть очень много, но все-таки их число ограничено, а структура проста, так что этого недостаточно для разговора по душам.

Подлинная беседа – не просто очередной вариант ввода информации, занимающий свое место вслед за набором текста на клавиатуре, кликом мыши в окне, сенсорным управлением, распознаванием движений, жестов, мимики и сканированием биометрических данных. Диалог – целая платформа для интерфейсов будущего.

Сегодня «умные» технологии учатся разбираться не только в звуках, из которых состоят слова. Специалисты Microsoft создают сервисы, которые могут идентифицировать владельца по внешности, определяют возраст и настроение, но все это больше связано с компьютерным зрением, чем со «слухом». Тренировка этого «органа» будет происходить буквально у нас на глазах. И все потому, что система автоматического распознавания речи самообучается. Она использует многослойные глубинные нейронные сети, которые способны анализировать реальный диалог человека и человека, а не только человека и машины. Для обучения такой сети используются огромные массивы парных аудиофрагментов и их транскриптов на соответствующий язык.

Но вернемся к Пушкину. В его предложениях не встретишь лишних «ну» и «э», «так» и «вот». И к этому надо стремиться. Но если вы не можете избавиться от слов-паразитов и междометий, не расстраивайтесь. Чтобы текст было удобнее переводить, технология TrueText очистит фразу от словесного мусора, исправит корявые обороты, повторы и заикания (а при соответствующих пользовательских настройках – еще и от ненормативной лексики). Это отчасти вытравит из речи индивидуальность говорящего, зато на короткий отрезок времени он заговорит почти так же четко и ясно, как Александр Сергеевич. Вы же всегда отличите текст Пушкина от произведений Гоголя или Достоевского по прозрачности и ясности. И интеллектуальному переводчику приятнее иметь дело с внятным посланием.

Close encounters of the third kind, Steven Spielberg, EMI Films, Columbia Pictures, 1977

Параллельные контакты третьей степени

Вот мы и дошли до этапа непосредственно перевода, для которого используется невероятная самообучающаяся технология, которая граничит с инопланетным разумом, но в то же время заставляет нас вспомнить о Розеттском камне. В чем ее фантастика? При переводе транскрипта на язык получателя также применяются технологии машинного обучения с использованием глубинных нейронных сетей. Ключевая задача переводчика – передать максимально достоверно смысл предложения, а не отдельных слов. Другими словами, нейронная сеть пытается перевести всю фразу целиком.

Программы-переводчики текста существуют очень давно, но раньше правила перевода писали разработчики софта, которые не могли учесть специфики живой речи. Сделать словарь из отдельных понятий или устойчивых выражений – просто вопрос аккуратности при оцифровке существующих источников. Сделать большой словарь – вопрос большой аккуратности. Это не значит, что словари не нужны. Наоборот, это бесценный источник материалов и отличный инструмент для многих случаев. Особенно, если хочешь овладеть иностранным языком самостоятельно. Но в реальной жизни «чтение со словарем» – это не уровень владения иностранным языком, это странная формулировка полувековой давности, которая оказалась на редкость живуча и еще встречалась в онлайн-ресурсах по поиску работы в начале этого тысячелетия. Давно дело было.

evelyn-waugh

Skype Translator и Microsoft Translator овладевают языками сами. Разработчики предложили им начальный курс на основе уже имеющихся переводов, выполненных человеком, а потом система продолжит пополнять базу данных, «участвуя» в процессе живого общения. В итоге она получает множество вариантов перевода различных слов и выражений в зависимости от контекста.

Такие двуязычные (или многоязычные) сборники оригинальных текстов и переводов существуют давно и называются «параллельные корпусы».

Вспомним про Франсуа Шампольона, который не сразу научился читать египетские иероглифы. Шампольон знал полтора десятка языков. Логично предположить, что в его мозгу было много парных словарей, причем не только банальный для просвещенного человека «французско-древнегреческий», но и, например, «арамейско-коптский» или разговорник «пехлеви-санскрит». Но даже при таком багаже иероглифы покорились только тогда, когда ему стали доступны тексты на Розеттском камне.

Современные лингвисты специально составляют параллельные корпусы и используют в своих исследованиях. Для этого делаются специальные переводы одного текста на разные языки, причем соблюдается масса условий. Важна не только передача смысла, но и формальные параметры, например, длина фраз, варианты употребления в комбинации с другими словами и прочее. Поэтому корпусы «выравниваются» – проводится идентификация соответствующих друг другу предложений. Только при соблюдении формальностей, с корпусами можно работать, искать по тегам, анализировать, делать выводы.

rus_search
Национальный корпус расположен по адресу http://ruscorpora.ru/

Skype Translator примерно так же, как лингвисты, составляет параллельные корпусы из всего, что узнал от разработчиков и слышит от пользователя. И оперирует этими корпусами в дальнейшем. Нужно понимать, что в программных решениях от Microsoft помимо лингвистической информации используются последние достижения в области прикладной статистики и машинного обучения. Интеллектуальные инструменты позволяют производить модели, которые более качественно обобщают информацию. Это помогает в следующий раз перевести разговорную фразу максимально точно. Важно не только слово, не только предлог, с которым оно употребляется, не только место во фразе, а еще и то, что стоит перед ним, и то, что стоит после него. Даже интонация: повествовательная или вопросительная. Очевидно, что фразы «Погода хорошая?» и «Погода хорошая» переводятся по-разному.

Специалистам известно, что каждый язык имеет свои особенности: структуру слов, грамматику, правила построения предложений и т.п. Поэтому, фактически, при составлении наборов учебных данных для каждого языка значительную часть работы нужно делать с нуля, включая не только соответствующие корпуса размеченных данных, но и лексические модели. Например, для русского языка отдельное внимание нужно уделять окончаниям, падежам и роду.

Учитывая множество параметров, искусственный интеллект может сделать вывод о том, правильно ли построена фраза, не перескочил ли говорящий с одной мысли на другую. Вся технология перевода ориентирована на передачу смысла предложения, поэтому фразы переводятся целиком, а не по отдельным словам.

Крадущийся поэт, затаившийся лев

Перевод текста в Skype и Microsoft Translator доступен на многих языках. С речью оказалось сложнее. Разработчики из Microsoft проводили исследования и тестирования более десяти лет. Сначала пользователям была предложена возможность синхронного перевода речи на английском и испанском, потом стали добавляться другие европейские языки, а также бразильский, португальский и китайский. Сегодня в режиме бета-версии стал доступен русский. Чтобы понять, с какими задачами столкнется наш сервис, приведем для иллюстрации известное стихотворение, которое написал лингвист Чжао Юаньжэнь:

石室詩士施氏,

嗜獅, 誓食十獅。

Это не только забавно смотрится, это еще и отлично звучит. Попробуйте сами: «Shíshì shīshì Shī Shì, shì shī, shì shí shí shī». Ну то есть по-русски: «Шишишишишишиши». А главное во всем этом есть смысл, хоть и комический. Перевод таков: «Жил в каменной пещере поэт Ши Ши, который любил есть львов и поклялся съесть десять в один присест».

А что вы помните из китайского по обрывкам фильмов или другим источникам? Чжунго? Мао? Сунь Укун? Нихао, сеси и цзай цзянь? Поговорите с нашим переводчиком. Только не читайте ему стихотворение про поэта Ши Ши. Это и для носителей языка задача непростая. И вообще другой диалект.

Камо грядеши

Испытать новый функционал в деле несложно. Базовым сервисом речевого и текстового перевода является Microsoft Translator. Именно он лежит в основе многих продуктов. Microsoft Translator можно скачать как отдельное приложение для мобильных и настольных устройств на iOS, Android и Windows. Если отдельная программа не нужна, воспользуйтесь онлайн-сервисом Bing Translator. Также Microsoft Translator является платформой для функциональности перевода, входящей в состав различных продуктов. В первую очередь это Skype Translator, расширение переводов для персонализации браузера Microsoft Edge, Office и других программ.

Сегодня нас больше всего интересует синхронный перевод в Skype. Пользоваться новшеством предельно просто. Выбрав собеседника, перед началом звонка нужно кликнуть иконку глобуса, включить предварительную версию переводчика и выбрать языки. Теперь можно говорить, не задумываясь о длине предложений, только не очень торопиться между фразами, чтобы система успела все перевести и озвучить.

new-v4Для повышения качества работы рекомендуется использовать гарнитуру и совершать видеозвонок из тихого помещения. В противном случае переводчик потратит лишнее время на очистку текста, ведь довести его до условного пушкинского уровня будет непросто.

При тестировании сервиса Skype Translator внутри компании и обучении системы работе с русским языком были привлечены русскоговорящие спикеры из различных стран и регионов. Ввиду технологической специфики платформы, на которой создан сервис, разработчики ожидают, что способность системы понимать разный говор и региональные особенности русского языка будет расти по мере пользования сервисом.

Если вы уже попробовали сервис Skype Translator, то могли заметить, что длинные и сложные фразы переводятся лучше и качественнее, чем короткие. Это происходит потому, что наличие контекста повышает качество перевода. Система не обучается сама по себе. Ей нужна информация. Пока русский язык не будет доведен до совершенства, сервис Skype Translator будет находиться в состоянии бета-версии. Можно быть уверенным, что искусственный интеллект не уснет над учебниками. А значит скоро мы станем широко использовать возможности синхронного перевода.

Если вы еще не пробовали переводчик в деле, сделайте это прямо сейчас. Позвоните зарубежным друзьям или коллегам. Жалко, что нельзя набрать Британский музей и позвать к аппарату Розетту Стоун. Хотя не исключено, что Skype со временем придумает, как это сделать. Самообучение – потрясающая вещь.