Тестируем голосовой перевод в Яндекс.Переводчик

Эта статья является частью нашего большого исследования устных переводчиков английского языка.

Мы оценили данный голосовой переводчик на 3,6 баллов.

Яндекс.ПереводчикКоличество точных переводовУдобство в использованииПривлекательность интерфейса
 454,5

Ниже вы найдете фразы, которые мы «скармливали» переводчику, а также видео с переводом.

Покупаем билет на самолет

Мы протестировали переводчик через стандартную просьбу в кассе аэропорта. Приложению удалось без проблем перевести длинную фразу, определить смысловые паузы и соблюсти грамматику.

IOS

Android

Садимся в такси

Мы проверили переводчик с помощью типичного вопроса о стоимости поездки в такси. Переводчик правильно записал и перевел адрес пункта назначения. Приложение справилось на отлично и грамматически, и по содержанию.

IOS

Android

Заселяемся в отель

Мы провели тестирование переводчика с помощью вопросов для администратора отеля, попытались выяснить, есть ли свободные номера на конкретные даты, уточнили наличие завтрака. Приложение не очень хорошо справилось с поставленной задачей. Переводчик правильно определил интонацию, разделил фразы запятыми, но не смог грамматически верно перевести вопрос про завтрак, смысл потерялся.

IOS

Android

Зовем на помощь

Мы проверили переводчик с помощью фразы с просьбой о помощи человеку, который плохо себя почувствовал. Приложение хорошо справилось с задачей, смысловые части определены и выделены запятыми, информация донесена верно.

IOS

Android

Узнаем время работы ресторана

Мы протестировали переводчик через уточнение часов работы ресторана. Также мы добавили вопрос о возможности визита вместе с коллегой. Приложение уверенно справилось с задачей, фраза разбита на смысловые отрезки. Грамматически все верно.

IOS

Android



Как включить в Google Chrome закадровый перевод видео из Яндекс.Браузера

Учите английский язык, он вам сильно пригодится в жизни. Так говорят нам с самого детства, но на большинство почему-то эти уговоры не особенно действуют. Правда, жалеть об этом они начинают уже будучи взрослыми, когда понимают, что не могут ни почитать новости на английском, ни тем более изъясниться с иностранцем в аэропорту. Я, конечно, могу и то, и другое. Но после появления функции синхронного перевода видео от Яндекса, которая теперь доступна и в Chrome, я начал задумываться, что где-то меня обманули.

Переводчик из Яндекс.Браузера заработал в Chrome

Наверное, все уже в курсе про синхронный перевод видеороликов на YouTube, который появился в Яндекс.Браузере. Это работает точно так же, как и называется. Специальные алгоритмы в реальном времени переводят то, о чём говорят на видео, причём делают это не в стиле Промта из середины нулевых годов, а вполне качественно. Так сразу даже не поймёшь, что это не профессиональный дубляж, а перевод плюс озвучка здесь и сейчас.

Как правильно пользоваться интернетом на телефоне

Единственный минус это функции — её ограниченная доступность. Естественно Яндекс, чтобы сделать популярнее свой браузер, не стала открывать доступ к синхронному переводу конкурентам. Но за неё это сделали разработчики-энтузиасты. Они просто взяли и превратили функцию перевода в расширение для Google Chrome, которое включается и переводит аудиодорожку видеоролика в реальном времени абсолютно так же, как это сделал бы сам Яндекс.Браузер.

Как перевести видео на YouTube

  • Скачайте расширение Tampermonkey для Google Chrome;

Для синхронного перевода обязательно нужен скрипт

  • Перейдите по этой ссылке и скачайте скрипт для перевода;
  • Откройте YouTube и запустите любой ролик на английском или испанском;

Включить перевод можно кнопкой в верхней части плеера

  • Наведите курсор мыши на верхнюю часть проигрывателя и нажмите на кнопку перевода.

По умолчанию это действие должно активировать синхронный перевод на Ютубе. Но в некоторых случаях кнопки может либо не появиться, либо функция перевода окажется недоступной. В этом случае рекомендуется переустановить и само расширение, и скрипт, который отвечает за перевод. После этого расширение запросит разрешение на доступ ко взаимодействию с сайтом YouTube — соглашайтесь. После этого перевод станет доступен без ограничений.

Как восстановить данные на телефоне после сброса настроек. 4 способа

Честно сказать, первые несколько минут Chrome отказывался переводить для меня видео. Однако после того как я переустановил расширение и дал ему разрешение на доступ к Ютубу, всё заработало в лучшем виде. Теперь браузеру под силу перевести любой видеоролик на английском языке. В принципе, работает ещё и испанский, но испаноязычных видео я не смотрю, а довольствуюсь только английскими.

Перевод видео с английского на русский

Я уже упоминал, что с практической точки зрения расширение ничем не отличается от перевода, который предлагает сам Яндекс. Браузер. Это тот же двухголосый перевод, который накладывается поверх основной аудиодорожки. Есть голос как для озвучивания женщин (их голосом говорит Алиса), так и для мужчин. Это создаёт более приятный эффект, как будто ты слушаешь не — при всём уважении — диктора Лихачёва, а смотришь полноценный ролик, озвученный ещё на стадии записи.

Отключить перевод можно кнопкой пауза

Поскольку на других языках, кроме английского и испанского, Яндекс.Браузер и расширение с функцией синхронного перевода не говорят, не имеет смысла включать им видео на других языках. Например, когда я попробовал запустить шведский ролик с вкраплениями английской речи, расширение не смогло распознать её и даже не предложило кнопки активации синхронного перевода. Так что учитывайте, что всё видео должно быть записано на английском.

Как установить Гугл камеру на смартфоны Huawei

Кстати говоря, аналогичное расширение работает и в браузере Firefox. Чтобы воспользоваться им, достаточно проделать те же самые шаги, которые вы проделали при установке его в Chrome. Функционально они ничем не отличаются друг от друга, поэтому с проблемами вы явно не столкнётесь. Разве что по первой расширение будет отказываться переводить, но, как мы уже выяснили, это вполне решаемо.

Яндекс запускает голосовой перевод с помощью нейросетей

7 сентября Яндекс представил новый инструмент — автоматизированный голосовой перевод англоязычных видео с YouTube, Vimeo, Facebook и других сайтов на русский язык. Он доступен через Яндекс.Браузер, что позволяет работать с видео, размещенными на любом сайте.

Перевод занимает всего пару минут: нейросети Яндекса обрабатывают речь, превращают ее в текст, синтезируют русский перевод и синхронизируют с видео. Они также умеют определять пол говорящего с помощью биометрии и выбирать соответствующий голос. При этом такие характеристики речи, как эмоции, интонации, паузы, членение фраз, должны оставаться прежними.

ИТМО.NEWS взяли интервью у Законова Андрея, экс-руководителя проектов Яндекса «Алиса» и «Умные устройства», выпускника факультета информационных технологий и программирования Университета ИТМО (бывший факультет компьютерных технологий — -е изд. ), который придумал идею для переводчика озвучивания и запустил проект в Яндекс.

Я был главой команды Alice and Smart Devices, и этот новый продукт тоже родился там. Сначала мы создали первоначальный прототип, а затем стали приглашать коллег из других отделов для формирования новой команды. Я был его частью до его пилотного запуска в июле 2021 года. Сейчас проект взяла на себя команда Яндекс.Браузера, а я занят новым проектом в другой компании. Так что могу рассказать об идее продукта и процессе работы над ним вплоть до запуска бета-версии — не знаю, что планируется по проекту дальше.

Аналогичные задачи мы решали при работе над Алисой — нужно было научить ее распознавать человеческую речь и делать это быстро. За доли секунды он должен распознать речь, обработать, обобщить, интерпретировать ее и понять вопрос, а также найти ответ в сети и затем поделиться им вслух. Задача очень сложная, мы работали над ней несколько лет и в итоге сумели выйти на общение почти в реальном времени — это очень похоже на общение с человеком.

Тем временем команда Яндекс.Переводчика научилась переводить с английского на русский и делает это хорошо. Нейросеть не переводит отдельные слова, а распознает контекст, фразы и абзацы.

Итак, когда мы начали думать о том, как развивать нашу технологию, мне пришла в голову идея автоматического перевода видео. В принципе, необходимые технологии у нас уже были: мы умеем распознавать текст и голос, хорошо его переводить, а также синтезировать речь, чтобы сделать ее более человечной, эмоциональной и с правильными интонациями.

Осталось решить, как сделать инструмент максимально удобным для пользователей и разработать конечный продукт так, чтобы им не нужно было заходить на отдельный сайт, вставлять ссылку и ждать результата. Именно тогда к нам присоединилась команда Яндекс.Браузера, потому что браузер был лучшим решением, позволившим нам объединить все наши технологии.

Достаточно большая проблема, которую мы только начали разрабатывать. Изначально мы хотели, чтобы он повторял интонации оригинального трека, как это делают профессиональные переводчики и актеры озвучивания. Цель — сделать процесс просмотра видео приятным и комфортным. Эмоции, интонации, паузы и так далее должны оставаться в переводе.

Эмоции через текст не понять – это речь, которая содержит иронию, сарказм, радость, раздражение и т.д. и поэтому для определения эмоций приходится использовать оригинальный трек. Но это больше похоже на планы на будущее.

Дело не только в том, чтобы просто прочитать все слова, это сложнее. В противном случае актеру пришлось бы записывать все русские слова — это огромный объем работы. Более того, постоянно появляются новые слова, термины и названия. Или, к примеру, Яндекс.Навигатор — там бесчисленное множество названий сел, улиц, топонимов и т. д.

Поэтому мы поступаем иначе – используем фонемы или даже их фрагменты, а затем формируем из них слова и предложения. Эмоции также добавляются во время постобработки. Одну и ту же фразу можно генерировать с разными эмоциями, а также с разной скоростью, чтобы она соответствовала звучанию видео — это тоже делается при постобработке.

Возьмем, к примеру, технологию переноса стиля — она очень популярна в области обработки изображений. Любую фотографию можно превратить в картину, похожую на картину Ван Гога или Сальвадора Дали, за счет наложения определенного стиля на изображение. То же самое можно сделать и с голосом: можно обучать модели на наборе данных фразами, произносимыми с радостью или грустью, и в итоге получить возможность передавать определенную эмоцию в синтезированную речь. Это очень интересная область речевых технологий, но пока она только начинает развиваться.

В текущей версии биометрия используется только для определения пола говорящего и выбора мужского или женского голоса. Следующий шаг — добавить больше типов голосов и научить модель их различать. Каждый голос, как и лицо, уникален и имеет узнаваемые черты.

Мы запустили интересную сопутствующую функцию в наших умных колонках: Алиса понимает, разговаривает ли с ней ребенок, и автоматически вводит возрастные ограничения, выбирает более смешные ответы и менее формальна.

Я много экспериментировал с разными видео. Есть жанры, в которых эта технология еще не работает должным образом. Хорошо работает, когда один спикер представляет что-то в формате лекции или несколько спикеров говорят в интервью. Но хуже работает, если много сленговых слов или эмоций. Например, популярный нынче жанр стриминга видеоигр часто включает в себя множество специфических слов и резкие бессвязные выкрики. Или какие-то влоги, где люди склонны говорить очень эмоционально.

Также плохо работает, когда несколько человек разговаривают одновременно. Перевод будет прочитан вслух в один голос, поэтому несколько говорящих сольются в один.

Факторов много. Во-первых, в англоязычных странах эта технология менее востребована, потому что контента на английском гораздо больше, чем на любом другом языке. Во-вторых, сейчас подходящий момент для появления такой технологии. Пять лет назад пользовательского контента было значительно меньше. Десять лет назад в таком инструменте не было необходимости, потому что большая часть видеопроизводства была профессиональной, что требовало больших денег, поэтому также был предоставлен профессиональный перевод.

В наше время ежедневно появляются тысячи отличных видео на разных языках и перевести их быстро и недорого невозможно. Это трудоемкая и сложная задача.

В России большой спрос на англоязычный контент. Меня лично больше всего интересует образовательная информация, а в любой сфере, будь то IT, искусство или что-то еще, контента на английском гораздо больше.

При этом около 5% населения России свободно владеет английским языком, по данным ВЦИОМ. Поэтому немногие люди могут слушать лекции в Гарварде или Стэнфорде без перевода. Субтитры тоже не лучший вариант — гораздо приятнее слушать лекции с закадровым переводом.

И еще один важный момент — для создания такого инструмента с нуля требуется множество технологий. Вам нужно распознавание голоса, синтез, биометрия и перевод. К счастью, у Яндекса все это уже есть. Более того, они находятся в эксплуатации и готовы к применению на полную мощность. В мире мало компаний с таким развитым набором технологий.

Вернуться к началу

Перевод прямых трансляций через Яндекс Браузер: принципы и отличия от дубляжа видео по запросу | Сергей Дуканов | Яндекс

Мы уже говорили о том, как работает автоматический перевод и озвучивание видео в Яндекс.Браузере. Пользователи просмотрели 81 миллион видеороликов с озвученным переводом за первые десять месяцев после релиза. Механизм работает по запросу: как только пользователь нажимает на кнопку, нейросеть получает всю звуковую дорожку, а дублированный перевод на язык пользователя появляется через несколько минут.

Но этот способ не подходит для прямых трансляций, где нужно переводить практически в реальном времени. Именно поэтому мы просто запустили отдельный, более сложный механизм трансляции прямых трансляций в Яндекс.Браузере. Анонсы устройств, спортивные соревнования, вдохновляющие космические запуски — все это и многое другое теперь можно смотреть на целевом языке в прямом эфире. Производственная версия в настоящее время поддерживает перевод только на русский язык, а английский язык появится этой осенью. Также на данный момент озвучка доступна для ограниченного набора потоков YouTube: вы можете найти полный список в конце этой статьи. В будущем мы, конечно же, откроем эту функцию для всех прямых трансляций YouTube. Нам пришлось перестраивать всю архитектуру с нуля, чтобы адаптировать механизм трансляции для потоков.

С инженерной точки зрения перевод и дублирование прямых трансляций — сложная задача. Здесь сталкиваются два противоречивых требования. С одной стороны, вам нужно скормить модели как можно больше текста за раз, чтобы нейронная сеть понимала контекст каждой фразы. С другой стороны, необходимо минимизировать задержку; иначе «прямой эфир» перестанет быть таковым. Поэтому мы должны начать переводить как можно скорее: не в режиме настоящего синхронного перевода, но очень близко к нему.

Мы разработали новую услугу на основе существующих алгоритмов для быстрого и качественного перевода и дублирования прямых трансляций. Новая архитектура позволила уменьшить задержку без потери качества.

Вкратце принцип работы прямой трансляции сводится к пяти моделям машинного обучения. Одна нейросеть отвечает за распознавание речи звуковой дорожки и преобразует ее в текст. Второй движок определяет пол говорящих. Третий разбивает текст на предложения, расставляя знаки препинания и определяя, какие части текста содержат законченные мысли. Четвертая нейросеть переводит полученные куски. Наконец, пятая модель синтезирует речь на целевом языке.

На бумаге все выглядит просто, но если копнуть глубже, можно обнаружить множество подводных камней. Давайте рассмотрим этот процесс более подробно.

На начальном этапе нужно точно понимать, о чем идет речь в эфире, и определить, когда произносятся слова. Мы не просто переводим речь, но и накладываем результат обратно на видео в нужные моменты.

Глубокое обучение — идеальное решение проблемы ASR (автоматического распознавания речи). Архитектура нейронной сети должна допускать сценарий использования прямой трансляции, когда необходимо обрабатывать звук по мере его поступления. Такое ограничение может повлиять на точность предсказания, но мы можем применить модель с некоторой задержкой (несколько секунд), что придает модели некоторый контекст.

Видео могут содержать посторонние шумы и музыку. Кроме того, люди могут иметь разную дикцию или говорить с разным акцентом и скоростью. Говорящих может быть много, и они могут кричать, а не говорить на умеренной громкости. И, конечно же, нужно поддерживать богатый словарный запас, ведь возможных тем видео очень много. Таким образом, сбор данных, необходимых для обучения, играет ключевую роль.

На вход алгоритм получает последовательность звуковых фрагментов, берет N из них с конца, извлекает акустические признаки (спектрограмму MEL) и подает результат на вход нейронной сети. Он, в свою очередь, выдает набор последовательностей слов (так называемых гипотез), из которых языковая модель — текстовая часть нейронной сети — выбирает наиболее правдоподобную гипотезу. Когда поступает новый фрагмент аудио, процесс повторяется.

Полученную последовательность слов необходимо перевести. Качество пострадает, если вы будете переводить слово за словом или фразу за фразой. Если вы дождетесь длинной паузы, означающей конец предложения, произойдет значительная задержка. Поэтому необходимо группировать слова в предложения, чтобы избежать потери смысла или слишком длинных предложений. Одним из способов решения этих проблем является использование модели восстановления пунктуации.

С появлением трансформеров нейронные сети стали намного лучше понимать смысл текста, отношения между словами и закономерности языковых конструкций. Вам нужен только большой объем данных. Для восстановления пунктуации достаточно взять корпус текстов, подать текст без знаков препинания на вход нейронной сети и научить сеть исправлять его обратно.

Текст поступает на вход нейросети в токенизированном виде; обычно это токены BPE. Такое разбиение не слишком мало, чтобы предотвратить удлинение последовательности, но и не слишком велико, чтобы избежать проблемы отсутствия словарного запаса, когда токен отсутствует в глоссарии. На выходе модели каждое слово имеет последующую метку, которая отмечает, какой знак препинания следует поставить.

Необходимо установить некоторый ограниченный контекст, чтобы обеспечить правильную работу в условиях прямой трансляции. Размер этого контекста должен найти компромисс между качеством и задержкой. Если мы не уверены, нужно ли разбивать предложения в данном конкретном месте, мы можем немного подождать, пока не появятся новые слова. Тогда мы либо лучше определим разбиение, либо превысим контекстный предел и будем вынуждены разбиваться там, где мы лишь немного Конечно.

Для корректного перевода и качественного озвучивания необходимо определить пол говорящего. Если вы используете классификатор пола на уровне предложения, в сценарии прямой трансляции не будет различий по сравнению со сценарием по запросу. Хранение истории голосовых линий каждого говорящего помогает нам более точно классифицировать половую принадлежность. Это снижает количество ошибок в полтора раза. Мы не только можем определить пол человека всего по одной фразе, но и рассматриваем результаты гендерной классификации по фразам, произнесенным ранее. Для этого нам нужно на лету определить, кому принадлежит линия, тем самым уточнив пол говорящего.

С точки зрения машинного перевода ничего не изменилось по сравнению с переводом готовых видео, поэтому сейчас не будем в это углубляться. В прошлом мы рассмотрели внутреннюю работу перевода.

Базовая технология синтеза в Алисе, умном помощнике Яндекса, аналогична той, которую мы используем в видеопереводе. Разница в том, как осуществляется применение (вывод) этих нейронных сетей. Говорящий в ролике может очень быстро произнести реплику, либо перевод предложения может получиться в два раза длиннее оригинала. В этих случаях вам придется сжимать синтезированный звук, чтобы не отставать от времени. Этого можно добиться двумя способами: на уровне звуковой волны, например, с помощью PSOLA (Pitch Synchronous Overlap and Add) или внутри нейронной сети. Второй метод обеспечивает более естественное звучание речи, но требует возможности редактирования скрытых параметров.

Важно не только доводить длительности синтезируемых фраз до нужной длины, но и разлагать их в нужные моменты. Не всегда будет идеально: придется либо ускорять запись, либо сдвигать тайминги — за это отвечает алгоритм стекирования. В прямом эфире нельзя изменить прошлое, поэтому может возникнуть ситуация, когда нужно озвучить фразу в два раза быстрее, чем она произносится в исходном видео. Для справки: ускорение более чем на 30% существенно влияет на человеческое восприятие.

Решение следующее: резервируем время заранее. Мы не торопимся складывать голосовые линии и можем дождаться новых, чтобы учесть их продолжительность. Мы также можем позволить накапливаться небольшому временному сдвигу, поскольку рано или поздно в видео будет несколько секунд тишины, и сдвиг будет сброшен до нуля.

Полученная звуковая дорожка разрезается на фрагменты и оборачивается аудиопотоком, который будет микшироваться локально в самом Браузер-клиенте.

При просмотре трансляции Браузер опрашивает стриминговый сервис (например, YouTube) на наличие новых фрагментов видео и аудио; если они есть, он загружает и воспроизводит их последовательно.

Когда пользователь нажимает на кнопку живого перевода, Яндекс.Браузер запрашивает ссылку на поток с переведенным звуком из своего бэкенда. Браузер накладывает этот трек поверх основного, соблюдая тайминги.

В отличие от готовых видео, прямая трансляция обрабатывается машинным переводом каждый момент своего существования. Stream Downloader считывает аудиопоток и отправляет его в конвейер обработки ML, компоненты которого мы разобрали выше.

Существует несколько способов организации взаимодействия между компонентами. Мы остановились на варианте с очередями сообщений, где каждый компонент оформлен как отдельный сервис:

  • Запускать все модели на одной машине проблематично: они могут просто не помещаться в памяти или требовать очень специфической аппаратной конфигурации.
  • Требуется для балансировки нагрузки и возможности горизонтального масштабирования. Например, сервисы машинного перевода и синтеза голоса имеют разную пропускную способность, поэтому количество фраз может отличаться.
  • Службы иногда аварийно завершают работу (графическому процессору не хватает памяти, утечке памяти или отключению электроэнергии в центре обработки данных), а очереди предоставляют механизм повторных попыток.

Поток не привязан к одному экземпляру, но для обработки может потребоваться некоторый контекст (фон). Например, синтезатору необходимо хранить записи, которые еще не были помещены на окончательную звуковую дорожку. Следовательно, необходим глобальный репозиторий контекста для всех потоков. На схеме он обозначен как Global Context — по сути, это просто хранилище ключ-значение в памяти.

Наконец, полученный аудиопоток должен быть доставлен пользователю. Здесь за дело берется Stream Sender: он оборачивает аудиофрагменты в потоковый протокол, а клиент читает этот поток по ссылке.

В настоящее время мы предоставляем прямую трансляцию со средней задержкой 30–50 секунд. Иногда мы вылетаем из этого диапазона, но ненамного: стандартное отклонение около 5 секунд.

Основная трудность при переводе прямых трансляций заключается в обеспечении того, чтобы задержка не колебалась слишком сильно. Простой пример: вы открываете прямую трансляцию и через 15 секунд начинаете получать трансляцию. Если вы продолжите смотреть, рано или поздно одной из моделей понадобится больше контекста — например, если говорящий произносит длинное предложение без пауз, нейронный движок попытается получить его целиком. Тогда задержка увеличится, возможно, еще на десять секунд. Естественно, предпочтительна небольшая задержка в начале, чтобы этого не произошло.

Наша глобальная цель — сократить задержку примерно до 15 секунд. Это немного больше, чем в настоящем синхронном переводе, но достаточно для прямых трансляций, где ведущие взаимодействуют с аудиторией, например, на Twitch.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *