Новый голосовой переводчик Google сохраняет интонацию и голос исходного языка

Google представила новую экспериментальную нейросеть Translatotron, способную напрямую переводить речь на другой язык, не используя ее текстовое представление, и сохранять голосовые данные и темп речи говорящего, сообщается в блоге компании. Система с долгой краткосрочной памятью способна принимать голосовой ввод и обрабатывать его как спектрограмму, а затем генерировать на этой основе новую спектограмму на целевом языке. При определенных условиях это позволит увеличить не только скорость перевода, но и его точность. С более полным описанием новой разработки можно ознакомиться в статье, опубликованной в онлайн-репозитории научных статей arXiv.org.

«Translatotron — это первая сквозная модель, которая может напрямую переводить речь с одного языка на речь на другом языке, сохраняя исходные особенности речи источника», — сообщает компания в своем официальном блоге.

В Google отмечают, что большинство современных систем машинного перевода речи построены на принципе каскадного метода, когда задача разделяется на несколько более простых задач. В рамках первой происходит автоматическое распознавание речи. Затем осуществляется машинный перевод с одного языка на другой, а после этого готовый переведенный текст превращается обратно в речь, которая практически всегда отличается голосом от исходного носителя.

Каскадная система доказала свою эффективность и практичность, и используется в большинстве систем перевода, включая Google. Однако специалисты Google в области ИИ считают, что данная система не идеальна. На каждом этапе решения проблемы могут возникать ошибки, что в целом снижает качество готового результата. В Google уверены, что сквозная модель перевода может превзойти каскадную, удалив среднюю часть зачади, где речь сначала переводится в текст.

Как поясняют в Google, каскадный принцип перевода совсем не похож на то, как люди, знающие несколько языков, мысленно осуществляют перевод речи с одного языка на другой. Как именно это работает — описать довольно сложно, однако переводчики вряд ли согласятся с тем, что они сначала разбивают текст в голове, затем его мысленно визуализируют, переводя его на язык перевода, а затем просто засчитывают готовый перевод.

Читайте также: Обзор планшета Sony Xperia Z4 Tablet: изящный рекордсмен

Спектрограммы исходного языка и переведенной речи. Качество самого перевода, следует признать, не самое лучшее, но звучит он естественнее

Имитация когнитивных способностей человека является одним из принципов машинного обучения. Разработчики Translatotron решили использовать в качестве входных данных для перевода спектрограммы (изображения, показывающие зависимость спектральной плотности мощности сигнала от времени) речи источника и генерировать на их основе новые спектрограммы на языке перевода. Такой подход разительно отличается от каскадного метода перевода. Исследователи отмечают, что как и любом другом случае новая система имеет свои недостатки и достоинства.

Одно из преимуществ сквозного метода перевода заключается в том, что несмотря на свою сложность, этот процесс одностадийный, а не многошаговый. Таким образом, при наличии достаточной вычислительной мощности Translatotron способен выполнять перевод быстрее. Но еще более важно то, что система сохраняет характер и особенности исходной речи в переводе, голосовые данные и темп речи говорящего, а не воспроизводит перевод нейтральным синтетическим голосом.

Те, кто понимает в лингвистике, а также те, кто занимается технологиями синтеза речи наверняка согласятся, что при переводе важно не только то, что говорит человек, но и как он это говорит. Изменение экспрессии исходной речи в речи перевода может кардинальным образом менять смысл сказанного. С примерами работы Translatotron можно ознакомиться, перейдя по этой ссылке. Только не обращайте внимание на качество самого перевода, важнее передача интонации.

Разработчики Translatotron признаются, что по части точности перевода система еще не опередила традиционные каскадные системы, но, как и любая модель машинного обучения, со временем она может улучшиться. Учитывая преимущество сохранения оригинального голоса говорящего даже в переведенной речи, дальнейшие исследования в этой области могут оказаться полезными для будущих систем перевода Google на базе AI.

Обсудить новость можно в нашем Telegram-чате.

Источник