Искусственный интеллект Tacotron 2 заговорил человеческим звуком

 

В отличие от иных систем синтеза речи, метод Tacotron 2 представляет звуковую информацию в виде спектрограмм — визуализированной взаимосвязи частоты и времени.

Компания Google разработала новейшую компьютерную программу, которая способна преобразовывать текст в человеческую речь.

Алгоритм, исчерпывающе описанный в препринте на arXiv.org, реконструирует на основе сгенерированных из текста спектрограмм речь, максимально приближенную к человеческой.

 

Программа состоит из 2-х нейросетей глубокого обучения. Первая нейросеть разбивает текст на отдельные токены (буквы, паузы и знаки препинания) и визуализирует их в виде спектрограмм, а 2-ая синтезирует на основе этих спектрограмм аудио, используя алгоритмы WaveNet, которые учитывают разные языковые параметры, включая длину слов в тексте и их слогов. Тем не менее, ИИ уже отличает строчные буквы от заглавных, и в случае, ежели то либо иное слово в тексте выделено большими буквами, при прочтении он сделает на нем дополнительный акцент. Это стало возможным благодаря применению технологии нейросетей.

Прочитайте также  Роскачество выбрало наилучший смартфон — и это не iPhone

Более того, синтезируемая алгоритмом речь практически не имеет никаких отличий от человеческой.

Создатели посоветовали 8-ми добровольцам оценить звуковые образцы и сравнить их с фрагментами человеческой речи. В следствии средний балл, полученный образцами работы Tacotron 2, составил более 4,53, а записи настоящей речи получили 4,58 балла. Авторы сервиса Tacotron 2 утверждают, что новинка дает возможность озвучивать слова и интонации звуком, который нереально отличить от человеческого.

Искусственный интеллект Tacotron 2 заговорил человеческим звуком


В нашем Telegram‑канале, и группе ВК вы найдёте новости о непознанном, НЛО, мистике, научных открытиях, неизвестных исторических фактах. Подписывайтесь, чтобы ничего не пропустить.
Поделитесь в вашей соцсети👇

ДРУГИЕ НОВОСТИ

 

Добавить комментарий