Искусственный интеллект научился подражать человеческому голосу

Не так давно Google анонсировал свой синтезатор речи Tacotron 2. Он способен создавать звуковые файлы, которые сложно отличить от речи реального человека. Технология позволяет переводить текст в звуковой файл с сохранением правильного ударения и интонации. Но ученые из Китая пошли дальше и научили нейросеть имитировать голос любого человека.

Они назвали свою систему Deep Voice. Принцип работы основан на машинном обучении. Для демонстрации возможностей программы ученые в течении 800 часов обучали ее. За это время Deep Voice прослушала более 2400 различных голосов. На данный момент для полноценного копирования голоса достаточно всего 100 сэмплов по 5 секунд каждый.

Приоритетный вариант использования сейчас это интегрирование в качестве звукового помощника. Таким образом пользователи могут выбрать наиболее оптимальный голос для домашнего или служебного использования. Также технология может пригодится при синхронном переводе фильмов с других языков. Стоит отметить, что Deep Voice может менять заданный тембр на женский, а также имитировать акцент.

”Это настоящий прорыв с технической точки зрения. Нам удалось решить сложнейшую генеративную проблему, а именно, мы смогли синтезировать живую речь со всеми ее особенностями”, — рассказал один из ведущих инженеров и создателей Deep Voice Лео Зу.

Помимо синтеза речи программа способна копировать окружающие звуки — пение птиц, лай собак, звук работающего мотора. Она также на основе полученных данных может изменять их по своему вкусу. И как всегда, единственным нюансом, который может создать трудности для повсеместного использования являются мошенники. Разработчики всерьез опасаются, что с помощью Deep Voice многих людей можно ввести в заблуждение и получить важную информацию. О планах коммерческого использования пока ничего не известно.