Китайцы научили нейросеть превращать речь в пение

Китайские разработчики создали алгоритм, способный синтезировать запись с пением человека на основе записи с его обычной речью, или же выполнять обратную задачу и синтезировать речь на основе пения. Статья с описанием разработки, обучения и тестирования алгоритма опубликована на arXiv.org.

В последние годы развитие нейросетевых алгоритмов для синтеза речи, таких как WaveNet, позволило создать системы, которые достаточно сложно отличить от реальных людей.

Например, Google в 2018 году показала голосового помощника для бронирования мест, который умеет не только реалистично говорить, но и вставлять слова, придающие речи правдоподобность, например, «эмм». В результате компании пришлось также научить алгоритм предупреждать в начале разговора, что он не является человеком.

Как и в случае с другими нейросетевыми алгоритмами, успех систем синтеза речи во многом связан не с их архитектурой, а с большим объемом доступных данных для обучения. Создание системы синтеза пения представляет собой похожую на первый взгляд задачу, но на самом деле гораздо сложнее из-за значительно меньшей доступности данных.

Многие разработчики систем генерации пения в последнее время шли по пути уменьшения объема необходимых образцов пения конкретного человека для обучения алгоритма, а теперь группа китайских исследователей под руководством Дуна Юя (Dong Yu) из компании Tencent создала систему, которая способна создавать реалистичную аудиозапись с пением, получая на вход только образцы речи. Алгоритм основан на предыдущей разработке Tencent — нейросети DurIAN, предназначенной для синтеза реалистичных видеороликов с говорящим ведущим на основе текста.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (2 votes)
Источник(и):

N+1