Microsoft создала нейросеть для подделки любого голоса за 3 секунды

Корпорация Microsoft представила модель искусственного интеллекта VALL-E. Она умеет точно воспроизводить голос любого человека, для этого её хватает всего лишь трёхсекундного образца.

Зафиксировав конкретный голос, VALL-E способна синтезировать аудиозапись того, как человек произносит что-либо, пытаясь сохранить его эмоциональный тон. Сама разработка представляет собой нейронную языковую модель, в основу которой заложен EnCodec. С его помощью технология разделяет голоса человека на отдельные компоненты.

Данные компоненты, именуемые «лексемами», нейронная сеть сопоставляет с соответствующими голосами в своей обучающей базе для образования новых фраз за пределами изначального трёхсекундного образца.

Следует отметить, что Microsoft не раскрывала код VALL-E в открытом доступе из-за потенциального риска некорректного использования. К таковым в корпорации относят подмену идентификации голоса или выдачу себя за конкретного диктора.