механически и было понятно, что разговаривает компьютер. Но за последние годы алгоритмы искусственного интеллекта стали учитывать еще больше параметров и характеристики человеческого голоса (звуки, тембр, интонация, акценты и пр), и в итоге смогли очень близко приблизиться к тому, чтобы синтезированный голос звучал достаточно правдоподобно и по-человечески.
При клонировании голоса живого человека берут записи его речи (чем больше объема и разновидностей текстов, тем лучше), и далее нейронная сеть строит модель, на основе которой будет синтезирован искусственный голос, максимально похожий на оригинальный человеческий. Далее, этим голосом можно будет произнести любой текст, который будет подан в программу.
Как уже было сказано, данная технология может использоваться и для людей, утративших способность говорить. Наример, известный актер Вэл Килмер практически лишился голоса после того, как у него был обнаружен рак горла и была проведена химиотерапия и другие виды лечения. Компания Sonantic «воссоздала» голос актера на основе ИИ, а в 2022 году Spotify заявила о том, что выкупает всю компанию Sonantic[7].
Технология синтеза голоса поможет сократить расходы и в киноиндустрии при озвучивании фильмов и мультфильмов. Есть прогнозы, что может появиться целая новая отрасль по «аренде голосов», когда известные люди смогут сдавать свои голоса в аренду для рекламных кампаний или озвучивания того или иного контента (голосовых помощников или озвучивания аудиокниг), за что они будут получать соответствующие роялти.
На данный момент уже возможно при воссоздании голосов придавать им тот или иной эмоциональный окрас (бодрый, грустный, серьезный), возможно скоро появится возможность учить их петь.
Компания Microsoft в начале 2023 года презентовала очередную модель искусственного интеллекта для синтеза голоса под названием VALL-E. Особенностью данной модели является то, что образцом для преобразования текста в речь с точной имитацией голоса человека, может служить аудиозапись с продолжительностью всего лишь в три секунды. Создатели системы заявляют, что модель не только придает голосу эмоциональные оттенки, но также имитирует акустическое окружение, т. е. если исходная запись была сделана на основе разговора по телефону, то и речь в модели будет также напоминать телефонный разговор. Из-за риска того, что этой технологией могут воспользоваться злоумышленники, Microsoft, однако, не стала публиковать оригинальный код в открытый доступ.
Случаи использования клонированных дипфейковых голосов для кражи крупных сумм денег уже фиксировались. Так, например, в 2019 году мошенники скопировали голос генерального директора энергетической компании, базирующейся в Великобритании. Был осуществлен перевод более 200 тысяч фунтов, по-видимому, по приказу генерального директора, чей голос был подлинным как по акценту, так и по тону. Этот инцидент стал первым известным киберпреступлением в Европе, в котором напрямую использовался ИИ.