ТЕХНИКА  Звук из текстового ввода

Google представил ИИ-систему, способную генерировать произвольный аудиофрагмент по текстовому вводу. Саунд-дизайнерам приготовиться на выход!

Google выкатил генеративный ИИ, который позволяет трансформировать текстовые запросы в аудио, аналогично тому, как, например, Stable Diffusion или Midjourney генерируют изображения на основе текстового ввода.

Это звучит как кошмар профессиональных саунд-дизайнеров, но, судя по рецензии Music Radar, пока что Google MusicLM им не конкурент.
В обзоре говорится, что MusicLM - это "один из самых продвинутых и функциональных генераторов, позволяющих преобразовывать текст в звук". Модель машинного обучения, на которой тот базируется, обучалась на основе тысяч часов существующих музыкальных записей.

Предполагается, что MusicLM может генерировать отдельные звуки, "затравки" для будущих треков или даже целые композиции.

Для этого потребуется ввести подробные текстовые инструкции. В Google утверждают, что ИИ понимает всё, что связано с жанром, настроением, звучащим инструментом, а также контекстом (утилитарным назначением трека) и уровнем исполнительской техники виртуальных музыкантов.

Тестирование, проведённое сотрудниками Music Radar, показало, что бесплатная браузерная версия MusicLM до заявленных возможностей не дотягивает. Она не способна производить законченных музыкальных композиций. Максимум, что она сгенерирует, это два аудиоклипа продолжительностью по 20 секунд.

Этот генератор можно было бы использовать для генерации произвольных сэмплов для последующего их использования в музыкальных композициях. Это позволило бы решить проблемы с копирайтом... И оставило бы без работы огромное количество саунд-дизайнеров.

На их счастье, пока что MusicLM выдаёт аудио очень низкого качества, с лишними призвукми и прочими артефактами. Как написано в рецензии Music Radar, "всё, что исходит [из MusicLM], звучит попросту странновато, как будто звук телепортировали из параллельной вселенной". Или передали по плохому радиоприёмнику:

Скорее всего, это ограничения нынешней итерации модели машинного обучения, и с высокой долей вероятности это будет исправлено в скором времени.

В ответ на запросы на генерацию барабанного лупа в жанре техно с темпом 130 ударов в минуту MusicLM упрямо не соблюдал темп.

Попытка заставить машину сгенерировать вокал "в стиле Марайи Кэри" также не дала результатов: в системе установлен запрет на имитацию голосов существующих артистов. И, по-видимому, на генерацию вокала в принципе: в ответ на запрос "женские голоса" машина выдала "эфирный хор искажённых голосов инопланетян", ничем не напоминавший живой хор.

Некоторые запросы машина обрабатывала с точностью до наоборот, например, снабжая музыкальный фрагмент ритм-секцией, хотя её просили выдать только соло на синтезаторе.

На просьбу сымитировать джаз 1950-х MusicLM предъявила запись в жанре хип-хоп. Зато с саксофоном.

Журналисты Music Radar в итоге пошли даже на "дообучение" генератора, загрузивв в него некоторое количество новой музыки.

В ответ на дальнейшие запросы MusicLM выдала что-то сверхэкспериментальное, чудные и незнакомые звуки и текстуры. В целом её практическая применимость очень ограничена. По мнению Music Radar, эту систему можно использовать в качестве генератора полуслучайных сэмплов, но и не более того.

Существует довольно большое количество других решений, позволяющих конвертировать введённый текст в звук - в звук человеческой речи, прежде всего: Speechelo, Speechify, Lovo.ai, Synthesia и т.д.

Разработчики состязаются в количестве голосов и акцентов, реалистичности звука, способности воспроизводить различные эмоции.

А вот с генерацией произвольных звуков или пения ситуация несколько сложнее.

Помимо Google MusicLM, исследования в аналогичном направлении проводит Meta (пока что доступны только аудиопримеры, протестировать её самостоятельно пока нельзя).

Довольно убедительные результаты даёт генераор AudioLDM, который можно даже убедить убрать артефакты из сгенерированной записи (пусть и не полностью). Длина аудиофайла, впрочем, составит всего 5 секунд.

Наконец, VoiceMod - это браузерный инструмент для генерации песен по заданному произвольному тексту. Судя по демонстрационному ролику, результаты забавные, но не выдающиеся:

Существует также немало ИИ-композиторов, способных писать музыку в произвольных стилях. О них "Звуки" писали ещё полтора года назад. Лишь некоторые из них способны писать музыкальные композиции самостоятельно "с нуля", но поговаривают, что малобюджетные киностудии и разработчики видеоигр уже вовсю пользуются чем-то подобным. Чтобы не платить композиторам или правообладателям.

Что же касается генераторов произвольных звуков, то ныне существующие и общедоступные пока особо не угрожают ни продюсерам, ни музыкантам, ни саунддизайнерам, ни производителям библиотек сэмплов.

Пока что не угрожают. Но это может очень скоро измениться.

07.07.2023, Юрий ИЛЬИН (ЗВУКИ РУ)

ТЕХНИКА - свежие публикации: