Разработчики Google представили нейросеть MusicLM, генерирующую музыку из текстовых описаний. Они не собираются выкладывать ее в открытый доступ и публиковать исходный код, но решили поделиться результатами ее работы.
Создатели MusicLM поделились 5500 описаний и мелодий к ним, чтобы «поддержать будущие исследования». Они отметили, что MusicLM «превосходит предыдущие системы как по качеству звука, так и по соответствию текстовому описанию».
В подборке можно найти композиции по следующим описаниям:
— Основной саундтрек аркадной игры. Он динамичный и оптимистичный, с запоминающимся рифом электрогитары. Музыка повторяется и легко запоминается, иногда появляются неожиданные звуки — удары тарелок или барабанная дробь.
— Микс реггетона и электронной танцевальной музыки с космическим, потусторонним звучанием. Вызывает ощущение, будто ты затерялся в космосе; музыка должна вызывать чувство удивления и благоговения, будучи при этом танцевальной.
— Музыкальная композиция в стиле R’n’B/хип-хоп. Есть мужской рэп и женский вокал, поющий в стиле рэпа. В бите слышно фортепиано с электронной барабанной установкой. Атмосфера произведения игривая и энергичная. Трек можно использовать в качестве саундтрека к школьному драматическому фильму или телешоу. Его также можно играть на вечеринках по случаю дня рождения или на пляжных вечеринках.
Разработчики также заставили MusicLM сгенерировать музыку по описанию картин Сальвадора Дали, Анри Матисса, Эдварда Мунка, Пабло Пикассо и других известных художников.
Нейросеть обучена на 280 тыс. часах музыки. Она создает мелодии на частоте 24 кГц. При этом ее авторы обнаружили, что 1% сгенерированной музыки напрямую повторяет мелодии из набора для обучения, поэтому сделать MusicLM доступной для всех не получится, чтобы избежать возможных проблем с авторскими правами.