Нейросети и искусственный интеллект могут обрабатывать не только текстовые данные, видеоролики и графику, но также работать с аудиоинформацией. Данная особенность позволяет создавать музыку. Еще несколько лет назад считалось, что для создания собственных музыкальных композиций необходимо наличие студии и инструментов или хотя бы навыки для работы со специальным программным обеспечением. Однако бурный рост искусственного интеллекта полностью меняет данную парадигму мышления — теперь всю работу по созданию музыкальных композиций берет на себя искусственный интеллект. Пользователю нужно только создать текстовый запрос, в котором необходимо указать требования к создаваемой композиции. Сегодня у нас на обзоре 7 нейросетей, которые умеют создавать музыку: Suno AI, AIVA, Soundraw, Mubert, MusicGEN, Loudly, Riffusion.
cloud
Прежде чем приступить к обзору нейросетей, разберемся, как они создают музыку. Как правило, для создания музыкальных композиций ИИ обычно использует глубокое обучение (deep learning). Данный метод позволяет анализировать большие объемы музыкальных данных и на их основе генерировать новые композиции. Алгоритм создания музыкальных композиций включает процесс обучения модели на больших наборах данных (например, MIDI-файлах и аудиозаписях) с последующей генерацией музыки на основе используемых параметров, включая жанр или инструмент. Ниже перечислены типы нейронных сетей, которые применяются при создании музыки:
Под рекуррентной нейронной сетью понимается модель глубокого обучения, которая предварительно обучена для обработки и преобразования последовательных наборов входных данных в последовательный набор выходных данных. Последовательный набор данных — это данные, в которых компоненты имеют строгую упорядоченность и взаимосвязи на основе сложной семантики и синтаксических правил. К таким данным можно отнести слова и предложения. Как уже было упомянуто ранее, рекуррентные нейросети хорошо подходят для работы с последовательностями. При создании музыки такими последовательностями являются мелодии и аккорды, благодаря возможности «запоминать» предыдущие ноты.
Трансформеры (преобразователи) — это тип архитектуры нейронных сетей. Смысл данной архитектуры заключается в преобразовании входной последовательности в выходную. Трансформеры изучают контекст и отслеживают взаимосвязи между компонентами последовательности. При создании музыки преобразователи используются для обработки сложных музыкальных структур и генерации многослойных композиций.
Генеративно-состязательные сети получили свое название из-за того, что в своей работе используют две нейронные сети, которые «состязаются» между собой — первая сеть генерирует образцы данных, а вторая пытается предсказать, являются ли полученные данные оригинальными. В процессе создания музыки одна сеть генерирует треки, а другая оценивает их качество, при необходимости улучшая итоговый результат.
Автоэнкодеры — это нейронные сети, которые не используют учителя при своем обучении, а также не используют сжатие данных. Применяются для создания вариаций на основе существующих треков или для стилизации музыки.
Suno AI — это популярный сервис, который создает вокальные и инструментальные треки, используя обычный текстовый запрос (промпт). В запрос можно включить стиль предполагаемой композиции и текст песни. Запуск сервиса состоялся в декабре 2023 года. Популярность продукта привела к тому, что компания-разработчик Suno, Inc. в партнерстве с корпорацией Microsoft интегрировала Suno AI в чат-бот Microsoft Copilot. Отлично подходит для создания фоновой музыки и рекламных треков.
AIVA — это нейросеть, специально разработанная для создания музыкальных треков — от классической и симфонической музыки до треков в жанре электронной танцевальной музыки. Впервые сервис был выпущен еще в феврале 2016 года люксембургской компанией Aiva Technologies SARL.
Soundraw — это онлайн-сервис для создания треков и музыки. Площадка была запущена в феврале 2020 года японской компанией SOUNDRAW, Inc. Подходит для создания треков в любых жанрах. Сервисом могут пользоваться как обычные пользователи для создания личных треков, так и артисты, звукозаписывающие компании и лейблы с целью создания коммерческой музыки и треков (доступно только в платных тарифах).
Для скачивания треков требуется подписка. В бесплатном тарифном плане невозможно скачать ни один созданный трек.
Mubert — это онлайн-сервис для генерирования музыкальных треков в режиме реального времени, используя текстовые запросы (промпты), изображения (поддерживаются форматы png, jpg, webp) или с помощью выбора жанра. ИИ идеально подходит для создания фоновой музыки, которую можно использовать в видеороликах и подкастах.
MusicGEN — это простой сервис с искусственным интеллектом для создания музыки по текстовым запросам или аудиосемплам. Акцент работы MusicGEN сделан на создание коротких треков длительностью до 2 минут. Сервис предполагает самостоятельную установку и настройку, что может быть затруднено для начинающих пользователей.
Loudly — это платформа со встроенным искусственным интеллектом для генерации музыки и треков. Создавать треки можно как при помощи текстового описания, так и с помощью встроенного генератора музыки, обладающего большим функционалом. Loudly идеально подходит для генерации треков для социальных сетей, видео и стриминговых сервисов.
В бесплатной версии присутствуют ограничения: возможность создавать только 25 треков в месяц с длительностью до 30 секунд каждый. Скачивать созданные треки в бесплатной версии нельзя.
Riffusion — это сервис ИИ, в основу которого заложена модель глубокого обучения Stable Diffusion, при помощи которой можно генерировать короткие музыкальные фрагменты, включающие в себя вокал, используя текстовое описание.
Подготовили для вас выгодные тарифы на облачные серверы
Мы рассмотрели 7 различных нейросетей для создания музыки. Чтобы наглядно сравнить все особенности рассмотренных нейросетей, ниже приведена сравнительная таблица, в которой представлены все основные характеристики:
Suno AI |
AIVA |
Soundraw |
Mubert |
MusicGEN |
Loudly |
Riffusion |
|
Способы создания музыки |
Текст, изображения, видео |
Стили, аккорды, MIDI или трек |
Интерфейс с опциями |
Текст, изображения, фильтры (жанр, эмоции, темп) |
Текстовый запрос (промпт), |
Текстовый запрос, генератор |
Текст, изображение, интерфейс с опциями |
Наличие бесплатного тарифа |
Ограничено: 5 композиций в день (50 кредитов) |
Ограничено: 3 трека/мес, до 3 мин, только MP3/MIDI |
Ограничено: нельзя скачать и использовать вне платформы |
Ограничено: 25 треков/мес, только MP3
|
Без ограничений |
Ограничено: 25 треков/мес, до 30 сек, без скачивания
|
Ограничено: нельзя скачать, нельзя использовать коммерчески |
Платные тарифы |
Pro — $10, Premier — $30/мес. Скидка 20% при оплате за год
|
Standart — 15€, Pro — 49€/мес. Скидка 33% при оплате за год
|
от $11.04 до $32.49/мес, Enterprise — по запросу, скидка 67% |
от $11.69 до $149.29/мес, есть бессрочные и кастомные тарифы |
Отсутствуют (open source) |
Personal — $10, Pro — $30/мес |
Starter — $8, Member — $48/мес. Скидка 25% при оплате за год
|
Язык интерфейса |
Английский |
Английский |
Английский, |
Английский, Испанский, |
Английский |
Английский |
Английский |
Поддержка языков для создаваемых песен |
50+ языков (вкл. русский) |
Английский |
Английский |
Английский |
Английский |
Английский |
Английский |
Возможность редактирования музыки и песен |
Текст, стили, аудио-шаблон, инструментальный стиль, длительность |
Темп, аккорды, инструменты, эффекты, длительность
|
Темп, жанр, эмоции, тема, длительность |
Жанр, эмоции, тип трека, длительность (5с–25м) |
Отсутствуют |
Жанр, эмоции, темп, инструменты, длительность |
Текст, стили |
Возможность коммерческого использования |
Только в платных тарифах |
Только Pro. В Standard — ограниченно (YouTube и др.) |
Только в Artist Starter и выше
|
Только на платных тарифах |
Отсутствует |
Только на платных тарифах |
Только на платных тарифах |
Наличие API |
Нет |
Нет |
Да |
Да (по запросу) |
Нет |
Да |
Нет |
Экспорт готовых треков |
Бесплатно — MP3. В платных — MP3, WAV, stems |
Бесплатно — MP3, MIDI. Pro — MP3, WAV |
Бесплатно — отсутствует. В платных — MP3, WAV, stems
|
Бесплатно — MP3 (25 треков/мес). Платные — до 1000 треков/мес |
Только WAV |
Бесплатно — отсутствует. Платные — MP3, WAV |
Бесплатно — отсутствует. Платные — WAV, stems |
Наличие мобильного приложения |
Да (iOS, Android) |
Нет |
Нет |
Нет |
Нет |
Да (iOS, Android) |
Нет |
Наличие десктопного приложения |
Нет |
Да (Windows, macOS, Linux) |
Нет |
Нет |
Нет |
Нет |
Нет |