Нейросети и искусственный интеллект могут обрабатывать не только текстовые данные, видеоролики и графику, но также работать с аудиоинформацией. Данная особенность позволяет создавать музыку. Еще несколько лет назад считалось, что для создания собственных музыкальных композиций необходимо наличие студии и инструментов или хотя бы навыки для работы со специальным программным обеспечением. Однако бурный рост искусственного интеллекта полностью меняет данную парадигму мышления — теперь всю работу по созданию музыкальных композиций берет на себя искусственный интеллект. Пользователю нужно только создать текстовый запрос, в котором необходимо указать требования к создаваемой композиции. Сегодня у нас на обзоре 7 нейросетей, которые умеют создавать музыку: Suno AI, AIVA, Soundraw, Mubert, MusicGEN, Loudly, Riffusion.
gpu
Как нейросети создают музыку
Прежде чем приступить к обзору нейросетей, разберемся, как они создают музыку. Как правило, для создания музыкальных композиций ИИ обычно использует глубокое обучение (deep learning). Данный метод позволяет анализировать большие объемы музыкальных данных и на их основе генерировать новые композиции. Алгоритм создания музыкальных композиций включает процесс обучения модели на больших наборах данных (например, MIDI-файлах и аудиозаписях) с последующей генерацией музыки на основе используемых параметров, включая жанр или инструмент. Ниже перечислены типы нейронных сетей, которые применяются при создании музыки:
Рекуррентные нейросети (RNN)
Под рекуррентной нейронной сетью понимается модель глубокого обучения, которая предварительно обучена для обработки и преобразования последовательных наборов входных данных в последовательный набор выходных данных. Последовательный набор данных — это данные, в которых компоненты имеют строгую упорядоченность и взаимосвязи на основе сложной семантики и синтаксических правил. К таким данным можно отнести слова и предложения. Как уже было упомянуто ранее, рекуррентные нейросети хорошо подходят для работы с последовательностями. При создании музыки такими последовательностями являются мелодии и аккорды, благодаря возможности «запоминать» предыдущие ноты.
Трансформеры (Преобразователи)
Трансформеры (преобразователи) — это тип архитектуры нейронных сетей. Смысл данной архитектуры заключается в преобразовании входной последовательности в выходную. Трансформеры изучают контекст и отслеживают взаимосвязи между компонентами последовательности. При создании музыки преобразователи используются для обработки сложных музыкальных структур и генерации многослойных композиций.
Генеративно-состязательные сети (GAN)
Генеративно-состязательные сети получили свое название из-за того, что в своей работе используют две нейронные сети, которые «состязаются» между собой — первая сеть генерирует образцы данных, а вторая пытается предсказать, являются ли полученные данные оригинальными. В процессе создания музыки одна сеть генерирует треки, а другая оценивает их качество, при необходимости улучшая итоговый результат.
Автоэнкодеры
Автоэнкодеры — это нейронные сети, которые не используют учителя при своем обучении, а также не используют сжатие данных. Применяются для создания вариаций на основе существующих треков или для стилизации музыки.
Suno AI
Suno AI — это популярный сервис, который создает вокальные и инструментальные треки, используя обычный текстовый запрос (промпт). В запрос можно включить стиль предполагаемой композиции и текст песни. Запуск сервиса состоялся в декабре 2023 года. Популярность продукта привела к тому, что компания-разработчик Suno, Inc. в партнерстве с корпорацией Microsoft интегрировала Suno AI в чат-бот Microsoft Copilot. Отлично подходит для создания фоновой музыки и рекламных треков.
Преимущества
- Простой и удобный веб-интерфейс.
- Помимо текстового запроса, поддерживается использование изображений и видеороликов для создания музыки.
- Полное отсутствие рекламы в бесплатной версии.
- Наличие функционала для редактирования создаваемых треков.
- Поддержка текстов на русском языке.
- Возможность автоматического выбора обложек для создаваемых композиций.
- Наличие официального мобильного приложения для iOS и Android.
Недостатки
- В бесплатной версии доступно 50 кредитов, что позволяет создавать только 5 композиций в день; каждый день добавляется ещё 50 кредитов, которые суммируются.
- Присутствуют ограничения на длительность создаваемых композиций в зависимости от используемой модели ИИ: модель v2 позволяет создавать треки с максимальной длительностью в 1 минуту и 20 секунд, модель v3 позволяет создавать треки с максимальной длительностью в 2 минуты, модель v3.5 позволяет создавать треки с максимальной длительностью в 4 минуты.
AIVA
AIVA — это нейросеть, специально разработанная для создания музыкальных треков — от классической и симфонической музыки до треков в жанре электронной танцевальной музыки. Впервые сервис был выпущен еще в феврале 2016 года люксембургской компанией Aiva Technologies SARL.
Преимущества
- Продвинутый функционал для редактирования создаваемой музыки. Можно менять темп, тональность, длительность композиции, стиль и инструменты, которые будут использованы в треке.
- Возможность загрузки и использования готовых треков для их дальнейшего использования в качестве шаблона для создаваемой композиции.
- Экспорт готовых композиций в один из поддерживаемых форматов: MIDI, WAV, MP3.
- Присутствует официальная документация по созданию треков на платформе.
- Можно использовать как веб-интерфейс программы, так и официальное приложение для ОС Windows, macOS и Linux.
- Возможность монетизации создаваемых треков. Доступно только в платном тарифе плане Pro.
Недостатки
- В бесплатном тарифе доступно скачивание только трех композиций в месяц.
- Ограниченные возможности редактирования в бесплатной версии.
Soundraw
Soundraw — это онлайн-сервис для создания треков и музыки. Площадка была запущена в феврале 2020 года японской компанией SOUNDRAW, Inc. Подходит для создания треков в любых жанрах. Сервисом могут пользоваться как обычные пользователи для создания личных треков, так и артисты, звукозаписывающие компании и лейблы с целью создания коммерческой музыки и треков (доступно только в платных тарифах).
Преимущества
- Простой и понятный веб-интерфейс.
- Сервис позволяет смешивать несколько жанров музыки при создании нового трека.
- Доступен обширный функционал по редактированию треков, включая такие функции, как выбор длительности трека, выбор темпа, жанра, эмоционального воздействия (эпичный, счастливый, злой, сентиментальный, романтичный и т. д.), темы (корпоративный, кинематографичный, комедийный, документальный и т. д.).
- Наличие API (доступно только в коммерческом тарифе Enterprise).
Недостатки
-
Для скачивания треков требуется подписка. В бесплатном тарифном плане невозможно скачать ни один созданный трек.
Mubert
Mubert — это онлайн-сервис для генерирования музыкальных треков в режиме реального времени, используя текстовые запросы (промпты), изображения (поддерживаются форматы png, jpg, webp) или с помощью выбора жанра. ИИ идеально подходит для создания фоновой музыки, которую можно использовать в видеороликах и подкастах.
Преимущества
- Простое и быстрое создание музыкальных композиций в 3 клика.
- Встроенный функционал позволяет задать жанр, эмоциональное воздействие, выбрать тип создаваемого трека (Track, Loop, Mix, Jungle) и время длительности трека (от 5 секунд до 25 минут).
- Доступен API. На данный момент присутствует только в бета-версии Mubert. Использование API доступно для всех зарегистрированных пользователей.
- Для артистов, музыкантов и компаний, занимающихся музыкой, доступен специальный функционал под названием Mubert Studio, при помощи которого можно монетизировать создаваемые треки и заниматься их продвижением.
- Наличие официального приложения для iOS и Android.
- Возможность публикации готовых треков в сервисы YouTube, Twitch, TikTok, Streamlabs, Kick.
Недостатки
- Сервис может генерировать музыку только в инструментальном стиле, без использования вокала.
- В бесплатном тарифе присутствуют ограничения: не более 30 минут использования в день, создание не более 25 треков в месяц. В платных тарифах данные ограничения существенно увеличены — до 500 треков в тарифном плане Creators & PRO, до 1000 треков в тарифном плане Business.
- Отсутствует возможность смешивать несколько жанров музыки для создания нового трека.
- Отсутствует возможность использовать звуковые эффекты (SFX).
- Нельзя скачивать track stems (стемы) и файлы в формате MIDI.
- Скачивание треков доступно только в платных тарифах.
MusicGEN
MusicGEN — это простой сервис с искусственным интеллектом для создания музыки по текстовым запросам или аудиосемплам. Акцент работы MusicGEN сделан на создание коротких треков длительностью до 2 минут. Сервис предполагает самостоятельную установку и настройку, что может быть затруднено для начинающих пользователей.
Преимущества
- Простой и понятный интерфейс.
- Открытый исходный код AudioCraft — языковой модели, используемой в сервисах MusicGEN и AudioGen.
- При невозможности самостоятельного развертывания сервиса можно воспользоваться готовой реализацией, например, доступной по ссылке.
Недостатки
- Необходимость в самостоятельной установке языковой модели. Может потребовать знания технических навыков.
- Можно создавать музыку длительностью не более 15 секунд.
- Отсутствует возможность настройки при создании треков.
Loudly
Loudly — это платформа со встроенным искусственным интеллектом для генерации музыки и треков. Создавать треки можно как при помощи текстового описания, так и с помощью встроенного генератора музыки, обладающего большим функционалом. Loudly идеально подходит для генерации треков для социальных сетей, видео и стриминговых сервисов.
Преимущества
- Богатый функционал для создания треков, включающий в себя выбор музыкальных инструментов, музыкального жанра (доступно более 15 направлений, включая EDM, Hip Hop, Techno, Rock и другие), выбор темпа, поджанров.
- Большой выбор встроенных шаблонов с гибкими фильтрами для более точного поиска нужного шаблона.
- Наличие встроенного API, доступного по запросу.
Недостатки
-
В бесплатной версии присутствуют ограничения: возможность создавать только 25 треков в месяц с длительностью до 30 секунд каждый. Скачивать созданные треки в бесплатной версии нельзя.
Riffusion
Riffusion — это сервис ИИ, в основу которого заложена модель глубокого обучения Stable Diffusion, при помощи которой можно генерировать короткие музыкальные фрагменты, включающие в себя вокал, используя текстовое описание.
Преимущества
- Бесплатное и безграничное создание треков в режиме «relax mode».
- Возможность создавать ремиксы и каверы.
- Можно задать текст для создаваемой песни.
- Встроенный функционал веб-версии позволяет группировать треки в проекты для их удобного хранения и сортировки. Дополнительно доступен функционал для организации созданной музыки в плейлисты.
Недостатки
- Для использования всей создаваемой музыки в коммерческих целях необходимо приобрести платный тариф.
- В платных тарифах доступен расширенный функционал, который включает в себя загрузку аудио для использования в качестве шаблона к создаваемой музыке, скачивание файлов в форматах WAV и Stem.
- Ограниченный функционал для редактирования музыки по сравнению с конкурентами.
Подготовили для вас выгодные тарифы на облачные серверы
Заключение: сравнительная таблица
Мы рассмотрели 7 различных нейросетей для создания музыки. Чтобы наглядно сравнить все особенности рассмотренных нейросетей, ниже приведена сравнительная таблица, в которой представлены все основные характеристики:
Suno AI |
AIVA |
Soundraw |
Mubert |
MusicGEN |
Loudly |
Riffusion |
|
Способы создания музыки |
Текст, изображения, видео |
Стили, аккорды, MIDI или трек |
Интерфейс с опциями |
Текст, изображения, фильтры (жанр, эмоции, темп) |
Текстовый запрос (промпт), |
Текстовый запрос, генератор |
Текст, изображение, интерфейс с опциями |
Наличие бесплатного тарифа |
Ограничено: 5 композиций в день (50 кредитов) |
Ограничено: 3 трека/мес, до 3 мин, только MP3/MIDI |
Ограничено: нельзя скачать и использовать вне платформы |
Ограничено: 25 треков/мес, только MP3
|
Без ограничений |
Ограничено: 25 треков/мес, до 30 сек, без скачивания
|
Ограничено: нельзя скачать, нельзя использовать коммерчески |
Платные тарифы |
Pro — $10, Premier — $30/мес. Скидка 20% при оплате за год
|
Standart — 15€, Pro — 49€/мес. Скидка 33% при оплате за год
|
от $11.04 до $32.49/мес, Enterprise — по запросу, скидка 67% |
от $11.69 до $149.29/мес, есть бессрочные и кастомные тарифы |
Отсутствуют (open source) |
Personal — $10, Pro — $30/мес |
Starter — $8, Member — $48/мес. Скидка 25% при оплате за год
|
Язык интерфейса |
Английский |
Английский |
Английский, |
Английский, Испанский, |
Английский |
Английский |
Английский |
Поддержка языков для создаваемых песен |
50+ языков (вкл. русский) |
Английский |
Английский |
Английский |
Английский |
Английский |
Английский |
Возможность редактирования музыки и песен |
Текст, стили, аудио-шаблон, инструментальный стиль, длительность |
Темп, аккорды, инструменты, эффекты, длительность
|
Темп, жанр, эмоции, тема, длительность |
Жанр, эмоции, тип трека, длительность (5с–25м) |
Отсутствуют |
Жанр, эмоции, темп, инструменты, длительность |
Текст, стили |
Возможность коммерческого использования |
Только в платных тарифах |
Только Pro. В Standard — ограниченно (YouTube и др.) |
Только в Artist Starter и выше
|
Только на платных тарифах |
Отсутствует |
Только на платных тарифах |
Только на платных тарифах |
Наличие API |
Нет |
Нет |
Да |
Да (по запросу) |
Нет |
Да |
Нет |
Экспорт готовых треков |
Бесплатно — MP3. В платных — MP3, WAV, stems |
Бесплатно — MP3, MIDI. Pro — MP3, WAV |
Бесплатно — отсутствует. В платных — MP3, WAV, stems
|
Бесплатно — MP3 (25 треков/мес). Платные — до 1000 треков/мес |
Только WAV |
Бесплатно — отсутствует. Платные — MP3, WAV |
Бесплатно — отсутствует. Платные — WAV, stems |
Наличие мобильного приложения |
Да (iOS, Android) |
Нет |
Нет |
Нет |
Нет |
Да (iOS, Android) |
Нет |
Наличие десктопного приложения |
Нет |
Да (Windows, macOS, Linux) |
Нет |
Нет |
Нет |
Нет |
Нет |