MVSep Woodwind (woodwind, other)

MVSep Woodwind — это высококачественная модель для разделения музыки на деревянные духовые инструменты и всё остальное. Список инструментов: гобой, саксофон, флейта, фагот, кларнет, флейта-пикколо, английский рожок, прочие деревянные духовые.

🗎 Копировать ссылку | Use algorithm | Demo

MVSep Bagpipes (bagpipes , other)

Волынка (Bagpipes) - это традиционный духовой музыкальный инструмент, известный своим характерным пронзительным и непрерывным звучанием.

Как она устроена:

Мешок (резервуар): Обычно изготавливается из кожи животных или современных синтетических материалов. Он служит для запаса воздуха.
Трубка для вдувания: Через неё музыкант ртом наполняет мешок воздухом (в некоторых разновидностях вместо этого используются небольшие меха, которые качают локтем).
Мелодическая трубка (чантер): Трубка с игровыми отверстиями, на которой музыкант перебирает пальцами, исполняя основную мелодию.
Бурдонные трубки (дроны): Одна или несколько трубок, которые издают постоянный, тягучий фоновый аккорд на одной ноте.

Главная особенность: Принцип игры заключается в том, что музыкант надувает мешок, а затем давит на него рукой, равномерно выталкивая воздух в звуковые трубки. Благодаря этому резервуару музыка не прерывается, даже когда исполнитель делает вдох.

Хотя волынка чаще всего ассоциируется с Шотландией (Great Highland Bagpipe) и кельтской культурой, её различные исторические вариации существуют по всей Европе, в Северной Африке и на Ближнем Востоке.

🗎 Копировать ссылку | Use algorithm | Demo

MVSep Percussion (percussion, other)

MVSep Percussion — это высококачественная модель для разделения музыки на перкуссию и всё остальное. Список инструментов: колокольчики, трубчатые колокола, коубелл, конги, челеста, маримба, глокеншпиль, бубен, литавры, треугольник, чаймс, бонги, хлопок, ксилофон, колотушки, металлические пластины, деревянные пластины.

🗎 Копировать ссылку | Use algorithm | Demo

BandIt Plus (speech, music, effects)

Модель BandIt Plus для разделения треков на голос, музыку и эффекты. Она может быть полезна для телевизионных или кинематографических роликов. Модель была выложена авторами статьи "A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation" в репозитории на GitHub. Модель была натренирована на наборе данных Divide and Remaster (DnR). И на данный момент имеет лучшие метрики качества среди подобных моделей.

Таблица качества

Название алгоритма	DnR dataset
Название алгоритма	SDR Speech	SDR Music	SDR Effects
BandIt Plus	15.62	9.21	9.69

🗎 Копировать ссылку | Use algorithm | Demo

MVSep DnR v3 (speech, music, effects)

MVSep DnR v3 - это кинематографическая модель для разделения треков на 3 части: музыка, эффекты и диалоги. Она обучена на огромном мультиязыковом датасете DnR v3 и генерирует стемы speech, music и sfx. Метрики качества на проверочных данных получились лучше, чем у аналогичной мультиязыковой модели Bandit v2. Модель доступна в 3 вариантах: на базе архитектур SCNet, MelBand Roformer, а также ансамбль этих двух моделей. См. таблицу ниже:

Название алгоритма	Метрики качества в таблице лидеров DnR v3
	music (SDR)	sfx (SDR)	speech (SDR)
SCNet Large	9.94	11.35	12.59
Mel Band Roformer	9.45	11.24	12.27
Ensemble (Mel + SCNet)	10.15	11.67	12.81
Bandit v2 (для сравнения)	9.06	10.82	12.29

🗎 Копировать ссылку | Use algorithm | Demo

MVSep Braam (braam , other)

Braam (Браам) - это мощный кинематографический звуковой эффект (виртуальный инструмент), ставший абсолютным стандартом в современной музыке для кино и трейлеров.

Главные особенности:

Звучание: Это массивный, низкочастотный, раскатистый и часто агрессивный звук. Он напоминает апокалиптический гудок огромного корабля, тяжелый металлический скрежет или сигнал тревоги.
Происхождение: Этот звук приобрел массовую популярность после выхода фильма «Начало» (Inception, 2010) с музыкой Ханса Циммера, из-за чего его часто называют Inception Horn (гудок из «Начала»).
Как создается: Как правило, это результат сложного саунд-дизайна. Базой служат мощные низкие медные духовые (тромбоны, тубы, валторны). Затем их наслаивают на тяжелые синтезаторные басы и сильно обрабатывают эффектами: перегрузом (дисторшн), сатурацией и глубокой реверберацией.

Сегодня Braam существует в виде готовых сэмплов и библиотек для виртуальных синтезаторов (VST-плагинов), которые композиторы используют, чтобы мгновенно придать треку масштабность, напряжение или эпичность.

🗎 Копировать ссылку | Use algorithm | Demo

Apollo Enhancers (by JusperLee, Lew, baicai1145)

Алгоритм восстанавливает качество звука. Модель была предложена в этой статье и опубликована на github.

Доступны 3 модели:
1) MP3 Enhancer (автор JusperLee) - восстанавливает файлы MP3, сжатые с битрейтом 32 кбит/с до 128 кбит/с. Он не будет работать для файлов с большим битрейтом.
2) Universal Super Resolution (автор Lew) - восстанавливает более высокие частоты для любой музыки
3) Vocals Super Resolution (автор Lew) - восстанавливает более высокие частоты и общее качество для любого вокала

🗎 Копировать ссылку | Use algorithm | Demo

Reverb Removal (noreverb)

Набор различных моделей для удаления эффекта реверберации из музыки/вокала.

Author	Architecture	Works with	SDR (no independent testing yet)	Link
FoxJoy	MDX-B	Full track	~6.50
anvuew	MelRoformer	Only vocals	7.56
anvuew	BSRoformer	Only vocals	8.07
anvuew v2	MelRoformer	Only vocals	---
Sucial	MelRoformer	Only vocals	10.01
anvuew	BSRoformer	Only vocals (Room)	13.74	HF Link
anvuew	BSRoformer	Only vocals (Stereo)	22.50	HF Link

Реверберация (Reverb) - это физический процесс постепенного затухания звука в закрытом пространстве после того, как источник звука замолчал. Если обычное эхо - это отчетливые, раздельные копии звука (как крик в горах: "Ау... ау... ау"), то реверберация — это плотное, непрерывное гудящее облако из тысяч слившихся воедино отражений от стен, пола, потолка и других поверхностей (как звук хлопка в пустом соборе или на лестничной клетке).

В звукорежиссуре эффект реверберации используется для того, чтобы поместить сухой (записанный в студии) звук в какое-либо виртуальное пространство и придать ему объем.

Из чего состоит реверберация?

Акустически этот процесс можно разделить на три этапа:

Прямой звук (Direct Sound): Звуковая волна, которая доходит до слушателя или микрофона по прямой линии, без каких-либо отражений. Это самый громкий и четкий сигнал.
Ранние отражения (Early Reflections): Первые отзвуки, которые отразились от ближайших поверхностей и достигли ушей спустя несколько миллисекунд после прямого звука. Именно они дают нашему мозгу информацию о том, в помещении какого размера и формы мы находимся.
Хвост (Late Reflections / Reverb Tail): Множество хаотичных, переплетающихся отражений, которые отскакивают от поверхностей снова и снова. Они сливаются в сплошной гул и постепенно теряют энергию (затухают).

Основные параметры в плагинах реверберации

Когда вы открываете плагин реверберации в DAW (цифровой звуковой рабочей станции), вы управляете физическими свойствами этого виртуального помещения:

Size / Room Size (Размер): Задает объем виртуального пространства (от крошечной кабинки до огромного стадиона).
Decay / Reverb Time / RT60 (Время затухания): Время (обычно в секундах), за которое хвост реверберации затухает на 60 децибел, то есть практически исчезает.
Pre-Delay (Предзадержка): Очень важный параметр, задающий паузу (в миллисекундах) между прямым звуком и началом реверберации. Увеличение Pre-Delay помогает отделить вокал или инструмент от "хвоста", сохраняя их разборчивость, но при этом оставляя ощущение большого пространства.
Damping (Демпфирование): Имитирует поглощение звука. В реальной жизни мягкие поверхности (ковры, люди, шторы) быстро поглощают высокие частоты, поэтому длинный хвост реверберации обычно звучит глуше прямого сигнала.
Mix / Dry/Wet (Баланс): Соотношение между исходным сухим сигналом (Dry) и обработанным (Wet).

Зачем нужна реверберация при сведении музыки?

Создание планов (глубина): Реверберация работает как ось Z (глубина) в миксе. Громкий и сухой звук кажется слушателю близким (прямо перед лицом), а тихий звук с большим количеством реверберации — далеким.
Склеивание микса: Если все инструменты записаны в разных заглушенных студиях, микс может звучать разрозненно. Отправка их на общую шину реверберации (даже в небольших количествах) помещает их в одно акустическое пространство.
Художественный эффект: Создание неземной, эмбиентной или эпичной атмосферы (например, эффект Shimmer, где хвост реверберации еще и поднимается на октаву вверх).

Зачем нужно удалять эффект реверберации?

Удаление реверберации (или дереверберация) — это процесс очистки аудиосигнала от акустических отражений помещения, чтобы получить изначальный сухой (Dry) звук. Хотя реверберация делает звук красивым и объемным, во многих профессиональных сценариях этот эффект превращается в нежелательный шум или серьезное препятствие. Вот главные причины, почему возникает необходимость «высушить» звук:

Разделение музыкальных источников (Source Separation): При извлечении вокала или отдельных инструментов из готового стереотрека хвосты реверберации создают серьезную проблему — они «въедаются» в полезный сигнал. Эффективная дереверберация позволяет получить по-настоящему чистую акапеллу или стем инструмента, которые звучат так, будто их только что записали в студии, а не вырезали из концертного зала.
Системы автоматического распознавания речи (ASR): Эхо и гул помещения — злейшие враги акустических моделей. Отражения «размазывают» короткие согласные звуки и фонемы. В сложных задачах машинного обучения, таких как создание моделей распознавания детской речи, где артикуляция и без того часто бывает нечеткой, наличие реверберации катастрофически снижает точность транскрибации. Поэтому дереверберация является критически важным шагом предобработки аудио-датасетов.
Сэмплирование и ремикширование: Если вы берете вокальный сэмпл или барабанный луп со старой записи, он уже содержит пространство оригинального микса. Если добавить этот сэмпл в свой трек и наложить поверх него собственный, новый ревербератор, возникнет акустическая «грязь» (эффект реверберации на реверберации). Чтобы интегрировать чужой звук в свою архитектуру микса, его сначала нужно очистить.
Постпродакшн видео и кино (ADR & Location Sound): Речь актеров часто записывается микрофонами-пушками прямо на съемочной площадке (например, в гулкой пустой комнате или на лестничной клетке). Чтобы диалог звучал плотно, разборчиво и студийно, звукорежиссеру необходимо подавить естественные отражения локации.
Реставрация и форензика (криминалистика): Записи с камер наблюдения, скрытых микрофонов или диктофонов часто содержат столько комнатного гула, что слова становятся неразборчивыми. Подавление реверберации помогает восстановить читаемость речи.

Как это работает технологически? Раньше звукорежиссеры пытались бороться с комнатой с помощью гейтов (Noise Gate) и транзиент-шейперов (Transient Shaper), которые просто обрезали тихие хвосты звуков. Это работало грубо и часто искажало сам полезный сигнал. Сегодня задача дереверберации решается с помощью ИИ и нейронных сетей, которые обучены анализировать спектрограмму, отличать паттерны прямого сигнала от паттернов отражений и математически вычитать последние без ущерба для оригинала.

🗎 Копировать ссылку | Use algorithm | Demo

AudioSR (Super Resolution)

Алгоритм AudioSR: Универсальное масштабируемое аудио супер-разрешение. Алгоритм восстанавливает высокие частоты. Он работает со всеми типами аудио (например, музыка, речь, лай собаки, звук дождя и т.д.). Изначально он был обучен на монофоническом аудио, поэтому может давать нестабильные результаты на стерео.

Метрика на Super Resolution Checker for Music Leaderboard (Restored): 25.3195
Статья авторов: https://arxiv.org/pdf/2309.07314
Оригинальный репозиторий: https://github.com/haoheliu/versatile_audio_super_resolution
Оригинальный скрипт для вывода, подготовленный @jarredou: https://github.com/jarredou/AudioSR-Colab-Fork

🗎 Копировать ссылку | Use algorithm | Demo

FlashSR (Super Resolution)

FlashSR — алгоритм супер-разрешения аудио для восстановления высоких частот. Основан на статье FlashSR: One-step Versatile Audio Super-resolution via Diffusion Distillation.

Метрика на Super Resolution Checker for Music Leaderboard (Restored): 22.1397
Оригинальный репозиторий: https://github.com/jakeoneijk/FlashSR_Inference
Скрипт для инференса от @jarredou: https://github.com/jarredou/FlashSR-Colab-Inference

🗎 Копировать ссылку | Use algorithm | Demo

Stable Audio Open Gen

Генерация аудио по заданному текстовому запросу. Для генерации используется модель Stable Audio Open 1.0. Аудио генерируется в формате Стерео с частотой дискретизации 44.1 kHz длинной до 47 секунд. Качество довольно высокое. Запросы лучше делать на английском языке.

Примеры запросов:
1) Генерация отдельных звуков: cats meow, lion roar, dog bark
2) Генерация отдельных семплов: 128 BPM tech house drum loop
3) Генерация конкретных инструментов: A Coltrane-style jazz solo: fast, chaotic passages (200 BPM), with piercing saxophone screams and sharp dynamic changes

🗎 Копировать ссылку | Use algorithm | Demo

Whisper (extract text from audio)

Whisper — это модель нейронной сети автоматического распознавания речи (ASR) и перевода речи от компании OpenAI. Модель имеет несколько версий. На MVSep мы используем самую большуюю и точную: «Whisper large-v3». Модель Whisper large-v3 была обучена на нескольких миллионах часов аудио. Это многоязычная модель, и она автоматически умеет определять язык текста. Чтобы применить модель к вашему аудио, у вас есть 2 варианта:
1) «Apply to original file» — это означает, что модель шепота будет применена непосредственно к отправленному вами файлу.
2) «Extract vocals first» — в этом случае перед использованием шепота сначала применяется модель BS Roformer для извлечения вокала. Она может удалить ненужный шум, чтобы улучшить качество работы Whisper.

У исходной модели были некоторые проблемы с таймингами транскрипции. Это было исправлено @linto-ai. Его вариант транскрипции доступен c опцией "New timestamps by linto-ai", но иногда этот метод может давать нежелательные артифакты. Оригинальный вариант таймингов доступен по опции "Old version of timestamps by whisper".

Более подробную информацию о модели можно найти здесь: https://huggingface.co/openai/whisper-large-v3 и здесь: https://github.com/openai/whisper

🗎 Копировать ссылку | Use algorithm | Demo

Parakeet (extract text from audio)

Parakeet — это семейство передовых моделей автоматического распознавания речи (ASR), разработанных NVIDIA совместно с Suno.ai. Эти модели построены на архитектуре Fast Conformer, созданной для обеспечения баланса между высокой точностью транскрипции и исключительной скоростью инференса. Они широко известны тем, что превосходят гораздо более крупные модели (такие как Whisper от OpenAI) по эффективности, сохраняя при этом конкурентоспособные или лучшие показатели ошибок слов (WER). Метрика качества WER: 6.03 в рейтинге Huggingface Open ASR.

MVSep предоставляет две версии модели (v2 и v3):
Страница модели v2: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
Страница модели v3: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3

Parakeet v2 (Parakeet TDT 0.6B v2)

Выпущенная как высокоэффективная модель, ориентированная на английский язык, v2 утвердила Parakeet в качестве лидера по соотношению скорости и точности.

Язык: Только английский (en-US).
Размер: 0,6 миллиарда параметров (600 млн), что делает её легковесной по сравнению с 1,1 млрд параметров в предыдущих версиях.
Производительность: Достигает ведущей в отрасли точности (около 6% WER на стандартных тестах) и работает до 50 раз быстрее реального времени.
Возможности:
- Поддерживает высокоточные таймкоды на уровне слов.
- Включает автоматическую пунктуацию и капитализацию (простановку заглавных букв).
- Эффективна при транскрипции неречевых звуков, таких как тексты песен и произносимые числа.
- Может обрабатывать длинные аудиозаписи (до 11 часов в некоторых конфигурациях), используя механизмы локального внимания.

Parakeet v3 (Parakeet TDT 0.6B v3)

Выпуск v3 ознаменовал расширение эффективной архитектуры Parakeet с исключительно английского языка на многоязычную область без увеличения размера модели.

Язык: Многоязычная (поддерживает 25 европейских языков, включая английский, испанский, французский, немецкий, русский и другие).
Размер: Сохраняет компактный размер в 0,6 миллиарда параметров.
Ключевое обновление: Обучена на огромном многоязычном корпусе Granary (около 1 миллиона часов аудио).
Новые функции:
- Автоматическое определение языка: Модель может определять язык речи по аудиосигналу и транскрибировать его без ручных подсказок.
- Высокая пропускная способность: Несмотря на добавленные многоязычные возможности, она сохраняет сверхбыструю скорость инференса архитектуры v2 TDT.
- Универсальность: Служит прямой заменой для v2 для пользователей, которым требуется поддержка европейских языков при сохранении низкой задержки и вычислительных затрат.

🗎 Копировать ссылку | Use algorithm | Demo

VibeVoice (Voice Cloning)

VibeVoice — это модель для генерации естественных разговорных диалогов из текста с возможностью использовать эталонный голос с целью его клонирования.

Основные возможности:

Две модели: маленькая и большая
До 90 минут сгенерированного аудио
Поддержка языков: поддерживается 2 языка: английский (по умолчанию) и китайский
Клонирование голоса: возможность загрузить эталонную аудиозапись

Как использовать модель

Текст должен быть только на английском или китайском языке, для других языков качество не гарантируется. Максимальная длина текста 5000 символов. Избегайте специальных символов.
Аудио с эталонным голосом требуется от 5 до 15 секунд. Если ваш трек длиннее, то он будет автоматически обрезан на 15 секунде.
Эталонный трек должен содержать только голос и ничего лишнего. Если у вас есть посторонние звуки или музыка используйте опцию "Extract vocals first".

Как сгенерировать эталонный трек?

Нам нужно фонетическое разнообразие (все звуки языка) и живая интонация. Текст длиной около 35–40 слов при спокойном чтении как раз займет ~15 секунд.

Вот три варианта на английском под разные задачи:

Option 1: Universal (Balanced & Clear)

Лучший выбор для общего использования. Содержит сложные звукосочетания для настройки четкости.

"To create a perfect voice clone, the AI needs to hear a full range of phonetic sounds. I am speaking clearly, taking small pauses, and asking: can you hear every detail? This short sample captures the unique texture and tone of my voice."

Option 2: Conversational (Vlog & Social Media)

Для озвучки роликов, YouTube или блогов. Читайте живо, с улыбкой, меняя высоту голоса.

"Hey! I’m recording this clip to test how well the new technology works. The secret is to relax and speak exactly like I would to a friend. Do you think the AI can really copy my style and energy in just fifteen seconds?"

Option 3: Professional (Business & Narration)

Для презентаций, аудиокниг или официальных сообщений. Читайте уверенно, немного медленнее, выделяя окончания слов.

"Voice synthesis technology is rapidly changing how we communicate in the digital age. It is essential to speak with confidence and precision to ensure high-quality output. This brief recording provides all the necessary data for a professional and accurate digital clone."

Советы для записи на английском (Tips for recording):

Pronunciation (Произношение): Старайтесь четко проговаривать окончания слов (особенно t, d, s, ing). Модели "любят" четкую артикуляцию.
Flow (Поток): Не читайте как робот. В английском важна мелодика (voice melody) — голос должен немного "плавать" вверх и вниз, а не звучать на одной ноте.
Breathing (Дыхание): Если вы делаете паузу на запятой или точке, не бойтесь сделать слышный вдох. Это добавит реализма клону.

🗎 Копировать ссылку | Use algorithm | Demo

VibeVoice (TTS)

VibeVoice (TTS) — это модель для генерации естественных разговорных диалогов из текста с возможностью создавать диалоги до 4 собеседников и длительностью до 90 минут.

Основные возможности:

Две модели: маленькая и большая
До 4 говорящих в одной записи
До 90 минут сгенерированного аудио
Поддержка языков: официально поддерживается 2 языка: английский (по умолчанию) и китайский, но проверено что сносно работает и для других языков.

Как использовать модель

Текст должен быть на английском или китайском языке, для других языков качество не гарантируется. Максимальная длина текста 5000 символов. Избегайте специальных символов. Текст должен быть оформлен в специальном формате с указанием говорящих:

Правильный формат:

Speaker 1: Hello! How are you today?
Speaker 2: I'm doing great, thanks for asking!
Speaker 1: That's wonderful to hear.
Speaker 3: Hey everyone, sorry I'm late!

Неправильный формат:

Hello! How are you today?
I'm doing great!

Важно:

Каждая реплика должна начинаться с Speaker N: (где N — номер от 1 до 4)
Нумерация говорящих: Speaker 1, Speaker 2, Speaker 3, Speaker 4
Можно использовать от 1 до 4 говорящих
Регистр не важен: Speaker 1: = speaker 1: = SPEAKER 1

Если вам нужен монолог, то спикера можно не указывать.

Примеры сценариев:

Монолог (1 говорящий):

Speaker 1: Today I want to talk about artificial intelligence. 
Speaker 1: It's changing our world in incredible ways.
Speaker 1: From healthcare to entertainment, AI is everywhere.

Диалог (2 говорящих):

Speaker 1: Have you tried the new restaurant downtown?
Speaker 2: Not yet, but I've heard great things about it!
Speaker 1: We should go there this weekend.
Speaker 2: That sounds like a perfect plan!

Групповая беседа (3-4 говорящих):

Speaker 1: Welcome to our podcast, everyone!
Speaker 2: Thanks for having us!
Speaker 3: It's great to be here.
Speaker 4: I'm excited to share our thoughts today.
Speaker 1: Let's start with introductions.

🗎 Копировать ссылку | Use algorithm | Demo

Qwen3-TTS (Custom Voice)

Qwen3-TTS — это мощная модель генерации речи, предлагающая поддержку клонирования голоса, дизайна голоса, создания сверхкачественной человекоподобной речи и управления голосом на естественном языке. Она предоставляет разработчикам и пользователям самый широкий набор функций генерации речи. На MVSep мы используем самую большую модель с 1,7 млрд параметров.

Страница оригинальной модели: https://github.com/QwenLM/Qwen3-TTS

Qwen3-TTS (Custom Voice) предлагает набор из 9 предустановленных дикторов. Дополнительно вы можете указать «Voice description» (описание голоса), добавив эмоции, например «happy voice» (счастливый голос) или «sad voice» (грустный голос). Вы также можете выбрать язык для этой модели или оставить значение «auto».

🗎 Копировать ссылку | Use algorithm | Demo

Qwen3-TTS (Voice Design)

Страница оригинальной модели: https://github.com/QwenLM/Qwen3-TTS

Qwen3-TTS (Voice Design) предлагает начитать текст произвольным голосом, который можно подробно описать в поле «Voice description» (описание голоса). Можно указать пол и возраст диктора, добавить эмоции, например «happy voice» (счастливый голос) или «sad voice» (грустный голос). Вы также можете выбрать язык для этой модели или оставить значение «auto».

🗎 Копировать ссылку | Use algorithm | Demo

Qwen3-TTS (Voice Cloning)

Страница оригинальной модели: https://github.com/QwenLM/Qwen3-TTS

Qwen3-TTS (Voice Cloning) позволяет загрузить референсный аудиофайл, чтобы озвучить заданный текст голосом из образца. Для повышения качества клонирования вы можете дополнительно указать расшифровку аудио в поле «Reference text in audio». Вы также можете выбрать язык для этой модели или оставить значение «auto».

🗎 Копировать ссылку | Use algorithm | Demo

Bark (Speech Gen)

Bark — это созданная компанией Suno модель на базе архитектуры трансформеров, которая представляет собой не просто традиционный инструмент синтеза речи, а полноценную генеративную систему класса «текст в аудио». Её возможности выходят далеко за рамки обычного озвучивания: помимо создания высокореалистичной речи на множестве языков, Bark умеет генерировать музыку, фоновые шумы и простые звуковые эффекты. Уникальной особенностью модели является способность воспроизводить тонкие невербальные коммуникации, такие как смех, вздохи и плач, что делает итоговое звучание максимально живым и естественным.

Стремясь поддержать сообщество, разработчики открыли доступ к предварительно обученным контрольным точкам, которые готовы к работе и разрешены даже для коммерческого использования. Тем не менее важно учитывать, что Bark создавался в первую очередь для исследовательских задач. Будучи полностью генеративной моделью, она может вести себя непредсказуемо и иногда отклоняться от введенных текстовых подсказок.

Официальный репоизторий модели: https://github.com/suno-ai/bark

В отличие от классических TTS-систем, Bark не использует SSML-разметку. Вместо этого он обучен распознавать определенные текстовые вставки (теги) как инструкции для генерации звуков.

Инструкция по кодированию эмоций и звуков в Bark

1. Основной принцип

Все управляющие команды пишутся в квадратных скобках. Важно: Сами теги должны быть написаны на английском языке, даже если основной текст, который вы генерируете, на русском, испанском или любом другом языке.

Синтаксис:

Текст до эффекта [тег_эффекта] текст после эффекта.

2. Список поддерживаемых тегов (Non-speech sounds)

Bark официально распознает следующий набор токенов для невербальных звуков:

Тег	Описание	Пример использования
`[laughter]`	Громкий, явный смех	`Привет! [laughter] Как же это было смешно.`
`[laughs]`	Короткий смешок, хихиканье	`Ну да, конечно [laughs].`
`[sighs]`	Тяжелый вздох (усталость, облегчение)	`[sighs] Я так устал от этой работы.`
`[music]`	Вставка инструментальной музыки	`[music] (играет фоновая музыка)`
`[gasps]`	Резкий вдох (испуг, удивление)	`[gasps] Я не ожидал тебя здесь увидеть!`
`[clears throat]`	Откашливание (привлечение внимания)	`[clears throat] Господа, прошу внимания.`

Примечание: Также существуют вариации [man laughs] и [woman laughs], но они работают стабильнее всего, если пол спикера (Speaker History) совпадает с тегом.

3. Генерация пения и музыки

Чтобы заставить модель «пропеть» текст, а не прочитать его, используются музыкальные ноты.

Метод: Оберните текст в символы музыкальных нот ♪ (Shift + Alt + V на Mac или Alt+13 на Win, или просто скопируйте).
Пример: ♪ In the jungle, the mighty jungle, the lion sleeps tonight ♪
Совет: Это работает лучше всего, если вы используете английский язык, так как обучающий датасет содержал много английских песен, но на русском тоже можно добиться результата.

4. Паузы и интонация (Prosody)

Хотя специальных тегов для пауз (типа ) нет, Bark чувствителен к пунктуации и спецсимволам, так как воспринимает текст как структуру.

Двоеточие и тире (..., —): Используйте многоточие или длинное тире для создания пауз, колебаний или заминок в речи.
- Пример: Я... я не уверен, что это правильно.
CAPS LOCK: Иногда (не гарантированно) написание слова ЗАГЛАВНЫМИ БУКВАМИ может добавить ударение или повысить громкость.

5. Важные нюансы работы (Disclaimer)

Вероятностная природа: Bark — это GPT для аудио. Если вы напишете [laughter], модель с высокой вероятностью сгенерирует смех, но иногда она может проигнорировать тег или сгенерировать странный звук.
Контекст имеет значение: Тег [laughter] сработает естественнее после шутки, чем посреди трагического предложения. Модель «понимает» семантику текста.
Шепот (Whispering): Официального тега [whisper] нет. Однако сообщество заметило, что добавление слов типа "quietly" или использование специфических спикеров (Speaker Prompts) иногда помогает, но это метод проб и ошибок.

Ограничения на сайте: в данный момент все отправленные тексты обрезаются до 1000 символов.

🗎 Копировать ссылку | Use algorithm | Demo

MVSep MultiSpeaker (MDX23C)

MVSep MultiSpeaker (MDX23C) — данная модель пытается изолировать самый громкий голос от всех остальных голосов. Модель основана на архитектуре MDX23C. Все еще в разработке.

🗎 Копировать ссылку | Use algorithm | Demo

Aspiration (by Sucial)

Алгоритм добавляет к вокалу эффект «шепота». Модель создана SUC-DriverOld. Подробнее здесь.

Модель Aspiration отделяет:

Слышимое дыхание
Шипение и жужжание фрикативных согласных (например, «с» и «ф»)
Взрывные согласные: глухой взрывной звук, возникающий при произнесении согласных (таких как "п", "т", "к").

🗎 Копировать ссылку | Use algorithm | Demo

Phantom Centre extraction

Что такое фантомный центр (Phantom Center) в звукорежиссуре?

Слушая музыку в стерео, мы часто отчетливо слышим вокал, звучащий прямо перед нами. Но если вы посмотрите на свою акустическую систему, то увидите лишь две колонки по бокам. Источника звука посередине нет. То, что вы слышите — это фантомный центр.

Как это работает? Фантомный центр — это психоакустическая иллюзия. Она возникает, когда левый и правый каналы воспроизводят один и тот же моно-сигнал с абсолютно одинаковой громкостью и в одинаковой фазе. Наш мозг обрабатывает звук, приходящий в оба уха одновременно, и "дорисовывает" виртуальный источник звука прямо по центру.

Почему фантомный центр так важен при сведении?

Фундамент микса: Традиционно в центр помещают самые важные и "энергоемкие" элементы трека. Главный вокал, бас-гитара, бочка (kick) и малый барабан (snare) панорамируются строго в ноль (по центру). Это гарантирует, что энергия низких частот равномерно распределяется на оба монитора, делая микс пробивным и плотным.
Контраст и ширина: Фантомный центр служит точкой отсчета для всего остального микса. Широкие стереоэффекты, дабл-треки гитар или объемные синтезаторы звучат широко именно благодаря контрасту с плотным и узким фантомным центром.
Mid/Side обработка: В современных технологиях мастеринга и извлечения стемов (source separation) фантомный центр часто выделяют в отдельный канал — Mid (середина), который вычисляется как сумма левого и правого каналов. Это позволяет эквализировать или изолировать вокал и ритм-секцию, не затрагивая инструменты, звучащие по краям (Side).

Опасности фантомного центра Эта иллюзия очень хрупкая. Если сигнал в одном из каналов задержится хотя бы на миллисекунду или его фаза будет нарушена, центр "поплывет" или вовсе исчезнет из-за фазового вычитания. Поэтому при работе со стереорасширителями всегда важно проверять трек на моносовместимость.

У нас на данный момент доступно два алгоритма извлечения фантомного центра. Ниже приведены их метрики качества полученные на валидационном датасете:

Model	Center SDR	Center L1Freq	Center fullness	Center bleedless
Phantom Centre by wesleyr36 (MDX23C)	8.25	27.52	19.44	38.92
Phantom Centre by gilliaan (BSRoformer)	16.45	44.00	37.17	48.76

🗎 Копировать ссылку | Use algorithm | Demo

Matchering (by sergree)

Matchering — это новый инструмент для сопоставления и мастеринга аудио. Он основан на простой идее: вы берете ДВА аудиофайла и загружаете их в Matchering:

TARGET (трек, который вы хотите смастерить и вы хотите, чтобы он звучал как референс)
REFERENCE (другой трек, например, какая-нибудь «фирменная» популярная песня, вы хотите, чтобы ваш целевой трек звучал так же)

Алгоритм сопоставляет оба этих трека и предоставляет вам обработанный трек TARGET с теми же значениями RMS, частотной характеристики, пиковой амплитуды и ширины стереобазы, что и у трека REFERENCE.

Основано на коде @sergree.

🗎 Копировать ссылку | Use algorithm | Demo

SOME (Singing-Oriented MIDI Extractor)

SOME (Singing-Oriented MIDI Extractor) — это инструмент для извлечения MIDI, способный конвертировать пение в MIDI-последовательность. Модель была обучена исключительно на китайском вокале, поэтому с другими языками она может работать некорректно.

Оригинальная страница: https://github.com/openvpi/SOME

🗎 Копировать ссылку | Use algorithm | Demo

Transkun (piano -> midi)

Transkun — это современная open-source модель для автоматической транскрипции фортепианной музыки (Audio-to-MIDI). Официальная страничка модели: здесь. Она считается одной из лучших (SOTA — State of the Art) в своем классе. Модель умеет распознавать не только сами ноты, но и их длительность, громкость (velocity) и использование педали. В отличие от многих старых моделей, которые анализируют музыку «покадрово» (frame-based), Transkun использует подход Neural Semi-CRF (semi-Markov Conditional Random Field). Вместо того чтобы спрашивать «звучит ли нота в эту миллисекунду?», модель рассматривает события как цельные интервалы (от начала до конца ноты). В последних версиях используется Transformer (Non-Hierarchical Transformer), который вычисляет вероятность того, что определенный отрезок времени является нотой. Декодинг: Используется алгоритм Витерби (Viterbi) для поиска наиболее вероятной последовательности непересекающихся интервалов. Модель показывает отличные результаты на датасете MAESTRO (стандарт индустрии).

🗎 Копировать ссылку | Use algorithm | Demo

Basic Pitch (MIDI Extraction)

Basic Pitch — это современная нейросеть от исследовательской лаборатории Spotify (Audio Intelligence Lab), которая переводит любые мелодические аудиозаписи в ноты (формат MIDI). В отличие от устаревших конвертеров, эта модель умеет «слышать» не только отдельные ноты, но и аккорды, а также тончайшие нюансы исполнения. Официальная страница модели: https://github.com/spotify/basic-pitch

Ключевые возможности

Полифоническое распознавание: Basic Pitch не боится сложностей. Вы можете загружать записи фортепиано, гитары или ансамбля — модель распознает несколько нот, звучащих одновременно.
Сохранение нюансов (Pitch Bend): Большинство конвертеров «квантуют» звук до ближайшей ноты, делая его плоским. Basic Pitch сохраняет изменения высоты тона (pitch bends). Если вы поете с вибрато или делаете подтяжки на гитаре, эти детали останутся в MIDI-файле.
Универсальность: Модель обучена на огромном массиве данных и работает с большинством мелодических инструментов.
Скорость и легкость: Это «легковесная» модель, которая обрабатывает аудио быстро, не требуя мощных серверов.

С чем работает модель?

Basic Pitch — это «инструментально-агностическая» модель. Это значит, что она одинаково хорошо справляется с разными тембрами:
- Вокал: Напойте мелодию в микрофон, и нейросеть превратит ваш голос в партию для синтезатора.
- Струнные: Акустическая и электрогитара, скрипка, виолончель.
- Клавишные: Фортепиано, рояль, органы и синтезаторы.
- Духовые: Флейта, саксофон, труба и другие.

Важно: Модель предназначена для мелодических инструментов. Она не подходит для распознавания ударных (барабанов и перкуссии), так как фокусируется на высоте тона, а не на ритмическом шуме.

🗎 Копировать ссылку | Use algorithm | Demo

HeartMuLa (Song Gen)

HeartMuLa — это передовое семейство мультимодальных базовых моделей (Foundation Models) с открытым исходным кодом (лицензия Apache 2.0), предназначенное для высококачественного синтеза музыки и работы со звуком. В отличие от проприетарных облачных сервисов (таких как Suno или Udio), HeartMuLa предоставляет разработчикам полный контроль над процессом генерации и возможность локального запуска на собственном оборудовании. Модель работает на базе LLM-архитектуры и позволяет создавать полноценные композиции по текстовым промптам.

Официальный репозиторий: https://github.com/HeartMuLa/heartlib

Ключевые возможности

Мультиязычная генерация вокала: Поддерживается синтез речи и пения на нескольких языках, включая английский, китайский, японский, корейский и испанский.
Тонкий структурный контроль: Использование специальных тегов в текстах (например, [Intro], [Verse], [Chorus], [Bridge]) позволяет точно управлять аранжировкой и развитием композиции.
Управление музыкальными атрибутами: Модель отлично понимает комплексные описания. Вы можете задавать жанр (рок, джаз, R&B, метал), тембр (dark, bright, soft), эмоции и конкретные инструменты.

В текущей базовой версии HeartMuLa полноценная поддержка русского языка не заявлена.

Для вокала (тексты песен): Модель официально оптимизирована для работы только с пятью языками: английским, китайским, японским, корейским и испанским. Если передать ей текст на кириллице, результат «из коробки», скорее всего, будет нестабильным — от сильного акцента и искажения слов до полной фонетической бессмыслицы.
Для промптов (описание музыки): Задавать жанр, настроение, структуру и инструменты (теги) также нужно строго на английском языке. Встроенный модуль выравнивания (HeartCLAP) обучался на англоязычных датасетах, поэтому русские описания он просто не поймет.

Архитектура: как это работает под капотом

Система не является монолитной; это комплекс из нескольких специализированных нейросетей, объединенных в единый пайплайн обработки аудио:

HeartCodec (Нейрокодек): Основа системы — токенизатор музыки, работающий на экстремально низкой частоте (12.5 Гц). Он обеспечивает высочайшую точность реконструкции сигнала (high fidelity) при минимальном объеме данных. Это критически важно для того, чтобы языковая модель могла эффективно генерировать длинные аудиофрагменты в авторегрессионном режиме.
HeartCLAP: Модель выравнивания текста и звука (audio-text alignment). Она создает единое пространство эмбеддингов, благодаря которому текстовое описание "грустная мелодия на акустической гитаре" математически точно сопоставляется с нужными акустическими характеристиками.
HeartTranscriptor: Модуль на базе архитектуры Whisper, дообученный специально для транскрибации текстов песен и извлечения фонетических признаков из вокала.
Генератор HeartMuLa: Основная LLM-модель с трехуровневой архитектурой:
- Глобальный backbone обрабатывает текстовые токены и аудиокодировки.
- Локальный декодер отвечает за непосредственный синтез музыки на основе скрытых состояний.
- Детокенизатор переводит сгенерированные токены обратно в непрерывную звуковую волну (waveform).

Для обучения использовалась стратегия мульти-энкодера: модель извлекает данные из предобученных сетей Whisper, WavLM и собственного MuEncoder, что позволяет анализировать звук одновременно на фонетическом, семантическом и акустическом уровнях.

Важное примечание: В целях соблюдения этики ИИ, согласно технической документации разработчиков, в сгенерированные треки встраивается невидимый цифровой водяной знак (watermark) для идентификации машинного происхождения аудио.

Руководство: Как правильно оформлять тексты и использовать теги

При работе с ИИ-моделями для генерации музыки текст (лирика) выполняет две функции: он говорит модели, что петь, а мета-теги в квадратных скобках [...] указывают, как это петь и как выстраивать структуру трека. Модель воспринимает теги как режиссерские указания.

1. Базовые структурные теги (Каркас песни)

Эти теги разбивают сплошной текст на логические музыкальные блоки. Их нужно писать с новой строки перед блоком текста.

[Intro] — Вступление. Задает настроение и темп до начала вокала. Под этим тегом обычно не пишут текст, либо добавляют короткие атмосферные фразы или вокализы (например, Ooh-ooh).
[Verse] (или [Verse 1], [Verse 2]) — Куплет. Здесь раскрывается история. Музыка в куплетах обычно более спокойная, а ритм — ровный. Использование нумерации помогает модели понять, что мелодия должна повторяться, но текст будет новым.
[Pre-Chorus] — Предприпев. Переходная часть, где нарастает напряжение и плотность инструментов перед главной кульминацией.
[Chorus] — Припев. Главная мысль и самая запоминающаяся мелодия. Здесь модель обычно выдает максимум эмоций, плотности звука и вокальной экспрессии.
[Bridge] — Бридж (мост). Вставляется ближе к концу песни (обычно после второго припева). В этой части кардинально меняется мелодия, ритм или тональность, чтобы песня не казалась монотонной.
[Outro] — Кода (завершение). Плавное затухание музыки (fade-out) или красивый финальный аккорд.

2. Инструментальные и стилистические теги

Вы можете управлять не только структурой, но и аранжировкой в конкретные моменты времени.

Соло и проигрыши: Используйте теги вроде [Guitar Solo], [Piano Interlude], [Bass Drop] или [Drum Fill] между куплетами и припевами. Текст под ними писать не нужно.
Вокальные указания: Если модель это поддерживает, можно задавать стиль исполнения перед строкой: [Whisper], [Scream], [Spoken], [Choir].
Бэк-вокал и эхо: Чтобы добавить бэк-вокал или хоровые ответы, заключайте слова в круглые скобки. Например: Lead: Walking down this lonely road Backing: (lonely road)

3. Золотые правила написания самого текста

Даже с идеальными тегами ИИ может запутаться, если сам текст плохо структурирован.

Симметрия и ритмика: ИИ-модели опираются на количество слогов. Постарайтесь, чтобы строки в одном куплете имели примерно одинаковое количество слогов и четкий размер. Если одна строка состоит из 5 слов, а следующая из 15 — модель начнет "жевать" слова или сломает ритм.
Пунктуация — это дыхание: Запятые , и точки . работают как паузы. Если вам нужно, чтобы вокалист взял дыхание или сделал паузу перед важным словом, поставьте запятую. Отсутствие знаков препинания заставит ИИ петь скороговоркой.
Язык: Как мы обсуждали ранее, пишите тексты строго на английском языке (или другом официально поддерживаемом), чтобы избежать фонетического "мусора" и акцента.
Разделение: Обязательно оставляйте пустую строку (перенос) между разными блоками (между куплетом и припевом).

4. Идеальный шаблон (Пример)

Вот как должен выглядеть грамотно составленный промпт для генерации:

[Intro]
[Verse]
You could, you could take me to a place that's new,
A wave or a cloud, holding hands with only you.
You could, you could tell me that you have it all,
Everything I wanted, catching me before I fall.

[Chorus]
Take me out for a ride,
Along the docks or in the wood,
You could make me sick inside,
In just a single word you could.

[Chorus]
The sky would think it's right,
It loves the simple things,
My heart against yours tight,
If you love the simple things.
No, let's not do what others do
No, let's not do what others do
La, lalala, lalala
If you love the simple things
La, lalala, lalala, lalala la la la

[Verse]
You could, you could take me out to eat somewhere,
The finest of tables, honestly I do not care.
You could, you could use your charms to make me yield,
Step right up to me and make me drop my shield.

[Chorus]
Take me out for a ride,
Along the docks or in the wood,
You could make me sick inside,
In just a single word you could.

[Bridge]
Take me my boy, let me take a little bite,
Behind a deep feeling hides a man of great might.
Make me fly my boy, tell me if we are alright,
Behind a deep feeling hides a man of great might.

[Chorus]
Take me out for a ride,
Along the docks or in the wood,
You could make me sick inside,
In just a single word you could.

[Chorus]
The sky would think it's right,
It loves the simple things,
My heart against yours tight,
If you love the simple things.
La, lalala, lalala
If you love the simple things
La, lalala, lalala
La la la la la la la

Руководство по тегам (Промпт-инжиниринг)

Это руководство основано на анализе научной статьи по HeartMuLa (разделы 3.2 и 6.2). Модель использует токенизатор естественного языка (Llama 3), а не фиксированный словарь. Для достижения стабильной генерации выбирайте теги из 8 основных категорий, которые использовались при обучении.

8 столпов обучения

Каждая категория имеет процент важности, отражающий «вероятность выбора» во время обучения.

Частота при обучении: Теги «семплировались» (выбирались) в процессе обучения. Жанр включался в 95% случаев, тогда как Инструмент — только в 25%.
Ожидания модели: Для корректной работы модель ожидает наличие тега жанра. Без него генерации не хватает четкого структурного якоря.
Влияние и стабильность: Более высокий процент означает большую стабильность. Тег с вероятностью 95% (Жанр) — это «сильный якорь», тогда как тег с 10% (Тема) — это «слабая подсказка», которая может быть проигнорирована, если она конфликтует с более сильными тегами.
Стратегия: Для максимального контроля активно опирайтесь на 4 топовые категории (Жанр, Тембр, Пол, Настроение). Используйте теги с низким процентом только как «приправу» после того, как задана основная структура.

Официальные категории

GENRE / ЖАНР (95% — ОБЯЗАТЕЛЬНО)

Примеры: Pop, Rock, Electronic, Hiphop, Jazz, Classical, Techno, Trance, Ambient.

TIMBRE / ТЕМБР (50% — Текстура звука)

Примеры: Soft, Warm, Husky, Bright, Dark, Distorted.

GENDER / ПОЛ ВОКАЛИСТА (37% — Характер вокала)

Примеры: Male, Female.

MOOD / НАСТРОЕНИЕ (32% — Эмоциональный вайб)

Примеры: Happy, Sad, Energetic, Joyful, Melancholic, Relaxing, Dark.

INSTRUMENT / ИНСТРУМЕНТ (25% — Доминирующие звуки)

Примеры: Piano, Synthesizer, Acoustic Guitar, Electric Guitar, Bass, Drums, Strings, Violin.

SCENE / СЦЕНА (20% — Контекст прослушивания)

Примеры: Dance, Workout, Dating, Study, Cinematic, Party.

REGION / РЕГИОН (12% — Культурное влияние)

Примеры: K-pop, Latin, Western.

TOPIC / ТЕМА (10% — Лирическая тема)

Примеры: Love, Summer, Heartbreak.

Для удобства все 8 категорий и возможные теги для них вынесены в отдельные опции выбора на сайте. Вы можете не указывать их и ввести свой набор тегов в строке Tags (otional).

Стратегия промптинга: «Меньше — значит больше»

Чтобы сохранить сильный якорь и избежать «интерференции вероятностей», не используйте конфликтующие теги.

Семантический конфликт: Запрос «Rock, Jazz» рассеивает внимание модели, что часто приводит к «грязи» или невыразительным, шаблонным аранжировкам.
Стабильность якоря: Один сильный якорь дает четкую карту действий. Несколько жанров создают конфликтующие карты, из-за чего ИИ теряет фокус.
Рекомендация: Выбирайте только один тег для каждой категории. Будьте точны, избегайте слишком широких понятий.

Algorithm name	Multisong dataset		Synth dataset		MDX23 Leaderboard
Algorithm name	SDR Vocals	SDR Instrumental	SDR Vocals	SDR Instrumental	SDR Vocals
Vit Large 23 (512px) v1	9.78	16.09	12.33	12.03	10.47
Vit Large 23 (512px) v2	9.90	16.20	12.38	12.08	---

Algorithm name	Multisong dataset		Synth dataset		MDX23 Leaderboard
Algorithm name	SDR Vocals	SDR Instrumental	SDR Vocals	SDR Instrumental	SDR Vocals
Mel Band Roformer v1 (vocals)	9.07	---	11.76	---	---

MVSep Woodwind (woodwind, other)

MVSep Bagpipes (bagpipes , other)

MVSep Percussion (percussion, other)

BandIt Plus (speech, music, effects)

MVSep DnR v3 (speech, music, effects)

MVSep Braam (braam , other)

Apollo Enhancers (by JusperLee, Lew, baicai1145)

Reverb Removal (noreverb)

Из чего состоит реверберация?

Основные параметры в плагинах реверберации

Зачем нужна реверберация при сведении музыки?

Зачем нужно удалять эффект реверберации?

AudioSR (Super Resolution)

FlashSR (Super Resolution)

Stable Audio Open Gen

Whisper (extract text from audio)

Parakeet (extract text from audio)

Parakeet v2 (Parakeet TDT 0.6B v2)

Parakeet v3 (Parakeet TDT 0.6B v3)

VibeVoice (Voice Cloning)

Основные возможности:

Как использовать модель

Как сгенерировать эталонный трек?

Option 1: Universal (Balanced & Clear)

Option 2: Conversational (Vlog & Social Media)

Option 3: Professional (Business & Narration)

Советы для записи на английском (Tips for recording):

VibeVoice (TTS)

Основные возможности:

Как использовать модель

Правильный формат:

Неправильный формат:

Примеры сценариев:

Qwen3-TTS (Custom Voice)

Qwen3-TTS (Voice Design)

Qwen3-TTS (Voice Cloning)

Bark (Speech Gen)

Инструкция по кодированию эмоций и звуков в Bark

1. Основной принцип

2. Список поддерживаемых тегов (Non-speech sounds)

3. Генерация пения и музыки

4. Паузы и интонация (Prosody)

5. Важные нюансы работы (Disclaimer)

MVSep MultiSpeaker (MDX23C)

Aspiration (by Sucial)

Phantom Centre extraction

Что такое фантомный центр (Phantom Center) в звукорежиссуре?

Почему фантомный центр так важен при сведении?

Matchering (by sergree)

SOME (Singing-Oriented MIDI Extractor)

Transkun (piano -> midi)

Basic Pitch (MIDI Extraction)

Ключевые возможности

С чем работает модель?

HeartMuLa (Song Gen)

Ключевые возможности

Архитектура: как это работает под капотом

Руководство: Как правильно оформлять тексты и использовать теги

1. Базовые структурные теги (Каркас песни)

2. Инструментальные и стилистические теги

3. Золотые правила написания самого текста

4. Идеальный шаблон (Пример)

Руководство по тегам (Промпт-инжиниринг)

8 столпов обучения

Официальные категории

Стратегия промптинга: «Меньше — значит больше»

Рекомендуемый формат

Vit Large 23 (vocals, instrum)

MVSep MelBand Roformer (vocals, instrum)

LarsNet (kick, snare, cymbals, toms, hihat)

Информация о сайте

Компания

Дополнительно