Вокальная и инструментальная изоляция

Разделитель музыки и голоса

MVSEP выполняет разделение звука на голосовую и отдельные музыкальные части

Необработанные файлы в очереди: 98. Обрабатывается в данный момент с GPU: 12

Новости мая 2025

1) Мы наконец выпустили бесплатное приложение для Android. Найти можно по ссылке: Google.Play

2) Для платных пользователей добавили функционал одновременной загрузки множества файлов. Можно найти в "Batch Upload"

3) Добавлена поддержка множества различных аудио-форматов для входных файлов на сайте: 'mp3', 'wav', 'opus', 'aac', 'flac', 'm4a', 'ogg', 'wma', 'aiff', 'aif', 'mp4', 'm4v', 'avi', 'mov', 'wmv', 'mkv', 'webm', 'mpg', 'mpeg', '3gp', '3g2', 'ts', 'm2ts', 'mts'.

4) Мы создали репозиторий с примерами использования API на языке Python, включая многофункциональную GUI версию: https://github.com/ZFTurbo/MVSep-API-Examples
Для использования под Windows есть EXE-версия не требующая Python и установки.

5) Мы подготовили 3 новых LeaderBoard для Quality Checker моделей:

6) Мы добавили несколько state-of-the-art (SOTA) моделей для разделения барабанов. Они основаны на архитектурах MelBand Roformer и SCNet XL и предлагают разделения от 4 до 6 стемов. Наиболее качественное разделение предлагают модели Mel Band Roformer. Таблица метрики SDR приведена ниже. Более подробные таблицы можно найти на странице с описанием алгоритма. Разделение доступно в меню как DrumSep (4-6 stems: kick, snare, cymbals, toms, ride, hh, crash).

Algorithm name	kick	snare	toms	cymbals
Algorithm name	kick	snare	toms	hh	ride	crash
DrumSep model by inagoy (HDemucs, 4 stems)	10.52	6.05	4.68	5.03
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems)	14.54	9.79	10.63	3.19	6.08
DrumSep SCNet XL (5 stems)	17.89	12.56	14.14	3.63	6.15
DrumSep SCNet XL (6 stems)	17.74	12.43	14.24	3.39	5.91
DrumSep SCNet XL (4 stems)	17.61	12.37	13.40	7.48
DrumSep Mel Band Roformer (4 stems)	18.67	13.55	13.60	8.76
DrumSep Mel Band Roformer (6 stems)	17.46	12.64	13.69	5.05	7.06

7) Добавлена новая модель для MVSep Drums (drums, other) на базе SCNet XL с рекордными метриками для одиночной модели.

Model	Drums fullness	Drums bleedless	Drums SDR	Drums L1Freq	Other fullness	Other bleedless	Other SDR	Other L1Freq
HTDemucs4	15.36	25.00	12.04	37.47	33.03	37.22	16.56	38.37
MelBand Roformer	14.16	42.12	12.76	40.80	33.97	47.24	17.28	42.02
SCNet Large	14.91	28.23	13.01	38.04	35.39	35.03	17.53	39.36
SCNet XL	21.21	24.47	13.42	40.30	38.56	38.32	18.00	40.35

8) Добавлено 2 модели для решения задачи Super Resolution, которые восстанавливают высокие частоты.

AudioSR - алгоритм восстанавливает высокие частоты. Он работает со всеми типами аудио (например, музыка, речь, лай собаки, звук дождя и т.д.). Изначально он был обучен на монофоническом аудио, поэтому может давать нестабильные результаты на стерео. Основан на статье AudioSR: Versatile audio super-resolution at scale.
Метрика на Super Resolution Checker for Music Leaderboard (Restored): 25.3195
Оригинальный репозиторий: https://github.com/haoheliu/versatile_audio_super_resolution
Оригинальный скрипт для вывода, подготовленный @jarredou: https://github.com/jarredou/AudioSR-Colab-Fork
FlashSR - алгоритм супер-разрешения аудио для восстановления высоких частот. Основан на статье FlashSR: One-step Versatile Audio Super-resolution via Diffusion Distillation.

Метрика на Super Resolution Checker for Music Leaderboard (Restored): 22.1397
Оригинальный репозиторий: https://github.com/jakeoneijk/FlashSR_Inference
Скрипт для инференса от @jarredou: https://github.com/jarredou/FlashSR-Colab-Inference

9) Мы добавили свою версию модели Apollo для восстановления верхних частот. Она доступна в разделе "Apollo Enhancers (by JusperLee and Lew)" с опцией "Universal Super Resolution (by MVSep Team)". Для наилучшей работы модели требуется четкое ограничение частоты сверху на одном уровне. Положение модели на Leaderboard.

10) Для моделей Super Resolution к которым относятся AudioSR, FlashSR и Apollo Enhancers добавлен вывод спектрограм первых 10 секунд трека, как для оригинала, так и для восстановленной версии.

11) Мы добавили караоке-модель от @becruily. Она доступна как опция в алгоритме MelBand Karaoke (lead/back vocals). В настоящее время она показывает один из лучших результатов на соответствующем лидерборде.

12) Мы добавили новую модель MVSep Saxophone (saxophone, other). У неё есть 3 версии: SCNet XL, MelBand Roformer и Ensemble (SCNet + Mel).

SCNet XL (SDR саксофон: 6.15)
MelBand Roformer (SDR саксофон: 6.97)
Ensemble Mel + SCNet (SDR саксофон: 7.13)

13) Мы добавили модель "unwa Instrumental v1e plus (SDR vocals: 10.33, SDR instrumental: 16.64)" от @unwa в алгоритм MelBand Roformer (vocals, instrumental) с высокими показателями полноты (fullness) инструментальной части.

Разделитель музыки и голоса

MVSEP выполняет разделение звука на голосовую и отдельные музыкальные части

Новости мая 2025

Дополнительные разделы

Компания

Дополнительно