MVSEP Logo
  • Главная
  • Новости
  • Тарифы
  • Демо
  • ЧАВО
  • Создать учетную запись
  • Войти

Ensemble (vocals, instrum)

Ансамбль лучших вокальных моделей. Алгоритм даёт максимально возможное качество для вокальной и инструментальной дорожек. Последний ансамбль состоит из вокальных моделей BS Roformer, MelBand Roformer и SCNet XL IHF.

Таблица качества

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
Ensemble (2023.09)
(UVR-MDX-NET-Voc_FT, Demucs4 Vocals 2023, MDX23C, VitLarge23)
10.44 16.74 12.76 12.46 11.17
Ensemble (2024.02)
(BS Roformer (v1), MDX23C, VitLarge23)
10.75 17.06 12.72 12.42 ---
Ensemble (2024.03)
(BS Roformer (viperx), MDX23C)
11.06 17.37 13.00 12.70 ---
Ensemble (2024.04)
(BS Roformer (finetuned), MDX23C)
11.33 17.63 13.57 13.27 ---
Ensemble (2024.08)
(BS Roformer (finetuned), MelBand Roformer)
11.50 17.81 13.79 13.50 ---
Ensemble (2024.12)
(BS Roformer (finetuned), MelBand Roformer (ft), SCNet XL)
11.61 17.92 14.09 13.79 ---
Ensemble (2025.06)
(BS Roformer (x2), MelBand Roformer (ft), SCNet XL IHF)
11.93 18.23 14.46 14.17 ---

Детальная статистика на Multisong датасете:

Model Vocals fullness Vocals bleedless  Vocals SDR Vocals L1Freq Instrum fullness Instrum bleedless  Instrum SDR Instrum L1Freq
Ensemble (2025.06) 17.73 36.29 11.93 39.94 28.75 47.64 18.23 40.90
Ensemble High Vocals Fullness (2025.06) 20.46 32.77 11.69 39.86 --- --- --- ---
Ensemble High Instrumental Fullness (2025.06) --- --- --- --- 34.79 41.47 17.69 40.51
🗎 Копировать ссылку

Ensemble (vocals, instrum, bass, drums, other)

Ансамбль основан на алгоритме, занявшем 2-е место на Music Demixing Track of Sound Demixing Challenge 2023. Основное отличие от конкурсной версии — гораздо более совершенные вокальные/инструментальные модели, которые здесь используются. Для вокала мы используем следующие модели: UVR-MDX-NET-Voc_FT, Demucs4 Vocals 2023, MDX23C, VitLarge23, BS Roformer, Mel Roformer и SCNet XL. Для дорожек «bass», «drums» и «other» мы используем следующие 4 модели: demucsht_ft, demucs_ht, demucs_6s и demucs_mmi. Первоначальная конкурсная модель доступна здесь: https://github.com/ZFTurbo/MVSEP-MDX23-music-separation-model

Таблицы качества

Algorithm name Multisong dataset Synth dataset
SDR Bass SDR Drums SDR Other SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental
SDR average: 11.21 (v. 2023.09.01) 12.52 11.73 7.01 10.30 16.60 12.67 12.38
SDR average: 11.87 (v. 2024.03.08) 12.53 11.84 7.15 10.75 17.06 12.72 12.42
SDR average: 12.03 (v. 2024.03.28) 12.57 11.94 7.22 11.06 17.37 13.00 12.70
SDR average: 12.17 (v. 2024.04.04) 12.59 11.99 7.33 11.33 17.63 13.57 13.27
SDR average: 12.34 (v. 2024.05.21) 13.44 11.99 7.33 11.33 17.63 13.57 13.27
SDR average: 12.66 (v. 2024.07.14) 13.46 13.15 7.72 11.32 17.63 13.57 13.27
SDR average: 12.76 (v. 2024.08.15) 13.48 13.33 7.81 11.50 17.81 13.79 13.50
SDR average: 13.01 (v. 2024.12.20) 14.14 13.57 8.02 11.50 17.81 13.79 13.50
SDR average: 13.07 (v. 2024.12.28) 14.14 13.57 8.10 11.61 17.92 14.09 13.79
SDR average: 13.67 (v. 2025.06.30) 14.85 14.33 9.00 11.93 18.23 14.46 14.17

 

Algorithm name MDX23 Leaderboard
SDR Bass SDR Drums SDR Other SDR Vocals
Ensemble of 4 vocal models (2023.09)
(UVR-MDX-NET-Voc_FT, Demucs4 Vocals 2023, MDX23C, VitLarge23)
9.937 9.559 7.280 11.093
🗎 Копировать ссылку

BS Roformer SW (vocals, bass, drums, guitar, piano, other)

Модель BS Roformer SW, которая одновременно генерирует 6 стемов превосходного качества.

Таблица качества, которая показывает значения SDR из набора данных Multisong и из таблиц лидеров для фортепиано и гитары:

vocals instrum bass drums guitar piano other
11.30 17.50 14.62 14.11 9.05 7.83 8.71
🗎 Копировать ссылку

BS Roformer (vocals, instrumental)

Модель BS Roformer.  На данный момент модель даёт самое высокое качество разделения на вокальную и инструментальную дорожки (за исключением ансамблей). Метрики лучше чем у предыдущего лидера - MDX23C. Это модифицированная версия исходной модели BS Roformer. Изменения были сделаны lucidrains на github. Вторая версия весов для модели с лучшим качеством была подготовлена viperx. Последние версии моделей это улучшенные версия весов viperx. Они тренировались на гораздо большем датасете. И имеют лучшие метрики на трех различных проверерочных системах.

Таблица качества

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
BS Roformer (ver. 2024.02) 10.42 16.73 12.45 12.16 ---
BS Roformer (viperx edition) 10.87 17.17 12.71 12.41 11.751
BS Roformer (ver. 2024.04) 11.24 17.55 13.47 13.17 11.915
BS Roformer (ver. 2024.08) 11.31 17.62 13.56 13.27 ---
unwa high instrum fullness 10.94 17.25 13.23 12.94 ---
BS Roformer (ver. 2025.07) 11.89 18.20 14.58 14.28  

Детальная статистика на Multisong датасете:

 

Model Vocals fullness Vocals bleedless  Vocals SDR Vocals L1Freq Instrum fullness Instrum bleedless  Instrum SDR Instrum L1Freq
unwa high instrum fullness 15.85 24.29 10.94 36.92 34.72 40.43 17.25 39.50
BS Roformer (ver. 2025.07) 17.23 38.24 11.89 40.03 27.82 49.12 18.20 40.99

 

🗎 Копировать ссылку

MelBand Roformer (vocals, instrumental)

Алгоритм для разделения треков на вокальную и инструментальную части на базе нейронной сети MelBand Roformer. Нейронная сеть впервые предложена в статье "Mel-Band RoFormer for Music Source Separation" от группы ученых из компании ByteDance. Первые веса высокого качества в открытый доступ выложила Kimberley Jensen. Далее нейронная сеть с открытыми весами была немного изменена и дотренирована командой MVSep с целью улучшить метрики качества. Также имеются высококачественные веса, предоставленные: @Bas Curtiz, @unwa, @becruily и @gabox.

Таблица качества

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
MelBand Roformer (Kimberley Jensen) 11.01 17.32 12.68 12.38 11.543
MelBand Roformer (ver. 2024.08) 11.17 17.48 13.34 13.05 ---
Bas Curtiz edition 11.18 17.49 13.89 13.60 ---
unwa Instrumental v1 10.24 16.54 12.25 11.95 ---
unwa Instrumental v1e
Note: Max instrum fullness, but noisy
10.05 16.36 --- --- ---
unwa big beta v5e
Note: Max vocals fullness, but noisy
10.59 16.89 --- --- ---
MelBand Roformer (ver. 2024.10) 11.28 17.59 13.89 13.59 ---
becruily instrum max fullness 
Note: Max instrum fullness, but noisy
10.16 16.47 --- --- ---
becruily vocals max fullness
Note: Max vocals fullness, but noisy
10.55 16.86 --- --- ---
unwa Instrumental v1e plus
Note: Max instrum fullness, but noisy
10.33 16.64 --- --- ---
gabox Instrumental v7
Note: Max instrum fullness, but noisy
10.32 16.63 --- --- ---

Детальная статистика на Multisong датасете:

Модель Vocals fullness Vocals bleedless  Vocals SDR Vocals L1Freq Instrum fullness Instrum bleedless  Instrum SDR Instrum L1Freq
MelBand Roformer (Kimberley Jensen) 16.66 36.51 11.01 38.96 27.71 46.72 17.32 39.77
MelBand Roformer (ver. 2024.08) 16.39 39.13 11.18 39.26 27.74 47.07 17.49 40.16
Bas Curtiz edition 16.30 38.94 11.18 39.18 27.49 47.00 17.49 40.15
MelBand Roformer (ver. 2024.10) 16.92 37.78 11.28 39.41 27.71 47.29 17.59 40.29
unwa Instrumental v1 (SDR vocals: 10.24, SDR instrum: 16.54) 15.89 27.48 10.24 36.06 35.44 38.02 16.55 38.67
unwa Instrumental v1e (SDR vocals: 10.05, SDR instrum: 16.36) 14.67 26.83 10.06 34.37 38.85 35.68 16.37 38.31
unwa big beta v5e (SDR vocals: 10.59, SDR instrum: 16.89) 20.78 32.02 10.59 38.53 25.65 45.90 16.90 37.31
becruily instrum high fullness (SDR instrum: 16.47) 15.76 30.15 10.16 35.84 33.93 40.55 16.47 38.86
becruily vocals high fullness (SDR vocals: 10.55) 20.72 31.25 10.55 38.84 28.28 40.85 16.86 38.24
unwa Instrumental v1e plus (SDR vocals: 10.33, SDR instrum: 16.64) 14.96 31.89 10.33 35.76 36.20 38.57 16.64 39.04
gabox Instrumental v7 (SDR vocals: 10.32, SDR instrum: 16.63) 16.25 27.28 10.32 36.85 29.34 45.06 16.63 38.70
🗎 Копировать ссылку

MDX23C (vocals, instrumental)

Новый набор моделей MDX23C, основанный на коде опубликованном kuielab в рамках Sound Demixing Challenge 2023. Результаты полученных моделей содержат весь частотный спектр и имеют максимальные метрики качества для вокала и музыки на MultiSong Dataset и Synth Dataset.

Таблица качества

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
12K FFT, Full Band, Large Conv, Hop 1024 9.95 16.26 11.74 11.44 10.78
12K FFT, Full Band, Large Conv 9.71 16.02 --- --- ---
12K FFT, Full Band 9.68 15.99 --- --- ---
12K FFT, Full Band, 6 Poolings 9.49 15.79 --- --- ---
8K FFT, Full Band 10.17 16.48 12.35 12.06 11.04
8K FFT, Full Band (v2) 10.36 16.66 12.52 12.22 11.16
🗎 Копировать ссылку

SCNet (vocals, instrumental)

Алгоритм для разделения треков на вокальную и инструментальную части на базе нейронной сети SCNet. Нейронная сеть предложена в статье "SCNet: Sparse Compression Network for Music Source Separation" от группы ученых из Китая. Авторы выложили код нейронной сети в открытый доступ, а команда MVSep смогда воспроизвести результаты похожие на те, что приведены в опубликованной статье. Сначала мы натренировали маленькую версию SCNet, а затем спустя некоторое время была подготовлена и более тяжелая версия SCNet. Метрики качества довольно близки к качеству Roformer моделей (которые являются топовыми моделями на данный момент), но все же слегка им уступают. Однако в некоторых случаях модель может сработать лучше чем Roformer'ы.

Таблица качества

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
SCNet 10.25 16.56 12.27 11.97 ---
SCNet Large 10.74 17.05 12.89 12.59 ---
SCNet XL 10.96 17.27 13.08 12.78 ---
SCNet XL (high fullness) 10.92 17.23 --- --- ---
SCNet XL (very high fullness) 10.40 16.60 --- --- ---
SCNet XL IHF 11.11 17.41 13.29 12.99 ---

Подробная статистика на Multisong dataset:

Model Vocals fullness Vocals bleedless  Vocals SDR Vocals L1Freq Instrum fullness Instrum bleedless  Instrum SDR Instrum L1Freq
SCNet 17.34 25.24 10.25 35.47 29.35 32.34 16.56 36.24
SCNet Large 17.70 26.84 10.74 36.86 27.10 41.47 17.05 37.62
SCNet XL 17.96 26.95 10.96 37.35 28.74 39.42 17.27 38.09
SCNet XL (high fullness) 21.67 25.00 10.92 37.70 31.95 34.06 17.23 37.91
SCNet XL (very high fullness) 23.50 25.30 10.40 37.16 34.04 35.15 16.60 36.78
SCNet XL IHF 17.98 28.31 11.11 37.91 28.87 40.37 17.41 38.54
🗎 Копировать ссылку

Demucs4 HT (vocals, drums, bass, other)

Алгоритм Demucs4 HT. Лучший для разделения на bass/drums/other. Он был представлен в 2022 году командой из Facebook research. У алгоритма 3 версии: 

  • htdemucs_ft - лучшее качество, но медленный
  • htdemucs - ниже качество, но быстрый
  • htdemucs_6s - имеет два дополнительных стема для разделения "piano" и "guitar" (качество пока среднее).

Ссылка: https://github.com/facebookresearch/demucs/tree/ht/demucs

Метрики качества разделения

Название алгоритма Multisong dataset Synth dataset MDX23 Leaderboard
SDR Bass SDR Drums SDR Other SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
htdemucs_ft 12.05 11.24 5.74 8.33 14.63 10.23 9.94 9.08
htdemucs 11.74 10.90 5.57 8.18 14.49 --- ---  
htdemucs_6s 11.42 10.59 2.63 8.17 14.48 --- ---  
🗎 Копировать ссылку

MDX B (vocals, instrumental)

Модели MDX B основаны на коде kuielab из Music Demixing Challenge 2021. Модели были переобучены командой UVR на большом наборе данных. Долгое время модели были лучшими для разделения треков на вокальную и инструментальную партии.

Метрики качества

Название алгоритма Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
UVR-MDX-NET-Inst_HQ_5 9.45 15.76 --- --- ---
UVR-MDX-NET-Inst_HQ_4 9.71 16.01 11.53 11.23 ---
UVR-MDX-NET-Voc_FT 9.64 15.95 11.40 11.10 10.505
MDX Kimberley Jensen v2 9.60 15.91 --- --- 10.494
MDX Kimberley Jensen v1 9.48 15.79 --- --- ---
UVR-MDX-NET-Inst_HQ_3 9.38 15.68 11.32 11.03 10.254
MDX Kimberley Jensen Inst 9.28 15.59 --- --- ---
UVR-MDX-NET-Inst_HQ_2 9.12 15.42 --- --- ---
MDX UVR 2022.01.01 8.83 15.14 --- --- ---
UVR_MDXNET_Main 8.79 15.10 --- --- ---
MDX UVR 2022.07.25 8.67 14.97 --- --- ---
🗎 Копировать ссылку

Ultimate Vocal Remover VR (vocals, music)

Набор моделей из программы Ultimate Vocal Remover, которые основаны на старой VR-архитектуре. Большинство моделей вокальные, но есть так же специальные модели для караоке, пианино, устранение эффектов реверберации и т.д. В целом модели имеют среднее качество разделения, но могут быть полезны в некоторых сценариях.

🗎 Копировать ссылку

Demucs4 Vocals 2023 (vocals, instrum)

Demucs4 Vocals 2023 - это модель Demucs4 HT которая была обучена на большом вокальном/инструментальном датасете. Она имеет лучшие показатели разделения вокала по сравнению с Demucs4 HT (версия _ft). Но обычно она дает метрики чуть хуже, чем модели MDX23C, но может быть полезна для ансамблей, поскольку модель сильно отличается от MDX23C.

Quality table

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
Demucs4 Vocals 2023 9.04 15.35 11.59 11.29 9.61
🗎 Копировать ссылку

MelBand Karaoke (lead/back vocals)

Алгоритм для экстракции только ведущего вокала (lead vocals) и всего остального на базе модели MelBand Roformer. Работает как для произвольного музыкального трека, так же можно предварительно извлечь вокал выбрав опцию "Extract vocals first" в Extraction type. Во втором случае в отдельном файле будет доступен back vocals.

Существует 4 модели, одна подготовлена командой @aufr33 и viperx, вторая @becruily, третья @gabox и четвертая это объединенная модель @aufr33/viperx и @gabox.

Метрики качества приведены ниже. Для сравнения в таблице так же приведены метрики качества для старых алгоритмов UVR и MDX-B Karaoke.

Algorithm name Lead Vocals (SDR) Back Vocals (SDR) Back Vocals + Instrum SDR Instrum SDR
UVR (HP-KAROKEE-MSB2-3BAND-3090) 6.42 --- 11.79 ---
UVR (karokee_4band_v2_sn) 6.72 --- 12.09 ---
UVR (UVR-BVE-4B_SN-44100-1) --- 0.87 --- 4.90
MDX-B (Karaoke)  7.42 --- 12.81 ---
MDX-B (Karaoke) Extract from vocals 8.28 4.46 13.67 15.94
MelBand Roformer (@aufr33 и viperx) 9.45 --- 14.84 ---
MelBand Roformer (@becruily) 9.61 --- 15.00 ---
MelBand Roformer (@gabox) 9.67 --- 15.06 ---
MelBand Roformer (Fused @gabox and @aufr33/viperx) 9.85 --- 15.23 ---
MelBand Roformer (@aufr33 и viperx) extract vocals first 9.22 5.27 14.61 15.94
MelBand Roformer (@becruily) extract vocals first 8.98 4.98 14.24 15.94
MelBand Roformer (@gabox) extract vocals first 9.36 5.46 14.75 15.94
MelBand Roformer (Fused @gabox and @aufr33/viperx) extract vocals first 9.62 5.63 15.01 15.94
MelBand Roformer (Fused @gabox and @aufr33/viperx) extract vocals first 9.62 5.63 15.01 15.94
🗎 Копировать ссылку

MDX-B Karaoke (lead/back vocals)

Модель MDX-B Karaoke подготовлена в рамках проекта Ultimate Vocal Remover. Модель производит высококачественное извлечение ведущей вокальной партии из музыкального трека. Модель доступна в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к вокальной части. Во втором случае качество разделения обычно выше и при этом появляется возможность дополнительно отделить бэк-вокал в отдельную дорожку. Модель сравнивалась с двумя другими моделями из UVR (они тоже доступны на сайте) на большом валидационном наборе. Используемая метрика — SDR: чем больше, тем лучше.

См. результаты в таблице ниже.

Тип валидации Название алгоритма
UVR (HP-KAROKEE-MSB2-3BAND-3090) UVR (karokee_4band_v2_sn) MDX-B Karaoke (Type 0) MDX-B Karaoke (Type 1)
Validation lead vocals 6.46 6.34 6.81 7.94
Validation other 13.17 13.02 13.53 14.66
Validation back vocals --- --- --- 1.88
🗎 Копировать ссылку

MVSep Piano (piano, other)

Модель MVSep Piano представлена в нескольких вариантах, основанных на архитектурах MDX23C, MelRoformer и SCNet Large. Модель производит высококачественное разделение музыки на партию фортепиано и всего остального. Для сравнения в таблице приведены метрики на открытой модели Demucs4HT (6 партий). Используемая метрика SDR - чем больше, тем лучше.

См. результаты в таблице ниже.

Название алгоритма Тип валидации
piano (SDR) other (SDR)
Demucs4HT (6 stems) 2.23 14.51
mdx23c (2023.08, SDR: 4.79) 4.79 17.07
mdx23c (2024.09, SDR: 5.59) 5.59 17.89
MelRoformer (viperx, SDR: 5.67) 5.67 17.95
SCNet Large (2024.09, SDR: 5.89) 5.89 18.16
Ensemble (SCNet + Mel, SDR: 6.19) 6.19 18.47
BS Roformer SW (SDR: 7.83) 7.83 19.97

 

🗎 Копировать ссылку

MVSep Guitar (guitar, other)

Модель MVSep Guitar основана на архитектурах MDX23C, MelRoformer и BSRoformer. Модель производит высококачественное разделение музыки на партию гитары (включает акустическую и электронную) и всего остального. Модель сравнивалась с моделью Demucs4HT (6 партий) на валидационном наборе для гитары (30 треков). Используемая метрика — SDR: чем больше, тем лучше.

См. результаты в таблице ниже.

Название алгоритма Тип валидации
guitar (SDR) other (SDR)
Demucs4HT (6 stems) 5.22 12.19
mdx23c (2023.08, SDR: 4.78) 4.78 11.75
mdx23c (2024.06, SDR: 6.34) 6.34 13.31
MelRoformer (2024.06, SDR: 7.02) 7.02 13.99
BSRoformer (viperx, SDR: 7.16) 7.16 14.13
Ensemble (mdx23 + MelRoformer, SDR: 7.18) 7.18 14.15
Ensemble (BSRoformer+ MelRoformer, SDR: 7.51) 7.51 14.48
BS Roformer SW (SDR: 9.05) 9.05 16.02

 

🗎 Копировать ссылку

MVSep Bass (bass, other)

Модель MVSep Bass существует в 3 различных вариантах на основе следующих архитектур: HTDemucs4, BS Roformer и SCNet XL. Модель производит высококачественное разделение музыки на басовую часть и все остальное.

Метрики качества

Название алгоритма Multisong dataset MDX23 Leaderboard
SDR Bass SDR Other SDR Bass
BS Roformer 12.49 16.59 ---
HTDemucs4 12.52 16.64 ---
SCNet XL 13.81 17.93 ---
BS + HTDemucs + SCNet XL Ensemble 14.07 18.18 ---
BS + HTDemucs + SCNet XL Ensemble (+extract from Instrumental) 14.12 --- ---
BS Roformer SW 14.62 --- ---
SCNet XL + BS Roformer SW 14.87 --- ---

 

🗎 Копировать ссылку

MVSep Drums (drums, other)

Модель MVSep Drums представлена в 3 вариантах основанных на архитектурах: HTDemucs4, MelRoformer и SCNet. Модель производит качественное разделение музыки на барабанную партию и все остальное. Метрики качества доступны в таблице ниже.

Название алгоритма Multisong dataset MDX23 Leaderboard
SDR Drums SDR Other SDR Drums
HTDemucs4 12.04 16.56 ---
MelBand Roformer 12.76 17.28 ---
SCNet Large 13.01 17.53 ---
SCNet XL 13.42 18.00  
MelBand + SCNet XL Ensemble 13.78 18.31 ---
BS Roformer SW 14.11 --- ---
MelBand + SCNet XL + BS Roformer SW Ensemble 14.35 --- ---

 Detailed statistics on Multisong dataset:

Model Drums fullness Drums bleedless  Drums SDR Drums L1Freq Other fullness Other bleedless  Other SDR Other L1Freq
HTDemucs4 15.36 25.00 12.04 37.47 33.03 37.22 16.56 38.37
MelBand Roformer 14.16 42.12 12.76 40.80 33.97 47.24 17.28 42.02
SCNet Large 14.91 28.23 13.01 38.04 35.39 35.03 17.53 39.36
SCNet XL 21.21 24.47 13.42 40.30 38.56 38.32 18.00 40.35
MelBand + SCNet XL Ensemble 19.66 30.23 13.78 41.74 38.09 42.90 18.31 42.00
BS Roformer SW 14.78 43.70 14.11 42.23 --- --- --- ---
MelBand + SCNet XL + BS Roformer SW Ensemble 16.97 39.73 14.35 42.74 --- --- --- ---
🗎 Копировать ссылку

MVSep Strings (strings, other)

Модель MVSep Strings это модель на базе архитектуры MDX23C для разделения музыки на струнные смычковые инструменты и все остальное. Метрика SDR: 3.84

🗎 Копировать ссылку

MVSep Wind (wind, other)

Модель MVSep Wind производит качественное разделение музыки на партию духовых инструментов и все остальное. Духовые включают в себя 2 категории инструментов: медные и деревянные духовые. Более конкретно мы включили в духовые: флейту, саксофон, трубу, тромбон, валторну, кларнет, гобой, губную гармошку, волынку, фагот, тубу, казу, пикколо, флюгельгорн, окарину, сякухати, мелодику, язычковые, диджериду, мюссетт, гайду.

Метрики качества

Algorithm name Wind dataset
SDR Wind SDR Other
MelBand Roformer 6.73 16.10
SCNet Large 6.76 16.13
MelBand + SCNet Ensemble 7.22 16.59
MelBand + SCNet Ensemble (+extract from Instrumental) --- ---

 

🗎 Копировать ссылку

MVSep Organ (organ, other)

Модель MVSep Organ производит качественное разделение музыки на органную партию и все остальное.

🗎 Копировать ссылку

Apollo Enhancers (by JusperLee and Lew)

Алгоритм восстанавливает качество звука. Модель была предложена в этой статье и опубликована на github.

Доступны 3 модели:
1) MP3 Enhancer (автор JusperLee) - восстанавливает файлы MP3, сжатые с битрейтом 32 кбит/с до 128 кбит/с. Он не будет работать для файлов с большим битрейтом.
2) Universal Super Resolution (автор Lew) - восстанавливает более высокие частоты для любой музыки
3) Vocals Super Resolution (автор Lew) - восстанавливает более высокие частоты и общее качество для любого вокала

🗎 Копировать ссылку

MVSep Crowd removal (crowd, other)

Уникальная модель для удаления звуков толпы из музыкальных записей (аплодисменты, хлопки, свист, шум, смех и т.д.). Текущие показатели нашего внутреннего набора данных для контроля качества:

Algorithm name Crowd dataset
SDR crowd SDR other
Crowd model MDX23C (v1) 5.57 18.79
Crowd model MDX23C (v2) 6.06 19.28

Примеры работы модели можно найти: здесь и здесь.

🗎 Копировать ссылку

BandIt Plus (speech, music, effects)

Модель BandIt Plus для разделения треков на голос, музыку и эффекты. Она может быть полезна для телевизионных или кинематографических роликов. Модель была выложена авторами статьи "A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation" в репозитории на GitHub. Модель была натренирована на наборе данных Divide and Remaster (DnR). И на данный момент имеет лучшие метрики качества среди подобных моделей.

Таблица качества

Название алгоритма DnR dataset
SDR Speech SDR Music SDR Effects
BandIt Plus 15.62 9.21 9.69
🗎 Копировать ссылку

MVSep DnR v3 (speech, music, sfx)

MVSep DnR v3 - это кинематографическая модель для разделения треков на 3 части: музыка, эффекты и диалоги. Она обучена на огромном мультиязыковом датасете DnR v3 и генерирует стемы speech, music и sfx. Метрики качества на проверочных данных получились лучше, чем у аналогичной мультиязыковой модели Bandit v2. Модель доступна в 3 вариантах: на базе архитектур SCNet, MelBand Roformer, а также ансамбль этих двух моделей. См. таблицу ниже:

Название алгоритма
Метрики качества в таблице лидеров DnR v3
music (SDR) sfx (SDR) speech (SDR)
SCNet Large  9.94 11.35 12.59
Mel Band Roformer 9.45 11.24 12.27
Ensemble (Mel + SCNet) 10.15 11.67 12.81
Bandit v2 (для сравнения) 9.06 10.82 12.29
🗎 Копировать ссылку

DrumSep (4-6 stems: kick, snare, cymbals, toms, ride, hh, crash)

Модель производит разделение дорожки барабанов на 4, 5 или 6 типов: 'kick', 'snare', 'cymbals', 'toms'. В моделях для 5 дорожек из 'cymbals' выделяется 'hh', а в случае 6 дорожек 'cymbals' разбивается на 'hh', 'ride' и 'crash'.

Всего доступно 8 моделей: 
1) Используется модель DrumSep из репозитория на github обученная на базе архитектуры HDemucs и разбивающая барабаны на 4 дорожки.
2) Модель на  базе архитектуры mdx23c, подготовленная @jarredou и @aufr33. Модель разбивает барабаны на 6 дорожек.
3) Модель на  базе архитектуры SCNet XL, которая разбивает барабаны на 5 дорожек.
4) Модель на  базе архитектуры SCNet XL, которая разбивает барабаны на 6 дорожек.
5) Модель на  базе архитектуры SCNet XL, которая разбивает барабаны на 4 дорожки.
6) Ансамбль 4 моделей (одна MDX23C и три SCNet XL)
7) Модель на  базе архитектуры Mel Band Roformer, которая разбивает барабаны на 4 дорожки.
8) Модель на  базе архитектуры Mel Band Roformer, которая разбивает барабаны на 6 дорожек.

Все модели работают только с дорожкой барабанов, если в дорожке присутствуют другие инструменты или голос, то модель будет работать некорректно. Поэтому алгоритм имеет два режима работы. В первом (по умолчанию) сначала к треку применяется лучшая модель для барабанов MVSep Drums, которая извлекает из трека только барабанную часть. Далее уже применяется модель DrumSep. Если ваш трек состоит только из барабанов, то имеет смысл использовать второй режим, где модель DrumSep применяется непосредственно к загруженному аудио.

Таблица качества (метрика SDR, чем больше тем лучше):

Algorithm name kick snare toms cymbals
hh ride crash
DrumSep model by inagoy (HDemucs, 4 stems) 14.13 8.42 5.67 5.63
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems) 18.32 13.60 13.25 6.71 5.38 7.56
DrumSep SCNet XL (5 stems) 20.21 15.05 16.28 7.05 8.56
DrumSep SCNet XL (6 stems) 20.24 14.80 15.93 6.74 5.02 7.63
DrumSep SCNet XL (4 stems) 20.50 14.69 15.92 10.08
Ensemble of 4 models (3 * SCNet + MDX23C) 20.59 15.11 16.41 7.19 5.59 7.85
DrumSep Mel Band Roformer (4 stems) 22.22 17.09 15.86 11.87
DrumSep Mel Band Roformer (6 stems) 20.21 15.33 15.48 8.79 6.96 8.79

Таблица качества (метрика L1 Freq, чем больше тем лучше):

Algorithm name kick snare toms cymbals
hh ride crash
DrumSep model by inagoy (HDemucs, 4 stems) 74.34 62.20 73.52 68.87
DrumSep model by aufr33 and jarredou (MDX23C, 4 stems) 78.20 71.27 84.22 80.84 86.74 79.41
DrumSep SCNet XL (5 stems) 81.56 73.16 87.85 80.65 75.44
DrumSep SCNet XL (6 stems) 81.63 72.75 87.46 79.97 85.73 78.67
DrumSep SCNet XL (4 stems) 81.69 72.90 88.43 73.64
Ensemble of 4 models (3 * SCNet + MDX23C) 81.91 73.41 88.24 81.12 86.91 79.41
DrumSep Mel Band Roformer (4 stems) 84.97 77.78 90.13 78.16
DrumSep Mel Band Roformer (6 stems) 81.82 75.63 88.93 85.66 90.50 82.18

Таблица качества (метрика Fullness, чем больше тем лучше):

Algorithm name kick snare toms cymbals
hh ride crash
DrumSep model by inagoy (HDemucs, 4 stems) 13.61 18.80 20.86 15.80
DrumSep model by aufr33 and jarredou (MDX23C, 4 stems) 18.67 17.85 18.29 12.95 15.76 14.92
DrumSep SCNet XL (5 stems) 18.40 30.94 29.64 13.28 15.15
DrumSep SCNet XL (6 stems) 32.03 29.43 36.04 13.64 14.05 15.05
DrumSep SCNet XL (4 stems) 29.87 30.53 48.35 17.48
Ensemble of 4 models (3 * SCNet + MDX23C) 23.89 30.06 36.19 14.23 18.34 15.43
DrumSep Mel Band Roformer (4 stems) 19.45 23.09 40.32 16.44
DrumSep Mel Band Roformer (6 stems) 15.22 25.98 42.33 19.53 20.51 19.39

Таблица качества (метрика Bleedless, чем больше тем лучше):

Algorithm name kick snare toms cymbals
hh ride crash
DrumSep model by inagoy (HDemucs, 4 stems) 48.04 18.25 33.85 14.65
DrumSep model by aufr33 and jarredou (MDX23C, 4 stems) 53.25 38.81 56.08 10.52 8.17 14.55
DrumSep SCNet XL (5 stems) 53.33 26.00 51.72 7.97 12.66
DrumSep SCNet XL (6 stems) 36.82 28.82 40.28 7.43 8.25 11.93
DrumSep SCNet XL (4 stems) 44.34 29.05 28.87 16.35
Ensemble of 4 models (3 * SCNet + MDX23C) 51.58 32.20 46.38 8.32 8.51 14.26
DrumSep Mel Band Roformer (4 stems) 69.11 57.86 51.44 50.52
DrumSep Mel Band Roformer (6 stems) 74.12 52.23 46.14 35.19 31.70 36.12

@jarredou подготовил новый набор данных для проверки DrumSep. Он состоит из 150 небольших различных треков. 1-я часть — наборы ударных от 001 до 017 (по 5 треков для каждого из этих наборов ударных с разным стилем игры) — акустические барабаны. От 018 до 082 (по 1 треку на набор ударных) — электробарабаны. Этот набор данных предназначен для разделения барабанов на 5 стемов: ['kick', 'snare', 'toms', 'hh', 'cymbals']. Для 6 моделей стемов 'ride' и 'crash' были суммированы в 'cymbals'. Для 4 моделей стемов 'hh' и 'cymbals' были суммированы в 'cymbals'.

Таблица качества (метрика SDR, чем больше тем лучше):

Algorithm name kick snare toms cymbals
hh ride crash
DrumSep model by inagoy (HDemucs, 4 stems) 10.52 6.05 4.68 5.03
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems) 14.54 9.79 10.63 3.19 6.08
DrumSep SCNet XL (5 stems) 17.89 12.56 14.14 3.63 6.15
DrumSep SCNet XL (6 stems) 17.74 12.43 14.24 3.39 5.91
DrumSep SCNet XL (4 stems) 17.61 12.37 13.40 7.48
DrumSep Mel Band Roformer (4 stems) 18.67 13.55 13.60 8.76
DrumSep Mel Band Roformer (6 stems) 17.46 12.64 13.69 5.05 7.06

Таблица качества (метрика L1 Freq, чем больше тем лучше):

Algorithm name kick snare toms cymbals
hh ride crash
DrumSep model by inagoy (HDemucs, 4 stems) 48.68 30.27 42.44 39.26
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems) 56.95 38.31 54.65 47.47 47.39
DrumSep SCNet XL (5 stems) 61.56 43.06 60.76 48.19 47.49
DrumSep SCNet XL (6 stems) 61.46 42.42 60.55 47.32 46.43
DrumSep SCNet XL (4 stems) 61.59 42.91 60.46 44.65
DrumSep Mel Band Roformer (4 stems) 65.24 47.13 63.50 49.77
DrumSep Mel Band Roformer (6 stems) 63.58 46.14 62.94 53.98 51.83

Таблица качества (метрика Log WMSE, чем больше тем лучше):

Algorithm name kick snare toms cymbals
hh ride crash
DrumSep model by inagoy (HDemucs, 4 stems) 12.76 11.70 11.41 19.27
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems) 16.47 15.13 16.89 23.18 22.32
DrumSep SCNet XL (5 stems) 19.54 17.69 20.12 23.59 22.39
DrumSep SCNet XL (6 stems) 19.41 17.57 20.21 23.38 22.17
DrumSep SCNet XL (4 stems) 19.29 17.52 19.44 21.54
DrumSep Mel Band Roformer (4 stems) 20.27 18.62 19.63 22.74
DrumSep Mel Band Roformer (6 stems) 19.16 17.77 19.71 24.94 23.23
🗎 Копировать ссылку

Whisper (extract text from audio)

Whisper — это модель нейронной сети автоматического распознавания речи (ASR) и перевода речи от компании OpenAI. Модель имеет несколько версий. На MVSep мы используем самую большуюю и точную: «Whisper large-v3». Модель Whisper large-v3 была обучена на нескольких миллионах часов аудио. Это многоязычная модель, и она автоматически умеет определять язык текста. Чтобы применить модель к вашему аудио, у вас есть 2 варианта:
1) «Apply to original file» — это означает, что модель шепота будет применена непосредственно к отправленному вами файлу. 
2) «Extract vocals first» — в этом случае перед использованием шепота сначала применяется модель BS Roformer для извлечения вокала. Она может удалить ненужный шум, чтобы улучшить качество работы Whisper.

У исходной модели были некоторые проблемы с таймингами транскрипции. Это было исправлено @linto-ai. Его вариант транскрипции доступен c опцией "New timestamps by linto-ai", но иногда этот метод может давать нежелательные артифакты. Оригинальный вариант таймингов доступен по опции "Old version of timestamps by whisper".

Более подробную информацию о модели можно найти здесь: https://huggingface.co/openai/whisper-large-v3 и здесь: https://github.com/openai/whisper

 

🗎 Копировать ссылку

Parakeet (extract text from audio)

Parakeet от NVIDIA — это современная модель автоматического распознавания речи (ASR), разработанная для точного и эффективного преобразования устной английской речи в текст. Модель в отличие от Whisper работает только с английской речью, но для английского языка дает более качественный результат. Так же генерирует довольно точные временные метки. Метрика качества WER: 6.03 на Huggingface Open ASR Leaderboard.

Страница модели: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

🗎 Копировать ссылку

Medley Vox (Multi-singer separation)

Medley Vox - это датасет для тестирования алгоритмов разделения нескольких певцов в рамках одного музыкального трека. Так же авторы Medley Vox предложили архитектуру нейронной сети для разделения певцов. Однако, к сожалению, они не выложили веса. Позже их тренировочный процесс повторил Cyru5, натренировав несколько моделей и выложил веса в открытый доступ. Теперь натренированная нейронная сеть доступна на MVSep. 

🗎 Копировать ссылку

MVSep Multichannel BS (vocals, instrumental)

MVSep Multichannel BS - эта модель подготовлена для экстракции вокала из мультиканального звука (5.1, 7.1 и.т.д.). Упор на отсутствие преобразований и потери качества. После обработки модель возвращает мультиканальный звук в том же формате, в каком он был отправлен на сервер с тем же sample rate.

🗎 Копировать ссылку

MVSep Male/Female separation

Модель для разделения мужских и женских голосов в рамках одной вокальной дорожки. Дорожка должна содержать только голоса, без музыки. Если у вас есть лишние звуки, то используйте опцию "Extract vocals first with BS Roformer".

Метрики качества

Algorithm name Male/Female validation dataset
SDR Male SDR Female L1_Freq Male L1_Freq Female
BSRoformer by Sucial (SDR: 6.52) 6.82 6.23 40.99 40.62
BSRoformer by aufr33 (SDR: 8.18) 8.47 7.89 46.65 44.73
SCNet XL (SDR: 11.83) 12.08 11.58 50.50 51.51
MelRoformer (2025.01) (SDR: 13.03) 13.39 12.68 57.61 56.76

 

🗎 Копировать ссылку

  • ‹
  • 1
  • 2
  • ›
MVSEP Logo

turbo@mvsep.com

Дополнительные разделы

Проверка качества алгоритмов

Алгоритмы

Полная документация по API

Компания

Политика конфиденциалности

Условия и Положения

Политика возврата

Cookie Notice

Дополнительно

Помогите нам перевести!

Помогите в продвижении!