Vocal & Instrumental Isolation

MVSep DnR v3 - это кинематографическая модель для разделения треков на 3 части: музыка, эффекты и диалоги. Она обучена на огромном мультиязыковом датасете DnR v3 и генерирует стемы speech, music и sfx. Метрики качества на проверочных данных получились лучше, чем у аналогичной мультиязыковой модели Bandit v2. Модель доступна в 3 вариантах: на базе архитектур SCNet, MelBand Roformer, а также ансамбль этих двух моделей. См. таблицу ниже:

Название алгоритма	Метрики качества в таблице лидеров DnR v3
	music (SDR)	sfx (SDR)	speech (SDR)
SCNet Large	9.94	11.35	12.59
Mel Band Roformer	9.45	11.24	12.27
Ensemble (Mel + SCNet)	10.15	11.67	12.81
Bandit v2 (для сравнения)	9.06	10.82	12.29

MVSep DnR v3 (speech, music, effects)

Advanced features

Company

Extra