MVSep DnR v3 - это кинематографическая модель для разделения треков на 3 части: музыка, эффекты и диалоги. Она обучена на огромном мультиязыковом датасете DnR v3 и генерирует стемы speech, music и sfx. Метрики качества на проверочных данных получились лучше, чем у аналогичной мультиязыковой модели Bandit v2. Модель доступна в 3 вариантах: на базе архитектур SCNet, MelBand Roformer, а также ансамбль этих двух моделей. См. таблицу ниже:
Название алгоритма |
Метрики качества в таблице лидеров DnR v3 |
||||
music (SDR) | sfx (SDR) | speech (SDR) | |||
SCNet Large | 9.94 | 11.35 | 12.59 | ||
Mel Band Roformer | 9.45 | 11.24 | 12.27 | ||
Ensemble (Mel + SCNet) | 10.15 | 11.67 | 12.81 | ||
Bandit v2 (для сравнения) | 9.06 | 10.82 | 12.29 |