MVSep DnR v3 - это кинематографическая модель для разделения треков на 3 части: музыка, эффекты и диалоги. Она обучена на огромном мультиязыковом датасете DnR v3 и генерирует стемы speech, music и sfx. Метрики качества на проверочных данных получились лучше, чем у аналогичной мультиязыковой модели Bandit v2. Модель доступна в 3 вариантах: на базе архитектур SCNet, MelBand Roformer, а также ансамбль этих двух моделей. См. таблицу ниже:
| Название алгоритма |
Метрики качества в таблице лидеров DnR v3 |
||||
| music (SDR) | sfx (SDR) | speech (SDR) | |||
| SCNet Large | 9.94 | 11.35 | 12.59 | ||
| Mel Band Roformer | 9.45 | 11.24 | 12.27 | ||
| Ensemble (Mel + SCNet) | 10.15 | 11.67 | 12.81 | ||
| Bandit v2 (для сравнения) | 9.06 | 10.82 | 12.29 | ||