У нас много обновлений, которые касаются вокальных моделей:
1) Была обновлена модель BS Roformer (vocals, instrumental). Метрики SDR выросли для вокала с 11.24 до 11.31 и для инструментальной партии с 17.55 до 17.62
2) Мы добавили новую модель MelBand Roformer (vocals, instrumental). Нейронная сеть впервые предложена в статье "Mel-Band RoFormer for Music Source Separation" от группы ученых из компании ByteDance. Первые веса высокого качества в открытый доступ выложила Kimberley Jensen. Далее нейронная сеть с открытыми весами была немного изменена и дотренирована командой MVSep с целью улучшить метрики качества. SDR для вокала сравнимы с BS Roformer: 11.17. SDR для инструментальной партии: 17.48.
3) За счёт появления новой модели MelBand Roformer у всех алгоритмов серии Ensemble увеличились метрики для вокала с 11.33 до 11.50 и для инструментальной партии с 17.63 до 17.81.
4) Мы добавили новую модель SCNet (vocals, instrumental). Нейронная сеть предложена в статье "SCNet: Sparse Compression Network for Music Source Separation" от группы ученых из Китая. Авторы выложили код нейронной сети в открытый доступ, а команда MVSep смогда воспроизвести результаты похожие на те, что приведены в опубликованной статье. Сначала мы натренировали маленькую версию SCNet, а затем спустя некоторое время была подготовлена и более тяжелая версия SCNet. Метрики качества довольно близки к качеству Roformer моделей (которые являются топовыми моделями на данный момент), но все же слегка им уступают. Метрики SDR для большой версии сети. Вокал: 10.74 и инструментальная партия: 17.05.
5) Добавлена экспериментальная модель для удаления шума DeNoise by aufr. Модель подготовлена и выложена в открытый доступ автором aufr.
Все замеры метрик SDR проводились на Multisong датасете.