Алгоритм для разделения треков на вокальную и инструментальную части на базе нейронной сети SCNet. Нейронная сеть предложена в статье "SCNet: Sparse Compression Network for Music Source Separation" от группы ученых из Китая. Авторы выложили код нейронной сети в открытый доступ, а команда MVSep смогда воспроизвести результаты похожие на те, что приведены в опубликованной статье. Сначала мы натренировали маленькую версию SCNet, а затем спустя некоторое время была подготовлена и более тяжелая версия SCNet. Метрики качества довольно близки к качеству Roformer моделей (которые являются топовыми моделями на данный момент), но все же слегка им уступают. Однако в некоторых случаях модель может сработать лучше чем Roformer'ы.
Таблица качества
Algorithm name | Multisong dataset | Synth dataset | MDX23 Leaderboard |
||
SDR Vocals | SDR Instrumental | SDR Vocals | SDR Instrumental | SDR Vocals | |
SCNet | 10.25 | 16.56 | 12.27 | 11.97 | --- |
SCNet Large | 10.74 | 17.05 | 12.89 | 12.59 | --- |
SCNet XL | 10.96 | 17.27 | 13.08 | 12.78 | --- |
SCNet XL (high fullness) | 10.92 | 17.23 | --- | --- | --- |
SCNet XL (very high fullness) | 10.40 | 16.60 | --- | --- | --- |
SCNet XL IHF | 11.11 | 17.41 | 13.29 | 12.99 | --- |
Подробная статистика на Multisong dataset:
Model | Vocals fullness | Vocals bleedless | Vocals SDR | Vocals L1Freq | Instrum fullness | Instrum bleedless | Instrum SDR | Instrum L1Freq |
SCNet | 17.34 | 25.24 | 10.25 | 35.47 | 29.35 | 32.34 | 16.56 | 36.24 |
SCNet Large | 17.70 | 26.84 | 10.74 | 36.86 | 27.10 | 41.47 | 17.05 | 37.62 |
SCNet XL | 17.96 | 26.95 | 10.96 | 37.35 | 28.74 | 39.42 | 17.27 | 38.09 |
SCNet XL (high fullness) | 21.67 | 25.00 | 10.92 | 37.70 | 31.95 | 34.06 | 17.23 | 37.91 |
SCNet XL (very high fullness) | 23.50 | 25.30 | 10.40 | 37.16 | 34.04 | 35.15 | 16.60 | 36.78 |
SCNet XL IHF | 17.98 | 28.31 | 11.11 | 37.91 | 28.87 | 40.37 | 17.41 | 38.54 |