На MVSep сейчас много алгоритмов. Какой алгоритм выбрать?
- Если вам нужен хороший изолированный вокал или инструментал, используйте один из: Ultimate Vocal Remover HQ, MDX-B, Demucs3 (Model B)
- Если вам нужен хороший бас, ударные и прочее: Demucs3 (Model B)
Для сравнения алгоритма мы используем SDR (соотношение сигнал/искажение) метрика. Чем больше метрика, тем лучше результат алгоритма.
Таблица 1. Сравнение тестового набора MUSDB18HQ
Алгоритм | SDR bass | SDR drums | SDR other | SDR vocals | SDR instrumental (перевернутый вокал) |
Ссылка на модель | Демо |
---|---|---|---|---|---|---|---|
spleeter (2 Стемы) |
--- | --- | --- | 6.8647 | 13.3231 | Ссылка | Демо |
spleeter (4 Стемы) |
4.8200 | 6.3390 | 4.5362 | 6.7021 | 13.1434 | Ссылка | Демо |
spleeter (5 Стемы) |
4.6376 | 6.1300 | 3.8689 | 6.5027 | 12.9646 | Ссылка | Демо |
Unmix XL |
5.9577 | 7.7001 | 5.2165 | 7.6852 | 14.1339 | Ссылка | Демо |
Unmix HQ |
4.6124 | 6.3807 | 3.6915 | 6.0783 | 12.5660 | Ссылка | Демо |
Unmix SD |
4.7894 | 6.2632 | 3.8281 | 6.1822 | 12.6689 | Ссылка | Демо |
Demucs 2 |
4.6145 | 6.1588 | 3.1786 | 5.3980 | 11.8388 | Ссылка | Демо |
MDX-A |
4.9803 | 6.1111 | 4.1430 | 7.1758 | 13.6192 | Ссылка | Демо |
MDX-B (Default + Demucs2 data) * |
5.2035 | 7.7192 | 5.3624 | 7.9621 | 14.3854 | Ссылка | Демо |
MDX-B (ONNX Only) * |
6.5687 | 10.2110 | 7.3126 | 9.9084 | 16.3305 | Ссылка | Демо |
UVR HQ (2 Стемы) |
4.1616 | 6.1976 | --- | 8.6975 | 14.7872 | Ссылка | Демо |
Demucs 3 (Model A) |
7.6054 | 8.8748 | 5.5306 | 8.2012 | 14.6347 | Ссылка | Демо |
Demucs 3 (Model B) * |
11.3270 | 12.0055 | 8.2793 | 9.9202 | 16.2890 | Ссылка | Демо |
Zero Shot (QBLWLD) |
2.6324 | 3.3939 | 1.4146 | 4.1016 | --- | Ссылка | Демо |
Danna Sep (CPU) |
6.3462 | 7.8521 | 5.0470 | 7.9611 | 14.4007 | Ссылка | Демо |
Byte Dance | --- | --- | --- | 8.1485 | 14.5739 | Ссылка | Демо |
UVR Demucs (Model 1) | --- | --- | --- | 9.0877 | 15.4612 | Ссылка | Демо |
MVSep Vocal model v2 | --- | --- | --- | 8.8292 | 15.2719 | Ссылка | Демо |
Demucs4 HT | 8.9770 | 10.0886 | 6.1301 | 9.0252 | 15.4318 | Ссылка | Демо |
* - эти числа неверны, поскольку для обучения этих моделей использовался тестовый набор MUSDB18.
Алгоритм | Качество (Bass) | Качество (Drums) | Качество (Other) | Качество (Vocals) | Примеры |
---|---|---|---|---|---|
Spleeter (4 Стемы) | 5.774 | 5.845 | 4.321 | 6.939 | Пример |
UmxXL | 6.619 | 6.838 | 4.891 | 7.732 | Пример |
MDX A | 7.232 | 7.173 | 5.636 | 8.901 | Пример |
MDX B (Orig) | 7.495 | 7.554 | 5.533 | 8.896 | --- |
MDX B (UVR) | 7.495 | 7.554 | 5.533 | 9.482 | Пример |
Ultimate Vocal Remover HQ | --- | --- | --- | --- | Пример |
Demucs 3 Model A | 8.115 | 8.037 | 5.193 | 7.968 | Пример |
Demucs 3 Model B | 8.856 | 8.850 | 5.978 | 8.756 | Пример |
Danna Sep | 6.993 | 7.018 | 4.901 | 7.686 | --- |
Byte Dance | ---- | ---- | ---- | 8.079 | --- |
Таблица 3. Сравнение алгоритмов на основе синтетического набора данных. Метрика SDR (чем выше, тем лучше)
Алгоритм | Качество (Vocals) | Качество (Instrumental) |
---|---|---|
Spleeter (2 Стемы) | 7.1930 | 6.6612 |
Spleeter (4 Стемы) | 7.3168 | 7.0206 |
Spleeter (5 Стемы) | 7.1761 | 6.8799 |
Unmix XL | 8.4581 | 8.1619 |
Unmix HQ | 6.9301 | 6.6339 |
Unmix SD | 7.0438 | 6.7476 |
MDX-A | 8.6540 | 8.3578 |
MDX-B | 10.8872 | 10.4585 |
UVR HQ (2 Стемы) | 9.4008 | 9.0839 |
Demucs 3 (Model A) | 9.0464 | 8.7502 |
Demucs 3 (Model B) | 9.7837 | 9.4875 |
Demux 2 | 8.5364 | 8.2402 |
Danna Sep | 8.5975 | 8.3013 |
Byte Dance | 7.9893 | 7.6931 |
UVR Demucs (Model 1) | 8.7951 | 8.6191 |
MVSep Vocal model v2 | 10.4523 | 10.1561 |
Demucs4 HT | 10.2397 | 9.9435 |
Таблица 4. Сравнение агрессивности модели HP2-4BAND-3090_4band_arch-500m_1 на синтетическом наборе данных. Метрика SDR (чем выше, тем лучше)
Агрессивность | Качество (Vocals) | Качество (Instrumental) |
---|---|---|
0.0 | 9.3259 | 8.8948 |
0.1 | 9.3580 | 8.9277 |
0.2 | 9.3824 | 8.9527 |
0.3 | 9.4008 | 8.9719 |
0.4 | 9.4147 | 8.9864 |
0.5 | 9.4250 | 8.9972 |
0.6 | 9.4324 | 9.0051 |
0.7 | 9.4374 | 9.0106 |
0.8 | 9.4404 | 9.0142 |
0.9 | 9.4419 | 9.0161 |
1.0 | 9.4420 | 9.0167 |
turbo@mvsep.com