MVSepには現在多数のアルゴリズムがあります。どのアルゴリズムを選ぶべきか?
- クリアなボーカルや楽器の分離が必要な場合は、次のいずれかを使用してください: Ultimate Vocal Remover HQ、MDX-B、Demucs3(モデルB)
- ベースやドラム、その他をしっかりとしたものが欲しい場合: Demucs3(モデルB)
アルゴリズムの比較には、SDR (signal-to-distortion ratio)指標を使用します。この指標が大きいほど、アルゴリズムの結果が優れています。
表1. MUSDB18HQのテストセットにおける比較
| アルゴリズム |
SDR bass |
SDR drums |
SDR other |
SDR vocals |
SDR instrumental (反転ボーカル) |
モデルリンク |
デモ |
spleeter (2 ステムズ) |
--- |
--- |
--- |
6.8647 |
13.3231 |
リンク |
デモ |
spleeter (4 ステムズ) |
4.8200 |
6.3390 |
4.5362 |
6.7021 |
13.1434 |
リンク |
デモ |
spleeter (5 ステムズ) |
4.6376 |
6.1300 |
3.8689 |
6.5027 |
12.9646 |
リンク |
デモ |
Unmix XL |
5.9577 |
7.7001 |
5.2165 |
7.6852 |
14.1339 |
リンク |
デモ |
Unmix HQ |
4.6124 |
6.3807 |
3.6915 |
6.0783 |
12.5660 |
リンク |
デモ |
Unmix SD |
4.7894 |
6.2632 |
3.8281 |
6.1822 |
12.6689 |
リンク |
デモ |
Demucs 2 |
4.6145 |
6.1588 |
3.1786 |
5.3980 |
11.8388 |
リンク |
デモ |
MDX-A |
4.9803 |
6.1111 |
4.1430 |
7.1758 |
13.6192 |
リンク |
デモ |
MDX-B (Default + Demucs2 data) * |
5.2035 |
7.7192 |
5.3624 |
7.9621 |
14.3854 |
リンク |
デモ |
MDX-B (ONNX Only) * |
6.5687 |
10.2110 |
7.3126 |
9.9084 |
16.3305 |
リンク |
デモ |
UVR HQ (2 ステムズ) |
4.1616 |
6.1976 |
--- |
8.6975 |
14.7872 |
リンク |
デモ |
Demucs 3 (Model A) |
7.6054 |
8.8748 |
5.5306 |
8.2012 |
14.6347 |
リンク |
デモ |
Demucs 3 (Model B) * |
11.3270 |
12.0055 |
8.2793 |
9.9202 |
16.2890 |
リンク |
デモ |
Zero Shot (QBLWLD) |
2.6324 |
3.3939 |
1.4146 |
4.1016 |
--- |
リンク |
デモ |
Danna Sep (CPU) |
6.3462 |
7.8521 |
5.0470 |
7.9611 |
14.4007 |
リンク |
デモ |
| Byte Dance |
--- |
--- |
--- |
8.1485 |
14.5739 |
リンク |
デモ |
| UVR Demucs (Model 1) |
--- |
--- |
--- |
9.0877 |
15.4612 |
リンク |
デモ |
| MVSep Vocal model v2 |
--- |
--- |
--- |
8.8292 |
15.2719 |
リンク |
デモ |
| Demucs4 HT |
8.9770 |
10.0886 |
6.1301 |
9.0252 |
15.4318 |
リンク |
デモ |
* これらの数字は、MUSDB18のテストセットを使用してこれらのモデルを訓練したため、不正確です。
| アルゴリズム |
品質 (Bass) |
品質 (Drums) |
品質 (Other) |
品質 (Vocals) |
例 |
| Spleeter (4 ステムズ) |
5.774 |
5.845 |
4.321 |
6.939 |
例 |
| UmxXL |
6.619 |
6.838 |
4.891 |
7.732 |
例 |
| MDX A |
7.232 |
7.173 |
5.636 |
8.901 |
例 |
| MDX B (Orig) |
7.495 |
7.554 |
5.533 |
8.896 |
--- |
| MDX B (UVR) |
7.495 |
7.554 |
5.533 |
9.482 |
例 |
| Ultimate Vocal Remover HQ |
--- |
--- |
--- |
--- |
例 |
| Demucs 3 Model A |
8.115 |
8.037 |
5.193 |
7.968 |
例 |
| Demucs 3 Model B |
8.856 |
8.850 |
5.978 |
8.756 |
例 |
| Danna Sep |
6.993 |
7.018 |
4.901 |
7.686 |
--- |
| Byte Dance |
---- |
---- |
---- |
8.079 |
--- |
表3. 合成データセットを基にしたアルゴリズムの比較。SDR指標(高い方が良い)
| アルゴリズム |
品質 (Vocals) |
品質 (Instrumental) |
| Spleeter (2 ステムズ) |
7.1930 |
6.6612 |
| Spleeter (4 ステムズ) |
7.3168 |
7.0206 |
| Spleeter (5 ステムズ) |
7.1761 |
6.8799 |
| Unmix XL |
8.4581 |
8.1619 |
| Unmix HQ |
6.9301 |
6.6339 |
| Unmix SD |
7.0438 |
6.7476 |
| MDX-A |
8.6540 |
8.3578 |
| MDX-B |
10.8872 |
10.4585 |
| UVR HQ (2 ステムズ) |
9.4008 |
9.0839 |
| Demucs 3 (Model A) |
9.0464 |
8.7502 |
| Demucs 3 (Model B) |
9.7837 |
9.4875 |
| Demux 2 |
8.5364 |
8.2402 |
| Danna Sep |
8.5975 |
8.3013 |
| Byte Dance |
7.9893 |
7.6931 |
| UVR Demucs (Model 1) |
8.7951 |
8.6191 |
| MVSep Vocal model v2 |
10.4523 |
10.1561 |
| Demucs4 HT |
10.2397 |
9.9435 |
表4. 合成データセット上でのモデルHP2-4BAND-3090_4band_arch-500m_1の攻撃性の比較。SDR指標(高い方が良い)
| 攻撃性 |
品質 (Vocals) |
品質 (Instrumental) |
| 0.0 |
9.3259 |
8.8948 |
| 0.1 |
9.3580 |
8.9277 |
| 0.2 |
9.3824 |
8.9527 |
| 0.3 |
9.4008 |
8.9719 |
| 0.4 |
9.4147 |
8.9864 |
| 0.5 |
9.4250 |
8.9972 |
| 0.6 |
9.4324 |
9.0051 |
| 0.7 |
9.4374 |
9.0106 |
| 0.8 |
9.4404 |
9.0142 |
| 0.9 |
9.4419 |
9.0161 |
| 1.0 |
9.4420 |
9.0167 |