MVSEP Logo
  • 主页
  • 新闻
  • 套餐
  • 示例
  • 常见问题解答
  • 创建账号
  • 登录

算法质量比较

MVSep 现在有很多算法。选择哪种算法?
- 如果您需要很好的人声或器乐分离效果,请使用以下之一:Ultimate Vocal Remover HQ、MDX-B、Demucs3 (Model B)
- 如果您需要好的贝斯、鼓和其他乐器:Demucs3 (Model B)

为了对算法进行比较,我们使用了SDR (信噪比)指标。指标越大,算法结果越好。

在 MUSDB18HQ 测试集上的对比

算法 SDR bass SDR drums SDR other SDR vocals SDR instrumental
(反转后的人声)
模型链接 示例
spleeter
(2 音轨)
--- --- --- 6.8647 13.3231 链接 示例
spleeter
(4 音轨)
4.8200 6.3390 4.5362 6.7021 13.1434 链接 示例
spleeter
(5 音轨)
4.6376 6.1300 3.8689 6.5027 12.9646 链接 示例
Unmix XL
 
5.9577 7.7001 5.2165 7.6852 14.1339 链接 示例
Unmix HQ
 
4.6124 6.3807 3.6915 6.0783 12.5660 链接 示例
Unmix SD
 
4.7894 6.2632 3.8281 6.1822 12.6689 链接 示例
Demucs 2
 
4.6145 6.1588 3.1786 5.3980 11.8388 链接 示例
MDX-A
 
4.9803 6.1111 4.1430 7.1758 13.6192 链接 示例
MDX-B (Default
+ Demucs2 data) *
5.2035 7.7192 5.3624 7.9621 14.3854 链接 示例
MDX-B
(ONNX Only) *
6.5687 10.2110 7.3126 9.9084 16.3305 链接 示例
UVR HQ
(2 音轨)
4.1616 6.1976 --- 8.6975 14.7872 链接 示例
Demucs 3
(Model A)
7.6054 8.8748 5.5306 8.2012 14.6347 链接 示例
Demucs 3
(Model B) *
11.3270 12.0055 8.2793 9.9202 16.2890 链接 示例
Zero Shot
(QBLWLD)
2.6324 3.3939 1.4146 4.1016 --- 链接 示例
Danna Sep
(CPU)
6.3462 7.8521 5.0470 7.9611 14.4007 链接 示例
Byte Dance --- --- --- 8.1485 14.5739 链接 示例
UVR Demucs (Model 1) --- --- --- 9.0877 15.4612 链接 示例
MVSep Vocal model v2 --- --- --- 8.8292 15.2719 链接 示例
Demucs4 HT 8.9770 10.0886 6.1301 9.0252 15.4318 链接 示例

* MUSDB18 测试集已被用来训练这些模型,所以这些数字并不正确

算法 质量 (Bass) 质量 (Drums) 质量 (Other) 质量 (Vocals) 例子
Spleeter (4 音轨) 5.774 5.845 4.321 6.939 例子
UmxXL 6.619 6.838 4.891 7.732 例子
MDX A 7.232 7.173 5.636 8.901 例子
MDX B (Orig) 7.495 7.554 5.533 8.896 ---
MDX B (UVR) 7.495 7.554 5.533 9.482 例子
Ultimate Vocal Remover HQ --- --- --- --- 例子
Demucs 3 Model A 8.115 8.037 5.193 7.968 例子
Demucs 3 Model B 8.856 8.850 5.978 8.756 例子
Danna Sep 6.993 7.018 4.901 7.686 ---
Byte Dance ---- ---- ---- 8.079 ---

表3. 不同算法在合成数据集上的比较。SDR度量(越高越好)

算法 质量 (Vocals) 质量 (Instrumental)
Spleeter (2 音轨) 7.1930 6.6612
Spleeter (4 音轨) 7.3168 7.0206
Spleeter (5 音轨) 7.1761 6.8799
Unmix XL 8.4581 8.1619
Unmix HQ 6.9301 6.6339
Unmix SD 7.0438 6.7476
MDX-A 8.6540 8.3578
MDX-B 10.8872 10.4585
UVR HQ (2 音轨) 9.4008 9.0839
Demucs 3 (Model A) 9.0464 8.7502
Demucs 3 (Model B) 9.7837 9.4875
Demux 2 8.5364 8.2402
Danna Sep 8.5975 8.3013
Byte Dance 7.9893 7.6931
UVR Demucs (Model 1) 8.7951 8.6191
MVSep Vocal model v2 10.4523 10.1561
Demucs4 HT 10.2397 9.9435

表4. 不同 aggressiveness 数值下,HP2-4BAND-3090_4band_arch-500m_1 模型在合成数据集上的表现。SDR度量(越高越好)

Aggressiveness 质量 (Vocals) 质量 (Instrumental)
0.0 9.3259 8.8948
0.1 9.3580 8.9277
0.2 9.3824 8.9527
0.3 9.4008 8.9719
0.4 9.4147 8.9864
0.5 9.4250 8.9972
0.6 9.4324 9.0051
0.7 9.4374 9.0106
0.8 9.4404 9.0142
0.9 9.4419 9.0161
1.0 9.4420 9.0167
MVSEP Logo

turbo@mvsep.com

高级功能

质量检查工具

算法

完整 API 文档

公司

隐私政策

服务条款

退款政策

其他

帮助我们翻译!

帮助我们推广!