Алгоритм для экстракции только ведущего вокала (lead vocals) и всего остального на базе модели MelBand Roformer. Работает как для произвольного музыкального трека, так же можно предварительно извлечь вокал выбрав опцию "Extract vocals first" в Extraction type. Во втором случае в отдельном файле будет доступен back vocals.
Существует 4 модели, одна подготовлена командой @aufr33 и viperx, вторая @becruily, третья @gabox и четвертая это объединенная модель @aufr33/viperx и @gabox.
Метрики качества приведены ниже. Для сравнения в таблице так же приведены метрики качества для старых алгоритмов UVR и MDX-B Karaoke.
Algorithm name | Lead Vocals (SDR) | Back Vocals (SDR) | Back Vocals + Instrum SDR | Instrum SDR |
UVR (HP-KAROKEE-MSB2-3BAND-3090) | 6.42 | --- | 11.79 | --- |
UVR (karokee_4band_v2_sn) | 6.72 | --- | 12.09 | --- |
UVR (UVR-BVE-4B_SN-44100-1) | --- | 0.87 | --- | 4.90 |
MDX-B (Karaoke) | 7.42 | --- | 12.81 | --- |
MDX-B (Karaoke) Extract from vocals | 8.28 | 4.46 | 13.67 | 15.94 |
MelBand Roformer (@aufr33 и viperx) | 9.45 | --- | 14.84 | --- |
MelBand Roformer (@becruily) | 9.61 | --- | 15.00 | --- |
MelBand Roformer (@gabox) | 9.67 | --- | 15.06 | --- |
MelBand Roformer (Fused @gabox and @aufr33/viperx) | 9.85 | --- | 15.23 | --- |
MelBand Roformer (@aufr33 и viperx) extract vocals first | 9.22 | 5.27 | 14.61 | 15.94 |
MelBand Roformer (@becruily) extract vocals first | 8.98 | 4.98 | 14.24 | 15.94 |
MelBand Roformer (@gabox) extract vocals first | 9.36 | 5.46 | 14.75 | 15.94 |
MelBand Roformer (Fused @gabox and @aufr33/viperx) extract vocals first | 9.62 | 5.63 | 15.01 | 15.94 |
MelBand Roformer (Fused @gabox and @aufr33/viperx) extract vocals first | 9.62 | 5.63 | 15.01 | 15.94 |