Алгоритм для экстракции только ведущего вокала (lead vocals) и всего остального на базе моделей MelBand Roformer и SCNet. Работает как для произвольного музыкального трека, так же можно предварительно извлечь вокал выбрав опцию "Extract vocals first" в Extraction type. Во втором случае в отдельном файле будет доступен back vocals.
Существует 5 моделей, одна подготовлена командой @aufr33 и viperx, вторая @becruily, третья @gabox и четвертая это объединенная модель @aufr33/viperx и @gabox. Так же отдельно добавлена модель на базе архитектуры SCNet XL IHF от @becruily.
Метрики качества приведены ниже. Для сравнения в таблице так же приведены метрики качества для старых алгоритмов UVR и MDX-B Karaoke.
| Algorithm name | Lead Vocals (SDR) | Back Vocals (SDR) | Back Vocals + Instrum SDR | Instrum SDR |
| UVR (HP-KAROKEE-MSB2-3BAND-3090) | 6.42 | --- | 11.79 | --- |
| UVR (karokee_4band_v2_sn) | 6.72 | --- | 12.09 | --- |
| UVR (UVR-BVE-4B_SN-44100-1) | --- | 0.87 | --- | 4.90 |
| MDX-B (Karaoke) | 7.42 | --- | 12.81 | --- |
| MDX-B (Karaoke) Extract from vocals | 8.28 | 4.46 | 13.67 | 15.94 |
| MelBand Roformer (@aufr33 и viperx) | 9.45 | --- | 14.84 | --- |
| MelBand Roformer (@becruily) | 9.61 | --- | 15.00 | --- |
| MelBand Roformer (@gabox) | 9.67 | --- | 15.06 | --- |
| MelBand Roformer (Fused @gabox and @aufr33/viperx) | 9.85 | --- | 15.23 | --- |
| SCNet XL IHF (@becruily) | 9.53 | --- | 14.91 | --- |
| BS Roformer (@frazer and @becruily) | 10.10 | --- | 15.48 | --- |
| MelBand Roformer (@aufr33 и viperx) extract vocals first | 9.22 | 5.27 | 14.61 | 15.94 |
| MelBand Roformer (@becruily) extract vocals first | 8.98 | 4.98 | 14.24 | 15.94 |
| MelBand Roformer (@gabox) extract vocals first | 9.36 | 5.46 | 14.75 | 15.94 |
| MelBand Roformer (Fused @gabox and @aufr33/viperx) extract vocals first | 9.62 | 5.63 | 15.01 | 15.94 |