Модель MDX-B Karaoke подготовлена в рамках проекта Ultimate Vocal Remover. Модель производит высококачественное извлечение ведущей вокальной партии из музыкального трека. Модель доступна в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к вокальной части. Во втором случае качество разделения обычно выше и при этом появляется возможность дополнительно отделить бэк-вокал в отдельную дорожку. Модель сравнивалась с двумя другими моделями из UVR (они тоже доступны на сайте) на большом валидационном наборе. Используемая метрика — SDR: чем больше, тем лучше.
См. результаты в таблице ниже.
Тип валидации | Название алгоритма |
|||
UVR (HP-KAROKEE-MSB2-3BAND-3090) | UVR (karokee_4band_v2_sn) | MDX-B Karaoke (Type 0) | MDX-B Karaoke (Type 1) | |
Validation lead vocals | 6.46 | 6.34 | 6.81 | 7.94 |
Validation other | 13.17 | 13.02 | 13.53 | 14.66 |
Validation back vocals | --- | --- | --- | 1.88 |