Mel Band Roformer - модель предложенная сотрудниками компании ByteDance для конкурса Sound Demixing Challenge 2023, где они заняли первое место на LeaderBoard C. К сожалению, модель не была выложена в открытый доступ и была воспроизведена по научной статье разработчиком @lucidrains на площадке github. Вокальная модель была обучена с нуля на нашем внутреннем датасете. К сожалению, нам пока не удалось достичь аналогичных метрик как у авторов.
Таблица качества
Algorithm name | Multisong dataset | Synth dataset | MDX23 Leaderboard |
||
SDR Vocals | SDR Instrumental | SDR Vocals | SDR Instrumental | SDR Vocals | |
Mel Band Roformer v1 (vocals) | 9.07 | --- | 11.76 | --- | --- |