BS PolarFormer (vocals, instrumental)
BS PolarFormer относится к семейству моделей основанных на трансформерах, но в отличие от BSRoformer тут используются эмбеддинги основанные на полярных координатах, которые хорошо работают с длинными контекстами. В этой архитектуре используются более длинные отрывки музыкальных треков.
Для этой модели доступна опция Overlap (перекрытие). При обработке аудио длинный сигнал разбивается на сегменты («окна») фиксированной длины, и Overlap определяет степень их наложения друг на друга. Это позволяет сгладить переходы между окнами, задействовать больше контекста и повысить качество разделения.
- 50% (по умолчанию): оптимальный выбор для большинства задач.
- 87.5% (для платных пользователей): позволяет получить дополнительные +0.02 SDR к качеству. Количество потраченных кредитов на разделение умножится на 1.5.
Важно: высокий показатель Overlap значительно увеличивает нагрузку на систему при незначительном приросте качества.
Quality table
| Algorithm name | Overlap | Multisong dataset | Synth dataset | ||
| SDR Vocals | SDR Instrumental | SDR Vocals | SDR Instrumental | ||
| BS PolarFormer (vocals, instrumental) | 2 | 11.75 | 18.06 | 14.02 | 13.73 |
| 8 | 11.77 | 18.08 | 14.05 | 13.76 | |
Detailed statistics on Multisong dataset:
| Model | Vocals fullness | Vocals bleedless | Vocals SDR | Vocals L1Freq | Instrum fullness | Instrum bleedless | Instrum SDR | Instrum L1Freq |
| BS PolarFormer (vocals, instrumental) | 17.68 | 35.90 | 11.75 | 39.86 | 28.15 | 47.27 | 18.06 | 40.59 |
Ниже приведена зависимость значения SDR от размера Chunk Size модели для Multisong датасета.
