BS PolarFormer (vocals, instrumental)
BS PolarFormer относится к семейству моделей основанных на трансформерах, но в отличие от BSRoformer тут используются эмбеддинги основанные на полярных координатах, которые хорошо работают с длинными контекстами. В этой архитектуре используются более длинные отрывки музыкальных треков.
Для этой модели доступна опция Overlap (перекрытие). При обработке аудио длинный сигнал разбивается на сегменты («окна») фиксированной длины, и Overlap определяет степень их наложения друг на друга. Это позволяет сгладить переходы между окнами, задействовать больше контекста и повысить качество разделения.
- 50% (по умолчанию): оптимальный выбор для большинства задач.
- 87.5% (для платных пользователей): позволяет получить дополнительные +0.02 SDR к качеству. Количество потраченных кредитов на разделение умножится на 1.5.
Важно: высокий показатель Overlap значительно увеличивает нагрузку на систему при незначительном приросте качества.
Quality table
| Algorithm name | Overlap | Multisong dataset | Synth dataset | ||
| SDR Vocals | SDR Instrumental | SDR Vocals | SDR Instrumental | ||
| BS PolarFormer (62 bands, SDR: 11.75) | 2 | 11.75 | 18.06 | 14.02 | 13.73 |
| 8 | 11.77 | 18.08 | 14.05 | 13.76 | |
| BS PolarFormer (124 bands, SDR: 12.02) | 2 | 12.02 | 18.33 | --- | --- |
Детальная статистика на Multisong dataset:
| Model | Type | Vocals fullness | Vocals bleedless | Vocals SDR | Vocals L1Freq | Instrum fullness | Instrum bleedless | Instrum SDR | Instrum L1Freq |
| BS PolarFormer (62 bands, SDR: 11.75) | Standard stems | 17.68 | 35.90 | 11.75 | 39.86 | 28.15 | 47.27 | 18.06 | 40.59 |
| BS PolarFormer (124 bands, SDR: 12.02) | Standard stems | 17.18 | 39.26 | 12.02 | 40.56 | 28.12 | 49.06 | 18.33 | 41.26 |
| Fullness Level 1 stems | 20.94 | 32.37 | 11.96 | 40.54 | 30.08 | 44.74 | 18.30 | 41.00 |
Ниже приведена зависимость значения SDR от размера Chunk Size модели для Multisong датасета.
