1) Мы наконец выпустили бесплатное приложение для Android. Найти можно по ссылке: Google.Play
2) Для платных пользователей добавили функционал одновременной загрузки множества файлов. Можно найти в "Batch Upload"
3) Добавлена поддержка множества различных аудио-форматов для входных файлов на сайте: 'mp3', 'wav', 'opus', 'aac', 'flac', 'm4a', 'ogg', 'wma', 'aiff', 'aif', 'mp4', 'm4v', 'avi', 'mov', 'wmv', 'mkv', 'webm', 'mpg', 'mpeg', '3gp', '3g2', 'ts', 'm2ts', 'mts'.
4) Мы создали репозиторий с примерами использования API на языке Python, включая многофункциональную GUI версию: https://github.com/ZFTurbo/MVSep-API-Examples
Для использования под Windows есть EXE-версия не требующая Python и установки.
5) Мы подготовили 3 новых LeaderBoard для Quality Checker моделей:
6) Мы добавили несколько state-of-the-art (SOTA) моделей для разделения барабанов. Они основаны на архитектурах MelBand Roformer и SCNet XL и предлагают разделения от 4 до 6 стемов. Наиболее качественное разделение предлагают модели Mel Band Roformer. Таблица метрики SDR приведена ниже. Более подробные таблицы можно найти на странице с описанием алгоритма. Разделение доступно в меню как DrumSep (4-6 stems: kick, snare, cymbals, toms, ride, hh, crash).
Algorithm name | kick | snare | toms | cymbals | ||
hh | ride | crash | ||||
DrumSep model by inagoy (HDemucs, 4 stems) | 10.52 | 6.05 | 4.68 | 5.03 | ||
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems) | 14.54 | 9.79 | 10.63 | 3.19 | 6.08 | |
DrumSep SCNet XL (5 stems) | 17.89 | 12.56 | 14.14 | 3.63 | 6.15 | |
DrumSep SCNet XL (6 stems) | 17.74 | 12.43 | 14.24 | 3.39 | 5.91 | |
DrumSep SCNet XL (4 stems) | 17.61 | 12.37 | 13.40 | 7.48 | ||
DrumSep Mel Band Roformer (4 stems) | 18.67 | 13.55 | 13.60 | 8.76 | ||
DrumSep Mel Band Roformer (6 stems) | 17.46 | 12.64 | 13.69 | 5.05 | 7.06 |
7) Добавлена новая модель для MVSep Drums (drums, other) на базе SCNet XL с рекордными метриками для одиночной модели.
Model | Drums fullness | Drums bleedless | Drums SDR | Drums L1Freq | Other fullness | Other bleedless | Other SDR | Other L1Freq |
HTDemucs4 | 15.36 | 25.00 | 12.04 | 37.47 | 33.03 | 37.22 | 16.56 | 38.37 |
MelBand Roformer | 14.16 | 42.12 | 12.76 | 40.80 | 33.97 | 47.24 | 17.28 | 42.02 |
SCNet Large | 14.91 | 28.23 | 13.01 | 38.04 | 35.39 | 35.03 | 17.53 | 39.36 |
SCNet XL | 21.21 | 24.47 | 13.42 | 40.30 | 38.56 | 38.32 | 18.00 | 40.35 |
8) Добавлено 2 модели для решения задачи Super Resolution, которые восстанавливают высокие частоты.
- AudioSR - алгоритм восстанавливает высокие частоты. Он работает со всеми типами аудио (например, музыка, речь, лай собаки, звук дождя и т.д.). Изначально он был обучен на монофоническом аудио, поэтому может давать нестабильные результаты на стерео. Основан на статье AudioSR: Versatile audio super-resolution at scale.
Метрика на Super Resolution Checker for Music Leaderboard (Restored): 25.3195
Оригинальный репозиторий: https://github.com/haoheliu/versatile_audio_super_resolution
Оригинальный скрипт для вывода, подготовленный @jarredou: https://github.com/jarredou/AudioSR-Colab-Fork - FlashSR - алгоритм супер-разрешения аудио для восстановления высоких частот. Основан на статье FlashSR: One-step Versatile Audio Super-resolution via Diffusion Distillation.
Метрика на Super Resolution Checker for Music Leaderboard (Restored): 22.1397
Оригинальный репозиторий: https://github.com/jakeoneijk/FlashSR_Inference
Скрипт для инференса от @jarredou: https://github.com/jarredou/FlashSR-Colab-Inference
9) Мы добавили свою версию модели Apollo для восстановления верхних частот. Она доступна в разделе "Apollo Enhancers (by JusperLee and Lew)" с опцией "Universal Super Resolution (by MVSep Team)". Для наилучшей работы модели требуется четкое ограничение частоты сверху на одном уровне. Положение модели на Leaderboard.
10) Для моделей Super Resolution к которым относятся AudioSR, FlashSR и Apollo Enhancers добавлен вывод спектрограм первых 10 секунд трека, как для оригинала, так и для восстановленной версии.
11) Мы добавили караоке-модель от @becruily. Она доступна как опция в алгоритме MelBand Karaoke (lead/back vocals). В настоящее время она показывает один из лучших результатов на соответствующем лидерборде.
12) Мы добавили новую модель MVSep Saxophone (saxophone, other). У неё есть 3 версии: SCNet XL, MelBand Roformer и Ensemble (SCNet + Mel).
- SCNet XL (SDR саксофон: 6.15)
- MelBand Roformer (SDR саксофон: 6.97)
- Ensemble Mel + SCNet (SDR саксофон: 7.13)
13) Мы добавили модель "unwa Instrumental v1e plus (SDR vocals: 10.33, SDR instrumental: 16.64)" от @unwa в алгоритм MelBand Roformer (vocals, instrumental) с высокими показателями полноты (fullness) инструментальной части.