1) Мы добавили новые модели для пианино. Модель MVSep Piano теперь представлена в нескольких вариантах, основанных на архитектурах MDX23C, MelRoformer и SCNet Large. Модель производит высококачественное разделение музыки на партию фортепиано и всего остального. См. результаты в таблице ниже. Для сравнения в таблице приведены метрики на открытой модели Demucs4HT (6 партий) и старой модели "mdx23c (2023.08)". Используемая метрика SDR - чем больше, тем лучше.
Название алгоритма | Тип валидации | |||
piano (SDR) | other (SDR) | |||
Demucs4HT (6 stems) | 2.23 | 14.51 | ||
mdx23c (2023.08, SDR: 4.79) | 4.79 | 17.07 | ||
mdx23c (2024.09, SDR: 5.59) | 5.59 | 17.89 | ||
MelRoformer (viperx, SDR: 5.67) | 5.67 | 17.95 | ||
SCNet Large (2024.09, SDR: 5.89) | 5.89 | 18.16 | ||
Ensemble (SCNet + Mel, SDR: 6.19) | 6.19 | 18.47 |
Послушать: демо, пользовательские демо.
2) Мы обновили наши модели для гитары. Добавлена модель на базе архитектуры BSRoformer от viperx. Так же обновился ансамбль. По умолчанию используется именно он. SDR на нашем проверочном датасете вырос с 7.18 до 7.51.
Послушать: демо, пользовательские демо
3) Мы добавили новую версию MelBand Roformer для вокала, которая показала рекордные результаты на Synth датасете. Вы можете выбрать её из списка под названием "Bas Curtiz edition (SDR vocals: 11.18, SDR instrum: 17.49)" в разделе "MelBand Roformer (vocals, instrumental)".
4) Мы добавили новый алгоритм в секцию Experimental: "Apollo MP3 Enhancer (by JusperLee)". Этот алгоритм поднимает качество звука в MP3 фалйах, ужатых с битрейтом 128 kbps и менее. Алгоритм основан на статье "Apollo: Band-sequence Modeling for High-Quality Audio Restoration" и модель доступна на сайте huggingface. Ниже приведены спектрограммы для ужатого до 32 kbps аудио (слева) и восстановленного новым алгоритмом (справа).
Послушать: демо, пользовательские демо.
5) Мы добавили алгоритм "Aspiration by Sucial". Этот алгоритм извлекает шёпот из голоса. Применение у алгоритма ограничено, но возможно кому-то пригодится. Модель была опубликована в нашей теме открытых моделей на github и также доступна для загрузки на huggingface.
Послушать: демо, пользовательские демо.