У нас произошло довольно много изменений с момента публикации последней новости. Их список приведен ниже.
1) На сайт добавлена высококачественная модель на базе архитектуры BS Roformer, которая разделяет треки на 6 дорожек: бас, барабаны, гитара, пианино, вокал, остальное). Теперь она используется по умолчанию для разделения треков, если пользователь заходит на сайт впервые. Она доступна под именем "BS Roformer SW (vocals, bass, drums, guitar, piano, other)".
Таблица качества, которая показывает значения SDR из набора данных Multisong и из таблиц лидеров для фортепиано и гитары:
vocals | instrum | bass | drums | guitar | piano | other |
11.30 | 17.50 | 14.62 | 14.11 | 9.05 | 7.83 | 8.71 |
2) Мы обновили модели для следующих алгоритмов:
- MVSep Piano (SDR вырос с 6.20 до 7.83)
- MVSep Guitar (SDR вырос с 7.51 до 9.05)
- MVSep Bass (SDR вырос с 14.07 до 14.87)
- MVSep Drums (SDR вырос с 13.78 до 14.35)
- MVSep Strings (SDR вырос с 3.84 до 5.41)
- MVSep Wind (SDR вырос с 7.22 до 9.82)
3) Мы добавили новую модель для вокала на базе архитектуры BS Roformer, которая превосходит все доступные аналоги по качеству разделения (согласно метрике SDR). Метрика выросла для вокала с 11.31 до 11.89 на наборе данных Multisong и с 13.56 до 14.58 на Synth датасете. Сравнение с предыдущей лучшей моделью в таблице ниже.
Algorithm name | Multisong dataset | Synth dataset | ||
SDR Vocals | SDR Instrumental | SDR Vocals | SDR Instrumental | |
BS Roformer (ver. 2024.08) | 11.31 | 17.62 | 13.56 | 13.27 |
BS Roformer (ver. 2025.07) | 11.89 | 18.20 | 14.58 | 14.28 |
4) Мы добавили несколько новых моделей для отдельных инструментов:
5) Все ансамбли моделей (Ensembles) были обновлены с учетом обновленных и новых моделей.
Был обновлен вокальный ансамбль Ensemble (vocals, instrum):
- Теперь у него 3 варианта: лучший по SDR, лучшая вокальная полнота (fullness) и лучшая инструментальная полнота (fullness)
- Версия с лучшим SDR имеет SOTA метрику на Multisong dataset: 11.93
- Версии с высокой полнотой сохраняют высокие показатели SDR и Freq L1 по сравнению с версиями с высокой полнотой для моделей MelBand Roformer.
Метрики качества:
- Best SDR: https://mvsep.com/quality_checker/entry/8479
- High Vocals Fullness: https://mvsep.com/quality_checker/entry/8482
- High Instrum Fullness: https://mvsep.com/quality_checker/entry/8483
Также были обновлены большие ансамбли.
Ensemble (vocals, instrum, bass, drums, other):
- Новые показатели качества по сравнению с предыдущей версией приведены в таблице ниже и по ссылке. Алгоритм включает лучшие на данный момент ансамбли для ударных, баса и вокала. https://mvsep.com/quality_checker/entry/8504
Algorithm name | Multisong dataset | Synth dataset | |||||
SDR Bass | SDR Drums | SDR Other | SDR Vocals | SDR Instrumental | SDR Vocals | SDR Instrumental | |
SDR average: 13.07 (v. 2024.12.28) | 14.14 | 13.57 | 8.10 | 11.61 | 17.92 | 14.09 | 13.79 |
SDR average: 13.67 (v. 2025.06.30) | 14.85 | 14.33 | 9.00 | 11.93 | 18.23 | 14.58 | 14.28 |
Ensemble All-In (vocals, bass, drums, piano, guitar, lead/back vocals, other):
- Включает те же обновления, что и в модели Ensemble (vocals, instrum, bass, drums, other)
- Теперь используются 2 новые модели для караоке
- Новый ансамбль drumsep с двумя лучшими моделями Mel Roformer
- Новые модели гитары и фортепиано
- Дополнительно добавлены струнные и духовые инструменты.
6) Добавлено четыре новые Karaoke-модели для разделения Lead/Back вокала:
- Модель от @gabox. Lead vocal SDR: 9.67
- Модель на базе объединенных весов от @gabox и @aufr33/@viperx. У этой модели выше метрика SDR по lead vocals: 9.85
- Модель на базе архитектуры SCNet XL IHF от @becruily. SDR: 9.53. Несмотря на более низкий SDR справляется с некоторыми треками, где другие модели работали хуже.
- И наконец самая свежая модель от @frazer и @becruily на базе архитектуры BS Roformer с Lead vocal SDR: 10.11 - на данный момент самая качественная из доступных моделей.
Все указанные модели доступны как опции в MVSep MelBand Karaoke (lead/back vocals).
7) Мы добавили новый алгоритм генерации аудио по текстовым подсказкам Stable Audio Open Gen. Он находится в разделе «Experimental». Аудио генерируется в стереоформате с частотой дискретизации 44,1 кГц и длительностью до 47 секунд. Качество довольно высокое. Текстовые описания лучше делать на английском языке.
Примеры текстовых описаний:
- Генерация звуковых эффектов: cats meow, lion roar, dog bark
- Генерация сэмпла: 128 BPM tech house drum loop
- Генерация определённых инструментов: A Coltrane-style jazz solo: fast, chaotic passages (200 BPM), with piercing saxophone screams and sharp dynamic changes
8) Мы добавили модель Parakeet от NVIDIA для задачи распознания речи (ASR). Она разработана для точного и эффективного преобразования устной английской речи в текст. Модель, в отличие от Whisper, работает только с английской речью, но для английского языка дает более качественный результат. Также генерирует довольно точные временные метки. Метрика качества WER: 6.03 на Huggingface Open ASR Leaderboard. Она располагается сразу за Whisper в списке моделей на сайте. Страница модели на HuggingFace.
9) Мы добавили алгоритм "Matchering (by sergree)" в секцию "Experimental". Matchering — это новый инструмент для сопоставления и мастеринга аудио. Он основан на простой идее: вы берете ДВА аудиофайла и загружаете их в Matchering:
- TARGET (трек, который вы хотите смастерить и вы хотите, чтобы он звучал как референс)
- REFERENCE (другой трек, например, какая-нибудь «фирменная» популярная песня, вы хотите, чтобы ваш целевой трек звучал так же)
Алгоритм сопоставляет оба этих трека и предоставляет вам обработанный трек TARGET с теми же значениями RMS, частотной характеристики, пиковой амплитуды и ширины стереобазы, что и у трека REFERENCE. Алгоритм основан на коде @sergree.
10) Мы добавили зеркало сайта: https://mirror.mvsep.com
Оно может быть полезно, если у вас медленно работает загрузка файлов или если сайт не открывается без VPN.
11) Внесены изменения в интерфейс и документацию сайта:
- Добавлены тэги в меню выбора моделей. Они помогут разобраться в большом числе доступных моделей.
- Добавлена кнопка Reprocess рядом с каждым аудио-файлом. Она позволяет без повторной загрузки файла на сайт использовать на аудио-файле другой алгоритм. Или же применить другую модель к полученному из первого алгоритма аудио-файла.
- В FAQ добавлено описание концепции Fullness/Bleedless.
- В разделе Quality Checker теперь доступна сортировка моделей по различным метрикам качества.