MVSEP Logo
  • Главная
  • Новости
  • Тарифы
  • Демо
  • ЧАВО
  • Создать учетную запись
  • Войти

Новости мая 2025

2025-05-19


1) Мы наконец выпустили бесплатное приложение для Android. Найти можно по ссылке: Google.Play

2) Для платных пользователей добавили функционал одновременной загрузки множества файлов. Можно найти в "Batch Upload"

3) Добавлена поддержка множества различных аудио-форматов для входных файлов на сайте: 'mp3', 'wav', 'opus', 'aac', 'flac', 'm4a', 'ogg', 'wma', 'aiff', 'aif', 'mp4', 'm4v', 'avi', 'mov', 'wmv', 'mkv', 'webm', 'mpg', 'mpeg', '3gp', '3g2', 'ts', 'm2ts', 'mts'.

4) Мы создали репозиторий с примерами использования API на языке Python, включая многофункциональную GUI версию: https://github.com/ZFTurbo/MVSep-API-Examples
Для использования под Windows есть EXE-версия не требующая Python и установки.

5) Мы подготовили 3 новых LeaderBoard для Quality Checker моделей:

  • Lead/Back Vocals
  • Drums Separation (5 stems)
  • Male/Female Separation

6) Мы добавили несколько state-of-the-art (SOTA) моделей для разделения барабанов. Они основаны на архитектурах MelBand Roformer и SCNet XL и предлагают разделения от 4 до 6 стемов. Наиболее качественное разделение предлагают модели Mel Band Roformer. Таблица метрики SDR приведена ниже. Более подробные таблицы можно найти на странице с описанием алгоритма.  Разделение доступно в меню как DrumSep (4-6 stems: kick, snare, cymbals, toms, ride, hh, crash).

Algorithm name kick snare toms cymbals
hh ride crash
DrumSep model by inagoy (HDemucs, 4 stems) 10.52 6.05 4.68 5.03
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems) 14.54 9.79 10.63 3.19 6.08
DrumSep SCNet XL (5 stems) 17.89 12.56 14.14 3.63 6.15
DrumSep SCNet XL (6 stems) 17.74 12.43 14.24 3.39 5.91
DrumSep SCNet XL (4 stems) 17.61 12.37 13.40 7.48
DrumSep Mel Band Roformer (4 stems) 18.67 13.55 13.60 8.76
DrumSep Mel Band Roformer (6 stems) 17.46 12.64 13.69 5.05 7.06

7) Добавлена новая модель для MVSep Drums (drums, other) на базе SCNet XL с рекордными метриками для одиночной модели.

Model Drums fullness Drums bleedless  Drums SDR Drums L1Freq Other fullness Other bleedless  Other SDR Other L1Freq
HTDemucs4 15.36 25.00 12.04 37.47 33.03 37.22 16.56 38.37
MelBand Roformer 14.16 42.12 12.76 40.80 33.97 47.24 17.28 42.02
SCNet Large 14.91 28.23 13.01 38.04 35.39 35.03 17.53 39.36
SCNet XL 21.21 24.47 13.42 40.30 38.56 38.32 18.00 40.35

8) Добавлено 2 модели для решения задачи Super Resolution, которые восстанавливают высокие частоты.

  • AudioSR - алгоритм восстанавливает высокие частоты. Он работает со всеми типами аудио (например, музыка, речь, лай собаки, звук дождя и т.д.). Изначально он был обучен на монофоническом аудио, поэтому может давать нестабильные результаты на стерео. Основан на статье AudioSR: Versatile audio super-resolution at scale.

    Метрика на Super Resolution Checker for Music Leaderboard (Restored): 25.3195
    Оригинальный репозиторий: https://github.com/haoheliu/versatile_audio_super_resolution
    Оригинальный скрипт для вывода, подготовленный @jarredou: https://github.com/jarredou/AudioSR-Colab-Fork

  • FlashSR - алгоритм супер-разрешения аудио для восстановления высоких частот. Основан на статье FlashSR: One-step Versatile Audio Super-resolution via Diffusion Distillation. 

    Метрика на Super Resolution Checker for Music Leaderboard (Restored): 22.1397
    Оригинальный репозиторий: https://github.com/jakeoneijk/FlashSR_Inference
    Скрипт для инференса от @jarredou: https://github.com/jarredou/FlashSR-Colab-Inference

9) Мы добавили свою версию модели Apollo для восстановления верхних частот. Она доступна в разделе "Apollo Enhancers (by JusperLee and Lew)" с опцией "Universal Super Resolution (by MVSep Team)".  Для наилучшей работы модели требуется четкое ограничение частоты сверху на одном уровне. Положение модели на Leaderboard.

10) Для моделей Super Resolution к которым относятся AudioSR, FlashSR и Apollo Enhancers добавлен вывод спектрограм первых 10 секунд трека, как для оригинала, так и для восстановленной версии.

11) Мы добавили караоке-модель от @becruily. Она доступна как опция в алгоритме MelBand Karaoke (lead/back vocals). В настоящее время она показывает один из лучших результатов на  соответствующем лидерборде.

12) Мы добавили новую модель MVSep Saxophone (saxophone, other). У неё есть 3 версии: SCNet XL, MelBand Roformer и Ensemble (SCNet + Mel).

  • SCNet XL (SDR саксофон: 6.15)
  • MelBand Roformer (SDR саксофон: 6.97)
  • Ensemble Mel + SCNet (SDR саксофон: 7.13)

13) Мы добавили модель "unwa Instrumental v1e plus (SDR vocals: 10.33, SDR instrumental: 16.64)" от @unwa в алгоритм MelBand Roformer (vocals, instrumental) с высокими показателями полноты (fullness) инструментальной части.

🗎 Копировать ссылку

Новости января

2025-01-23


1) Мы поменяли вид выбора моделей в меню. Теперь вместо выпадающего меню список с возможностью вывода информации о моделях и статистики. При желании можно откатиться к старой версии списка.

2) По многочисленным просьбам мы добавили инструментальную модель HQ5 на сайт для алгоритма MDX-B (vocals, instrumental).

3) Мы опубликовали веса полученные на датасете MUSDB18 для топовых моделей BSRoformer, MelBandRoformer и SCNet XL. Эти веса могут быть отличной отправной точкой для тренировки своих моделей.

4) Мы добавили три модели от unwa и 2 модели от becruily, которые основаны на архитектуре Mel-Band RoFormer. Все модели ориентированы на увеличении метрики fullness (полнота) либо для vocals, либо для instrumental. Они дают более полное звучание, но могут содержать больше шума. Новые модели доступны под именами:

  • unwa Instrumental v1 (SDR vocals: 10.24, SDR instrum: 16.54)
  • unwa Instrumental v1e (SDR vocals: 10.05, SDR instrum: 16.36)
  • unwa big beta v5e (SDR vocals: 10.59, SDR instrum: 16.89)
  • becruily instrum high fullness (SDR instrum: 16.47)
  • becruily vocals high fullness (SDR vocals: 10.55)

Модели расположены в разделе "MelBand Roformer (vocals, instrumental)". Детальные метрики доступны в таблице ниже:

Model Vocals fullness Vocals bleedless  Vocals SDR Vocals L1Freq Instrum fullness Instrum bleedless  Instrum SDR Instrum L1Freq
MelBand Roformer (Kimberley Jensen) 16.66 36.51 11.01 38.96 27.71 46.72 17.32 39.77
MelBand Roformer (ver. 2024.08) 16.39 39.13 11.18 39.26 27.74 47.07 17.49 40.16
Bas Curtiz edition 16.30 38.94 11.18 39.18 27.49 47.00 17.49 40.15
MelBand Roformer (ver. 2024.10) 16.92 37.78 11.28 39.41 27.71 47.29 17.59 40.29
unwa Instrumental v1 (SDR vocals: 10.24, SDR instrum: 16.54) 15.89 27.48 10.24 36.06 35.44 38.02 16.55 38.67
unwa Instrumental v1e (SDR vocals: 10.05, SDR instrum: 16.36) 14.67 26.83 10.06 34.37 38.85 35.68 16.37 38.31
unwa big beta v5e (SDR vocals: 10.59, SDR instrum: 16.89) 20.78 32.02 10.59 38.53 25.65 45.90 16.90 37.31
becruily instrum high fullness (SDR instrum: 16.47) 15.76 30.15 10.16 35.84 33.93 40.55 16.47 38.86
becruily vocals high fullness (SDR vocals: 10.55) 20.72 31.25 10.55 38.84 28.28 40.85 16.86 38.24

5) Мы добавили 2 модели от lew для Super Resolution. Первая "Universal Super Resolution (by Lew)" - восстанавливает высокие частоты для музыки, вторая более специализированная "Vocals Super Resolution (by Lew)" восстанавливает качество и высокие частоты для вокала. Они доступны для выбора в меню под пунктом "Apollo Enhancers (by JusperLee and Lew)".

6) Мы добавили набор моделей для разделения вокала на Male/Female (мужские и женские голоса). Доступно 2 модели от Sucial и aufr33. Так же доступны две модели натренированные командой MVSep на базе SCNet XL и MelBand RoFormer.

Algorithm name Male/Female validation dataset
SDR Male SDR Female L1_Freq Male L1_Freq Female
BSRoformer by Sucial (SDR: 6.52) 6.82 6.23 40.99 40.62
BSRoformer by aufr33 (SDR: 8.18) 8.47 7.89 46.65 44.73
SCNet XL (SDR: 11.83) 12.08 11.58 50.50 51.51
MelRoformer (2025.01) (SDR: 13.03) 13.39 12.68 57.61 56.76

7) Мы добавили новую модель SCNet XL для баса с очень высоким SDR: 13.81. В ансамбле метрика SDR достигла 14.07, что является рекордом. Модель доступна под пунктом MVSep Bass (bass, other)

8) Мы добавили вторую версию модели для удаления эффекта реверберации от Sucial в раздел Reverb Removal (noreverb). Имя модели: Reverb removal by Sucial v2 (MelRoformer).

9) Мы подготовили новую модель для вокала на базе архитектуры SCNet XL, она достигла довольно высоких метрик.

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
SCNet 10.25 16.56 12.27 11.97 ---
SCNet Large 10.74 17.05 12.89 12.59 ---
SCNet XL 10.96 17.27 13.08 12.78 ---

Добавление SCNet XL к Mel и BS роформерам в ансамбле увеличило метрику SDR:
vocals: 11.54 -> 11.61
instrumental: 17.84 -> 17.92

10) Мы добавили новую модель для музыкального инструмента - орган. В списке она доступна под именем: MVSep Organ (organ, other).

11) Мы обновили наш API, добавив больше функционала, связанного с очередью задач, рейтингом и использованием разных типов разделения, а также добавили Quality Checker в API. Больше информации доступно в документации: https://mvsep.com/full_api

12) Мы тестируем приложение для Андроид, скоро оно появится в Google Play. Об этом мы дадим анонс отдельно.

13) В ближайшее время мы планируем выложить примеры использования API MVSep на языке Python. Как простые консольные программы, так и с графической оболочкой.

🗎 Копировать ссылку

Новости ноября

2024-11-25


1) Добавлен новый алгоритм MVSep Wind для экстракции из музыкальных треков духовых инструментов. Духовые включают в себя 2 категории инструментов: медные и деревянные духовые. Более конкретно мы включили в духовые: флейту, саксофон, трубу, тромбон, валторну, кларнет, гобой, губную гармошку, волынку, фагот, тубу, казу, пикколо, флюгельгорн, окарину, сякухати, мелодику, язычковые, диджериду, мюссетт, гайду. Мы подготовили две модели основанные на SCNet и MelBand Roformer архитектурах. Метрики качества приведены в таблице ниже:

Algorithm name Wind dataset
SDR Wind SDR Other
MelBand Roformer 6.73 16.10
SCNet Large 6.76 16.13
MelBand + SCNet Ensemble 7.22 16.59

Послушать: пользовательские демо

2) Подготовлена новую модель для барабанов на основе нейронной сети SCNet - она дает лучшие результаты среди всех остальных моделей. Так же мы обновили ансамбли которые включают в себя барабаны. См. результаты в таблице ниже:

Название алгоритма Multisong dataset
SDR Drums SDR Other
HTDemucs4 12.04 16.56
MelBand Roformer 12.76 17.28
SCNet Large 13.01 17.53
MelBand + SCNet Ensemble 13.48 18.00
MelBand + SCNet Ensemble (+extract from Instrumental) 13.59 ---

Послушать: пользовательские демо

3) Добавлен новый алгоритм MVSep Strings это модель на базе архитектуры MDX23C для разделения музыки на струнные смычковые инструменты и все остальное. Метрика SDR: 3.84. Мы планируем подготовить другие архитектуры позже.

Послушать: пользовательские демо

4) Добавлен новый экспериментальный алгоритм для экстракции Phantom Center за авторством wesleyr36. Согласно автору алгоритм извлекает фантомный центр из стереозвука, то есть контент, который одинаков для двух каналов и воспринимается как находящийся посередине.

Послушать: пользовательские демо

5) Добавлены 2 новых вариации Mel Roformer для экстракции вокала: ver 2024.10 (SDR vocals: 11.28, SDR instrum: 17.59) - которая улучшила результат на Multisong Leaderboard. А также unwa Instrumental (SDR vocals: 10.24, SDR instrum: 16.54) - которая хоть и шумная, но дает более полную картину для инструментальной партии.

Послушать: пользовательские демо 1, пользовательские демо 2

6) Добавлены новые модели SCNet и MelBand Roformer, обученные на DnR v3 датасете. Они предназначены для "cinematic" разделения треков на стемы: speech, music и sfx. Метрики получились лучше чем у аналогичной модели Bandit v2. С метриками можно ознакомиться в таблице ниже:

Название алгоритма
Метрики качества в таблице лидеров DnR v3
music (SDR) sfx (SDR) speech (SDR)
SCNet Large  9.94 11.35 12.59
Mel Band Roformer 9.45 11.24 12.27
Ensemble (Mel + SCNet) 10.15 11.67 12.81
Bandit v2 (для сравнения) 9.06 10.82 12.29

Послушать: пользовательские демо

7) Добавлена новая модель для удаления эффекта реверберации от Sucial. Модель работает только с вокалом. Она доступна для выбора в алгоритме "Reverb Removal (noreverb)" под именем "Reverb removal by Sucial (MelRoformer)"

Послушать: пользовательские демо

8) Алгоритм "MVSep Multichannel BS (vocals, instrumental)", который отлично себя зарекомендовал для разделения мультиканальных треков (Surround 5.1/7.1) был перенесен из экспериментального раздела в раздел HQ Models. Так же мы добавили туда для выбора топовую вокальную модель MelBand Roformer. Особенность данного алгоритма, что при его использовании количество каналов не уменьшается после разделения, а Sample Rate остается идентичным оригиналу.

9) Добавлен алгоритм Medley Vox - изначально это датасет для тестирования алгоритмов разделения нескольких певцов в рамках одного музыкального трека. Так же авторы Medley Vox предложили архитектуру нейронной сети для разделения певцов. Однако, к сожалению, они не выложили веса. Позже их тренировочный процесс повторил Cyru5, натренировав несколько моделей и выложил веса в открытый доступ. Теперь натренированная нейронная сеть доступна на MVSep. Алгоритм работает со звуком с низким Sample Rate, но может быть полезен в некоторых случаях.

10) Был выложен большой набор новых датасетов для проверки качества моделей:
- Piano: https://mvsep.com/quality_checker/leaderboard/piano/
- Guitar: https://mvsep.com/quality_checker/leaderboard/guitar/
- Medley Vox: https://mvsep.com/quality_checker/leaderboard/medley/
- Strings: https://mvsep.com/quality_checker/leaderboard/strings/
- Wind: https://mvsep.com/quality_checker/leaderboard/wind/
- DNR v3 Test: https://mvsep.com/quality_checker/leaderboard/dnr_v3/
- Super Resolution Checker for Music: https://mvsep.com/quality_checker/leaderboard/super_res_music/

🗎 Копировать ссылку

Новости сентября

2024-09-23


1) Мы добавили новые модели для пианино. Модель MVSep Piano теперь представлена в нескольких вариантах, основанных на архитектурах MDX23C, MelRoformer и SCNet Large. Модель производит высококачественное разделение музыки на партию фортепиано и всего остального. См. результаты в таблице ниже. Для сравнения в таблице приведены метрики на открытой модели Demucs4HT (6 партий) и старой модели "mdx23c (2023.08)". Используемая метрика SDR - чем больше, тем лучше.

Название алгоритма Тип валидации
piano (SDR) other (SDR)
Demucs4HT (6 stems) 2.23 14.51
mdx23c (2023.08, SDR: 4.79) 4.79 17.07
mdx23c (2024.09, SDR: 5.59) 5.59 17.89
MelRoformer (viperx, SDR: 5.67) 5.67 17.95
SCNet Large (2024.09, SDR: 5.89) 5.89 18.16
Ensemble (SCNet + Mel, SDR: 6.19) 6.19 18.47

Послушать: демо, пользовательские демо.

2) Мы обновили наши модели для гитары. Добавлена модель на базе архитектуры BSRoformer от viperx. Так же обновился ансамбль. По умолчанию используется именно он. SDR на нашем проверочном датасете вырос с 7.18 до 7.51.

Послушать: демо, пользовательские демо

3) Мы добавили новую версию MelBand Roformer для вокала, которая показала рекордные результаты на Synth датасете. Вы можете выбрать её из списка под названием "Bas Curtiz edition (SDR vocals: 11.18, SDR instrum: 17.49)" в разделе "MelBand Roformer (vocals, instrumental)".

4) Мы добавили новый алгоритм в секцию Experimental: "Apollo MP3 Enhancer (by JusperLee)". Этот алгоритм поднимает качество звука в MP3 фалйах, ужатых с битрейтом 128 kbps и менее. Алгоритм основан на статье "Apollo: Band-sequence Modeling for High-Quality Audio Restoration" и модель доступна на сайте huggingface. Ниже приведены спектрограммы для ужатого до 32 kbps аудио (слева) и восстановленного новым алгоритмом (справа).

Послушать: демо, пользовательские демо.

5) Мы добавили алгоритм "Aspiration by Sucial". Этот алгоритм извлекает шёпот из голоса. Применение у алгоритма ограничено, но возможно кому-то пригодится. Модель была опубликована в нашей теме открытых моделей на github и также доступна для загрузки на huggingface.

Послушать: демо, пользовательские демо.

🗎 Копировать ссылку

Обновления августа

2024-08-21


У нас много обновлений, которые касаются вокальных моделей:

1) Была обновлена модель BS Roformer (vocals, instrumental). Метрики SDR выросли для вокала с 11.24 до 11.31 и для инструментальной партии с 17.55 до 17.62
2) Мы добавили новую модель MelBand Roformer (vocals, instrumental).  Нейронная сеть впервые предложена в статье "Mel-Band RoFormer for Music Source Separation" от группы ученых из компании ByteDance.  Первые веса высокого качества в открытый доступ выложила Kimberley Jensen. Далее нейронная сеть с открытыми весами была немного изменена и дотренирована командой MVSep с целью улучшить метрики качества. SDR для вокала сравнимы с BS Roformer: 11.17. SDR для инструментальной партии: 17.48.
3) За счёт появления новой модели MelBand Roformer у всех алгоритмов серии Ensemble увеличились метрики для вокала с 11.33 до 11.50 и для инструментальной партии с 17.63 до 17.81.
4) Мы добавили новую модель SCNet (vocals, instrumental). Нейронная сеть предложена в статье "SCNet: Sparse Compression Network for Music Source Separation" от группы ученых из Китая. Авторы выложили код нейронной сети в открытый доступ, а команда MVSep смогда воспроизвести результаты похожие на те, что приведены в опубликованной статье. Сначала мы натренировали маленькую версию SCNet, а затем спустя некоторое время была подготовлена и более тяжелая версия SCNet. Метрики качества довольно близки к качеству Roformer моделей (которые являются топовыми моделями на данный момент), но все же слегка им уступают. Метрики SDR для большой версии сети. Вокал: 10.74 и инструментальная партия: 17.05.
5) Добавлена экспериментальная модель для удаления шума DeNoise by aufr. Модель подготовлена и выложена в открытый доступ автором aufr.

Все замеры метрик SDR проводились на Multisong датасете.

🗎 Копировать ссылку

Июльские обновления

2024-07-20


1) Мы добавили возможность логиниться на сайт через социальные сети.
2) Добавлена новая модель для барабанов, которая значительно превосходит старые. Это ансамбль моделей HTDemucs и MelRoformer. Модель доступна на сайте под название "MVSep Drums (drums, other)".

Метрики на MultiSong датасете. 

HTDemucs (drums fintuned): 12.04
MelRoformer (drums): 12.76
HTDemucs + MelRoformer: 13.05
Так же эти модели были добавлены в ансамбли (Ensemble) и там метрика ещё выше: 13.15

Предыдущие лучшие метрики для барабанов были:

Модель HT Demucs (original): 11.24
В ансамбле: 11.99

Примеры работы алгоритма: https://mvsep.com/en/demo?algorithm_id=44

3) Мы добавили новые модели Bandit v2 для Cinematic source separation. Модели разделяют трек на 3 составные части "music", "speech" и "effects/sfx". Модель обучена на новом мультиязыковом датасете Divide and Remaster (DnR) v3.

Примеры работы алгоритма: https://mvsep.com/en/demo?algorithm_id=45

4) Мы добавили новую модель для разделения барабанов на составные части (DrumSep). Эту модель подготовили aufr33 и jarredou. Она разделяет барабаны на 6 частей: kick, snare, toms, hh, ride, crash. У нас пока нет тестового датасета для проверки качества таких моделей, поэтому трудно сказать какая из двух доступных моделей лучше.

Примеры работы алгоритма: https://mvsep.com/en/demo?algorithm_id=37

5) Мы добавили 2 новые модели для удаления эффекта реверберации. Модели подготовлены anvuew и основаны на моделях с архитектурой MelRoformer и BSRoformer. Прошлая модель от FoxJoy была основана на архитектуре MDX-B и удаляла реверберацию из всего трека. Новые модели убирают эффект реверберации только из вокала. Так же пока трудно сказать насколько хорошо работают новые модели по сравнению с прошлой версией.

Примеры работы алгоритма: https://mvsep.com/en/demo?algorithm_id=22

🗎 Копировать ссылку

Летние обновления

2024-07-01


У нас несколько обновлений:
1)    Мы успешно переехали на новый сервер и ожидаем более стабильную скорость загрузки данных для всех пользователей.
2)    Мы добавили новую таблицу лидеров для моделей гитары (включает электрическую и акустическую гитары): https://mvsep.com/quality_checker/leaderboard/guitar/?sort=guitar
3)    Мы обновили нашу старую модель для гитары "MVSep Guitar (guitar, other)". Раньше она использовала архитектуру MDX23C. Теперь доступно две версии обновленная версия MDX23C и MelRoformer. Сравнение метрик качества на новом лидерборде ниже:

Название алгоритма Тип валидации
guitar (SDR) other (SDR)
Demucs4HT (6 stems) 5.22 12.19
mdx23c Old (2023.08, SDR: 4.78) 4.78 11.75
mdx23c New (2024.06, SDR: 6.34) 6.34 13.31
MelRoformer (2024.06, SDR: 7.02) 7.02 13.99
Ensemble (mdx23 + MelRoformer, SDR: 7.18) 7.18 14.15

4)    Мы добавили новую модель «MVSep Multichannel BS (vocals, instrumental)». Эта модель специально подготовлена для экстракции вокала из мультиканального звука (5.1, 7.1 и.т.д.). После обработки она возвращает мультиканальный звук в том же формате, в каком он был отправлен на сервер с тем же sample rate. На вход принимаем мультиканальные WAV/FLAC.

🗎 Копировать ссылку

Переезд на новый сервер

2024-06-15


Мы собираемся переехать на новый сервер в течение следующей недели. Ожидается более стабильная работа и высокая скорость закачки файлов на сервер. Ранее на низкую скорость работы жаловались многие пользователи. Надеемся что эта проблема решится после переезда. Пожалуйста, пишите обо всех проблемах с которыми вы столкнетесь на новом сервере. 

🗎 Копировать ссылку

Обновления bass-моделей и ансамблей

2024-05-24


Мы обновили наши модели для экстракции бас-дорожки (bass). Ранее лучший SDR для баса был у одиночной модели HTDemucs4 FT ~12,05, а в ансамбле — 12,59. Мы добавили новую модель с названием "MVSep Bass (bass, other)" - это ансамбль из 2-х моделей, дообученный HTDemucs4 и обученный с нуля BS Roformer. У этой модели есть 2 варианта - можно извлечь бас непосредственно из микса или сначала извлечь вокал, а уже после извлечь бас только из инструментальной партии.

- SDR для экстракцию из микса: 13,25
- SDR для экстракции из инструментальной части: 13,42

Также мы обновили наши ансамбли: «Ensemble (vocals, instrum, bass, drums, other)» и «Ensemble All In». Их SDR для баса также увеличился с 12,59 до 13,44.

🗎 Копировать ссылку

Обновления вокальных моделей и ансамблей

2024-04-04


После выпуска весов от viperx для BS Roformer мы дотренировали их на нашем наборе данных. И мы смогли значительно улучшить их SDR. Мы добавили на сайт новую версию весов BSRoformer. На данный момент это, пожалуй, лучшие доступные модели в мире. 

Метрики на Multisong датасете:
SDR vocals: 10.87 -> 11.24
SDR insrum: 17.17 -> 17.55

Метрики на Synth датасете:
SDR vocals: 12.71 -> 13.47
SDR insrum: 12.41 -> 13.17

2) Ансамбли также улучшились:

Ensemble (vocals, instrum) на Multisong датасете:
SDR vocals: 11.06 -> 11.33
SDR instrum: 17.37 -> 17.63

Ensemble (vocals, instrum) на Synth датасете:
SDR vocals: 13.00 -> 13.57
SDR instrum: 12.70 -> 13.27

Ensemble (vocals, instrum, bass, drums, other):
SDR vocals: 11.06 -> 11.33
SDR instrum: 17.37 -> 17.63
SDR bass: 12.57 -> 12.59
SDR drums: 11.94 -> 11.99
SDR other: 7.22 -> 7.33

3) Нам сообщили о некоторых «щелкающих» звуках в результатах разделения. Мы улучшили наш код обработки треков. На данный момент проблема должна была уйти. Пожалуйста, сообщите нам, если проблема все еще присутствует.

🗎 Копировать ссылку

Последние обновления марта

2024-03-29


1) ViperX сделал релиз своих весов для модели BS Roformer, которая делает разделение музыкального трека на вокальную и инструментальную части. Качество разделения на данный момент лучшее в мире. Мы добавили эти веса на MVSep. Показатели SDR увеличились по сравнению с нашей собственной моделью BS Roformer.

Multisong датасет:
SDR vocals изменился: 10.43 -> 10.87
SDR instrumental изменился: 16.73 -> 17.17

Synth датасет:
SDR vocals изменился: 12.45 -> 12.76
SDR instrumental изменился: 12.16 -> 12.46

2) На основе новой весов от ViperX мы обновили алгоритмы ансамблей:

Ensemble (vocals, instrum) на Multisong датасете:
SDR vocals: 10.75 -> 11.06
SDR instrum: 17.06 -> 17.37

Ensemble (vocals, instrum) на Synth датасете:
SDR vocals: 12.76 -> 13.00
SDR instrum: 12.46 -> 12.70

Ensemble (vocals, instrum, bass, drums, other):
SDR vocals: 10.75 -> 11.06
SDR instrum: 17.06 -> 17.37
SDR bass: 12.53 -> 12.57
SDR drums: 11.84 -> 11.94
SDR other: 7.15 -> 7.22

3) Мы добавили больше функций в наш API MVSep для разработчиков.

🗎 Копировать ссылку

Обновления сайта за февраль и март

2024-03-12


1) Мы сделали релиз новой модели высокого качества BS Roformer v2. Это архитектура на базе трансформеров от команды ByteDance. Метрики качества немного превосходят метрики MDX23C. Модель продолжает улучшаться, так что ожидайте новые релизы в ближашее время. Демо можно посмотреть здесь.

2) Все ансамбли были обновлены с учетом BS Roformer v2. Старая версия ансамблей так же осталась доступна. SDR метрики ансамблей выросли: Vocals SDR: 10.44 -> 10.75 Instrumental SDR: 16.74 -> 17.06

3) Мы добавили возможность скачивать архив файлов полученных после разделения.

4) Была добавлена модель высокого качества Whisper (версии large-v3) от компании OpenAI, которая позволяет получать текстовую транскрипцию текста песни/диалога из произвольного аудио.

🗎 Копировать ссылку

Январские обновления

2024-01-13


  1. Все ансамбли (Ensembles) теперь имеют настройку "Include intermediate results and max_fft, min_fft”. Эта опция выведет результаты каждого отдельного алгоритма из ансамбля. Так как алгоритмы работают по разному какой-то из них может дать результат который будет лучше чем финальный ансамбль. А min_mag и max_mag позволяют в некоторых случаях отфильтровать утекшие инструменты.
  2. Алгоритм Ensemble All-In теперь включает в себя результаты алгоритма DrumSep.
  3. Теперь очень длинные треки (15 минут и больше) разбиваются на части и обрабатываются сразу на нескольких GPU, позволяя ускорить получение результата.
🗎 Копировать ссылку

Новогодние обновления

2023-12-29


1) Мы добавили модель DrumSep. Эта модель производит детальное разделение дорожки барабанов на 4 типа: 'kick', 'snare', 'cymbals', 'toms'. Используется модель DrumSep из репозитория на github. Модель имеет два режима работы. В первом (по умолчанию) сначала к треку применяется модель Demucs4 HT, которая извлекает из трека только барабанную часть. Далее уже применяется модель DrumSep. Если ваш трек состоит только из барабанов, то имеет смысл использовать второй режим, где модель DrumSep применяется непосредственно к загруженному аудио. Демки доступны здесь.

2) Так же была добавлена схожая модель LarsNet, которая производит разделение дорожки барабанов на 5 типов: 'kick', 'snare', 'cymbals', 'toms', 'hihat'. Используется модель из репозитория на github и обученная на датасете StemGMD. Модель имеет два режима работы. В первом (по умолчанию) сначала к треку применяется модель Demucs4 HT, которая извлекает из трека только барабанную часть. Далее уже применяется модель LarsNet. Если ваш трек состоит только из барабанов, то имеет смысл использовать второй режим. К сожалению, субъективно качество разделения уступает по качеству модели DrumSep. Демки доступны здесь.

🗎 Копировать ссылку

Обновления в декабре

2023-12-21


1) Мы добавили новую модель BandIt Plus для разделения треков на голос, музыку и эффекты. Она может быть полезна для телевизионных или кинематографических роликов. Модель была выложена авторами статьи "A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation" в репозитории на GitHub. Модель была натренирована на наборе данных Divide and Remaster (DnR). И на данный момент имеет лучшие метрики качества среди подобных моделей. Демо работы алгоритма можно посмотреть здесь.

Таблица качества

Название алгоритма DnR dataset
SDR Speech SDR Music SDR Effects
BandIt Plus 15.62 9.21 9.69

2) Код почти для всех моделей был обновлен таким образом, что качество разделения немного выросло, а скорость разделения увеличилась.

3) Модель для удаления звуков толпы (Crowd removal) была обновлена. Добавлено более качественное удаление смеха.

🗎 Копировать ссылку

Новая модель для удаления звуков толпы (Crowd removal)

2023-11-20


Мы подготовили уникальную модель для удаления звуков толпы из музыкальных записей (аплодисменты, хлопки, свист, шум и.т.д.). Текущие метрики на нашем внутреннем датасете для проверки качества:

  • SDR crowd: 5.65
  • SDR other: 19.31

Примеры работы модели можно посмотреть: здесь и здесь.

🗎 Копировать ссылку

Обновления в ноябре (улучения вокальной модели)

2023-11-11


Мы обновили нашу основную модель MDX23C 8K FFT для разделения треков на вокальную и инструментальную части. Метрики SDR выросли на MultiSong Dataset и на Synth Dataset. Соответственно улучшились результаты разделения и в Ensemble 4 и Ensemble 8 моделях. См изменения в таблице ниже.

Название алгоритма Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
MDX23C 8K FFT, Full Band (Предыдущая версия) 10.17 16.48 12.35 12.06 11.04
MDX23C 8K FFT, Full Band (Новая версия) 10.36 16.66 12.52 12.22 11.16
Ensemble 4 (Предыдущая версия) 10.32 16.63 12.67 12.38 11.09
Ensemble 4 (Новая версия) 10.44 16.74 12.76 12.46 11.17

Предыдущая версия MDX23C 8K FFT так же доступна для использования.

🗎 Копировать ссылку

Обновления в сентябре

2023-09-18


1) Мы обновили нашу основную модель MDX23C 8K FFT для разделения треков на вокальную и инструментальную части. Метрики SDR выросли на MultiSong Dataset и на Synth Dataset. Соответственно улучшились результаты разделения и в Ensemble 4 и Ensemble 8 моделях. См изменения в таблице ниже.

Название алгоритма Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
8K FFT, Full Band (Старая версия) 10.01 16.32 12.07 11.77 10.85
8K FFT, Full Band (Новая версия) 10.17 16.48 12.35 12.06 11.04

2) Мы добавили две новые модели MVSep Piano (демо) и MVSep Guitar (демо). Обе модели основаны на архитектуре MDX23C. Модели производят высококачественное разделение музыки на партию фортепиано/гитары и всего остального. Каждая из моделей доступна в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к инструментальной части. Во втором случае качество разделения обычно немного выше. Также мы подготовили небольшой внутренний валидационный набор для сравнения моделей по качеству отделения пианино/гитары от основного трека. Наща модель сравнивалась с двумя другими моделями (Demucs4HT (6 партий) и GSEP). Для пианино у нас есть два валидационных набора. Первый набор включает электрическое пианино как часть партии фортепиано, а вторая включает только акустическое пианино.
Используемая метрика — SDR: чем больше, тем лучше. См. результаты в двух таблицах ниже.

Тип валидации Название алгоритма
Demucs4HT (6 stems) GSEP MVSep Piano 2023 (Type 0) MVSep Piano 2023 (Type 1)
Validation full 2.4432 3.5589 4.9187 4.9772
Validation (only grand piano) 4.5591 5.7180 7.2651 7.2948

 

Тип валидации Название алгоритма
Demucs4HT (6 stems) MVSep Guitar 2023 (Type 0) MVSep Guitar 2023 (Type 1)
Validation guitar 7.2245 7.7716 7.9251
Validation other 13.1756 13.7227 13.8762

3) Мы обновили модель MDX-B Karaoke (демо). Теперь у неё лучше метрики качества. Изначально модель MDX-B Karaoke подготовлена в рамках проекта Ultimate Vocal Remover. Модель производит высококачественное извлечение ведущей вокальной партии из музыкального трека. Так же мы сделали её доступной в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к вокальной части. Во втором случае качество разделения обычно выше и при этом появляется возможность дополнительно извлечь бэк-вокал в отдельную дорожку. Модель сравнивалась на большом валидационном наборе с двумя другими Karaoke моделями из UVR (они тоже доступны на сайте). См. результаты в таблице ниже.

Тип валидации Название алгоритма
UVR (HP-KAROKEE-MSB2-3BAND-3090) UVR (karokee_4band_v2_sn) MDX-B Karaoke (Type 0) MDX-B Karaoke (Type 1)
Validation lead vocals 6.46 6.34 6.81 7.94
Validation other 13.17 13.02 13.53 14.66
Validation back vocals --- --- --- 1.88
🗎 Копировать ссылку

Летние обновления

2023-08-08


У нас на сайте много новых обновлений. Первым делом мы переделали сайт с нуля. Он имеет новые функции, такие как регистрация пользователей, более информативные страницы, улучшенный дизайн и т. д. Но также мы добавили несколько новых алгоритмов:

1) Мы сделали релиз моделей MDX23C. Одна из моделей достигла 10 SDR на наборе Multisong Dataset. На данный момент это лучшие одиночные модели для разделения вокала/инструментала.
2) Добавлен новый алгоритм Demucs4 Vocals 2023. Это открытый алгоритм demucsht_ft, но дообученный на большом наборе данных. Метрики гораздо лучше, чем у оригинала, но чуть хуже, чем у MDX23C. На некоторых мелодиях этот алгоритм может дать более качественный результат.
3) Добавлены новые алгоритмы ансамблей. Во-первых, это "Ensemble 4 models (vocals, instrum)". В него входят: UVR-MDX-NET-Voc_FT, Demucs4 Vocals 2023 и две модели MDX23C. Алгоритм обеспечивает максимально возможное качество вокальных и инструментальных дорожек. Также, если вам нужно более детальное разделение, включающее еще 3 дорожки "бас", "барабаны" и "остальное", вы можете использовать "Ensemble 8 models (vocals, bass, drums, other)". Этот ансамбль дает лучшие на данный момент результаты для разделения трека на 4 дорожки.

Вы можете найти сравнительные таблицы ниже (чем больше SDR, тем лучше).

 

Название алгоритма Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
Ensemble of 4 models 10.18 16.48 12.25 11.95 10.95
MDX23C, 8K FFT, Full Band 10.01 16.32 12.07 11.77 10.85
UVR-MDX-NET-Voc_FT 9.64 15.95 11.40 11.10 10.50
Demucs4 HT Vocals 2023 9.04 15.35 11.59 11.29 9.61
Demucs4 HT default (htdemucs_ft) 8.33 14.63 10.23 9.94 9.08

 

Название алгоритма Multisong dataset
SDR Bass SDR Drums SDR Other SDR Vocals SDR Instrumental
Ensemble of 8 models 12.52 11.73 6.93 10.17 16.48
Demucs 4 HT default (htdemucs_ft) 12.05 11.24 5.74 8.33 14.63
🗎 Копировать ссылку

Новые модели MDX23C для отделения вокала

2023-07-06


  • Мы сделали релиз новых моделей MDX23C. Они основаны на программном коде от kuielab, который был подготовлен для Sound Demixing Challenge 2023. Результаты полученных моделей содержат весь частотный спектр и имеют максимальные метрики качества для вокала и музыки на MultiSong Dataset. Всего доступно 4 модели, по умолчанию используется модель с максимальными метриками качества. В данный момент мы работаем над дальнейшим улучшением этих моделей. Подробнее...
  • Так же была подготовлена модель состоящая из ансамбля нескольких одиночных MDX23C моделей, которая даёт качество ещё лучше. Она доступна на сайте под названием MDX23C Ensemble.
🗎 Копировать ссылку

Новости

2023-05-22


  1. Алгоритм MDX-B теперь генерирует только вокальную и инструментальную дорожки. Это связано с тем, что остальные 3 дорожки (бас, барабаны и другое) работают не так хорошо по сравнению с Demucs4 HT. Вы по-прежнему можете получить доступ к старому MDX-B (4 дорожки) в разделе «Старые модели».
  2. Мы добавили модель Kim_vocal_2 (предоставленную Kimberley Jensen) и несколько других моделей UVR MDX. Kim_vocal_2 используется по умолчанию, поскольку даёт наиболее качественный результат.
  3. Мы обновили принцип работы алгоритма MDX используя overlap=0.8. Теперь он даёт более качественный результат (в терминах SDR метрики). Например модель Kim_vocal_2 в одиночку даёт: SDR 9.60 для вокала и SDR 15.91 для инструментальной части на Multisong dataset.
🗎 Копировать ссылку

Модель для удаления реверберации и другое

2023-04-30


1) На сайт добавлена новая модель по удалению эффекта реверберации из музыкальных треков. Она доступна под названием "FoxJoy Reverb Removal (other)". Примеры работы можно посмотреть здесь.

2) Теперь доступны все модели Demucs4 HT: htdemucs_ft [метрики качества], htdemucs [метрики качества] и htdemucs_6s [метрики качества]. htdemucs_6s разделяет трек на 6 частей, помимо стандартных частей, дополнительно включет пианино и гитару. Эти модели являются лучшими для получения bass, drums и other частей треков.

3) Добавлена лучшая по качеству модель MDX B для отделения вокала: "MDX Kimberley Jensen 2023.02.12 SDR: 9.30 (New)" [метрики качества].

🗎 Копировать ссылку

Оригинальная модель MVSep Vocal Model

2022-11-13


  1. На сайт была добавлена собственная оригинальная модель MVSep Vocal Model, натренированная на собственном большом датасете. Она показывает отличные результаты на тестовых данных:
    Synth dataset vocal SDR: 10.4523
    Synth dataset instrumental SDR: 10.1561
    MUSDB18HQ dataset vocal SDR: 8.8292
    MUSDB18HQ dataset instrumental SDR: 15.2719
  2. На сайт была добавлена новая модель от команды Facebook - Demucs4 Hybrid Transformer.
🗎 Копировать ссылку

Экспериментальный алгоритм MVSep DNR

2022-07-29


На сайт был добавлен экспериментальный алгоритм MVSep DNR, который разделяет треки на 3 части: музыку, спец-эффекты и голос. Алгоритм был натренирован на датасете "Divide and Remaster". Метрики качества:
SDR DNR for music: 6.17
SDR DNR for sfx: 7.26
SDR DNR for speech: 14.13
Алгоритм плохо подходит для обычной музыки, но неплохо справляется, когда нужно, скажем, почистить голос диктора от посторонних шумов на фоне.
Примеры работы алгоритма MVSep DNR

🗎 Копировать ссылку

Июльские изменения на MVSep

2022-07-07


  1. Мы создали независимый синтетический набор данных для сравнения различных алгоритмов разделения музыкальных треков. Мы опубликовали датасет здесь вместе с автоматической проверяющей системой. Также доступна таблица наиболее эффективных алгоритмов.
  2. Добавлена новая вокальная модель MDX-B UVR. Это последняя версия от команды UVR. Опция доступна при выборе алгоритма MDX-B в форме.
  3. Были добавлены новые модели из пакета Ultimate Vocal Remover построенные на базе архитектуры demucs3. На сайте они доступны под названием UVR Demucs в списке алгоритмов.

Метрики качества для разных алгоритмов, включая UVR Demucs, можно посмотреть здесь.

🗎 Копировать ссылку

Апрельские изменения на MVSep

2022-04-18


  1. Добавлен алгоритм Danna Sep. Этот алгоритм занял 3 место на Leaderboard A в соревновании Sony Music Demixing Challenge.
  2. Добавлен алгоритм Byte Dance. Этот алгоритм занял второе место в категории vocals на Leaderboard A в соревновании Sony Music Demixing Challenge. Он тренировался только на данных MUSDB18HQ и имеет потенуиал в дальнейшем в случае добавления большего числа данных на обучение.

Метрики качества для этих и других алгоритмов можно посмотреть здесь.

🗎 Копировать ссылку

Февральские изменения на MVSep

2022-02-24


  1. Добавлены новые модели UVR: Piano, Bass, Drums и несколько различных Vocal моделей. Добавлен выбор aggressivness для UVR моделей.
  2. Добавлены удалённые GPU, которые обрабатывают задания в очереди. Размер очереди должен значительно сократиться.
  3. Для spleeter (вокал, барабаны, бас, остальное) и spleeter (вокал, барабаны, бас, пианино, остальное) добавлен вывод instrumental дорожек.
🗎 Копировать ссылку

Декабрьские изменения на MVSep

2021-12-23


  1. Добавлена возможность выбрать lossless-кодирование полученных файлов. Ранее была возможность использовать только MP3. Теперь добавлен вывод в WAV и FLAC.
  2. Для всех основных алгоритмов: MDX, Demucs3 и Unmix добавлен вывод общего инструментального трека (instrumental).
  3. Добавлен перевод сайта на Польский и Индонезийский языки.
  4. Добавлен скрипт сброса GPU в случае зависания. Больше не должно быть длительных простоев сервера.

К сожалению, все самые качественные алгоритмы работают очень медленно из-за чего периодически образуются очереди ожидания. Думаем, что с этим делать.

🗎 Копировать ссылку

Три больших новости

2021-11-12


У нас три больших новости:

  1. Пришлось переехать на новый сервер из-за нехватки места на старом. Позитивный эффект - поменялась видеокарта на более мощную и с большим объемом памяти. Как следствие очереди ожидания уменьшились и ошибок связанных с недостатком GPU памяти стало меньше. Минус, что в два раза выросли затраты на сервер.
  2. Был добавлен новый алгоритм Ultimate Vocal Remover (UVR). Он разбивает трек на две части музыку и вокал. При этом обычно делает это лучше spleeter. В оригинальном UVR очень много моделей и разных настроек. Мы выбрали одну из лучших моделей и оптимальные настройки. Возможно позже будет добавлен гибкий выбор настроек для алгоритма.
  3. Победитель конкурса Music Demuxing Challenge наконец сделал релиз своего кода. Мы добавили его модели на сайт под названиями Demux3 Model A и Demux3 Model B. Demux3 Model B даёт более качественный результат, а для басов и барабанов работает лучше всех моделей, но слегка уступает по вокалу алгоритму MDX-B.

Ниже обновленная табличка сравнения качества алгоритмов (данные для UVR отсутствуют). Значения в таблице рассчитаны на закрытом конкурсном датасете Music Demuxing Challenge (доступен только организаторам). Чем больше значение, тем лучше работает алгоритм.

Алгоритм Качество (Bass) Качество (Drums) Качество (Other) Качество (Vocals) Пример
Spleeter (4 stems) 5.774 5.845 4.321 6.939 Пример
UmxXL 6.619 6.838 4.891 7.732 Пример
MDX A 7.232 7.173 5.636 8.901 Пример
MDX B (Orig) 7.495 7.554 5.533 8.896 ---
MDX B (UVR) 7.495 7.554 5.533 9.482 Пример
Ultimate Vocal Remover HQ --- --- --- --- Пример
Demucs 3 Model A 8.115 8.037 5.193 7.968 Пример
Demucs 3 Model B 8.856 8.850 5.978 8.756 Пример
🗎 Копировать ссылку

Два новых алгоритма для разделения треков: MDX A и MDX B

2021-10-19


На сайт mvsep.com добавлены два новых алгоритма для разделения треков: MDX A и MDX B. Это модели, созданные участниками конкурса Music Demuxing Challenge, которые заняли второе место. Код их решения и модели нейронных сетей были выложены в открытый доступ. Мы всё ещё ждем решение первого места. Но и эти модели по конкурсным метрикам значительно обгоняют Spleeter и UmxXL (см. табличку выше), но пока проигрывают по скорости. MDX A отличается от MDX B тем что первый алгоритм не использовал внешние данные для обучения, поэтому результаты чуть хуже, чем у MDX B. Позже энтузиасты проекта UVR доработали модель по отделению вокала, получив лучше значение для метрики качества (8.896 -> 9.482).

🗎 Копировать ссылку

  • ‹
  • 1
  • 2
  • ›
MVSEP Logo

turbo@mvsep.com

Дополнительные разделы

Проверка качества алгоритмов

Алгоритмы

Полная документация по API

Компания

Политика конфиденциалности

Условия и Положения

Политика возврата

Дополнительно

Помогите нам перевести!

Помогите в продвижении!