1) Мы поменяли вид выбора моделей в меню. Теперь вместо выпадающего меню список с возможностью вывода информации о моделях и статистики. При желании можно откатиться к старой версии списка.
2) По многочисленным просьбам мы добавили инструментальную модель HQ5 на сайт для алгоритма MDX-B (vocals, instrumental).
3) Мы опубликовали веса полученные на датасете MUSDB18 для топовых моделей BSRoformer, MelBandRoformer и SCNet XL. Эти веса могут быть отличной отправной точкой для тренировки своих моделей.
4) Мы добавили три модели от unwa и 2 модели от becruily, которые основаны на архитектуре Mel-Band RoFormer. Все модели ориентированы на увеличении метрики fullness (полнота) либо для vocals, либо для instrumental. Они дают более полное звучание, но могут содержать больше шума. Новые модели доступны под именами:
unwa big beta v5e (SDR vocals: 10.59, SDR instrum: 16.89)
20.78
32.02
10.59
38.53
25.65
45.90
16.90
37.31
becruily instrum high fullness (SDR instrum: 16.47)
15.76
30.15
10.16
35.84
33.93
40.55
16.47
38.86
becruily vocals high fullness (SDR vocals: 10.55)
20.72
31.25
10.55
38.84
28.28
40.85
16.86
38.24
5) Мы добавили 2 модели от lew для Super Resolution. Первая "Universal Super Resolution (by Lew)" - восстанавливает высокие частоты для музыки, вторая более специализированная "Vocals Super Resolution (by Lew)" восстанавливает качество и высокие частоты для вокала. Они доступны для выбора в меню под пунктом "Apollo Enhancers (by JusperLee and Lew)".
6) Мы добавили набор моделей для разделения вокала на Male/Female (мужские и женские голоса). Доступно 2 модели от Sucial и aufr33. Так же доступны две модели натренированные командой MVSep на базе SCNet XL и MelBand RoFormer.
Algorithm name
Male/Female validation dataset
SDR Male
SDR Female
L1_Freq Male
L1_Freq Female
BSRoformer by Sucial (SDR: 6.52)
6.82
6.23
40.99
40.62
BSRoformer by aufr33 (SDR: 8.18)
8.47
7.89
46.65
44.73
SCNet XL (SDR: 11.83)
12.08
11.58
50.50
51.51
MelRoformer (2025.01) (SDR: 13.03)
13.39
12.68
57.61
56.76
7) Мы добавили новую модель SCNet XL для баса с очень высоким SDR: 13.81. В ансамбле метрика SDR достигла 14.07, что является рекордом. Модель доступна под пунктом MVSep Bass (bass, other)
8) Мы добавили вторую версию модели для удаления эффекта реверберации от Sucial в раздел Reverb Removal (noreverb). Имя модели: Reverb removal by Sucial v2 (MelRoformer).
9) Мы подготовили новую модель для вокала на базе архитектуры SCNet XL, она достигла довольно высоких метрик.
Algorithm name
Multisong dataset
Synth dataset
MDX23 Leaderboard
SDR Vocals
SDR Instrumental
SDR Vocals
SDR Instrumental
SDR Vocals
SCNet
10.25
16.56
12.27
11.97
---
SCNet Large
10.74
17.05
12.89
12.59
---
SCNet XL
10.96
17.27
13.08
12.78
---
Добавление SCNet XL к Mel и BS роформерам в ансамбле увеличило метрику SDR: vocals: 11.54 -> 11.61 instrumental: 17.84 -> 17.92
10) Мы добавили новую модель для музыкального инструмента - орган. В списке она доступна под именем: MVSep Organ (organ, other).
11) Мы обновили наш API, добавив больше функционала, связанного с очередью задач, рейтингом и использованием разных типов разделения, а также добавили Quality Checker в API. Больше информации доступно в документации: https://mvsep.com/full_api
12) Мы тестируем приложение для Андроид, скоро оно появится в Google Play. Об этом мы дадим анонс отдельно.
13) В ближайшее время мы планируем выложить примеры использования API MVSep на языке Python. Как простые консольные программы, так и с графической оболочкой.
1) Добавлен новый алгоритм MVSep Wind для экстракции из музыкальных треков духовых инструментов. Духовые включают в себя 2 категории инструментов: медные и деревянные духовые. Более конкретно мы включили в духовые: флейту, саксофон, трубу, тромбон, валторну, кларнет, гобой, губную гармошку, волынку, фагот, тубу, казу, пикколо, флюгельгорн, окарину, сякухати, мелодику, язычковые, диджериду, мюссетт, гайду. Мы подготовили две модели основанные на SCNet и MelBand Roformer архитектурах. Метрики качества приведены в таблице ниже:
2) Подготовлена новую модель для барабанов на основе нейронной сети SCNet - она дает лучшие результаты среди всех остальных моделей. Так же мы обновили ансамбли которые включают в себя барабаны. См. результаты в таблице ниже:
3) Добавлен новый алгоритм MVSep Strings это модель на базе архитектуры MDX23C для разделения музыки на струнные смычковые инструменты и все остальное. Метрика SDR: 3.84. Мы планируем подготовить другие архитектуры позже.
4) Добавлен новый экспериментальный алгоритм для экстракции Phantom Center за авторством wesleyr36. Согласно автору алгоритм извлекает фантомный центр из стереозвука, то есть контент, который одинаков для двух каналов и воспринимается как находящийся посередине.
5) Добавлены 2 новых вариации Mel Roformer для экстракции вокала: ver 2024.10 (SDR vocals: 11.28, SDR instrum: 17.59) - которая улучшила результат на Multisong Leaderboard. А также unwa Instrumental (SDR vocals: 10.24, SDR instrum: 16.54) - которая хоть и шумная, но дает более полную картину для инструментальной партии.
6) Добавлены новые модели SCNet и MelBand Roformer, обученные на DnR v3 датасете. Они предназначены для "cinematic" разделения треков на стемы: speech, music и sfx. Метрики получились лучше чем у аналогичной модели Bandit v2. С метриками можно ознакомиться в таблице ниже:
7) Добавлена новая модель для удаления эффекта реверберации от Sucial. Модель работает только с вокалом. Она доступна для выбора в алгоритме "Reverb Removal (noreverb)" под именем "Reverb removal by Sucial (MelRoformer)"
8) Алгоритм "MVSep Multichannel BS (vocals, instrumental)", который отлично себя зарекомендовал для разделения мультиканальных треков (Surround 5.1/7.1) был перенесен из экспериментального раздела в раздел HQ Models. Так же мы добавили туда для выбора топовую вокальную модель MelBand Roformer. Особенность данного алгоритма, что при его использовании количество каналов не уменьшается после разделения, а Sample Rate остается идентичным оригиналу.
9) Добавлен алгоритм Medley Vox - изначально это датасет для тестирования алгоритмов разделения нескольких певцов в рамках одного музыкального трека. Так же авторы Medley Vox предложили архитектуру нейронной сети для разделения певцов. Однако, к сожалению, они не выложили веса. Позже их тренировочный процесс повторил Cyru5, натренировав несколько моделей и выложил веса в открытый доступ. Теперь натренированная нейронная сеть доступна на MVSep. Алгоритм работает со звуком с низким Sample Rate, но может быть полезен в некоторых случаях.
1) Мы добавили новые модели для пианино. Модель MVSep Piano теперь представлена в нескольких вариантах, основанных на архитектурах MDX23C, MelRoformer и SCNet Large. Модель производит высококачественное разделение музыки на партию фортепиано и всего остального. См. результаты в таблице ниже. Для сравнения в таблице приведены метрики на открытой модели Demucs4HT (6 партий) и старой модели "mdx23c (2023.08)". Используемая метрика SDR - чем больше, тем лучше.
2) Мы обновили наши модели для гитары. Добавлена модель на базе архитектуры BSRoformer от viperx. Так же обновился ансамбль. По умолчанию используется именно он. SDR на нашем проверочном датасете вырос с 7.18 до 7.51.
3) Мы добавили новую версию MelBand Roformer для вокала, которая показала рекордные результаты на Synth датасете. Вы можете выбрать её из списка под названием "Bas Curtiz edition (SDR vocals: 11.18, SDR instrum: 17.49)" в разделе "MelBand Roformer (vocals, instrumental)".
4) Мы добавили новый алгоритм в секцию Experimental: "Apollo MP3 Enhancer (by JusperLee)". Этот алгоритм поднимает качество звука в MP3 фалйах, ужатых с битрейтом 128 kbps и менее. Алгоритм основан на статье "Apollo: Band-sequence Modeling for High-Quality Audio Restoration" и модель доступна на сайте huggingface. Ниже приведены спектрограммы для ужатого до 32 kbps аудио (слева) и восстановленного новым алгоритмом (справа).
5) Мы добавили алгоритм "Aspiration by Sucial". Этот алгоритм извлекает шёпот из голоса. Применение у алгоритма ограничено, но возможно кому-то пригодится. Модель была опубликована в нашей теме открытых моделей на github и также доступна для загрузки на huggingface.
У нас много обновлений, которые касаются вокальных моделей:
1) Была обновлена модель BS Roformer (vocals, instrumental). Метрики SDR выросли для вокала с 11.24 до 11.31 и для инструментальной партии с 17.55 до 17.62 2) Мы добавили новую модель MelBand Roformer (vocals, instrumental). Нейронная сеть впервые предложена в статье "Mel-Band RoFormer for Music Source Separation" от группы ученых из компании ByteDance. Первые веса высокого качества в открытый доступ выложила Kimberley Jensen. Далее нейронная сеть с открытыми весами была немного изменена и дотренирована командой MVSep с целью улучшить метрики качества. SDR для вокала сравнимы с BS Roformer: 11.17. SDR для инструментальной партии: 17.48. 3) За счёт появления новой модели MelBand Roformer у всех алгоритмов серии Ensemble увеличились метрики для вокала с 11.33 до 11.50 и для инструментальной партии с 17.63 до 17.81. 4) Мы добавили новую модель SCNet (vocals, instrumental). Нейронная сеть предложена в статье "SCNet: Sparse Compression Network for Music Source Separation" от группы ученых из Китая. Авторы выложили код нейронной сети в открытый доступ, а команда MVSep смогда воспроизвести результаты похожие на те, что приведены в опубликованной статье. Сначала мы натренировали маленькую версию SCNet, а затем спустя некоторое время была подготовлена и более тяжелая версия SCNet. Метрики качества довольно близки к качеству Roformer моделей (которые являются топовыми моделями на данный момент), но все же слегка им уступают. Метрики SDR для большой версии сети. Вокал: 10.74 и инструментальная партия: 17.05. 5) Добавлена экспериментальная модель для удаления шума DeNoise by aufr. Модель подготовлена и выложена в открытый доступ автором aufr.
1) Мы добавили возможность логиниться на сайт через социальные сети. 2) Добавлена новая модель для барабанов, которая значительно превосходит старые. Это ансамбль моделей HTDemucs и MelRoformer. Модель доступна на сайте под название "MVSep Drums (drums, other)".
HTDemucs (drums fintuned): 12.04 MelRoformer (drums): 12.76 HTDemucs + MelRoformer: 13.05 Так же эти модели были добавлены в ансамбли (Ensemble) и там метрика ещё выше: 13.15
Предыдущие лучшие метрики для барабанов были:
Модель HT Demucs (original): 11.24 В ансамбле: 11.99
3) Мы добавили новые модели Bandit v2 для Cinematic source separation. Модели разделяют трек на 3 составные части "music", "speech" и "effects/sfx". Модель обучена на новом мультиязыковом датасете Divide and Remaster (DnR) v3.
4) Мы добавили новую модель для разделения барабанов на составные части (DrumSep). Эту модель подготовили aufr33 и jarredou. Она разделяет барабаны на 6 частей: kick, snare, toms, hh, ride, crash. У нас пока нет тестового датасета для проверки качества таких моделей, поэтому трудно сказать какая из двух доступных моделей лучше.
5) Мы добавили 2 новые модели для удаления эффекта реверберации. Модели подготовлены anvuew и основаны на моделях с архитектурой MelRoformer и BSRoformer. Прошлая модель от FoxJoy была основана на архитектуре MDX-B и удаляла реверберацию из всего трека. Новые модели убирают эффект реверберации только из вокала. Так же пока трудно сказать насколько хорошо работают новые модели по сравнению с прошлой версией.
У нас несколько обновлений: 1) Мы успешно переехали на новый сервер и ожидаем более стабильную скорость загрузки данных для всех пользователей. 2) Мы добавили новую таблицу лидеров для моделей гитары (включает электрическую и акустическую гитары): https://mvsep.com/quality_checker/leaderboard/guitar/?sort=guitar 3) Мы обновили нашу старую модель для гитары "MVSep Guitar (guitar, other)". Раньше она использовала архитектуру MDX23C. Теперь доступно две версии обновленная версия MDX23C и MelRoformer. Сравнение метрик качества на новом лидерборде ниже:
Название алгоритма
Тип валидации
guitar (SDR)
other (SDR)
Demucs4HT (6 stems)
5.22
12.19
mdx23c Old (2023.08, SDR: 4.78)
4.78
11.75
mdx23c New (2024.06, SDR: 6.34)
6.34
13.31
MelRoformer (2024.06, SDR: 7.02)
7.02
13.99
Ensemble (mdx23 + MelRoformer, SDR: 7.18)
7.18
14.15
4) Мы добавили новую модель «MVSep Multichannel BS (vocals, instrumental)». Эта модель специально подготовлена для экстракции вокала из мультиканального звука (5.1, 7.1 и.т.д.). После обработки она возвращает мультиканальный звук в том же формате, в каком он был отправлен на сервер с тем же sample rate. На вход принимаем мультиканальные WAV/FLAC.
Мы собираемся переехать на новый сервер в течение следующей недели. Ожидается более стабильная работа и высокая скорость закачки файлов на сервер. Ранее на низкую скорость работы жаловались многие пользователи. Надеемся что эта проблема решится после переезда. Пожалуйста, пишите обо всех проблемах с которыми вы столкнетесь на новом сервере.
Мы обновили наши модели для экстракции бас-дорожки (bass).Ранее лучший SDR для баса был у одиночной модели HTDemucs4 FT ~12,05, а в ансамбле — 12,59.Мы добавили новую модель с названием "MVSep Bass (bass, other)" - это ансамбль из 2-х моделей, дообученный HTDemucs4 и обученный с нуля BS Roformer.У этой модели есть 2 варианта - можно извлечь бас непосредственно из микса или сначала извлечь вокал, а уже после извлечь бас только из инструментальной партии.
- SDR для экстракцию из микса: 13,25 - SDR для экстракции из инструментальной части: 13,42
Также мы обновили наши ансамбли: «Ensemble (vocals, instrum, bass, drums, other)» и «Ensemble All In».Их SDR для баса также увеличился с 12,59 до 13,44.
После выпуска весов от viperx для BS Roformer мы дотренировали их на нашем наборе данных.И мы смогли значительно улучшить их SDR. Мы добавили на сайт новую версию весов BSRoformer.На данный момент это, пожалуй, лучшие доступные модели в мире.
3) Нам сообщили о некоторых «щелкающих» звуках в результатах разделения. Мы улучшили наш код обработки треков. На данный момент проблема должна была уйти. Пожалуйста, сообщите нам, если проблема все еще присутствует.
1) ViperX сделал релиз своих весов для модели BS Roformer, которая делает разделение музыкального трека на вокальную и инструментальную части.Качество разделения на данный момент лучшее в мире.Мы добавили эти веса на MVSep.Показатели SDR увеличились по сравнению с нашей собственной моделью BS Roformer.
1) Мы сделали релиз новой модели высокого качества BS Roformer v2. Это архитектура на базе трансформеров от команды ByteDance. Метрики качества немного превосходят метрики MDX23C. Модель продолжает улучшаться, так что ожидайте новые релизы в ближашее время. Демо можно посмотреть здесь.
2) Все ансамбли были обновлены с учетом BS Roformer v2. Старая версия ансамблей так же осталась доступна. SDR метрики ансамблей выросли: Vocals SDR: 10.44 -> 10.75 Instrumental SDR: 16.74 -> 17.06
3) Мы добавили возможность скачивать архив файлов полученных после разделения.
4) Была добавлена модель высокого качества Whisper (версии large-v3) от компании OpenAI, которая позволяет получать текстовую транскрипцию текста песни/диалога из произвольного аудио.
Все ансамбли (Ensembles) теперь имеют настройку "Include intermediate results and max_fft, min_fft”. Эта опция выведет результаты каждого отдельного алгоритма из ансамбля. Так как алгоритмы работают по разному какой-то из них может дать результат который будет лучше чем финальный ансамбль. А min_mag и max_mag позволяют в некоторых случаях отфильтровать утекшие инструменты.
1) Мы добавили модель DrumSep. Эта модель производит детальное разделение дорожки барабанов на 4 типа: 'kick', 'snare', 'cymbals', 'toms'. Используется модель DrumSep из репозитория на github. Модель имеет два режима работы. В первом (по умолчанию) сначала к треку применяется модель Demucs4 HT, которая извлекает из трека только барабанную часть. Далее уже применяется модель DrumSep. Если ваш трек состоит только из барабанов, то имеет смысл использовать второй режим, где модель DrumSep применяется непосредственно к загруженному аудио. Демки доступны здесь.
2) Так же была добавлена схожая модель LarsNet, которая производит разделение дорожки барабанов на 5 типов: 'kick', 'snare', 'cymbals', 'toms', 'hihat'. Используется модель из репозитория на github и обученная на датасете StemGMD. Модель имеет два режима работы. В первом (по умолчанию) сначала к треку применяется модель Demucs4 HT, которая извлекает из трека только барабанную часть. Далее уже применяется модель LarsNet. Если ваш трек состоит только из барабанов, то имеет смысл использовать второй режим. К сожалению, субъективно качество разделения уступает по качеству модели DrumSep. Демки доступны здесь.
Новая модель для удаления звуков толпы (Crowd removal)
2023-11-20
Мы подготовили уникальную модель для удаления звуков толпы из музыкальных записей (аплодисменты, хлопки, свист, шум и.т.д.). Текущие метрики на нашем внутреннем датасете для проверки качества:
SDR crowd: 5.65
SDR other: 19.31
Примеры работы модели можно посмотреть: здесь и здесь.
Мы обновили нашу основную модель MDX23C 8K FFT для разделения треков на вокальную и инструментальную части. Метрики SDR выросли на MultiSong Dataset и на Synth Dataset. Соответственно улучшились результаты разделения и в Ensemble 4 и Ensemble 8 моделях. См изменения в таблице ниже.
Название алгоритма
Multisong dataset
Synth dataset
MDX23 Leaderboard
SDR Vocals
SDR Instrumental
SDR Vocals
SDR Instrumental
SDR Vocals
MDX23C 8K FFT, Full Band (Предыдущая версия)
10.17
16.48
12.35
12.06
11.04
MDX23C 8K FFT, Full Band (Новая версия)
10.36
16.66
12.52
12.22
11.16
Ensemble 4 (Предыдущая версия)
10.32
16.63
12.67
12.38
11.09
Ensemble 4 (Новая версия)
10.44
16.74
12.76
12.46
11.17
Предыдущая версия MDX23C 8K FFT так же доступна для использования.
1) Мы обновили нашу основную модель MDX23C 8K FFT для разделения треков на вокальную и инструментальную части. Метрики SDR выросли на MultiSong Dataset и на Synth Dataset. Соответственно улучшились результаты разделения и в Ensemble 4 и Ensemble 8 моделях. См изменения в таблице ниже.
Название алгоритма
Multisong dataset
Synth dataset
MDX23 Leaderboard
SDR Vocals
SDR Instrumental
SDR Vocals
SDR Instrumental
SDR Vocals
8K FFT, Full Band (Старая версия)
10.01
16.32
12.07
11.77
10.85
8K FFT, Full Band (Новая версия)
10.17
16.48
12.35
12.06
11.04
2) Мы добавили две новые модели MVSep Piano (демо) и MVSep Guitar (демо). Обе модели основаны на архитектуре MDX23C. Модели производят высококачественное разделение музыки на партию фортепиано/гитары и всего остального. Каждая из моделей доступна в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к инструментальной части. Во втором случае качество разделения обычно немного выше. Также мы подготовили небольшой внутренний валидационный набор для сравнения моделей по качеству отделения пианино/гитары от основного трека. Наща модель сравнивалась с двумя другими моделями (Demucs4HT (6 партий) и GSEP). Для пианино у нас есть два валидационных набора. Первый набор включает электрическое пианино как часть партии фортепиано, а вторая включает только акустическое пианино. Используемая метрика — SDR: чем больше, тем лучше. См. результаты в двух таблицах ниже.
Тип валидации
Название алгоритма
Demucs4HT (6 stems)
GSEP
MVSep Piano 2023 (Type 0)
MVSep Piano 2023 (Type 1)
Validation full
2.4432
3.5589
4.9187
4.9772
Validation (only grand piano)
4.5591
5.7180
7.2651
7.2948
Тип валидации
Название алгоритма
Demucs4HT (6 stems)
MVSep Guitar 2023 (Type 0)
MVSep Guitar 2023 (Type 1)
Validation guitar
7.2245
7.7716
7.9251
Validation other
13.1756
13.7227
13.8762
3) Мы обновили модель MDX-B Karaoke (демо). Теперь у неё лучше метрики качества. Изначально модель MDX-B Karaoke подготовлена в рамках проекта Ultimate Vocal Remover. Модель производит высококачественное извлечение ведущей вокальной партии из музыкального трека. Так же мы сделали её доступной в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к вокальной части. Во втором случае качество разделения обычно выше и при этом появляется возможность дополнительно извлечь бэк-вокал в отдельную дорожку. Модель сравнивалась на большом валидационном наборе с двумя другими Karaoke моделями из UVR (они тоже доступны на сайте). См. результаты в таблице ниже.
У нас на сайте много новых обновлений. Первым делом мы переделали сайт с нуля. Он имеет новые функции, такие как регистрация пользователей, более информативные страницы, улучшенный дизайн и т. д. Но также мы добавили несколько новых алгоритмов:
1) Мы сделали релиз моделей MDX23C. Одна из моделей достигла 10 SDR на наборе Multisong Dataset. На данный момент это лучшие одиночные модели для разделения вокала/инструментала. 2) Добавлен новый алгоритм Demucs4 Vocals 2023. Это открытый алгоритм demucsht_ft, но дообученный на большом наборе данных. Метрики гораздо лучше, чем у оригинала, но чуть хуже, чем у MDX23C. На некоторых мелодиях этот алгоритм может дать более качественный результат. 3) Добавлены новые алгоритмы ансамблей. Во-первых, это "Ensemble 4 models (vocals, instrum)". В него входят: UVR-MDX-NET-Voc_FT, Demucs4 Vocals 2023 и две модели MDX23C. Алгоритм обеспечивает максимально возможное качество вокальных и инструментальных дорожек. Также, если вам нужно более детальное разделение, включающее еще 3 дорожки "бас", "барабаны" и "остальное", вы можете использовать "Ensemble 8 models (vocals, bass, drums, other)". Этот ансамбль дает лучшие на данный момент результаты для разделения трека на 4 дорожки.
Вы можете найти сравнительные таблицы ниже (чем больше SDR, тем лучше).
Мы сделали релиз новых моделей MDX23C. Они основаны на программном коде от kuielab, который был подготовлен для Sound Demixing Challenge 2023. Результаты полученных моделей содержат весь частотный спектр и имеют максимальные метрики качества для вокала и музыки на MultiSong Dataset. Всего доступно 4 модели, по умолчанию используется модель с максимальными метриками качества. В данный момент мы работаем над дальнейшим улучшением этих моделей. Подробнее...
Так же была подготовлена модель состоящая из ансамбля нескольких одиночных MDX23C моделей, которая даёт качество ещё лучше. Она доступна на сайте под названием MDX23C Ensemble.
Алгоритм MDX-B теперь генерирует только вокальную и инструментальную дорожки. Это связано с тем, что остальные 3 дорожки (бас, барабаны и другое) работают не так хорошо по сравнению с Demucs4 HT. Вы по-прежнему можете получить доступ к старому MDX-B (4 дорожки) в разделе «Старые модели».
Мы добавили модель Kim_vocal_2 (предоставленную Kimberley Jensen) и несколько других моделей UVR MDX. Kim_vocal_2 используется по умолчанию, поскольку даёт наиболее качественный результат.
Мы обновили принцип работы алгоритма MDX используя overlap=0.8. Теперь он даёт более качественный результат (в терминах SDR метрики). Например модель Kim_vocal_2 в одиночку даёт: SDR 9.60 для вокала и SDR 15.91 для инструментальной части на Multisong dataset.
1) На сайт добавлена новая модель по удалению эффекта реверберации из музыкальных треков. Она доступна под названием "FoxJoy Reverb Removal (other)". Примеры работы можно посмотреть здесь.
2) Теперь доступны все модели Demucs4 HT: htdemucs_ft [метрики качества], htdemucs [метрики качества] и htdemucs_6s [метрики качества]. htdemucs_6s разделяет трек на 6 частей, помимо стандартных частей, дополнительно включет пианино и гитару. Эти модели являются лучшими для получения bass, drums и other частей треков.
3) Добавлена лучшая по качеству модель MDX B для отделения вокала: "MDX Kimberley Jensen 2023.02.12 SDR: 9.30 (New)" [метрики качества].
На сайт была добавлена собственная оригинальная модель MVSep Vocal Model, натренированная на собственном большом датасете. Она показывает отличные результаты на тестовых данных: Synth dataset vocal SDR: 10.4523 Synth dataset instrumental SDR: 10.1561 MUSDB18HQ dataset vocal SDR: 8.8292 MUSDB18HQ dataset instrumental SDR: 15.2719
На сайт был добавлен экспериментальный алгоритм MVSep DNR, который разделяет треки на 3 части: музыку, спец-эффекты и голос. Алгоритм был натренирован на датасете "Divide and Remaster". Метрики качества: SDR DNR for music: 6.17 SDR DNR for sfx: 7.26 SDR DNR for speech: 14.13 Алгоритм плохо подходит для обычной музыки, но неплохо справляется, когда нужно, скажем, почистить голос диктора от посторонних шумов на фоне. Примеры работы алгоритма MVSep DNR
Добавлена новая вокальная модель MDX-B UVR. Это последняя версия от команды UVR. Опция доступна при выборе алгоритма MDX-B в форме.
Были добавлены новые модели из пакета Ultimate Vocal Remover построенные на базе архитектуры demucs3. На сайте они доступны под названием UVR Demucs в списке алгоритмов.
Метрики качества для разных алгоритмов, включая UVR Demucs, можно посмотреть здесь.
Добавлен алгоритм Danna Sep. Этот алгоритм занял 3 место на Leaderboard A в соревновании Sony Music Demixing Challenge.
Добавлен алгоритм Byte Dance. Этот алгоритм занял второе место в категории vocals на Leaderboard A в соревновании Sony Music Demixing Challenge. Он тренировался только на данных MUSDB18HQ и имеет потенуиал в дальнейшем в случае добавления большего числа данных на обучение.
Метрики качества для этих и других алгоритмов можно посмотреть здесь.
Добавлена возможность выбрать lossless-кодирование полученных файлов. Ранее была возможность использовать только MP3. Теперь добавлен вывод в WAV и FLAC.
Для всех основных алгоритмов: MDX, Demucs3 и Unmix добавлен вывод общего инструментального трека (instrumental).
Добавлен перевод сайта на Польский и Индонезийский языки.
Добавлен скрипт сброса GPU в случае зависания. Больше не должно быть длительных простоев сервера.
К сожалению, все самые качественные алгоритмы работают очень медленно из-за чего периодически образуются очереди ожидания. Думаем, что с этим делать.
Пришлось переехать на новый сервер из-за нехватки места на старом. Позитивный эффект - поменялась видеокарта на более мощную и с большим объемом памяти. Как следствие очереди ожидания уменьшились и ошибок связанных с недостатком GPU памяти стало меньше. Минус, что в два раза выросли затраты на сервер.
Был добавлен новый алгоритм Ultimate Vocal Remover (UVR). Он разбивает трек на две части музыку и вокал. При этом обычно делает это лучше spleeter. В оригинальном UVR очень много моделей и разных настроек. Мы выбрали одну из лучших моделей и оптимальные настройки. Возможно позже будет добавлен гибкий выбор настроек для алгоритма.
Победитель конкурса Music Demuxing Challenge наконец сделал релиз своего кода. Мы добавили его модели на сайт под названиями Demux3 Model A и Demux3 Model B. Demux3 Model B даёт более качественный результат, а для басов и барабанов работает лучше всех моделей, но слегка уступает по вокалу алгоритму MDX-B.
Ниже обновленная табличка сравнения качества алгоритмов (данные для UVR отсутствуют). Значения в таблице рассчитаны на закрытом конкурсном датасете Music Demuxing Challenge (доступен только организаторам). Чем больше значение, тем лучше работает алгоритм.
Два новых алгоритма для разделения треков: MDX A и MDX B
2021-10-19
На сайт mvsep.com добавлены два новых алгоритма для разделения треков: MDX A и MDX B. Это модели, созданные участниками конкурса Music Demuxing Challenge, которые заняли второе место. Код их решения и модели нейронных сетей были выложены в открытый доступ. Мы всё ещё ждем решение первого места. Но и эти модели по конкурсным метрикам значительно обгоняют Spleeter и UmxXL (см. табличку выше), но пока проигрывают по скорости. MDX A отличается от MDX B тем что первый алгоритм не использовал внешние данные для обучения, поэтому результаты чуть хуже, чем у MDX B. Позже энтузиасты проекта UVR доработали модель по отделению вокала, получив лучше значение для метрики качества (8.896 -> 9.482).
Обновлены ПО и код сайта. Разделение треков стало работать быстрее и стабильнее. Всё реже случаются падения нашего бекэнда.
Добавлен новый алгоритм разделения, который называется UnMix. У алгоритма доступно 4 модели "umxXL", "umxHQ", "umxSD", "umxSE". Самая качественная - первая "umxXL". По первым тестам, голос отделяет чуть хуже, чем spleeter, а вот инструменты лучше. В любом случае теперь открыто большое поле для экспериментов с треками.
Переделана страница с результатами разделения: добавлен оригинальный трек, удобно сравнивать с одной страницы. Добавлена информация по настройкам разделения, выводится информация по загруженному файлу, ID3-теги и изображение (если они есть).
И напоследок немного статистики. В день на сайте разделяется около 600-750 треков. А за всё время было разделено более 300,000 треков. Двигаемся в сторону миллиона.