Ансамбль лучших вокальных моделей. Алгоритм даёт максимально возможное качество для вокальной и инструментальной дорожек. Последний ансамбль состоит из вокальных моделей BS Roformer, MelBand Roformer и SCNet XL IHF.
Ансамбль основан на алгоритме, занявшем 2-е место на Music Demixing Track of Sound Demixing Challenge 2023. Основное отличие от конкурсной версии — гораздо более совершенные вокальные/инструментальные модели, которые здесь используются. Для вокала мы используем следующие модели: UVR-MDX-NET-Voc_FT, Demucs4 Vocals 2023, MDX23C, VitLarge23, BS Roformer, Mel Roformer и SCNet XL. Для дорожек «bass», «drums» и «other» мы используем следующие 4 модели: demucsht_ft, demucs_ht, demucs_6s и demucs_mmi. Первоначальная конкурсная модель доступна здесь:https://github.com/ZFTurbo/MVSEP-MDX23-music-separation-model
Модель BS Roformer. На данный момент модель даёт самое высокое качество разделения на вокальную и инструментальную дорожки (за исключением ансамблей). Метрики лучше чем у предыдущего лидера - MDX23C. Это модифицированная версия исходной модели BS Roformer. Изменения были сделаны lucidrains на github. Вторая версия весов для модели с лучшим качеством была подготовлена viperx. Последние версии моделей это улучшенные версия весов viperx. Они тренировались на гораздо большем датасете. И имеют лучшие метрики на трех различных проверерочных системах.
Алгоритм для разделения треков на вокальную и инструментальную части на базе нейронной сети MelBand Roformer. Нейронная сеть впервые предложена в статье "Mel-Band RoFormer for Music Source Separation" от группы ученых из компании ByteDance. Первые веса высокого качества в открытый доступ выложила Kimberley Jensen. Далее нейронная сеть с открытыми весами была немного изменена и дотренирована командой MVSep с целью улучшить метрики качества. Также имеются высококачественные веса, предоставленные: @Bas Curtiz, @unwa, @becruily и @gabox.
Таблица качества
Algorithm name
Multisong dataset
Synth dataset
MDX23 Leaderboard
SDR Vocals
SDR Instrumental
SDR Vocals
SDR Instrumental
SDR Vocals
MelBand Roformer (Kimberley Jensen)
11.01
17.32
12.68
12.38
11.543
MelBand Roformer (ver. 2024.08)
11.17
17.48
13.34
13.05
---
Bas Curtiz edition
11.18
17.49
13.89
13.60
---
unwa Instrumental v1
10.24
16.54
12.25
11.95
---
unwa Instrumental v1e Note: Max instrum fullness, but noisy
10.05
16.36
---
---
---
unwa big beta v5e Note: Max vocals fullness, but noisy
10.59
16.89
---
---
---
MelBand Roformer (ver. 2024.10)
11.28
17.59
13.89
13.59
---
becruily instrum max fullness Note: Max instrum fullness, but noisy
10.16
16.47
---
---
---
becruily vocals max fullness Note: Max vocals fullness, but noisy
10.55
16.86
---
---
---
unwa Instrumental v1e plus Note: Max instrum fullness, but noisy
10.33
16.64
---
---
---
gabox Instrumental v7 Note: Max instrum fullness, but noisy
Новый набор моделей MDX23C, основанный на коде опубликованном kuielab в рамках Sound Demixing Challenge 2023. Результаты полученных моделей содержат весь частотный спектр и имеют максимальные метрики качества для вокала и музыки на MultiSong Dataset и Synth Dataset.
Алгоритм для разделения треков на вокальную и инструментальную части на базе нейронной сети SCNet. Нейронная сеть предложена в статье "SCNet: Sparse Compression Network for Music Source Separation" от группы ученых из Китая. Авторы выложили код нейронной сети в открытый доступ, а команда MVSep смогда воспроизвести результаты похожие на те, что приведены в опубликованной статье. Сначала мы натренировали маленькую версию SCNet, а затем спустя некоторое время была подготовлена и более тяжелая версия SCNet. Метрики качества довольно близки к качеству Roformer моделей (которые являются топовыми моделями на данный момент), но все же слегка им уступают. Однако в некоторых случаях модель может сработать лучше чем Roformer'ы.
Модели MDX B основаны на коде kuielab из Music Demixing Challenge 2021. Модели были переобучены командой UVR на большом наборе данных. Долгое время модели были лучшими для разделения треков на вокальную и инструментальную партии.
Набор моделей из программы Ultimate Vocal Remover, которые основаны на старой VR-архитектуре. Большинство моделей вокальные, но есть так же специальные модели для караоке, пианино, устранение эффектов реверберации и т.д. В целом модели имеют среднее качество разделения, но могут быть полезны в некоторых сценариях.
Demucs4 Vocals 2023 - это модель Demucs4 HT которая была обучена на большом вокальном/инструментальном датасете. Она имеет лучшие показатели разделения вокала по сравнению с Demucs4 HT (версия _ft). Но обычно она дает метрики чуть хуже, чем модели MDX23C, но может быть полезна для ансамблей, поскольку модель сильно отличается от MDX23C.
Алгоритм для экстракции только ведущего вокала (lead vocals) и всего остального на базе модели MelBand Roformer. Работает как для произвольного музыкального трека, так же можно предварительно извлечь вокал выбрав опцию "Extract vocals first" в Extraction type. Во втором случае в отдельном файле будет доступен back vocals.
Существует 4 модели, одна подготовлена командой @aufr33 и viperx, вторая @becruily, третья @gabox и четвертая это объединенная модель @aufr33/viperx и @gabox.
Метрики качества приведены ниже. Для сравнения в таблице так же приведены метрики качества для старых алгоритмов UVR и MDX-B Karaoke.
Модель MDX-B Karaoke подготовлена в рамках проекта Ultimate Vocal Remover. Модель производит высококачественное извлечение ведущей вокальной партии из музыкального трека. Модель доступна в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к вокальной части. Во втором случае качество разделения обычно выше и при этом появляется возможность дополнительно отделить бэк-вокал в отдельную дорожку. Модель сравнивалась с двумя другими моделями из UVR (они тоже доступны на сайте) на большом валидационном наборе.Используемая метрика — SDR: чем больше, тем лучше.
Модель MVSep Piano представлена в нескольких вариантах, основанных на архитектурах MDX23C, MelRoformer и SCNet Large. Модель производит высококачественное разделение музыки на партию фортепиано и всего остального. Для сравнения в таблице приведены метрики на открытой модели Demucs4HT (6 партий).Используемая метрика SDR - чем больше, тем лучше.
Модель MVSep Guitar основана на архитектурах MDX23C, MelRoformer и BSRoformer. Модель производит высококачественное разделение музыки на партию гитары (включает акустическую и электронную) и всего остального. Модель сравнивалась с моделью Demucs4HT (6 партий) на валидационном наборе для гитары (30 треков).Используемая метрика — SDR: чем больше, тем лучше.
Модель MVSep Bass существует в 3 различных вариантах на основе следующих архитектур: HTDemucs4, BS Roformer и SCNet XL.Модель производит высококачественное разделение музыки на басовую часть и все остальное.
Метрики качества
Название алгоритма
Multisong dataset
MDX23 Leaderboard
SDR Bass
SDR Other
SDR Bass
BS Roformer
12.49
16.59
---
HTDemucs4
12.52
16.64
---
SCNet XL
13.81
17.93
---
BS + HTDemucs + SCNet XL Ensemble
14.07
18.18
---
BS + HTDemucs + SCNet XL Ensemble (+extract from Instrumental)
Модель MVSep Drums представлена в 3 вариантах основанных на архитектурах: HTDemucs4, MelRoformer и SCNet. Модель производит качественное разделение музыки на барабанную партию и все остальное. Метрики качества доступны в таблице ниже.
Модель MVSep Wind производит качественное разделение музыки на партию духовых инструментов и все остальное. Духовые включают в себя 2 категории инструментов: медные и деревянные духовые.Более конкретно мы включили в духовые: флейту, саксофон, трубу, тромбон, валторну, кларнет, гобой, губную гармошку, волынку, фагот, тубу, казу, пикколо, флюгельгорн, окарину, сякухати, мелодику, язычковые, диджериду, мюссетт, гайду.
Метрики качества
Algorithm name
Wind dataset
SDR Wind
SDR Other
MelBand Roformer
6.73
16.10
SCNet Large
6.76
16.13
MelBand + SCNet Ensemble
7.22
16.59
MelBand + SCNet Ensemble (+extract from Instrumental)
Алгоритм восстанавливает качество звука. Модель была предложена в этой статье и опубликована на github.
Доступны 3 модели: 1) MP3 Enhancer (автор JusperLee) - восстанавливает файлы MP3, сжатые с битрейтом 32 кбит/с до 128 кбит/с. Он не будет работать для файлов с большим битрейтом. 2) Universal Super Resolution (автор Lew) - восстанавливает более высокие частоты для любой музыки 3) Vocals Super Resolution (автор Lew) - восстанавливает более высокие частоты и общее качество для любого вокала
Уникальная модель для удаления звуков толпы из музыкальных записей (аплодисменты, хлопки, свист, шум, смех и т.д.).Текущие показатели нашего внутреннего набора данных для контроля качества:
MVSep DnR v3 - это кинематографическая модель для разделения треков на 3 части: музыка, эффекты и диалоги. Она обучена на огромном мультиязыковом датасете DnR v3 и генерирует стемы speech, music и sfx. Метрики качества на проверочных данных получились лучше, чем у аналогичной мультиязыковой модели Bandit v2. Модель доступна в 3 вариантах: на базе архитектур SCNet, MelBand Roformer, а также ансамбль этих двух моделей. См. таблицу ниже:
Модель производит разделение дорожки барабанов на 4, 5 или 6 типов: 'kick', 'snare', 'cymbals', 'toms'. В моделях для 5 дорожек из 'cymbals' выделяется 'hh', а в случае 6 дорожек 'cymbals' разбивается на 'hh', 'ride' и 'crash'.
Всего доступно 8 моделей: 1) Используется модель DrumSep из репозитория на github обученная на базе архитектуры HDemucs и разбивающая барабаны на 4 дорожки. 2) Модель на базе архитектуры mdx23c, подготовленная @jarredou и @aufr33. Модель разбивает барабаны на 6 дорожек. 3) Модель на базе архитектуры SCNet XL, которая разбивает барабаны на 5 дорожек. 4) Модель на базе архитектуры SCNet XL, которая разбивает барабаны на 6 дорожек. 5) Модель на базе архитектуры SCNet XL, которая разбивает барабаны на 4 дорожки. 6) Ансамбль 4 моделей (одна MDX23C и три SCNet XL) 7) Модель на базе архитектуры Mel Band Roformer, которая разбивает барабаны на 4 дорожки. 8) Модель на базе архитектуры Mel Band Roformer, которая разбивает барабаны на 6 дорожек.
Все модели работают только с дорожкой барабанов, если в дорожке присутствуют другие инструменты или голос, то модель будет работать некорректно. Поэтому алгоритм имеет два режима работы. В первом (по умолчанию) сначала к треку применяется лучшая модель для барабанов MVSep Drums, которая извлекает из трека только барабанную часть. Далее уже применяется модель DrumSep. Если ваш трек состоит только из барабанов, то имеет смысл использовать второй режим, где модель DrumSep применяется непосредственно к загруженному аудио.
Таблица качества (метрика SDR, чем больше тем лучше):
Algorithm name
kick
snare
toms
cymbals
hh
ride
crash
DrumSep model by inagoy (HDemucs, 4 stems)
14.13
8.42
5.67
5.63
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems)
18.32
13.60
13.25
6.71
5.38
7.56
DrumSep SCNet XL (5 stems)
20.21
15.05
16.28
7.05
8.56
DrumSep SCNet XL (6 stems)
20.24
14.80
15.93
6.74
5.02
7.63
DrumSep SCNet XL (4 stems)
20.50
14.69
15.92
10.08
Ensemble of 4 models (3 * SCNet + MDX23C)
20.59
15.11
16.41
7.19
5.59
7.85
DrumSep Mel Band Roformer (4 stems)
22.22
17.09
15.86
11.87
DrumSep Mel Band Roformer (6 stems)
20.21
15.33
15.48
8.79
6.96
8.79
Таблица качества (метрика L1 Freq, чем больше тем лучше):
Algorithm name
kick
snare
toms
cymbals
hh
ride
crash
DrumSep model by inagoy (HDemucs, 4 stems)
74.34
62.20
73.52
68.87
DrumSep model by aufr33 and jarredou (MDX23C, 4 stems)
78.20
71.27
84.22
80.84
86.74
79.41
DrumSep SCNet XL (5 stems)
81.56
73.16
87.85
80.65
75.44
DrumSep SCNet XL (6 stems)
81.63
72.75
87.46
79.97
85.73
78.67
DrumSep SCNet XL (4 stems)
81.69
72.90
88.43
73.64
Ensemble of 4 models (3 * SCNet + MDX23C)
81.91
73.41
88.24
81.12
86.91
79.41
DrumSep Mel Band Roformer (4 stems)
84.97
77.78
90.13
78.16
DrumSep Mel Band Roformer (6 stems)
81.82
75.63
88.93
85.66
90.50
82.18
Таблица качества (метрика Fullness, чем больше тем лучше):
Algorithm name
kick
snare
toms
cymbals
hh
ride
crash
DrumSep model by inagoy (HDemucs, 4 stems)
13.61
18.80
20.86
15.80
DrumSep model by aufr33 and jarredou (MDX23C, 4 stems)
18.67
17.85
18.29
12.95
15.76
14.92
DrumSep SCNet XL (5 stems)
18.40
30.94
29.64
13.28
15.15
DrumSep SCNet XL (6 stems)
32.03
29.43
36.04
13.64
14.05
15.05
DrumSep SCNet XL (4 stems)
29.87
30.53
48.35
17.48
Ensemble of 4 models (3 * SCNet + MDX23C)
23.89
30.06
36.19
14.23
18.34
15.43
DrumSep Mel Band Roformer (4 stems)
19.45
23.09
40.32
16.44
DrumSep Mel Band Roformer (6 stems)
15.22
25.98
42.33
19.53
20.51
19.39
Таблица качества (метрика Bleedless, чем больше тем лучше):
Algorithm name
kick
snare
toms
cymbals
hh
ride
crash
DrumSep model by inagoy (HDemucs, 4 stems)
48.04
18.25
33.85
14.65
DrumSep model by aufr33 and jarredou (MDX23C, 4 stems)
53.25
38.81
56.08
10.52
8.17
14.55
DrumSep SCNet XL (5 stems)
53.33
26.00
51.72
7.97
12.66
DrumSep SCNet XL (6 stems)
36.82
28.82
40.28
7.43
8.25
11.93
DrumSep SCNet XL (4 stems)
44.34
29.05
28.87
16.35
Ensemble of 4 models (3 * SCNet + MDX23C)
51.58
32.20
46.38
8.32
8.51
14.26
DrumSep Mel Band Roformer (4 stems)
69.11
57.86
51.44
50.52
DrumSep Mel Band Roformer (6 stems)
74.12
52.23
46.14
35.19
31.70
36.12
@jarredou подготовил новый набор данных для проверки DrumSep.Он состоит из 150 небольших различных треков.1-я часть — наборы ударных от 001 до 017 (по 5 треков для каждого из этих наборов ударных с разным стилем игры) — акустические барабаны.От 018 до 082 (по 1 треку на набор ударных) — электробарабаны.Этот набор данных предназначен для разделения барабанов на 5 стемов: ['kick', 'snare', 'toms', 'hh', 'cymbals'].Для 6 моделей стемов 'ride' и 'crash' были суммированы в 'cymbals'.Для 4 моделей стемов 'hh' и 'cymbals' были суммированы в 'cymbals'.
Таблица качества (метрика SDR, чем больше тем лучше):
Algorithm name
kick
snare
toms
cymbals
hh
ride
crash
DrumSep model by inagoy (HDemucs, 4 stems)
10.52
6.05
4.68
5.03
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems)
14.54
9.79
10.63
3.19
6.08
DrumSep SCNet XL (5 stems)
17.89
12.56
14.14
3.63
6.15
DrumSep SCNet XL (6 stems)
17.74
12.43
14.24
3.39
5.91
DrumSep SCNet XL (4 stems)
17.61
12.37
13.40
7.48
DrumSep Mel Band Roformer (4 stems)
18.67
13.55
13.60
8.76
DrumSep Mel Band Roformer (6 stems)
17.46
12.64
13.69
5.05
7.06
Таблица качества (метрика L1 Freq, чем больше тем лучше):
Algorithm name
kick
snare
toms
cymbals
hh
ride
crash
DrumSep model by inagoy (HDemucs, 4 stems)
48.68
30.27
42.44
39.26
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems)
56.95
38.31
54.65
47.47
47.39
DrumSep SCNet XL (5 stems)
61.56
43.06
60.76
48.19
47.49
DrumSep SCNet XL (6 stems)
61.46
42.42
60.55
47.32
46.43
DrumSep SCNet XL (4 stems)
61.59
42.91
60.46
44.65
DrumSep Mel Band Roformer (4 stems)
65.24
47.13
63.50
49.77
DrumSep Mel Band Roformer (6 stems)
63.58
46.14
62.94
53.98
51.83
Таблица качества (метрика Log WMSE, чем больше тем лучше):
Algorithm name
kick
snare
toms
cymbals
hh
ride
crash
DrumSep model by inagoy (HDemucs, 4 stems)
12.76
11.70
11.41
19.27
DrumSep model by aufr33 and jarredou (MDX23C, 6 stems)
Whisper — это модель нейронной сети автоматического распознавания речи (ASR) и перевода речи от компании OpenAI. Модель имеет несколько версий.На MVSep мы используем самую большуюю и точную: «Whisper large-v3».Модель Whisper large-v3 была обучена на нескольких миллионах часов аудио.Это многоязычная модель, и она автоматически умеет определять язык текста.Чтобы применить модель к вашему аудио, у вас есть 2 варианта: 1) «Apply to original file» — это означает, что модель шепота будет применена непосредственно к отправленному вами файлу. 2) «Extract vocals first» — в этом случае перед использованием шепота сначала применяется модель BS Roformer для извлечения вокала.Она может удалить ненужный шум, чтобы улучшить качество работы Whisper.
У исходной модели были некоторые проблемы с таймингами транскрипции. Это было исправлено @linto-ai. Его вариант транскрипции доступен c опцией "New timestamps by linto-ai", но иногда этот метод может давать нежелательные артифакты. Оригинальный вариант таймингов доступен по опции "Old version of timestamps by whisper".
Parakeet от NVIDIA — это современная модель автоматического распознавания речи (ASR), разработанная для точного и эффективного преобразования устной английской речи в текст. Модель в отличие от Whisper работает только с английской речью, но для английского языка дает более качественный результат. Так же генерирует довольно точные временные метки. Метрика качества WER: 6.03 на Huggingface Open ASR Leaderboard.
Medley Vox - это датасет для тестирования алгоритмов разделения нескольких певцов в рамках одного музыкального трека. Так же авторы Medley Vox предложили архитектуру нейронной сети для разделения певцов. Однако, к сожалению, они не выложили веса. Позже их тренировочный процесс повторил Cyru5, натренировав несколько моделей и выложил веса в открытый доступ. Теперь натренированная нейронная сеть доступна на MVSep.
MVSep Multichannel BS - эта модель подготовлена для экстракции вокала из мультиканального звука (5.1, 7.1 и.т.д.). Упор на отсутствие преобразований и потери качества. После обработки модель возвращает мультиканальный звук в том же формате, в каком он был отправлен на сервер с тем же sample rate.
Модель для разделения мужских и женских голосов в рамках одной вокальной дорожки. Дорожка должна содержать только голоса, без музыки. Если у вас есть лишние звуки, то используйте опцию "Extract vocals first with BS Roformer".