Обновления в сентябре

2023-09-18

1) Мы обновили нашу основную модель MDX23C 8K FFT для разделения треков на вокальную и инструментальную части. Метрики SDR выросли на MultiSong Dataset и на Synth Dataset. Соответственно улучшились результаты разделения и в Ensemble 4 и Ensemble 8 моделях. См изменения в таблице ниже.

Название алгоритма	Multisong dataset		Synth dataset		MDX23 Leaderboard
Название алгоритма	SDR Vocals	SDR Instrumental	SDR Vocals	SDR Instrumental	SDR Vocals
8K FFT, Full Band (Старая версия)	10.01	16.32	12.07	11.77	10.85
8K FFT, Full Band (Новая версия)	10.17	16.48	12.35	12.06	11.04

2) Мы добавили две новые модели MVSep Piano (демо) и MVSep Guitar (демо). Обе модели основаны на архитектуре MDX23C. Модели производят высококачественное разделение музыки на партию фортепиано/гитары и всего остального. Каждая из моделей доступна в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к инструментальной части. Во втором случае качество разделения обычно немного выше. Также мы подготовили небольшой внутренний валидационный набор для сравнения моделей по качеству отделения пианино/гитары от основного трека. Наща модель сравнивалась с двумя другими моделями (Demucs4HT (6 партий) и GSEP). Для пианино у нас есть два валидационных набора. Первый набор включает электрическое пианино как часть партии фортепиано, а вторая включает только акустическое пианино.
Используемая метрика — SDR: чем больше, тем лучше. См. результаты в двух таблицах ниже.

Тип валидации	Название алгоритма
Тип валидации	Demucs4HT (6 stems)	GSEP	MVSep Piano 2023 (Type 0)	MVSep Piano 2023 (Type 1)
Validation full	2.4432	3.5589	4.9187	4.9772
Validation (only grand piano)	4.5591	5.7180	7.2651	7.2948

Тип валидации	Название алгоритма
	Demucs4HT (6 stems)	MVSep Guitar 2023 (Type 0)	MVSep Guitar 2023 (Type 1)
Validation guitar	7.2245	7.7716	7.9251
Validation other	13.1756	13.7227	13.8762

3) Мы обновили модель MDX-B Karaoke (демо). Теперь у неё лучше метрики качества. Изначально модель MDX-B Karaoke подготовлена в рамках проекта Ultimate Vocal Remover. Модель производит высококачественное извлечение ведущей вокальной партии из музыкального трека. Так же мы сделали её доступной в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к вокальной части. Во втором случае качество разделения обычно выше и при этом появляется возможность дополнительно извлечь бэк-вокал в отдельную дорожку. Модель сравнивалась на большом валидационном наборе с двумя другими Karaoke моделями из UVR (они тоже доступны на сайте). См. результаты в таблице ниже.

Тип валидации	Название алгоритма
Тип валидации	UVR (HP-KAROKEE-MSB2-3BAND-3090)	UVR (karokee_4band_v2_sn)	MDX-B Karaoke (Type 0)	MDX-B Karaoke (Type 1)
Validation lead vocals	6.46	6.34	6.81	7.94
Validation other	13.17	13.02	13.53	14.66
Validation back vocals	---	---	---	1.88

🗎 Copy link

Обновления в сентябре

Site information

Company

Extra