1) Мы обновили нашу основную модель MDX23C 8K FFT для разделения треков на вокальную и инструментальную части. Метрики SDR выросли на MultiSong Dataset и на Synth Dataset. Соответственно улучшились результаты разделения и в Ensemble 4 и Ensemble 8 моделях. См изменения в таблице ниже.
Название алгоритма | Multisong dataset | Synth dataset | MDX23 Leaderboard |
||
SDR Vocals | SDR Instrumental | SDR Vocals | SDR Instrumental | SDR Vocals | |
8K FFT, Full Band (Старая версия) | 10.01 | 16.32 | 12.07 | 11.77 | 10.85 |
8K FFT, Full Band (Новая версия) | 10.17 | 16.48 | 12.35 | 12.06 | 11.04 |
2) Мы добавили две новые модели MVSep Piano (демо) и MVSep Guitar (демо). Обе модели основаны на архитектуре MDX23C. Модели производят высококачественное разделение музыки на партию фортепиано/гитары и всего остального. Каждая из моделей доступна в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к инструментальной части. Во втором случае качество разделения обычно немного выше. Также мы подготовили небольшой внутренний валидационный набор для сравнения моделей по качеству отделения пианино/гитары от основного трека. Наща модель сравнивалась с двумя другими моделями (Demucs4HT (6 партий) и GSEP). Для пианино у нас есть два валидационных набора. Первый набор включает электрическое пианино как часть партии фортепиано, а вторая включает только акустическое пианино.
Используемая метрика — SDR: чем больше, тем лучше. См. результаты в двух таблицах ниже.
Тип валидации | Название алгоритма |
|||
Demucs4HT (6 stems) | GSEP | MVSep Piano 2023 (Type 0) | MVSep Piano 2023 (Type 1) | |
Validation full | 2.4432 | 3.5589 | 4.9187 | 4.9772 |
Validation (only grand piano) | 4.5591 | 5.7180 | 7.2651 | 7.2948 |
Тип валидации | Название алгоритма |
|||
Demucs4HT (6 stems) | MVSep Guitar 2023 (Type 0) | MVSep Guitar 2023 (Type 1) | ||
Validation guitar | 7.2245 | 7.7716 | 7.9251 | |
Validation other | 13.1756 | 13.7227 | 13.8762 |
3) Мы обновили модель MDX-B Karaoke (демо). Теперь у неё лучше метрики качества. Изначально модель MDX-B Karaoke подготовлена в рамках проекта Ultimate Vocal Remover. Модель производит высококачественное извлечение ведущей вокальной партии из музыкального трека. Так же мы сделали её доступной в двух вариантах. В первом варианте, нейросетевая модель используется напрямую на всем треке. Во втором случае, трек сначала разделяется на две части вокальную и инструментальную и затем нейросетевая модель применяется уже только к вокальной части. Во втором случае качество разделения обычно выше и при этом появляется возможность дополнительно извлечь бэк-вокал в отдельную дорожку. Модель сравнивалась на большом валидационном наборе с двумя другими Karaoke моделями из UVR (они тоже доступны на сайте). См. результаты в таблице ниже.
Тип валидации | Название алгоритма |
|||
UVR (HP-KAROKEE-MSB2-3BAND-3090) | UVR (karokee_4band_v2_sn) | MDX-B Karaoke (Type 0) | MDX-B Karaoke (Type 1) | |
Validation lead vocals | 6.46 | 6.34 | 6.81 | 7.94 |
Validation other | 13.17 | 13.02 | 13.53 | 14.66 |
Validation back vocals | --- | --- | --- | 1.88 |