Новости

Новости марта 2026

2026-03-22

1) Мы добавили iOS-приложение и обновили приложение для Android. Оба они уже доступны.

В последнем выпуске добавлены следующие функции:

Проверка автообновлений
Теперь вы можете отправлять отзывы о результатах разделения прямо как на сайте
Исправлены ошибки

2) Мы представили множество новых моделей для выделения отдельных инструментов:

1) MVSep Соло/Ритм-гитара (Демо)	2) MVSep Щипковые струнные (Демо)	3) MVSep Перкуссия (Демо)
4) MVSep Клавишные (Демо)	5) MVSep Медные духовые (Демо)	6) MVSep Деревянные духовые (Демо)
7) MVSep Ксилофон (Демо)	8) MVSep Челеста (Демо)	9) MVSep Хор (Демо)
10) MVSep Волынка (Демо)	11) MVSep Braam (Демо)	12) MVSep FX (Эффекты) (Демо)

Текущую схему разделения можно найти ниже:

3) Добавлена новая модель MVSep SATB Choir (сопрано, альт, тенор, бас).

Описание: https://mvsep.com/algorithms/104
Демо 1 (вокал)
Демо 2 (вокал)
Демо (струнные)

Огромное спасибо @Dry Paint Dealer Undr за помощь в создании этой модели.
P.S. Модель работает не только с вокалом, но и со струнными и некоторыми другими инструментами.

4) Мы добавили мощную модель VibeVoice в раздел Экспериментальные (Experimental). Она доступна в 2 вариантах: Клонирование голоса (Voice Cloning) и Текст-в-речь (Text-to-Speech).

Ключевые особенности:

Две модели: small (1.5 млрд параметров) и large (7 млрд параметров)
До 4 спикеров в одной записи
До 90 минут генерируемого аудио
Поддержка языков: официально поддерживаются английский (по умолчанию) и китайский, но проверено, что модель неплохо работает и с другими языками.
Клонирование голоса: возможность загрузки эталонной аудиозаписи

VibeVoice (Клонирование голоса): Инфо | Демо 1 | Демо 2
VibeVoice (TTS): Инфо | Демо 1

Мы также заметили, что если сэмпл содержит музыку вместе со словами, это может заставить сгенерированный голос петь.

5) Мы добавили новую модель для удаления звуков толпы на базе архитектуры BSRoformer. Она доступна в разделе "MVSep Crowd removal (crowd, other)" под названием "BS Roformer (SDR crowd: 7.21)". SDR увеличен с 6.27 до 7.21.

6) Добавлены три новые модели для вокала.

В BS Roformer (vocals, instrumental):

unwa BS Roformer HyperACE v2 instrum (SDR instrum: 17.40)
unwa BS Roformer HyperACE v2 vocals (SDR vocals: 11.39)

В MelBand Roformer (vocals, instrumental):

becruily deux (SDR vocals: 11.35, SDR instrum: 17.66)

7) Мы добавили новую модель Transkun. Transkun — это современная open-source модель для автоматической транскрипции фортепианной музыки (Audio-to-MIDI). Официальная страница модели находится здесь. Она считается одной из лучших (SOTA — State of the Art) в своем классе. Модель способна распознавать не только сами ноты, но и их длительность, громкость (velocity), а также использование педали.

Демо | Ссылка на модель

8) Мы добавили новую модель Basic Pitch. Basic Pitch — это современная нейросеть от лаборатории Audio Intelligence Lab компании Spotify, которая конвертирует мелодичные аудиозаписи в ноты (формат MIDI). В отличие от устаревших конвертеров, эта модель способна "слышать" не только отдельные ноты, но и аккорды, а также тончайшие нюансы исполнения. Basic Pitch является "независимой от инструмента" (instrument-agnostic) моделью. Это означает, что она одинаково хорошо справляется с различными тембрами:

Вокал
Струнные: акустическая и электрогитара, скрипка, виолончель.
Клавишные: фортепиано, органы и синтезаторы.
Духовые: флейта, саксофон, труба и другие.

Важно: Модель предназначена для мелодичных инструментов. Она не подходит для ударных или перкуссии, так как фокусируется на высоте звука, а не на ритмическом шуме.

Демо | Описание | Ссылка на модель

9) Мы добавили алгоритм Bark (Speech Gen) в раздел Экспериментальные (Experimental). Bark — это модель на базе трансформера, созданная компанией Suno, которая представляет собой не просто традиционный инструмент синтеза речи, а полноценную генеративную систему "текст-в-аудио". Ее возможности выходят далеко за рамки обычной озвучки: помимо создания высокореалистичной речи на нескольких языках, Bark может генерировать музыку, фоновые шумы и простые звуковые эффекты. Уникальной особенностью модели является способность воспроизводить тонкие невербальные коммуникации, такие как смех, вздохи и плач, что делает итоговый звук максимально живым и естественным.

Демо | Описание

В наших экспериментах она иногда не следует тексту или инструкциям ) Смотрите демо в качестве примера.

10) Мы добавили Qwen3-TTS, мощную модель генерации речи, предлагающую поддержку клонирования голоса, дизайна голоса, генерации сверхвысококачественной человекоподобной речи и голосового управления на естественном языке. На MVSep мы используем самую большую модель с 1.7 млрд параметров. Модель доступна в 3 вариантах:

Qwen3-TTS (Custom Voice) - модель с предустановленными спикерами | Демо
Qwen3-TTS (Voice Design) - модель, способная создавать голос на основе описания | Демо
Qwen3-TTS (Voice Cloning) - модель, способная клонировать голос на основе эталонного аудиофайла | Демо

11) Мы добавили на сайт новый алгоритм HeartMuLa. Это передовое open-source семейство мультимодальных базовых моделей (лицензия Apache 2.0), предназначенное для высококачественного синтеза музыки и обработки звука. В отличие от проприетарных облачных сервисов (таких как Suno или Udio), HeartMuLa дает разработчикам возможность запускать ее локально на собственном оборудовании. Качество генерируемых песен довольно хорошее.

Официальный репозиторий | Демо 1 | Демо 2 | Документация

Текущие ограничения:
1) Модель плохо следует тегам.
2) Модель вычислительно тяжелая и использует много видеопамяти (VRAM).

Модель	Полнота вокала	Чистота вокала	SDR вокала	L1Freq вокала	Полнота инструм.	Чистота инструм.	SDR инструм.	L1Freq инструм.
SCNet XL IHF	17.98	28.31	11.11	37.91	28.87	40.37	17.41	38.54
SCNet XL IHF (high instrum fullness by becruily)	22.70	25.48	10.89	38.18	32.31	38.15	17.20	38.43

vocals	instrum	bass	drums	guitar	piano	other
11.30	17.50	14.62	14.11	9.05	7.83	8.71

Algorithm name	Multisong dataset		Synth dataset
Algorithm name	SDR Vocals	SDR Instrumental	SDR Vocals	SDR Instrumental
BS Roformer (ver. 2024.08)	11.31	17.62	13.56	13.27
BS Roformer (ver. 2025.07)	11.89	18.20	14.58	14.28

Algorithm name	Multisong dataset					Synth dataset
Algorithm name	SDR Bass	SDR Drums	SDR Other	SDR Vocals	SDR Instrumental	SDR Vocals	SDR Instrumental
SDR average: 13.07 (v. 2024.12.28)	14.14	13.57	8.10	11.61	17.92	14.09	13.79
SDR average: 13.67 (v. 2025.06.30)	14.85	14.33	9.00	11.93	18.23	14.58	14.28

Новости

Новости марта 2026

Новости ноября 2025

Новости сентября 2025

Новости мая 2025

Новости января

Новости ноября

Новости сентября

Обновления августа

Июльские обновления

Летние обновления

Переезд на новый сервер

Обновления bass-моделей и ансамблей

Обновления вокальных моделей и ансамблей

Последние обновления марта

Обновления сайта за февраль и март

Январские обновления

Новогодние обновления

Обновления в декабре

Новая модель для удаления звуков толпы (Crowd removal)

Обновления в ноябре (улучения вокальной модели)

Обновления в сентябре

Летние обновления

Новые модели MDX23C для отделения вокала

Новости

Модель для удаления реверберации и другое

Оригинальная модель MVSep Vocal Model

Экспериментальный алгоритм MVSep DNR

Июльские изменения на MVSep

Апрельские изменения на MVSep

Февральские изменения на MVSep

Информация о сайте

Компания

Дополнительно