MVSep DnR v3 - это кинематографическая модель для разделения треков на 3 части: музыка, эффекты и диалоги. Она обучена на огромном мультиязыковом датасете DnR v3 и генерирует стемы speech, music и sfx. Метрики качества на проверочных данных получились лучше, чем у аналогичной мультиязыковой модели Bandit v2. Модель доступна в 3 вариантах: на базе архитектур SCNet, MelBand Roformer, а также ансамбль этих двух моделей. См. таблицу ниже:
Алгоритм восстанавливает качество звука. Модель была предложена в этой статье и опубликована на github.
Доступны 3 модели: 1) MP3 Enhancer (автор JusperLee) - восстанавливает файлы MP3, сжатые с битрейтом 32 кбит/с до 128 кбит/с. Он не будет работать для файлов с большим битрейтом. 2) Universal Super Resolution (автор Lew) - восстанавливает более высокие частоты для любой музыки 3) Vocals Super Resolution (автор Lew) - восстанавливает более высокие частоты и общее качество для любого вокала
Алгоритм AudioSR: Универсальное масштабируемое аудио супер-разрешение. Алгоритм восстанавливает высокие частоты. Он работает со всеми типами аудио (например, музыка, речь, лай собаки, звук дождя и т.д.). Изначально он был обучен на монофоническом аудио, поэтому может давать нестабильные результаты на стерео.
Генерация аудио по заданному текстовому запросу. Для генерации используется модель Stable Audio Open 1.0. Аудио генерируется в формате Стерео с частотой дискретизации 44.1 kHz длинной до 47 секунд. Качество довольно высокое. Запросы лучше делать на английском языке.
Примеры запросов: 1) Генерация отдельных звуков: cats meow, lion roar, dog bark 2) Генерация отдельных семплов: 128 BPM tech house drum loop 3) Генерация конкретных инструментов: A Coltrane-style jazz solo: fast, chaotic passages (200 BPM), with piercing saxophone screams and sharp dynamic changes
Whisper — это модель нейронной сети автоматического распознавания речи (ASR) и перевода речи от компании OpenAI. Модель имеет несколько версий.На MVSep мы используем самую большуюю и точную: «Whisper large-v3».Модель Whisper large-v3 была обучена на нескольких миллионах часов аудио.Это многоязычная модель, и она автоматически умеет определять язык текста.Чтобы применить модель к вашему аудио, у вас есть 2 варианта: 1) «Apply to original file» — это означает, что модель шепота будет применена непосредственно к отправленному вами файлу. 2) «Extract vocals first» — в этом случае перед использованием шепота сначала применяется модель BS Roformer для извлечения вокала.Она может удалить ненужный шум, чтобы улучшить качество работы Whisper.
У исходной модели были некоторые проблемы с таймингами транскрипции. Это было исправлено @linto-ai. Его вариант транскрипции доступен c опцией "New timestamps by linto-ai", но иногда этот метод может давать нежелательные артифакты. Оригинальный вариант таймингов доступен по опции "Old version of timestamps by whisper".
Parakeet от NVIDIA — это современная модель автоматического распознавания речи (ASR), разработанная для точного и эффективного преобразования устной английской речи в текст. Модель в отличие от Whisper работает только с английской речью, но для английского языка дает более качественный результат. Так же генерирует довольно точные временные метки. Метрика качества WER: 6.03 на Huggingface Open ASR Leaderboard.
VibeVoice — это модель для генерации естественных разговорных диалогов из текста с возможностью использовать эталонный голос с целью его клонирования.
Основные возможности:
Две модели: маленькая и большая
До 90 минут сгенерированного аудио
Поддержка языков: поддерживается 2 языка: английский (по умолчанию) и китайский
Клонирование голоса: возможность загрузить эталонную аудиозапись
Как использовать модель
Текст должен быть только на английском или китайском языке, для других языков качество не гарантируется. Максимальная длина текста 5000 символов. Избегайте специальных символов.
Аудио с эталонным голосом требуется от 5 до 15 секунд. Если ваш трек длиннее, то он будет автоматически обрезан на 15 секунде.
Эталонный трек должен содержать только голос и ничего лишнего. Если у вас есть посторонние звуки или музыка используйте опцию "Extract vocals first".
Как сгенерировать эталонный трек?
Нам нужнофонетическое разнообразие (все звуки языка) и живая интонация. Текст длиной около 35–40 слов при спокойном чтении как раз займет ~15 секунд.
Вот три варианта на английском под разные задачи:
Option 1: Universal (Balanced & Clear)
Лучший выбор для общего использования. Содержит сложные звукосочетания для настройки четкости.
"To create a perfect voice clone, the AI needs to hear a full range of phonetic sounds. I am speaking clearly, taking small pauses, and asking: can you hear every detail? This short sample captures the unique texture and tone of my voice."
Option 2: Conversational (Vlog & Social Media)
Для озвучки роликов, YouTube или блогов. Читайте живо, с улыбкой, меняя высоту голоса.
"Hey! I’m recording this clip to test how well the new technology works. The secret is to relax and speak exactly like I would to a friend. Do you think the AI can really copy my style and energy in just fifteen seconds?"
Option 3: Professional (Business & Narration)
Для презентаций, аудиокниг или официальных сообщений. Читайте уверенно, немного медленнее, выделяя окончания слов.
"Voice synthesis technology is rapidly changing how we communicate in the digital age. It is essential to speak with confidence and precision to ensure high-quality output. This brief recording provides all the necessary data for a professional and accurate digital clone."
Советы для записи на английском (Tips for recording):
Pronunciation (Произношение): Старайтесь четко проговаривать окончания слов (особенно t, d, s, ing). Модели "любят" четкую артикуляцию.
Flow (Поток): Не читайте как робот. В английском важна мелодика (voice melody) — голос должен немного "плавать" вверх и вниз, а не звучать на одной ноте.
Breathing (Дыхание): Если вы делаете паузу на запятой или точке, не бойтесь сделать слышный вдох. Это добавит реализма клону.
VibeVoice (TTS) — это модель для генерации естественных разговорных диалогов из текста с возможностью создавать диалоги до 4 собеседников и длительностью до 90 минут.
Основные возможности:
Две модели: маленькая и большая
До 4 говорящих в одной записи
До 90 минут сгенерированного аудио
Поддержка языков: официально поддерживается 2 языка: английский (по умолчанию) и китайский, но проверено что сносно работает и для других языков.
Как использовать модель
Текст должен быть на английском или китайском языке, для других языков качество не гарантируется. Максимальная длина текста 5000 символов. Избегайте специальных символов. Текст должен быть оформлен в специальном формате с указанием говорящих:
Правильный формат:
Speaker 1: Hello! How are you today?
Speaker 2: I'm doing great, thanks for asking!
Speaker 1: That's wonderful to hear.
Speaker 3: Hey everyone, sorry I'm late!
Неправильный формат:
Hello! How are you today?
I'm doing great!
Важно:
Каждая реплика должна начинаться с Speaker N: (где N — номер от 1 до 4)
Если вам нужен монолог, то спикера можно не указывать.
Примеры сценариев:
Монолог (1 говорящий):
Speaker 1: Today I want to talk about artificial intelligence.
Speaker 1: It's changing our world in incredible ways.
Speaker 1: From healthcare to entertainment, AI is everywhere.
Диалог (2 говорящих):
Speaker 1: Have you tried the new restaurant downtown?
Speaker 2: Not yet, but I've heard great things about it!
Speaker 1: We should go there this weekend.
Speaker 2: That sounds like a perfect plan!
Групповая беседа (3-4 говорящих):
Speaker 1: Welcome to our podcast, everyone!
Speaker 2: Thanks for having us!
Speaker 3: It's great to be here.
Speaker 4: I'm excited to share our thoughts today.
Speaker 1: Let's start with introductions.
MVSep MultiSpeaker (MDX23C) — данная модель пытается изолировать самый громкий голос от всех остальных голосов. Модель основана на архитектуре MDX23C.Все еще в разработке.
Matchering — это новый инструмент для сопоставления и мастеринга аудио. Он основан на простой идее: вы берете ДВА аудиофайла и загружаете их в Matchering:
TARGET (трек, который вы хотите смастерить и вы хотите, чтобы он звучал как референс)
REFERENCE (другой трек, например, какая-нибудь «фирменная» популярная песня, вы хотите, чтобы ваш целевой трек звучал так же)
SOME (Singing-Oriented MIDI Extractor) — это инструмент для извлечения MIDI, способный конвертировать пение в MIDI-последовательность. Модель была обучена исключительно на китайском вокале, поэтому с другими языками она может работать некорректно.
Mel Band Roformer - модель предложенная сотрудниками компании ByteDance для конкурса Sound Demixing Challenge 2023, где они заняли первое место на LeaderBoard C. К сожалению, модель не была выложена в открытый доступ и была воспроизведена по научной статье разработчиком @lucidrains на площадке github. Вокальная модель была обучена с нуля на нашем внутреннем датасете. К сожалению, нам пока не удалось достичь аналогичных метрик как у авторов.
Модель LarsNet производит разделение дорожки барабанов на 5 типов: 'kick', 'snare', 'cymbals', 'toms', 'hihat'. Используется модель из репозитория на github и обученная на датасете StemGMD. Модель имеет два режима работы. В первом (по умолчанию) сначала к треку применяется модель Demucs4 HT, которая извлекает из трека только барабанную часть. Далее уже применяется модель LarsNet. Если ваш трек состоит только из барабанов, то имеет смысл использовать второй режим, где модель LarsNet применяется непосредственно к загруженному аудио. К сожалению, субъективно качество разделения уступает по качеству модели DrumSep.