MVSEP Logo
  • Главная
  • Новости
  • Тарифы
  • Демо
  • Создать учетную запись
  • Войти
  • Theme
    Model Selector
    Language
    • English
    • Русский
    • 中文
    • اَلْعَرَبِيَّةُ
    • Polski
    • Portugues do Brasil
    • Español
    • 日本語
    • Français
    • Oʻzbekcha
    • Türkçe
    • हिन्दी
    • Tiếng Việt
    • Deutsch
    • 한국어
    • Bahasa Indonesia
    • Italiano
    • Svenska
    • suomi
    • български език
    • magyar nyelv
    • עִבְֿרִית
    • ภาษาไทย
    • hrvatski
    • Română

BandIt Plus (speech, music, effects)

Модель BandIt Plus для разделения треков на голос, музыку и эффекты. Она может быть полезна для телевизионных или кинематографических роликов. Модель была выложена авторами статьи "A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation" в репозитории на GitHub. Модель была натренирована на наборе данных Divide and Remaster (DnR). И на данный момент имеет лучшие метрики качества среди подобных моделей.

Таблица качества

Название алгоритма DnR dataset
SDR Speech SDR Music SDR Effects
BandIt Plus 15.62 9.21 9.69
🗎 Копировать ссылку | Use algorithm | Demo

MVSep DnR v3 (speech, music, effects)

MVSep DnR v3 - это кинематографическая модель для разделения треков на 3 части: музыка, эффекты и диалоги. Она обучена на огромном мультиязыковом датасете DnR v3 и генерирует стемы speech, music и sfx. Метрики качества на проверочных данных получились лучше, чем у аналогичной мультиязыковой модели Bandit v2. Модель доступна в 3 вариантах: на базе архитектур SCNet, MelBand Roformer, а также ансамбль этих двух моделей. См. таблицу ниже:

Название алгоритма
Метрики качества в таблице лидеров DnR v3
music (SDR) sfx (SDR) speech (SDR)
SCNet Large  9.94 11.35 12.59
Mel Band Roformer 9.45 11.24 12.27
Ensemble (Mel + SCNet) 10.15 11.67 12.81
Bandit v2 (для сравнения) 9.06 10.82 12.29
🗎 Копировать ссылку | Use algorithm | Demo

Apollo Enhancers (by JusperLee, Lew, baicai1145)

Алгоритм восстанавливает качество звука. Модель была предложена в этой статье и опубликована на github.

Доступны 3 модели:
1) MP3 Enhancer (автор JusperLee) - восстанавливает файлы MP3, сжатые с битрейтом 32 кбит/с до 128 кбит/с. Он не будет работать для файлов с большим битрейтом.
2) Universal Super Resolution (автор Lew) - восстанавливает более высокие частоты для любой музыки
3) Vocals Super Resolution (автор Lew) - восстанавливает более высокие частоты и общее качество для любого вокала

🗎 Копировать ссылку | Use algorithm | Demo

AudioSR (Super Resolution)

Алгоритм AudioSR: Универсальное масштабируемое аудио супер-разрешение. Алгоритм восстанавливает высокие частоты. Он работает со всеми типами аудио (например, музыка, речь, лай собаки, звук дождя и т.д.). Изначально он был обучен на монофоническом аудио, поэтому может давать нестабильные результаты на стерео.

Метрика на Super Resolution Checker for Music Leaderboard (Restored): 25.3195
Статья авторов: https://arxiv.org/pdf/2309.07314
Оригинальный репозиторий: https://github.com/haoheliu/versatile_audio_super_resolution
Оригинальный скрипт для вывода, подготовленный @jarredou: https://github.com/jarredou/AudioSR-Colab-Fork

🗎 Копировать ссылку | Use algorithm | Demo

FlashSR (Super Resolution)

FlashSR — алгоритм супер-разрешения аудио для восстановления высоких частот. Основан на статье FlashSR: One-step Versatile Audio Super-resolution via Diffusion Distillation. 

Метрика на Super Resolution Checker for Music Leaderboard (Restored): 22.1397
Оригинальный репозиторий: https://github.com/jakeoneijk/FlashSR_Inference
Скрипт для инференса от @jarredou: https://github.com/jarredou/FlashSR-Colab-Inference

🗎 Копировать ссылку | Use algorithm | Demo

Stable Audio Open Gen

Генерация аудио по заданному текстовому запросу. Для генерации используется модель Stable Audio Open 1.0. Аудио генерируется в формате Стерео с частотой дискретизации 44.1 kHz длинной до 47 секунд. Качество довольно высокое. Запросы лучше делать на английском языке.

Примеры запросов:
1) Генерация отдельных звуков: cats meow, lion roar, dog bark
2) Генерация отдельных семплов: 128 BPM tech house drum loop
3) Генерация конкретных инструментов: A Coltrane-style jazz solo: fast, chaotic passages (200 BPM), with piercing saxophone screams and sharp dynamic changes

🗎 Копировать ссылку | Use algorithm | Demo

Whisper (extract text from audio)

Whisper — это модель нейронной сети автоматического распознавания речи (ASR) и перевода речи от компании OpenAI. Модель имеет несколько версий. На MVSep мы используем самую большуюю и точную: «Whisper large-v3». Модель Whisper large-v3 была обучена на нескольких миллионах часов аудио. Это многоязычная модель, и она автоматически умеет определять язык текста. Чтобы применить модель к вашему аудио, у вас есть 2 варианта:
1) «Apply to original file» — это означает, что модель шепота будет применена непосредственно к отправленному вами файлу. 
2) «Extract vocals first» — в этом случае перед использованием шепота сначала применяется модель BS Roformer для извлечения вокала. Она может удалить ненужный шум, чтобы улучшить качество работы Whisper.

У исходной модели были некоторые проблемы с таймингами транскрипции. Это было исправлено @linto-ai. Его вариант транскрипции доступен c опцией "New timestamps by linto-ai", но иногда этот метод может давать нежелательные артифакты. Оригинальный вариант таймингов доступен по опции "Old version of timestamps by whisper".

Более подробную информацию о модели можно найти здесь: https://huggingface.co/openai/whisper-large-v3 и здесь: https://github.com/openai/whisper

 

🗎 Копировать ссылку | Use algorithm | Demo

Parakeet (extract text from audio)

Parakeet от NVIDIA — это современная модель автоматического распознавания речи (ASR), разработанная для точного и эффективного преобразования устной английской речи в текст. Модель в отличие от Whisper работает только с английской речью, но для английского языка дает более качественный результат. Так же генерирует довольно точные временные метки. Метрика качества WER: 6.03 на Huggingface Open ASR Leaderboard.

Страница модели: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

🗎 Копировать ссылку | Use algorithm | Demo

VibeVoice (Voice Cloning)

VibeVoice — это модель для генерации естественных разговорных диалогов из текста с возможностью использовать эталонный голос с целью его клонирования.

Основные возможности:

  • Две модели: маленькая и большая
  • До 90 минут сгенерированного аудио
  • Поддержка языков: поддерживается 2 языка: английский (по умолчанию) и китайский
  • Клонирование голоса: возможность загрузить эталонную аудиозапись

Как использовать модель

  • Текст должен быть только на английском или китайском языке, для других языков качество не гарантируется. Максимальная длина текста 5000 символов. Избегайте специальных символов. 
  • Аудио с эталонным голосом требуется от 5 до 15 секунд. Если ваш трек длиннее, то он будет автоматически обрезан на 15 секунде. 
  • Эталонный трек должен содержать только голос и ничего лишнего. Если у вас есть посторонние звуки или музыка используйте опцию "Extract vocals first".

Как сгенерировать эталонный трек?

Нам нужно фонетическое разнообразие (все звуки языка) и живая интонация. Текст длиной около 35–40 слов при спокойном чтении как раз займет ~15 секунд.

Вот три варианта на английском под разные задачи:

Option 1: Universal (Balanced & Clear)

Лучший выбор для общего использования. Содержит сложные звукосочетания для настройки четкости.

"To create a perfect voice clone, the AI needs to hear a full range of phonetic sounds. I am speaking clearly, taking small pauses, and asking: can you hear every detail? This short sample captures the unique texture and tone of my voice."

Option 2: Conversational (Vlog & Social Media)

Для озвучки роликов, YouTube или блогов. Читайте живо, с улыбкой, меняя высоту голоса.

"Hey! I’m recording this clip to test how well the new technology works. The secret is to relax and speak exactly like I would to a friend. Do you think the AI can really copy my style and energy in just fifteen seconds?"

Option 3: Professional (Business & Narration)

Для презентаций, аудиокниг или официальных сообщений. Читайте уверенно, немного медленнее, выделяя окончания слов.

"Voice synthesis technology is rapidly changing how we communicate in the digital age. It is essential to speak with confidence and precision to ensure high-quality output. This brief recording provides all the necessary data for a professional and accurate digital clone."


Советы для записи на английском (Tips for recording):

  1. Pronunciation (Произношение): Старайтесь четко проговаривать окончания слов (особенно t, d, s, ing). Модели "любят" четкую артикуляцию.

  2. Flow (Поток): Не читайте как робот. В английском важна мелодика (voice melody) — голос должен немного "плавать" вверх и вниз, а не звучать на одной ноте.

  3. Breathing (Дыхание): Если вы делаете паузу на запятой или точке, не бойтесь сделать слышный вдох. Это добавит реализма клону.

🗎 Копировать ссылку | Use algorithm | Demo

VibeVoice (TTS)

VibeVoice (TTS) — это модель для генерации естественных разговорных диалогов из текста с возможностью создавать диалоги до 4 собеседников и длительностью до 90 минут.

Основные возможности:

  • Две модели: маленькая и большая
  • До 4 говорящих в одной записи
  • До 90 минут сгенерированного аудио
  • Поддержка языков: официально поддерживается 2 языка: английский (по умолчанию) и китайский, но проверено что сносно работает и для других языков.

Как использовать модель

Текст должен быть на английском или китайском языке, для других языков качество не гарантируется. Максимальная длина текста 5000 символов. Избегайте специальных символов. Текст должен быть оформлен в специальном формате с указанием говорящих:

Правильный формат:

Speaker 1: Hello! How are you today?
Speaker 2: I'm doing great, thanks for asking!
Speaker 1: That's wonderful to hear.
Speaker 3: Hey everyone, sorry I'm late!

Неправильный формат:

Hello! How are you today?
I'm doing great!

Важно:

  • Каждая реплика должна начинаться с Speaker N: (где N — номер от 1 до 4)
  • Нумерация говорящих: Speaker 1, Speaker 2, Speaker 3, Speaker 4
  • Можно использовать от 1 до 4 говорящих
  • Регистр не важен: Speaker 1: = speaker 1: = SPEAKER 1

Если вам нужен монолог, то спикера можно не указывать.

Примеры сценариев:

Монолог (1 говорящий):

Speaker 1: Today I want to talk about artificial intelligence. 
Speaker 1: It's changing our world in incredible ways.
Speaker 1: From healthcare to entertainment, AI is everywhere.

Диалог (2 говорящих):

Speaker 1: Have you tried the new restaurant downtown?
Speaker 2: Not yet, but I've heard great things about it!
Speaker 1: We should go there this weekend.
Speaker 2: That sounds like a perfect plan!

Групповая беседа (3-4 говорящих):

Speaker 1: Welcome to our podcast, everyone!
Speaker 2: Thanks for having us!
Speaker 3: It's great to be here.
Speaker 4: I'm excited to share our thoughts today.
Speaker 1: Let's start with introductions.
🗎 Копировать ссылку | Use algorithm | Demo

MVSep MultiSpeaker (MDX23C)

MVSep MultiSpeaker (MDX23C) — данная модель пытается изолировать самый громкий голос от всех остальных голосов. Модель основана на архитектуре MDX23C. Все еще в разработке.

🗎 Копировать ссылку | Use algorithm | Demo

Aspiration (by Sucial)

Алгоритм добавляет к вокалу эффект «шепота». Модель создана SUC-DriverOld. Подробнее здесь.

Модель Aspiration отделяет:

  1. Слышимое дыхание

  2. Шипение и жужжание фрикативных согласных (например, «с» и «ф»)

  3. Взрывные согласные: глухой взрывной звук, возникающий при произнесении согласных (таких как "п", "т", "к").

🗎 Копировать ссылку | Use algorithm | Demo

Matchering (by sergree)

Matchering — это новый инструмент для сопоставления и мастеринга аудио. Он основан на простой идее: вы берете ДВА аудиофайла и загружаете их в Matchering:

  • TARGET (трек, который вы хотите смастерить и вы хотите, чтобы он звучал как референс)
  • REFERENCE (другой трек, например, какая-нибудь «фирменная» популярная песня, вы хотите, чтобы ваш целевой трек звучал так же)

Алгоритм сопоставляет оба этих трека и предоставляет вам обработанный трек TARGET с теми же значениями RMS, частотной характеристики, пиковой амплитуды и ширины стереобазы, что и у трека REFERENCE.

Основано на коде @sergree.

🗎 Копировать ссылку | Use algorithm | Demo

SOME (Singing-Oriented MIDI Extractor)

SOME (Singing-Oriented MIDI Extractor) — это инструмент для извлечения MIDI, способный конвертировать пение в MIDI-последовательность. Модель была обучена исключительно на китайском вокале, поэтому с другими языками она может работать некорректно.

Оригинальная страница: https://github.com/openvpi/SOME

🗎 Копировать ссылку | Use algorithm | Demo

Vit Large 23 (vocals, instrum)

Экспериментальная модель VitLarge23 на базе Vision Transformers. По метрикам немного уступает MDX23C, но может сработать лучше в некоторых случаях.

Таблица качества

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
Vit Large 23 (512px) v1 9.78 16.09 12.33 12.03 10.47 
Vit Large 23 (512px) v2 9.90 16.20 12.38 12.08 ---
🗎 Копировать ссылку | Use algorithm | Demo

MVSep MelBand Roformer (vocals, instrum)

Mel Band Roformer - модель предложенная сотрудниками компании ByteDance для конкурса Sound Demixing Challenge 2023, где они заняли первое место на LeaderBoard C. К сожалению, модель не была выложена в открытый доступ и была воспроизведена по научной статье разработчиком @lucidrains на площадке github. Вокальная модель была обучена с нуля на нашем внутреннем датасете. К сожалению, нам пока не удалось достичь аналогичных метрик как у авторов.

Таблица качества

Algorithm name Multisong dataset Synth dataset MDX23 Leaderboard
SDR Vocals SDR Instrumental SDR Vocals SDR Instrumental SDR Vocals
Mel Band Roformer v1 (vocals) 9.07 --- 11.76 --- ---
🗎 Копировать ссылку | Use algorithm | Demo

LarsNet (kick, snare, cymbals, toms, hihat)

Модель LarsNet производит разделение дорожки барабанов на 5 типов: 'kick', 'snare', 'cymbals', 'toms', 'hihat'. Используется модель из репозитория на github и обученная на датасете StemGMD. Модель имеет два режима работы. В первом (по умолчанию) сначала к треку применяется модель Demucs4 HT, которая извлекает из трека только барабанную часть. Далее уже применяется модель LarsNet. Если ваш трек состоит только из барабанов, то имеет смысл использовать второй режим, где модель LarsNet применяется непосредственно к загруженному аудио. К сожалению, субъективно качество разделения уступает по качеству модели DrumSep.

🗎 Копировать ссылку | Use algorithm | Demo

  • ‹
  • 1
  • 2
  • ›
MVSEP Logo

turbo@mvsep.com

Информация о сайте

ЧАВО

Проверка качества алгоритмов

Алгоритмы

Полная документация по API

Компания

Политика конфиденциалности

Условия и Положения

Политика возврата

Cookie Notice

Дополнительно

Помогите нам перевести!

Помогите в продвижении!