MVSEP Logo
  • Home
  • News
  • Plans
  • Demo
  • FAQ
  • Create Account
  • Login

Whisper (extract text from audio)

Whisper — это модель нейронной сети автоматического распознавания речи (ASR) и перевода речи от компании OpenAI. Модель имеет несколько версий. На MVSep мы используем самую большуюю и точную: «Whisper large-v3». Модель Whisper large-v3 была обучена на нескольких миллионах часов аудио. Это многоязычная модель, и она автоматически умеет определять язык текста. Чтобы применить модель к вашему аудио, у вас есть 2 варианта:
1) «Apply to original file» — это означает, что модель шепота будет применена непосредственно к отправленному вами файлу. 
2) «Extract vocals first» — в этом случае перед использованием шепота сначала применяется модель MDX23C для извлечения вокала. Он может удалить ненужный шум, чтобы улучшить качество воспроизведения Whisper.

Более подробную информацию о модели можно найти здесь: https://huggingface.co/openai/whisper-large-v3.

🗎 Copy link

MVSEP Logo

turbo@mvsep.com

Advanced features

Quality Checker

Algorithms

Full API Documentation

Company

Privacy Policy

Terms & Conditions

Refund Policy

Extra

Help us translate!

Help us promote!