MVSEP Logo
  • Home
  • News
  • Plans
  • Demo
  • Create Account
  • Login
  • Theme
    Model Selector
    Language
    • English
    • Русский
    • 中文
    • اَلْعَرَبِيَّةُ
    • Polski
    • Portugues do Brasil
    • Español
    • 日本語
    • Français
    • Oʻzbekcha
    • Türkçe
    • हिन्दी
    • Tiếng Việt
    • Deutsch
    • 한국어
    • Bahasa Indonesia
    • Italiano
    • Svenska
    • suomi
    • български език
    • magyar nyelv
    • עִבְֿרִית
    • ภาษาไทย
    • hrvatski
    • Română

Whisper (extract text from audio)

Whisper — это модель нейронной сети автоматического распознавания речи (ASR) и перевода речи от компании OpenAI. Модель имеет несколько версий. На MVSep мы используем самую большуюю и точную: «Whisper large-v3». Модель Whisper large-v3 была обучена на нескольких миллионах часов аудио. Это многоязычная модель, и она автоматически умеет определять язык текста. Чтобы применить модель к вашему аудио, у вас есть 2 варианта:
1) «Apply to original file» — это означает, что модель шепота будет применена непосредственно к отправленному вами файлу. 
2) «Extract vocals first» — в этом случае перед использованием шепота сначала применяется модель BS Roformer для извлечения вокала. Она может удалить ненужный шум, чтобы улучшить качество работы Whisper.

У исходной модели были некоторые проблемы с таймингами транскрипции. Это было исправлено @linto-ai. Его вариант транскрипции доступен c опцией "New timestamps by linto-ai", но иногда этот метод может давать нежелательные артифакты. Оригинальный вариант таймингов доступен по опции "Old version of timestamps by whisper".

Более подробную информацию о модели можно найти здесь: https://huggingface.co/openai/whisper-large-v3 и здесь: https://github.com/openai/whisper

 

🗎 Copy link | Use algorithm | Demo

MVSEP Logo

turbo@mvsep.com

Site information

FAQ

Quality Checker

Algorithms

Full API Documentation

Company

Privacy Policy

Terms & Conditions

Refund Policy

Cookie Notice

Extra

Help us translate!

Help us promote!