Whisper — это модель нейронной сети автоматического распознавания речи (ASR) и перевода речи от компании OpenAI. Модель имеет несколько версий. На MVSep мы используем самую большуюю и точную: «Whisper large-v3». Модель Whisper large-v3 была обучена на нескольких миллионах часов аудио. Это многоязычная модель, и она автоматически умеет определять язык текста. Чтобы применить модель к вашему аудио, у вас есть 2 варианта:
1) «Apply to original file» — это означает, что модель шепота будет применена непосредственно к отправленному вами файлу.
2) «Extract vocals first» — в этом случае перед использованием шепота сначала применяется модель MDX23C для извлечения вокала. Он может удалить ненужный шум, чтобы улучшить качество воспроизведения Whisper.
Более подробную информацию о модели можно найти здесь: https://huggingface.co/openai/whisper-large-v3.