Parakeet от NVIDIA — это современная модель автоматического распознавания речи (ASR), разработанная для точного и эффективного преобразования устной английской речи в текст. Модель в отличие от Whisper работает только с английской речью, но для английского языка дает более качественный результат. Так же генерирует довольно точные временные метки. Метрика качества WER: 6.03 на Huggingface Open ASR Leaderboard.
Страница модели: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2