MVSEP Logo
  • Home
  • News
  • Plans
  • Demo
  • Create Account
  • Login
  • Theme
    Model Selector
    Language
    • English
    • Русский
    • 中文
    • اَلْعَرَبِيَّةُ
    • Polski
    • Portugues do Brasil
    • Español
    • 日本語
    • Français
    • Oʻzbekcha
    • Türkçe
    • हिन्दी
    • Tiếng Việt
    • Deutsch
    • 한국어
    • Bahasa Indonesia
    • Italiano
    • Svenska
    • suomi
    • български език
    • magyar nyelv
    • עִבְֿרִית
    • ภาษาไทย
    • hrvatski
    • Română

Parakeet (extract text from audio)

Parakeet — это семейство передовых моделей автоматического распознавания речи (ASR), разработанных NVIDIA совместно с Suno.ai. Эти модели построены на архитектуре Fast Conformer, созданной для обеспечения баланса между высокой точностью транскрипции и исключительной скоростью инференса. Они широко известны тем, что превосходят гораздо более крупные модели (такие как Whisper от OpenAI) по эффективности, сохраняя при этом конкурентоспособные или лучшие показатели ошибок слов (WER). Метрика качества WER: 6.03 в рейтинге Huggingface Open ASR.

MVSep предоставляет две версии модели (v2 и v3):
Страница модели v2: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
Страница модели v3: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3


Parakeet v2 (Parakeet TDT 0.6B v2)

Выпущенная как высокоэффективная модель, ориентированная на английский язык, v2 утвердила Parakeet в качестве лидера по соотношению скорости и точности.

  • Язык: Только английский (en-US).
  • Размер: 0,6 миллиарда параметров (600 млн), что делает её легковесной по сравнению с 1,1 млрд параметров в предыдущих версиях.
  • Производительность: Достигает ведущей в отрасли точности (около 6% WER на стандартных тестах) и работает до 50 раз быстрее реального времени.
  • Возможности:
    • Поддерживает высокоточные таймкоды на уровне слов.
    • Включает автоматическую пунктуацию и капитализацию (простановку заглавных букв).
    • Эффективна при транскрипции неречевых звуков, таких как тексты песен и произносимые числа.
    • Может обрабатывать длинные аудиозаписи (до 11 часов в некоторых конфигурациях), используя механизмы локального внимания.

Parakeet v3 (Parakeet TDT 0.6B v3)

Выпуск v3 ознаменовал расширение эффективной архитектуры Parakeet с исключительно английского языка на многоязычную область без увеличения размера модели.

  • Язык: Многоязычная (поддерживает 25 европейских языков, включая английский, испанский, французский, немецкий, русский и другие).
  • Размер: Сохраняет компактный размер в 0,6 миллиарда параметров.
  • Ключевое обновление: Обучена на огромном многоязычном корпусе Granary (около 1 миллиона часов аудио).
  • Новые функции:
    • Автоматическое определение языка: Модель может определять язык речи по аудиосигналу и транскрибировать его без ручных подсказок.
    • Высокая пропускная способность: Несмотря на добавленные многоязычные возможности, она сохраняет сверхбыструю скорость инференса архитектуры v2 TDT.
    • Универсальность: Служит прямой заменой для v2 для пользователей, которым требуется поддержка европейских языков при сохранении низкой задержки и вычислительных затрат.

🗎 Copy link | Use algorithm | Demo

MVSEP Logo

turbo@mvsep.com

Google Play App Store
Site information

FAQ

Quality Checker

Algorithms

Full API Documentation

Company

Privacy Policy

Terms & Conditions

Refund Policy

Cookie Notice

Extra

Help us translate!

Help us promote!