Bark (Speech Gen)

Bark — это созданная компанией Suno модель на базе архитектуры трансформеров, которая представляет собой не просто традиционный инструмент синтеза речи, а полноценную генеративную систему класса «текст в аудио». Её возможности выходят далеко за рамки обычного озвучивания: помимо создания высокореалистичной речи на множестве языков, Bark умеет генерировать музыку, фоновые шумы и простые звуковые эффекты. Уникальной особенностью модели является способность воспроизводить тонкие невербальные коммуникации, такие как смех, вздохи и плач, что делает итоговое звучание максимально живым и естественным.

Стремясь поддержать сообщество, разработчики открыли доступ к предварительно обученным контрольным точкам, которые готовы к работе и разрешены даже для коммерческого использования. Тем не менее важно учитывать, что Bark создавался в первую очередь для исследовательских задач. Будучи полностью генеративной моделью, она может вести себя непредсказуемо и иногда отклоняться от введенных текстовых подсказок.

Официальный репоизторий модели: https://github.com/suno-ai/bark

В отличие от классических TTS-систем, Bark не использует SSML-разметку. Вместо этого он обучен распознавать определенные текстовые вставки (теги) как инструкции для генерации звуков.

Инструкция по кодированию эмоций и звуков в Bark

1. Основной принцип

Все управляющие команды пишутся в квадратных скобках. Важно: Сами теги должны быть написаны на английском языке, даже если основной текст, который вы генерируете, на русском, испанском или любом другом языке.

Синтаксис:

Текст до эффекта [тег_эффекта] текст после эффекта.

2. Список поддерживаемых тегов (Non-speech sounds)

Bark официально распознает следующий набор токенов для невербальных звуков:

Тег	Описание	Пример использования
`[laughter]`	Громкий, явный смех	`Привет! [laughter] Как же это было смешно.`
`[laughs]`	Короткий смешок, хихиканье	`Ну да, конечно [laughs].`
`[sighs]`	Тяжелый вздох (усталость, облегчение)	`[sighs] Я так устал от этой работы.`
`[music]`	Вставка инструментальной музыки	`[music] (играет фоновая музыка)`
`[gasps]`	Резкий вдох (испуг, удивление)	`[gasps] Я не ожидал тебя здесь увидеть!`
`[clears throat]`	Откашливание (привлечение внимания)	`[clears throat] Господа, прошу внимания.`

Примечание: Также существуют вариации [man laughs] и [woman laughs], но они работают стабильнее всего, если пол спикера (Speaker History) совпадает с тегом.

3. Генерация пения и музыки

Чтобы заставить модель «пропеть» текст, а не прочитать его, используются музыкальные ноты.

Метод: Оберните текст в символы музыкальных нот ♪ (Shift + Alt + V на Mac или Alt+13 на Win, или просто скопируйте).
Пример: ♪ In the jungle, the mighty jungle, the lion sleeps tonight ♪
Совет: Это работает лучше всего, если вы используете английский язык, так как обучающий датасет содержал много английских песен, но на русском тоже можно добиться результата.

4. Паузы и интонация (Prosody)

Хотя специальных тегов для пауз (типа ) нет, Bark чувствителен к пунктуации и спецсимволам, так как воспринимает текст как структуру.

Двоеточие и тире (..., —): Используйте многоточие или длинное тире для создания пауз, колебаний или заминок в речи.
- Пример: Я... я не уверен, что это правильно.
CAPS LOCK: Иногда (не гарантированно) написание слова ЗАГЛАВНЫМИ БУКВАМИ может добавить ударение или повысить громкость.

5. Важные нюансы работы (Disclaimer)

Вероятностная природа: Bark — это GPT для аудио. Если вы напишете [laughter], модель с высокой вероятностью сгенерирует смех, но иногда она может проигнорировать тег или сгенерировать странный звук.
Контекст имеет значение: Тег [laughter] сработает естественнее после шутки, чем посреди трагического предложения. Модель «понимает» семантику текста.
Шепот (Whispering): Официального тега [whisper] нет. Однако сообщество заметило, что добавление слов типа "quietly" или использование специфических спикеров (Speaker Prompts) иногда помогает, но это метод проб и ошибок.

Ограничения на сайте: в данный момент все отправленные тексты обрезаются до 1000 символов.

🗎 Copy link Use algorithm Demo