Bark — это созданная компанией Suno модель на базе архитектуры трансформеров, которая представляет собой не просто традиционный инструмент синтеза речи, а полноценную генеративную систему класса «текст в аудио». Её возможности выходят далеко за рамки обычного озвучивания: помимо создания высокореалистичной речи на множестве языков, Bark умеет генерировать музыку, фоновые шумы и простые звуковые эффекты. Уникальной особенностью модели является способность воспроизводить тонкие невербальные коммуникации, такие как смех, вздохи и плач, что делает итоговое звучание максимально живым и естественным.
Стремясь поддержать сообщество, разработчики открыли доступ к предварительно обученным контрольным точкам, которые готовы к работе и разрешены даже для коммерческого использования. Тем не менее важно учитывать, что Bark создавался в первую очередь для исследовательских задач. Будучи полностью генеративной моделью, она может вести себя непредсказуемо и иногда отклоняться от введенных текстовых подсказок.
Официальный репоизторий модели: https://github.com/suno-ai/bark
В отличие от классических TTS-систем, Bark не использует SSML-разметку. Вместо этого он обучен распознавать определенные текстовые вставки (теги) как инструкции для генерации звуков.
Инструкция по кодированию эмоций и звуков в Bark
1. Основной принцип
Все управляющие команды пишутся в квадратных скобках. Важно: Сами теги должны быть написаны на английском языке, даже если основной текст, который вы генерируете, на русском, испанском или любом другом языке.
Синтаксис:
Текст до эффекта [тег_эффекта] текст после эффекта.
2. Список поддерживаемых тегов (Non-speech sounds)
Bark официально распознает следующий набор токенов для невербальных звуков:
Примечание: Также существуют вариации [man laughs] и [woman laughs], но они работают стабильнее всего, если пол спикера (Speaker History) совпадает с тегом.
3. Генерация пения и музыки
Чтобы заставить модель «пропеть» текст, а не прочитать его, используются музыкальные ноты.
-
Метод: Оберните текст в символы музыкальных нот
♪(Shift + Alt + V на Mac или Alt+13 на Win, или просто скопируйте). -
Пример:
♪ In the jungle, the mighty jungle, the lion sleeps tonight ♪ -
Совет: Это работает лучше всего, если вы используете английский язык, так как обучающий датасет содержал много английских песен, но на русском тоже можно добиться результата.
4. Паузы и интонация (Prosody)
Хотя специальных тегов для пауз (типа ) нет, Bark чувствителен к пунктуации и спецсимволам, так как воспринимает текст как структуру.
-
Двоеточие и тире (
...,—): Используйте многоточие или длинное тире для создания пауз, колебаний или заминок в речи.-
Пример:
Я... я не уверен, что это правильно.
-
-
CAPS LOCK: Иногда (не гарантированно) написание слова ЗАГЛАВНЫМИ БУКВАМИ может добавить ударение или повысить громкость.
5. Важные нюансы работы (Disclaimer)
-
Вероятностная природа: Bark — это GPT для аудио. Если вы напишете
[laughter], модель с высокой вероятностью сгенерирует смех, но иногда она может проигнорировать тег или сгенерировать странный звук. -
Контекст имеет значение: Тег
[laughter]сработает естественнее после шутки, чем посреди трагического предложения. Модель «понимает» семантику текста. -
Шепот (Whispering): Официального тега
[whisper]нет. Однако сообщество заметило, что добавление слов типа "quietly" или использование специфических спикеров (Speaker Prompts) иногда помогает, но это метод проб и ошибок.
Ограничения на сайте: в данный момент все отправленные тексты обрезаются до 1000 символов.