VibeVoice (TTS) — это модель для генерации естественных разговорных диалогов из текста с возможностью создавать диалоги до 4 собеседников и длительностью до 90 минут.
Основные возможности:
- Две модели: маленькая и большая
- До 4 говорящих в одной записи
- До 90 минут сгенерированного аудио
- Поддержка языков: официально поддерживается 2 языка: английский (по умолчанию) и китайский, но проверено что сносно работает и для других языков.
Как использовать модель
Текст должен быть на английском или китайском языке, для других языков качество не гарантируется. Максимальная длина текста 5000 символов. Избегайте специальных символов. Текст должен быть оформлен в специальном формате с указанием говорящих:
Правильный формат:
Speaker 1: Hello! How are you today?
Speaker 2: I'm doing great, thanks for asking!
Speaker 1: That's wonderful to hear.
Speaker 3: Hey everyone, sorry I'm late!
Неправильный формат:
Hello! How are you today?
I'm doing great!
Важно:
- Каждая реплика должна начинаться с
Speaker N:(где N — номер от 1 до 4) - Нумерация говорящих: Speaker 1, Speaker 2, Speaker 3, Speaker 4
- Можно использовать от 1 до 4 говорящих
- Регистр не важен:
Speaker 1:=speaker 1:=SPEAKER 1
Если вам нужен монолог, то спикера можно не указывать.
Примеры сценариев:
Монолог (1 говорящий):
Speaker 1: Today I want to talk about artificial intelligence.
Speaker 1: It's changing our world in incredible ways.
Speaker 1: From healthcare to entertainment, AI is everywhere.
Диалог (2 говорящих):
Speaker 1: Have you tried the new restaurant downtown?
Speaker 2: Not yet, but I've heard great things about it!
Speaker 1: We should go there this weekend.
Speaker 2: That sounds like a perfect plan!
Групповая беседа (3-4 говорящих):
Speaker 1: Welcome to our podcast, everyone!
Speaker 2: Thanks for having us!
Speaker 3: It's great to be here.
Speaker 4: I'm excited to share our thoughts today.
Speaker 1: Let's start with introductions.