Qwen3-TTS — это мощная модель генерации речи, предлагающая поддержку клонирования голоса, дизайна голоса, создания сверхкачественной человекоподобной речи и управления голосом на естественном языке. Она предоставляет разработчикам и пользователям самый широкий набор функций генерации речи. На MVSep мы используем самую большую модель с 1,7 млрд параметров.
Страница оригинальной модели: https://github.com/QwenLM/Qwen3-TTS
Qwen3-TTS (Voice Design) предлагает начитать текст произвольным голосом, который можно подробно описать в поле «Voice description» (описание голоса). Можно указать пол и возраст диктора, добавить эмоции, например «happy voice» (счастливый голос) или «sad voice» (грустный голос). Вы также можете выбрать язык для этой модели или оставить значение «auto».