Qwen3-TTS — это мощная модель генерации речи, предлагающая поддержку клонирования голоса, дизайна голоса, создания сверхкачественной человекоподобной речи и управления голосом на естественном языке. Она предоставляет разработчикам и пользователям самый широкий набор функций генерации речи. На MVSep мы используем самую большую модель с 1,7 млрд параметров.
Страница оригинальной модели: https://github.com/QwenLM/Qwen3-TTS
Qwen3-TTS (Custom Voice) предлагает набор из 9 предустановленных дикторов. Дополнительно вы можете указать «Voice description» (описание голоса), добавив эмоции, например «happy voice» (счастливый голос) или «sad voice» (грустный голос). Вы также можете выбрать язык для этой модели или оставить значение «auto».