Qwen3-TTS — это мощная модель генерации речи, предлагающая поддержку клонирования голоса, дизайна голоса, создания сверхкачественной человекоподобной речи и управления голосом на естественном языке. Она предоставляет разработчикам и пользователям самый широкий набор функций генерации речи. На MVSep мы используем самую большую модель с 1,7 млрд параметров.
Страница оригинальной модели: https://github.com/QwenLM/Qwen3-TTS
Qwen3-TTS (Voice Cloning) позволяет загрузить референсный аудиофайл, чтобы озвучить заданный текст голосом из образца. Для повышения качества клонирования вы можете дополнительно указать расшифровку аудио в поле «Reference text in audio». Вы также можете выбрать язык для этой модели или оставить значение «auto».