多模型 TTS 调试页(完整原始信息版)
当前状态:就绪
当前配置:
代理模式:
动态免费HTTPS代理(proxifly)
Qwen3-TTS
IndexTTS2
模式选择
Voice Design(语气描述)
Voice Clone(参考音频克隆)
Custom Voice(预设说话人 + 风格)
语言
自动
中文
英文
日文
韩文
法文
德文
西班牙文
葡萄牙文
俄文
合成文本
语气描述
参考音频 URL(需 ≥3秒,公开可访问)
参考文本(建议匹配音频内容)
目标文本(留空则使用上方合成文本)
仅使用 x-vector
模型大小
0.6B(生成更快)
1.7B(品质更高)
预设说话人
Aiden
风格指令(可选)
模型大小
0.6B
1.7B
合成文本
实验性功能
开启实验性功能(调用 fn_index=3 解锁)
情感控制方式(默认 3 种,勾选“实验性功能”后 4 种)
Same as the voice reference
Use emotion reference audio
Use emotion vectors
Use text description to control emotion(实验性)
音色参考音频 URL
情感参考音频 URL(仅在“Use emotion reference audio”时使用)
情感权重(emo_weight)
情绪向量(vec1..vec8,对应:喜/怒/哀/惧/厌恶/低落/惊喜/平静)
喜(vec1)
怒(vec2)
哀(vec3)
惧(vec4)
厌恶(vec5)
低落(vec6)
惊喜(vec7)
平静(vec8)
情感描述文本(emo_text)
情感随机采样(emo_random)
使用情感随机采样
最大文本分段 token(max_text_tokens_per_segment)
高级生成参数(GPT2 采样)
do_sample
true
false
top_p
top_k
temperature
length_penalty
num_beams
repetition_penalty
max_mel_tokens
开始生成并下载
运行日志