在中文语音合成中,多音字是一个常见的挑战。同一个汉字在不同语境下可能有不同的读音,例如:
行字可以读作 xíng(如行走)或 háng(如银行)长字可以读作 cháng(如长度)或 zhǎng(如成长)重字可以读作 zhòng(如重要)或 chóng(如重复)
如果不指定正确的读音,AI语音合成可能会选择错误的发音,导致生成结果不自然或含义错误。
IndexTTS 提供了一种简单直观的方法来控制多音字的发音:直接在文本中使用拼音+声调数字标注。

汉字拼音+声调数字
其中声调数字的含义:
māmámǎmàma五xing2相生相克衣shang5整齐最zhong4要的是不要chong2复错误重分别读作 zhòng(第四声)和 chóng(第二声)了需要读作 liǎo 而非 le 时我想liao3解情况j, q, x 声母后接 u/ü 的拼音,系统会自动处理为 v,例如:
ju -> jvque -> qvexün -> xvn此功能在以下场景特别有用:
强可读作 qiáng 或 qiǎng奠基中的奠读作 diàn 而非 zhèn朝阳中的朝读作 cháo 而非 zhāo通过这种简单的标注方法,您可以确保IndexTTS生成的语音准确表达您想要的内容,不会因多音字问题造成误解。