@
Zhipuai 我是在
audio.z.ai 里面体验的,随便找了个干声进行克隆。当前其他开源模型( indextts2/cosyvoice2/3/vibevoice 等)虽然在情绪和语调上还达不到非常理想的程度,但是至少音色方面差的不会很多。但是在
audio.z.ai 上,是目前唯一一个在音色方面就让我觉得“不像”输入音频的体验。更不必说,生成的语音说话一板一眼的,一点特色都没有。所以我后续也没有去 github 上尝试开源版本,毕竟下载和搭建也挺费劲的。
如果
audio.z.ai 上的模型版本和开源版本不一样,那你们是否要考虑更新一下;
如果是一样的,那我不知道官方自己用的多不多,是不是被评测蒙蔽了双眼;又或者我使用的音源比较特殊。
无论如何,当前 AI 竞赛,不管是大语言模型还是 TTS ,都陷入了拼评分的怪圈。实际上,常年在一线使用产品的用户,对于模型的实际能力是很敏感的。我们团队半年前用 minimax 的 2.0 版本,体验很惊艳,立马充值。但是不久之后开始降智,官方不断出新的模型版本,每次都号称比之前版本好,但我们自己用下来就知道,不行就是不行,和新出来的开源模型都比不了。
所以奉劝你们,不要被评测评分迷了眼。它是一个评判方式,但不是唯一一个。我的建议是,自己多用用。