注意事项
关于语音克隆的一些注意事项以及最佳实践
最后更新于
这有帮助吗?
如中所述,如果您提供的声音样本较为独特,我们的AI曾经没有学习过类似的声音,则可能导致较差的生成结果,或无法较好的复刻该声音。
我们建议您通常使用5-8秒的清晰语音音频即可,且不应包含任何混响,回声,背景噪音以取得最佳效果。且对于音频文件的质量,我们推荐您使用源码率为128kbps或以上的音频来确保携带尽量完整的信息。
在开始您的前,您需要准备用于克隆的单个或多个音频样本文件。
音频样本文件需要符合以下要求:
所有音频样本文件相加的总时长至少为1分钟,最多60分钟;在该范围内,总时长越大,克隆效果越佳。
每个音频文件都需要为wav/mp3/mp4/flac/m4a/ogg格式。
请确保尽可能提供高质量的音频,**确保音频中包含可被识别的中文或英文语句,**且不应包含任何混响,回声,背景噪音以取得最佳效果。
音频样本文件准备完毕后,请将它们打包为未加密的Zip格式压缩包,压缩包的大小最大不能超过256MB。
我们的AI语音模型将尝试模仿它在音频中听到的所有内容,例如说话人的语调、语速、口音、呼吸方式、力度、背景噪音、人声噪音、迟疑停顿等其它所有一切。这意味着如果样本音频中包含相关信息,均有可能被AI模仿并表现于最终合成中。
也就是说,如果您用缓慢,平淡的声音说话,最终结果通常也会如此;或者您用激动,快速的方式说话,AI也会尝试对其进行模仿。
非常重要的一点是,我们建议您尽可能在各方面确保整段语音样本中语音表现的一致性,如果样本前2秒的表现是激动并快速的,那后续几秒也需要尽可能保持相似的表现,包括语调,语速,音量等各方面。如果您在同一段语音样本中表现波动过大,则有可能使AI感到困惑,并在每次生成时产生更为不可预测的结果。
总的来说:
声音的表现本身,口音,以及录音的质量会大幅影响克隆的最终效果
对于瞬时克隆,音频的长度不是那么重要,但我们建议尽可能至少为五秒以包含足够多的信息
尽可能保持整段音频样本中语音表现和录音质量的一致性,避免在同一段中出现过大的变化
音频的音量也可能会被AI复制,因此我们建议您找到良好的音量平衡范围,以避免声音过大或过小
目前,我们仅支持中英文样本语音,请确保您提供的样本语音中包含可被正确识别的中英文内容,且不包含其他语言内容,否则将会导致角色创建失败,或导致其它各类问题。
请勿使用我们的服务克隆或生成任何侵犯版权、违反道德伦理、或违反中华人民共和国与您所在地法律法规的内容。我们生成的所有内容均带有详细日志,自动/人工复审,以及可溯源的隐形音频水印,若发现您违反了相关规则,我们保留终止您的服务并上报政府机关等机构的权利。
更多信息请参阅、、。