瞬时克隆

在这里了解如何添加一个角色并为其指定一个语音样本来进行瞬时克隆

通过瞬时语音克隆,您只需提供5-30秒任意样本,且无需对模型进行任何训练,瞬间即可完成克隆;我们的AI会在生成时即时根据百万小时的经验,尽可能模仿被克隆音频样本的语调、语速、情感、停顿、响度、声学环境、呼吸声、口音、发声方式等特征,且尽可能理解目标文本的上下文,并综合它们来产生最具表现力且最匹配的语音。

目前,您可以通过角色管理页面的"添加角色"按钮,或者在配音工作室页面中选择角色时的弹窗中选择"创建新角色..."按钮来召唤出角色创建面板,并用其来创建一个角色。第一步是选择创建的类型,不同类型的角色在具体的表现力细节上略有差异,模型版本和类型的可用性将根据我们当前的维护计划开放。

随后,您需要上传一个音频文件,或录制一段音频,作为本次克隆的默认风格指引样本;这段默认风格样本将用于定义该角色默认的声音表现,包括声线、情感、语速、语调、韵律等(后续您可以在角色详情页中添加更多不同的风格样本)。

音频上传完成后,请确认您上传的语音样本是否属于模型支持的语言范围。系统将自动识别语种,支持除粤语以外的大部分语言。如需更精确的识别结果,您也可以手动选择语言类型以获得更佳效果(粤语样本需要手动选择)。

如音频样本存在背景音,您也可以打开“去除背景音”开关,系统将在创建角色时对音频样本进行优化。

随后,您需要为创建的角色指定一个名称,并可选地指定一段描述以及一个头像。目前,名称、描述和头像仅供展示,不会对使用效果造成影响。

随后在最终页面确认本次创建的相关信息,点击右下角的提交按钮并等待处理完毕即可。

样本质量比长度更重要。有噪音的样本可能会产生不好的结果,请尽可能提供高质量的样本语音。目前,样本语音长度需大于2秒,且文件大小不超过10M。您可以使用剪映电脑版人声分离/音频降噪/人声美化/响度标准化等功能来简单便捷的从任意音频中获得较高质量的人声音频样本;我们服务中提供的优化能力同样可以一定程度上处理样本文件,但对于质量过低的样本来说仍然可能存在局限性。

关于瞬时克隆样本音频的详细注意事项和最佳实践,请参阅此页面

最后更新于

这有帮助吗?