专业克隆
在这里了解如何进行专业克隆,来获得无以伦比的声音生成效果
通过专业级语音克隆,您将可以提供最多60分钟(建议至少一分钟以上)的声音样本,我们的AI将会在3-60分钟内深入训练学习您所提供的声音样本的每一个语调、发音方式、节奏、韵律等各项细节,实现与原声无法区分的顶尖克隆合成效果,并同时保留Vocu语音大模型的语言理解力、情感表现力等所有尖端特性。
专业克隆为增值付费自助服务项目,每次克隆均需要消耗独立的专业克隆额度。您可以前往增值商店为您的帐号购买更多专业克隆次数。
操作流程
准备工作
在开始您的专业克隆前,您需要准备用于克隆的单个或多个音频样本文件。
音频样本文件需要符合以下要求:
所有音频样本文件相加的总时长建议不少于1分钟,最多60分钟;在该范围内,总时长越大,克隆效果越佳。
每个音频文件都需要为wav/mp3/mp4(建议转为音频)/flac/m4a/ogg格式。
音频样本文件准备完毕后,您可手动选择音频文件或拖动到上传框,也可打包为未加密的Zip格式压缩包,系统将自动整理样本文件。上传的文件总大小最大不能超过256MB。
开始克隆
确认上述条件准备就绪后,请按照下述步骤进行操作:

点击专业克隆按钮,切换到专业克隆选项卡;
点击下一步,您将会看到“专业克隆样本包”部分。您可手动选择音频文件或拖动到上传框,也可打包为未加密的Zip格式压缩包,系统将自动整理样本文件。上传的文件总大小最大不能超过256MB。

请在“默认风格样本”一栏中,从您准备用于专业克隆的一系列音频样本中,截取并选择约5-30秒左右的最具代表性且高质量的一段音频,作为本次克隆的默认风格指引样本;这段默认风格样本将用于定义该角色默认的声音表现,包括声线、情感、语速、语调、韵律等(稍后您可以在角色详情页中添加更多不同的风格样本)。您也可以按照与瞬时克隆相同的模式,选择或录制不包含在压缩包内的其它音频作为默认风格样本,但建议使用来自训练素材包的风格样本能更好地还原发音风格。

确认您上传的语音样本是否属于模型支持的语言范围,并手动选择样本的语言。
您需要为创建的角色指定一个名称,并可选地指定一段描述以及一个头像。目前,名称、描述与头像仅供展示,并不会影响语音克隆的行为。
全部内容确认无误后,点击右下角的提交按钮即可开始上传并提交专业克隆任务。
您的专业克隆任务将会自动开始,状态显示为“训练中”。此时只需等待角色训练完毕即可进行使用。(通常仅需3-60分钟,视样本长度而定)
最后更新于
这有帮助吗?