专业克隆

在这里了解如何进行专业克隆,来获得无以伦比的声音生成效果

通过专业级语音克隆,您将可以提供最多60分钟(建议至少一分钟以上)的声音样本,我们的AI将会在3-60分钟内深入训练学习您所提供的声音样本的每一个语调、发音方式、节奏、韵律等各项细节,实现与原声无法区分的顶尖克隆合成效果,并同时保留Vocu语音大模型的语言理解力、情感表现力等所有尖端特性。

circle-info

专业克隆为增值付费自助服务项目,每次克隆均需要消耗独立的专业克隆额度。您可以前往增值商店arrow-up-right为您的帐号购买更多专业克隆次数。

操作流程

准备工作

在开始您的专业克隆前,您需要准备用于克隆的单个或多个音频样本文件。

音频样本文件需要符合以下要求:

  • 所有音频样本文件相加的总时长建议不少于1分钟最多60分钟;在该范围内,总时长越大,克隆效果越佳。

  • 每个音频文件都需要为wav/mp3/mp4(建议转为音频)/flac/m4a/ogg格式。

  • 请确保尽可能提供高质量的音频,且确保音频中包含可被识别的语句(有关支持的语言,请参见模型介绍。关于确保克隆效果与质量的更多技巧,请参见注意事项

音频样本文件准备完毕后,您可手动选择音频文件或拖动到上传框,也可打包为未加密的Zip格式压缩包,系统将自动整理样本文件。上传的文件总大小最大不能超过256MB。

开始克隆

确认上述条件准备就绪后,请按照下述步骤进行操作:

  1. 通过角色管理arrow-up-right页面的添加角色按钮,或配音工作室arrow-up-right页面中的“克隆角色声音”按钮来召唤出角色创建面板。

  2. 点击专业克隆按钮,切换到专业克隆选项卡;

  3. 点击下一步,您将会看到“专业克隆样本包”部分。您可手动选择音频文件或拖动到上传框,也可打包为未加密的Zip格式压缩包,系统将自动整理样本文件。上传的文件总大小最大不能超过256MB。

  1. 请在“默认风格样本”一栏中,从您准备用于专业克隆的一系列音频样本中,截取并选择约5-30秒左右的最具代表性且高质量的一段音频,作为本次克隆的默认风格指引样本;这段默认风格样本将用于定义该角色默认的声音表现,包括声线、情感、语速、语调、韵律等(稍后您可以在角色详情页中添加更多不同的风格样本)您也可以按照与瞬时克隆相同的模式,选择或录制不包含在压缩包内的其它音频作为默认风格样本,但建议使用来自训练素材包的风格样本能更好地还原发音风格。

  1. 确认您上传的语音样本是否属于模型支持的语言范围,并手动选择样本的语言。

  2. 您需要为创建的角色指定一个名称,并可选地指定一段描述以及一个头像。目前,名称、描述与头像仅供展示,并不会影响语音克隆的行为。

  3. 全部内容确认无误后,点击右下角的提交按钮即可开始上传并提交专业克隆任务。

您的专业克隆任务将会自动开始,状态显示为“训练中”。此时只需等待角色训练完毕即可进行使用。(通常仅需3-60分钟,视样本长度而定)

最后更新于

这有帮助吗?