# 瞬时克隆

通过瞬时语音克隆，您只需提供5-30秒任意样本，且无需对模型进行任何训练，瞬间即可完成克隆；我们的AI会在生成时即时根据百万小时的经验，尽可能模仿被克隆音频样本的语调、语速、情感、停顿、响度、声学环境、呼吸声、口音、发声方式等特征，且尽可能理解目标文本的上下文，并综合它们来产生最具表现力且最匹配的语音。

目前，您可以通过[角色管理](https://app.vocu.ai/voices)页面&#x7684;**"添加角色"**&#x6309;钮，或者在[配音工作室](https://app.vocu.ai/generate)页面中选择角色时的弹窗中选择"**创建新角色..."**&#x6309;钮来召唤出角色创建面板，并用其来创建一个角色。第一步是选择创建的类型，不同类型的角色在具体的表现力细节上略有差异，模型版本和类型的可用性将根据我们当前的维护计划开放。

<figure><img src="https://2881656171-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FrtJIeAMh6zzGbD77k1uX%2Fuploads%2FXTXmq7NjNW1HzCBNfNMC%2FQQ_1755695463461.png?alt=media&#x26;token=61c8f410-29b7-464c-9496-67394f448d5b" alt=""><figcaption></figcaption></figure>

<figure><img src="https://2881656171-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FrtJIeAMh6zzGbD77k1uX%2Fuploads%2F0lOHEgW4qf7d7o9ETAsZ%2FQQ_1755695502440.png?alt=media&#x26;token=5ee65e39-3f39-429a-aab1-6b31cc122c50" alt=""><figcaption></figcaption></figure>

随后，您需要上传一个音频文件，或录制一段音频，作为本次克隆的默认风格指引样本；这段默认风格样本**将用于定义该角色默认的声音表现，包括声线、情感、语速、语调、韵律等（后续您可以在角色详情页中添加更多不同的风格样本）。**

<figure><img src="https://2881656171-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FrtJIeAMh6zzGbD77k1uX%2Fuploads%2FY6zKxNTiLs0HSGFFQTha%2FQQ_1761730400377.png?alt=media&#x26;token=5249c7cc-b981-4768-b755-1528ef21875c" alt=""><figcaption></figcaption></figure>

> **我们为音频上传器添加了简单的音频处理功能，您可以通过此功能快速剪辑用于上传的音频片段。**

<figure><img src="https://2881656171-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FrtJIeAMh6zzGbD77k1uX%2Fuploads%2FjtBfdGoiKUMgGK2Eri11%2FQQ_1755696014896.png?alt=media&#x26;token=455df194-321a-4550-8d60-db4bb6826571" alt=""><figcaption></figcaption></figure>

音频上传完成后，请确认您上传的语音样本是否属于模型支持的语言范围。系统将自动识别音频中可支持的语种。如需更精确的识别结果，您也可以手动选择语言类型以获得更佳效果（粤语样本需要手动选择）。

如音频样本存在背景音，您也可以打开“**去除背景音”**&#x5F00;关，系统将在创建角色时对音频样本进行优化。

<figure><img src="https://2881656171-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FrtJIeAMh6zzGbD77k1uX%2Fuploads%2FZHSq3cOjLAOgs8IjBqJh%2FQQ_1755697108013.png?alt=media&#x26;token=58737f9f-da5f-498d-8933-c9a4a3b47e52" alt=""><figcaption></figcaption></figure>

随后，您需要为创建的角色指定一个名称，并可选地指定一段描述以及一个头像。目前，名称、描述和头像仅供展示，不会对使用效果造成影响。

随后在最终页面确认本次创建的相关信息，**点击右下角的**提交按钮并等待处理完毕即可。

{% hint style="info" %}
样本质量比长度更重要。有噪音的样本可能会产生不好的结果，请尽可能提供高质量的样本语音。目前，样本语音长度需**大于2秒**，且**文件大小不超过20M**。您也可以通过一些**音频编辑软件**的**人声分离/音频降噪/人声美化/响度标准化**等功能来尝试从任意音频中获得较高质量的人声音频样本。
{% endhint %}

{% hint style="warning" %}
V2 系列版本的模&#x578B;**(V2.9) 仅支持中文与英文**，使用 V2 系列模型时请确保输入的文本中不包含任何非中英文字符，例如日文韩文等，否则可能会导致**生成失败**等问题。

自 V3 系列开始，我们除中英文外新增粤语、日语、韩语、法语、德语、西班牙语及葡萄牙语，以及这些语言的共计30余种口音变体；请确保您使用的模型版本及文本内容输入符合对应的支持能力。
{% endhint %}

关于瞬时克隆样本音频的详细注意事项和最佳实践，请[参阅此页面](https://docs.vocu.ai/zh/voices/tips)。
