> For the complete documentation index, see [llms.txt](https://docs.vocu.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.vocu.ai/zh/introduction/models.md).

# 模型介绍

我们的**VOCU语音大模型**已预先经过海量中文及多种语言音频的训练，训练的内容涵盖多种类型，但最多的是**有声读物**与**常规对话音频。如果您提供的克隆音频样本以及目标文本是此类内容，则通常会在生成语音时取得较好的效果。我们的模型会尽可能模仿克隆音频样本的语调、语速、情感、停顿、响度、声学环境、呼吸声、口音、发声方式**等特征，尽可能理解目标文本的上下文，并综合它们来产生最匹配的语音。

## Vocu语音合成大模型 V3.1 <a href="#v2.9" id="v2.9"></a>

<sub>*发布于2025 年 12 月 6 日，V2 系列角色可手动升级至 V3.1 版本，V3.0-Alpha角色已自动升级*</sub>

对比V3.0-Alpha测试版，此版本带来了全新的**专业克隆**与**音色转换能力**，并**全面提升了各个场景和语言下**的**情感表现力、稳定性、相似度、自然度、语义感知能力**等，为您带来更为惊艳的音频生成效果。

而对比V2等早期版本，全新的**V3系列**语音合成大模型则带来了对**全球30余种语言和方言**的全面支持，并在**情感张力、相似度、稳定性、自然度、语义理解能力**等各类表现上对比全球同类产品**大幅领先**，达到影视级性能。

#### 🎓 全新的**专业级语音克隆**能力正式上线

您可以提供**短至数十秒，长至数小时**的声音样本，我们的大模型将会**深入训练学习**您所提供的声音样本的每一个**语调、发音方式、节奏、韵律、发声习惯等各项细节**，实现**与原声无法区分**的顶尖克隆合成效果。

#### 🎤 全新的**音色转换能力**正式上线

您现在可以**将任意音频的音色转换为您所需要的声音**，来实现对声音表现细节的**精确把控**，一人即可配制多个角色。并且，音色转换能力与当前现有的**所有语音角色无缝兼容**，还支持**对歌声进行转换**，从而实现歌曲翻唱等相关创作。

#### 🧠 大模型核心能力全面提升

对比**V3.0-Alpha**测试版，V3.1在面对**各个场景和语言的文本与角色**时，均能生成**情感表现力、稳定性、相似度、自然度、语义感知等能力更强**的音频生成结果，让您的声音创作与应用效果更上一层楼。

#### 🔧 产品体验改进与问题修复

除模型更新外，这段时间以来我们还对产品体验进行了**全面改进**，其中包括但不限于**大量UI设计改进与便利性重构、性能优化、问题修复**等变更

由于变更量较大且篇幅有限，还望各位在产品使用过程中直接进行体验，也希望大家能够喜欢我们为各位带来的这些新内容。

## VOCU语音大模型 V3.0-Alpha <a href="#v2.9" id="v2.9"></a>

<sub>*发布于2025 年 8 月 26 日，V2 系列角色可手动升级至 V3 模型*</sub>

Vocu 语音大模型 V3.0-Alpha 是我们推出的全新跨度版本，作为全新阶段的早期公测版本，带来了多项功能更新与能力增强，进一步拓展了语音内容生成的表现力。具体更新如下：<br>

* 在 V3 版本中，**多语言样本及跨语言生成能力**已可用，除早期已实现的中英文跨语言能力外，新增支持粤语、日语、韩语、法语、德语、西班牙语及葡萄牙语，以及这些语言的共计30余种口音变体。模型现已可直接处理这些语言的输入与输出。

&#x20;*（需要注意的是，跨语种生成可能会因样本发音而受到影响，使用该功能时建议采用清晰且对应语言的语音，以获得最佳效果。）*

* **表现力与自然度提升**，在情感张力、相似度、稳定性、自然度、语义理解能力等多个维度上均显著增强，新增支持多种复杂表现形式，包括嘶吼、Rap、撒娇、ASMR 等，在极端情绪与细腻表达上也可进行生成。
* 新增**生动表达**优化，支持为单个段落单独启用“生动表达”选项。启用后，模型将基于对内容的理解自动调整语音细节，使语句更具表现力和感染力。（对于部分样本可能会导致结果不稳定）
* 新增**情感比例控制**优化，支持针对单个段落设置情感表达比例，可调整语句在生成时呈现出更明确的情绪倾向，如愤怒、开心、伤感等。通过灵活控制情绪权重，模型输出将具备更丰富的情感层次。
* **背景声学特征复刻优化**，样本复刻能力大幅提升，不仅限于人声特征，还可智能还原**背景声学特征**，包括空间感、混响、音量等，使生成内容更贴近角色原声质感。

## VOCU语音大模型 V2.9 <a href="#v2.9" id="v2.9"></a>

*发布于2025年3月1日，**当前为V2 系列模型最新版本**，此前V2.X角色已自动升级至此兼容版本*

Vocu语音大模型的最新版本，此版本引入了大量来自开发中的V3版本模型的功能与改进，在中文语音内容生成表现上达到了**全球范围的SOTA水平**，相比此前版本更新内容如下：

* 大幅提升了**非Flash模型（即高质量模式）**&#x4E0B;的生成音频质量，且解决了长期以来生成结果可能出现电流镶边感的问题。
* 大幅提升了**非Flash模型（即高质量模式）**&#x4E0B;的角色相似度与角色稳定性，且可较大程度上还原角色原音频样本中的声学环境（诸如空间感、混响、音量、录音质感等）。
* 新增了全新的**全球首个**角色音色混合能力，可自由指定多个不同角色的音频样本，并自由按照比例对其进行混合，来创造出全新的角色音色。***（内部测试中，即将逐步开放）***
* 新增了全新的**全球首个**角色风格混合能力，在创建新的情感风格时，可以分别指定风格样本与角色样本来进行融合，来创造出全新的角色情感表现；例如，您可以将相声演员的风格与小女孩的角色进行融合，来为这个小女孩角色创造出说相声时的全新情感表现。***（内部测试中，即将逐步开放）***
* 新增了全新的**零门槛**角色智能翻配/翻唱能力，可以直接让现有的指定角色对已经完成的生成结果进行重新翻配，或对您所提供的任意语音或歌曲音频内容进行翻配或翻唱，并在此过程中保留角色的许多风格特点，为您带来更自由的新式音频创作体验。***（内部测试中，即将逐步开放）***

当前，该版本模型角色的生成点数消耗&#x4E3A;**`1点数/字符`**

## VOCU语音大模型 V2.5 <a href="#v2.5" id="v2.5"></a>

*发布于2024年11月26日，**已弃用**，对应角色已自动升级至V2.X系列最新版本*

我们V2.X系列语音大模型的第二个正式版，此版本引入了全新的超参数与训练策略，相比此前版本进一步提升了生成结果的自然度、韵律及情感表现，且一定程度上提升了角色的相似度、长篇内容的稳定性、以及英文内容的生成表现。

## VOCU语音大模型 V2.1 <a href="#v2.1" id="v2.1"></a>

*发布于2024年8月16日，**已弃用**，对应角色已自动升级至V2.X系列最新版本*

我们V2.X系列语音大模型的首个正式版，此版本在自然情感表现力、生成效果、稳定性、瞬时克隆相似度等各项效果上相比过往版本具有大幅提升，且带来了更快的生成速度与更高的音频质量，改进了英文生成效果，并改善及新增了以下能力：

* **方言能力支持：**&#x5F97;益于Vocu超强的人声理解能力，我们现已能够初步提供对部分种类的方言口音支持能力，包括河南话，东北话，重庆话等官话类方言口音及少部分非官话发音。
* **低延迟播放：**&#x56;2.1版本的版本Flash模型现已支持最短1秒内开始播放生成结果，不限文本长度，满足各类低延迟实时需求。在网页端使用时选择“低延迟模式即可。
* **更精细的瞬时克隆能力：**&#x77AC;时克隆模式下，V2.1对于较长样本的理解力相比V1.0版本提升了4倍，能够更深入地模仿较长样本中蕴含的各类表现。
* **更好的长上下文理解能力：**&#x56;2.1版本对于较长生成文本的理解能力相比V1.0版本提升了3倍，可一次性理解更多文本，并生成更为贴合且更连贯的声音表现。
* **Websocket毫秒级生成：**&#x6211;们面向开发者增加了全新的Websocket生成通道，可实现流式生成请求与结果返回，且生成延迟最低可至500ms，足以满足各类高实时性需求。
* **更快的专业克隆速度：**&#x4E13;业克隆的所需时间大幅缩短，对于30分钟的样本，在3-5分钟内即可完成克隆任务。

## VOCU语音大模型 V2.0Beta-3 <a href="#v2.0-beta-3" id="v2.0-beta-3"></a>

*发布于2024年7月8日，**已弃用**，对应角色已自动升级至V2.X系列最新版本*

我们V2.X系列语音大模型的第三个测试版，相比第二个测试版更进一步拥有以下改进：

* 电流音杂音问题已得到极大改善，现在对于大部分音色样本应无法感知到明显电流音
* 稳定性大幅提升，现在对于长篇复杂内容的单次生成稳定性表现应得到较大改进
* 情感韵律表现获得较大提升，现在对于非过于平淡样本的情感表现应有明显改善，建议搭配包含语气词及口语化表述的文本获得最佳体验
* 英文表现大幅改进，现基本已达到可用状态
* Flash模型流式生成延迟降低50%+，在资源充足情况下可固定在500ms - 1秒内获得可播放的生成结果
* 采用全新技术策略，并发承载能力大幅提升，应有效改进此前因近期使用量增多导致的拥堵问题

对比V1.0版本的详细更新内容请参见V2.1正式版介绍。

## VOCU语音大模型 V2.0Beta-2-Flash <a href="#v2.0-beta-2-flash" id="v2.0-beta-2-flash"></a>

*发布于2024年6月25日，**已随V2.0Beta-2弃用**，后续版本均同步包含对应的Flash模型*

Vocu语音大模型的首个低延迟Flash分支版本，由V2.0Beta-2衍生而来且互相兼容，带来了低延迟的生成时流式播放体验，但相比主模型的音频质量会有所下降；在资源充足的情况下，任意长度的内容通过该版本Flash模型均可实现在提交任务后1-2秒内即可开始聆听生成结果。

## VOCU语音大模型 V2.0Beta-2 <a href="#v2.0-beta-2" id="v2.0-beta-2"></a>

*发布于2024年6月18日，**已弃用**，对应角色已自动升级至V2.X系列最新版本*

我们V2.X系列语音大模型的第二个测试版，在稳定性、可用性、音频质量等各个方面相比第一个测试版均有进一步提升与改进。对比V1.0版本的详细更新内容请参见V2.1正式版介绍。

## VOCU语音大模型 V2.0Beta-1 <a href="#v2.0-beta-1" id="v2.0-beta-1"></a>

*发布于2024年6月10日，**已弃用**，对应角色已自动升级至V2.X系列最新版本*

我们V2.X系列语音大模型的首个测试版，此版本的生成效果，稳定性、瞬时克隆相似性、生成速度与音频质量相比V1.0版本有较大提升，但此时仍存在较多问题。对比V1.0版本的详细更新内容请参见V2.1正式版介绍。

## VOCU语音大模型 V1.0 <a href="#v1.0" id="v1.0"></a>

*发布于2024年1月11日，**现已停止维护**，不支持创建新V1.0角色；现有V1.0瞬时克隆角色可继续生成或一键升级至V2.X版本。*

我们首个正式发布的模型版本，可一定程度上理解文本上下文，并以与真人几乎无异的表现力、情感、韵律和音色来基于文本生成人声音频，并且支持以极短样本进行瞬时语音克隆。该版本模型还带来了对英文语音合成及克隆的实验性支持，但目前相较中文的稳定性与表现力可能较差。

目前，此模型的点数消耗量为`1点数/字符`。

## VOCU语音大模型 V0.9Beta <a href="#v0.9" id="v0.9"></a>

*发布于2023年11月，**已弃用**，对应角色已自动升级至V1.X系列最新版本*

我们的第一个公开发布的实验性语音大模型，也是**全球首个具有中文本土化自然表现的生成式语音大模型**。此模型可以以接近真人的语速、语调和语气来生成语音，更能模仿情绪上的变化，让AI更加接近人类，并且支持瞬时语音克隆技术。目前仅支持中文。

此版本的语音模&#x578B;**(V0.9)**&#x4ECD;然处于早期测试阶段，存在较多已知问题。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.vocu.ai/zh/introduction/models.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.