模型介绍
您可以在此处了解关于我们各个模型的介绍,以及相关的优缺点等
我们的VOCU语音大模型已预先经过海量中文音频的训练,训练的内容涵盖多种类型,但最多的是有声读物与常规对话音频。如果您提供的克隆音频样本以及目标文本是此类内容,则通常会在生成语音时取得较好的效果。我们的模型会尽可能模仿克隆音频样本的语调、语速、情感、停顿、响度、声学环境、呼吸声、口音、发声方式等特征,尽可能理解目标文本的上下文,并综合它们来产生最匹配的语音。
VOCU语音大模型 V2.9
发布于2025年3月1日,当前为最新版本,此前V2.X角色已自动升级至此兼容版本
Vocu语音大模型的最新版本,此版本引入了大量来自开发中的V3版本模型的功能与改进,在中文语音内容生成表现上达到了全球范围的SOTA水平,相比此前版本更新内容如下:
大幅提升了非Flash模型(即高质量模式)下的生成音频质量,且解决了长期以来生成结果可能出现电流镶边感的问题。
大幅提升了非Flash模型(即高质量模式)下的角色相似度与角色稳定性,且可较大程度上还原角色原音频样本中的声学环境(诸如空间感、混响、音量、录音质感等)。
新增了全新的全球首个角色音色混合能力,可自由指定多个不同角色的音频样本,并自由按照比例对其进行混合,来创造出全新的角色音色。(内部测试中,即将逐步开放)
新增了全新的全球首个角色风格混合能力,在创建新的情感风格时,可以分别指定风格样本与角色样本来进行融合,来创造出全新的角色情感表现;例如,您可以将相声演员的风格与小女孩的角色进行融合,来为这个小女孩角色创造出说相声时的全新情感表现。(内部测试中,即将逐步开放)
新增了全新的零门槛角色智能翻配/翻唱能力,可以直接让现有的指定角色对已经完成的生成结果进行重新翻配,或对您所提供的任意语音或歌曲音频内容进行翻配或翻唱,并在此过程中保留角色的许多风格特点,为您带来更自由的新式音频创作体验。(内部测试中,即将逐步开放)
当前,该版本模型角色的生成点数消耗为1点数/字符
VOCU语音大模型 V2.5
发布于2024年11月26日,已弃用,对应角色已自动升级至V2.X系列最新版本
我们V2.X系列语音大模型的第二个正式版,此版本引入了全新的超参数与训练策略,相比此前版本进一步提升了生成结果的自然度、韵律及情感表现,且一定程度上提升了角色的相似度、长篇内容的稳定性、以及英文内容的生成表现。
VOCU语音大模型 V2.1
发布于2024年8月16日,已弃用,对应角色已自动升级至V2.X系列最新版本
我们V2.X系列语音大模型的首个正式版,此版本在自然情感表现力、生成效果、稳定性、瞬时克隆相似度等各项效果上相比过往版本具有大幅提升,且带来了更快的生成速度与更高的音频质量,改进了英文生成效果,并改善及新增了以下能力:
方言能力支持:得益于Vocu超强的人声理解能力,我们现已能够初步提供对部分种类的方言口音支持能力,包括河南话,东北话,重庆话等官话类方言口音及少部分非官话发音。
低延迟播放:V2.1版本的版本Flash模型现已支持最短1秒内开始播放生成结果,不限文本长度,满足各类低延迟实时需求。在网页端使用时选择“低延迟模式即可。
更精细的瞬时克隆能力:瞬时克隆模式下,V2.1对于较长样本的理解力相比V1.0版本提升了4倍,能够更深入地模仿较长样本中蕴含的各类表现。
更好的长上下文理解能力:V2.1版本对于较长生成文本的理解能力相比V1.0版本提升了3倍,可一次性理解更多文本,并生成更为贴合且更连贯的声音表现。
Websocket毫秒级生成:我们面向开发者增加了全新的Websocket生成通道,可实现流式生成请求与结果返回,且生成延迟最低可至500ms,足以满足各类高实时性需求。
更快的专业克隆速度:专业克隆的所需时间大幅缩短,对于30分钟的样本,在3-5分钟内即可完成克隆任务。
VOCU语音大模型 V2.0Beta-3
发布于2024年7月8日,已弃用,对应角色已自动升级至V2.X系列最新版本
我们V2.X系列语音大模型的第三个测试版,相比第二个测试版更进一步拥有以下改进:
电流音杂音问题已得到极大改善,现在对于大部分音色样本应无法感知到明显电流音
稳定性大幅提升,现在对于长篇复杂内容的单次生成稳定性表现应得到较大改进
情感韵律表现获得较大提升,现在对于非过于平淡样本的情感表现应有明显改善,建议搭配包含语气词及口语化表述的文本获得最佳体验
英文表现大幅改进,现基本已达到可用状态
Flash模型流式生成延迟降低50%+,在资源充足情况下可固定在500ms - 1秒内获得可播放的生成结果
采用全新技术策略,并发承载能力大幅提升,应有效改进此前因近期使用量增多导致的拥堵问题
对比V1.0版本的详细更新内容请参见V2.1正式版介绍。
VOCU语音大模型 V2.0Beta-2-Flash
发布于2024年6月25日,已随V2.0Beta-2弃用,后续版本均同步包含对应的Flash模型
Vocu语音大模型的首个低延迟Flash分支版本,由V2.0Beta-2衍生而来且互相兼容,带来了低延迟的生成时流式播放体验,但相比主模型的音频质量会有所下降;在资源充足的情况下,任意长度的内容通过该版本Flash模型均可实现在提交任务后1-2秒内即可开始聆听生成结果。
VOCU语音大模型 V2.0Beta-2
发布于2024年6月18日,已弃用,对应角色已自动升级至V2.X系列最新版本
我们V2.X系列语音大模型的第二个测试版,在稳定性、可用性、音频质量等各个方面相比第一个测试版均有进一步提升与改进。对比V1.0版本的详细更新内容请参见V2.1正式版介绍。
VOCU语音大模型 V2.0Beta-1
发布于2024年6月10日,已弃用,对应角色已自动升级至V2.X系列最新版本
我们V2.X系列语音大模型的首个测试版,此版本的生成效果,稳定性、瞬时克隆相似性、生成速度与音频质量相比V1.0版本有较大提升,但此时仍存在较多问题。对比V1.0版本的详细更新内容请参见V2.1正式版介绍。
VOCU语音大模型 V1.0
发布于2024年1月11日,现已停止维护,不支持创建新V1.0角色;现有V1.0瞬时克隆角色可继续生成或一键升级至V2.X版本。
我们首个正式发布的模型版本,可一定程度上理解文本上下文,并以与真人几乎无异的表现力、情感、韵律和音色来基于文本生成人声音频,并且支持以极短样本进行瞬时语音克隆。该版本模型还带来了对英文语音合成及克隆的实验性支持,但目前相较中文的稳定性与表现力可能较差。
目前,此模型的点数消耗量为1点数/字符
。
VOCU语音大模型 V0.9Beta
发布于2023年11月,已弃用,对应角色已自动升级至V1.X系列最新版本
我们的第一个公开发布的实验性语音大模型,也是全球首个具有中文本土化自然表现的生成式语音大模型。此模型可以以接近真人的语速、语调和语气来生成语音,更能模仿情绪上的变化,让AI更加接近人类,并且支持瞬时语音克隆技术。目前仅支持中文。
此版本的语音模型(V0.9)仍然处于早期测试阶段,存在较多已知问题。
最后更新于
这有帮助吗?