面壁智能联合清华大学发布开源语音基础模型 VoxCPM 2,2B 参数实现 30 种语言 + 9 种中国方言合成、3 秒零样本声音克隆、自然语言声音设计、48kHz 影视级音质输出,Apache 2.0 协议免费商用,8G 显存即可部署,正在重新定义开源 AI 语音合成的天花板。
面壁智能联合清华大学发布开源语音基础模型 VoxCPM 2,2B 参数实现 30 种语言 + 9 种中国方言合成、3 秒零样本声音克隆、自然语言声音设计、48kHz 影视级音质输出,Apache 2.0 协议免费商用,8G 显存即可部署,正在重新定义开源 AI 语音合成的天花板。
VibeVoice 最近在语音 AI 领域迅速走红。它真正引人注意的地方,并不只是把文字转成声音,而是同时把长达 90 分钟的多角色语音生成、实时流式语音输出,以及长音频语音识别整合进了一套开源语音 AI 体系。本文将用轻松易读的方式,带你看懂 VibeVoice 为什么火、它到底能做什么、它会怎样影响播客、有声内容、语音 Agent 与未来的语音交互产品。