12 KiB
顶级实时数字人:最终可靠方案与预算 v1
更新时间:2026-03-25
1. 目标与当前结论
当前项目目标已经收敛为:
- 第一目标:
还原度最高 - 第二目标:
可以接受很大延迟 - 第三目标:
不影响最终效果的前提下,能用 API 就优先用 API
基于这个目标,当前最可靠的方案不是“把所有能力都交给 API”,而是:
阿里 API负责:ASR / RAG / LLM腾讯 HAI负责:数据清洗中的视频视觉处理、动作提取、自建模型训练/推理自建 TTS负责:最终声音还原MiniMax TTS负责:外部高质量对照组数字人渲染继续自建
一句话版本:
阿里做脑和耳朵,腾讯做算力底座,自建做嗓子和脸,MiniMax 做高质量外部对照。
2. 最终可靠架构
2.1 在线交互主链路
用户语音
-> 阿里实时 ASR
-> RAG 检索(老师原始资料库)
-> 阿里 LLM 生成回答草案
-> 风格约束器(口头禅/停顿/语气模板)
-> 自建 TTS(主链)
-> 上半身数字人渲染
-> 实时回传画面与语音
2.2 离线训练与素材生产链
公开视频抓取
-> 音视频切段
-> 说话人分离 / VAD / 粗转写
-> 上半身动作提取 / 姿态关键点
-> 黄金语料筛选
-> 高精度转写与标注
-> TTS 训练集 / 动作资产库 / 知识库
2.3 模块分工
ASR
- 在线:阿里实时语音识别
- 离线高精度清洗:阿里
SenseVoice - 备注:ASR 不决定“像不像老师本人”,优先 API 没问题
LLM / RAG
- 向量:阿里
text-embedding-v4 - 重排:阿里
qwen3-rerank - 主对话模型:阿里
qwen-plus - 高难度问题:阿里
qwen-max - 关键约束:
- 回答必须绑定原始出处
- 风格模板和知识库分离
- 不让模型无限自由模仿人格
TTS
- 主方案:
自建 - 冠军-挑战者结构:
- 候选 A:
FishAudio / Fish Speech - 候选 B:
CosyVoice 3
- 候选 A:
- 外部对照组:
MiniMax speech-2.8-hd
最终上线不建议把 API TTS 当唯一主引擎,原因很简单:
- 老师“像不像本人”,主要就输在这层
- 自建更容易持续调优音色、停顿、口头禅、情绪和说话习惯
- 长期可控性也更强
数字人渲染
- 主方向:
上半身固定机位数字人 - 面部与头部:
LivePortrait类驱动 - 口型:
MuseTalk类高精度嘴型同步 - 上半身动作:见下一节
3. 上半身肢体动作如何实现
上半身动作不要一开始就做“纯生成模型”,最可靠方案是:
公开视频动作提取 -> 参数化 -> 动作资产库 -> 在线检索/插值 -> 驱动数字人
3.1 推荐实现方式
第一步:从公开视频里提动作
OpenPose:提取肩、肘、腕、手、脸关键点MediaPipe Pose Landmarker:补充 3D 姿态趋势
第二步:统一成可复用参数
- 把关键点统一成
SMPL-X / FLAME这类参数表达 - 这样后面不管你是 2.5D 数字人、3D 角色、还是更重的渲染路线,都可以复用同一套动作数据
第三步:建“老师动作风格库”
把动作切成可检索的小片段并打标签:
- 待机
- 解释
- 强调
- 反问
- 停顿思考
- 鼓励
- 否定提醒
第四步:在线不是“生成整段动作”,而是“选择 + 插值”
在线运行时:
- 先根据回答语气、长度、节奏,从老师真实动作库里检索最像的片段
- 再用插值或轻量生成模型补过渡
这比端到端直接生成整段上半身动作更像本人,也更稳。
3.2 为什么不用“纯生成全包”
因为你的第一目标是还原度,不是炫技:
- 纯生成最容易出现“嘴对了、手假了”
- 老师这种讲解型人物,识别度最强的是:
- 头部微动
- 点头频率
- 停顿时的手势
- 强调时肩颈和前倾节奏
所以动作层优先做成:
动作资产库 + 状态机 + 少量补帧
而不是先做“大而全的动作生成模型”。
4. 数据清洗到底用腾讯还是阿里
4.1 当前最优解:混合,但重心偏腾讯
如果只看“整套项目的最终预算”,当前更推荐:
bulk 清洗:腾讯 HAI 自跑黄金语料高精度转写:阿里 API
理由:
- 你的项目反正要租腾讯 HAI 做视觉清洗、动作提取、训练和推理
- 那么把一部分音频清洗也顺手放在腾讯上做,整体更省
- 但阿里
SenseVoice很适合给“最终 TTS 黄金语料”做高精度标注
4.2 为什么不是“全阿里”
如果全量都交给阿里 API:
- 语音转写很省事
- 但视觉动作清洗你还是逃不开腾讯 GPU
- 所以最终总账通常更高
4.3 为什么不是“全腾讯”
如果完全不碰阿里 API:
- 成本可能更低
- 但高价值语料的文本精修质量和工程效率不一定最好
所以最稳的组合是:
腾讯跑 bulk阿里跑 gold
5. 腾讯 HAI 优惠券基线
5.1 当前页面能确认的内容
腾讯当前活动页可以直接确认这些信息:
HAI 8 小时 使用券- 购买后
30 天内有效 - 单用户最多
1 张 - 适用于抵扣
后付费 HAI 实例 - 适用于
GPU 基础型
- 购买后
HAI 80 小时 使用券- 购买后
90 天内有效 - 单用户最多
3 张 - 适用于
GPU 基础型
- 购买后
HAI 250 小时 使用券- 购买后
90 天内有效 - 单用户最多
3 张 - 适用于
GPU 基础型
- 购买后
- 基础型标价:
1.2 元/小时起 - 进阶型标价:
3.6 元/小时起
5.2 券面金额如何处理
活动页未登录状态下,券的购买金额显示为 ¥ -。
因此预算里采用的券面购买价,使用的是腾讯云同域开发者社区的当前可见参考信息:
8 小时券 = 1 元80 小时券 = 75 元250 小时券 = 225 元
这组价格适合做预算,但最终仍应以你实际购买页结算为准。
5.3 等效单价
8 小时券:0.125 元/小时80 小时券:0.9375 元/小时250 小时券:0.9 元/小时
如果把页面允许购买的全部基础型券都买满:
- 总成本:
901 元 - 总可用时长:
998 小时 - 综合等效价:约
0.903 元/小时
6. 推荐预算模型
下面的预算,不是“永远总成本”,而是:
做出首个可靠可用版本所需的项目现金流预算
6.1 预算假设:推荐版 v1
假设你现在做的是:
- 原始公开视频:
40 小时 - 目标产物:
- 一个高还原上半身数字人
- 可实时对话
- 自建 TTS 主链
- 动作资产库已经建立
6.2 腾讯 HAI 用量假设
基础型 GPU 时长
- bulk 音视频清洗:
48 小时 - 动作提取与姿态参数化:
32 小时 - TTS 预处理与训练试错:
40 小时 - 数字人渲染调试与回归:
28 小时
合计:148 小时 基础型 GPU
进阶型 GPU 时长
用于一些更吃显存的短时训练/渲染冲刺:
20 小时 进阶型 GPU
6.3 预算结果:推荐版 v1
腾讯 HAI
- 覆盖
148 小时基础型的最低购买组合:8 小时券 x180 小时券 x2
- 现金支出:
151 元 - 可用总时长:
168 小时 - 剩余时长:
20 小时
腾讯 HAI 进阶型
20 小时 x 3.6 元/小时- 现金支出:
72 元
阿里 API
推荐只把高价值部分交给阿里:
SenseVoice高精度转写5 小时黄金语料:约12.6 元- 在线 ASR 联调预留:约
5.4 元 - 向量 / 重排 / LLM 调试预留:建议直接按
20 元记
阿里 API 合计建议预留:40 元
MiniMax 对照测试
建议只把它当外部对照组,不要大规模烧钱:
- 1 个音色克隆
- 约 3 万字符 HD 测试
建议预算:20.4 元
为了保守起见,可按:30~50 元 预留
6.4 推荐版 v1 总预算
核心可跑版
- 腾讯基础型:
151 元 - 腾讯进阶型:
72 元 - 阿里 API:
40 元
合计:263 元
含 MiniMax 对照组
- 核心可跑版:
263 元 - MiniMax:
30~50 元
合计:293~313 元
含 20% 缓冲
建议你把首版可靠预算直接按:
350~380 元
去准备。
7. 如果把 bulk 清洗改成阿里,会多花多少
以 40 小时原始视频 为例:
- 阿里
SenseVoice全量转写:约100.8 元
如果你本来就会买腾讯 HAI 券来做动作提取和训练,那么:
- 用腾讯顺手把 bulk 音频清洗一起跑掉,通常更省
- 再把
3~5 小时黄金语料送去阿里精修,质量和预算都更平衡
一个简单理解方式:
全量阿里:省工程时间,但会额外增加约100 元级别的 API 成本腾讯 bulk + 阿里 gold:通常是当前性价比最高的组合
8. 两台腾讯服务器并行值不值得
值不值得,关键看你是看 现金支出 还是看 墙上时间。
8.1 现金支出
如果两台机器做的是可完全拆分的任务,例如:
- 视频切片 A-M 在机器 1
- 视频切片 N-Z 在机器 2
那么:
- 总 GPU 小时数基本不变
- 现金成本基本不变
- 只是消耗券的速度更快
也就是说:
两台并行不会天然更贵,只要总 GPU 小时数没有显著增加。
8.2 墙上时间
两台机器最适合并行这些环节:
- 视频切段
- 粗转写
- 姿态提取
- 关键帧筛选
- 动作片段打标签前的预处理
这些任务几乎都可以直接按视频文件分片并行。
8.3 推荐结论
如果你准备买 80 小时券 或 250 小时券,并且手头有大量原始视频:
开两台基础型 HAI 做 bulk 清洗是合理的- 它的主要收益是
把等待时间砍半 - 不是为了再省钱
9. 当前最推荐的执行顺序
- 先买
8 小时券 x1和80 小时券 x2 - 开
1~2 台基础型 HAI - 完成 bulk 清洗、动作提取、初步语料筛选
- 只把
3~5 小时黄金语料送去阿里SenseVoice - 并行训练两路自建 TTS:
FishAudio / Fish SpeechCosyVoice 3
- 用
MiniMax speech-2.8-hd做小规模盲测对照 - 冠军模型进入主链路
- 再接上实时上半身数字人
10. 最终决策
在当前信息下,我认为最稳、最省钱、又不牺牲最后效果的方案是:
数据清洗:腾讯 HAI 为主,阿里只做黄金语料精修在线 ASR / LLM / RAG:阿里 APITTS:自建为主,MiniMax 为对照组上半身动作:真实动作提取 + 参数化 + 动作资产库 + 在线检索/插值
这个方案的核心优势是:
- 最贵的“像不像本人”能力,掌握在自己手里
- API 只承担通用能力
- 腾讯优惠券能有效压低项目首期现金流
11. 主要来源
- 腾讯 HAI 活动页:https://cloud.tencent.com/act/pro/hai
- 腾讯 HAI 套餐类型:https://cloud.tencent.com/document/product/1721/112699
- 腾讯 HAI 使用券说明:https://cloud.tencent.com/document/product/1721/104127
- 腾讯开发者社区 HAI 优惠参考(1 元 8 小时券):https://cloud.tencent.com/developer/article/2405436
- 阿里百炼模型价格:https://help.aliyun.com/zh/model-studio/model-pricing
- 阿里向量模型定价参考:https://help.aliyun.com/zh/dashscope/developer-reference/text-embedding-quick-start
- 阿里人声克隆概述:https://help.aliyun.com/zh/ims/user-guide/overview-of-human-voice-cloning
- MiniMax 中国大陆定价页:https://www.minimaxi.com/pricing
- MiniMax 语音定价说明:https://platform.minimaxi.com/docs/guides/pricing-speech
- MuseTalk:https://github.com/TMElyralab/MuseTalk
- LivePortrait:https://github.com/KlingAIResearch/LivePortrait
- OpenPose:https://github.com/CMU-Perceptual-Computing-Lab/openpose
- MediaPipe Pose Landmarker:https://ai.google.dev/edge/mediapipe/solutions/vision/pose_landmarker/python