Files
boss/docs/source-material/顶级实时数字人_最终可靠方案与预算_v1.md
2026-03-26 23:16:56 +08:00

12 KiB
Raw Permalink Blame History

顶级实时数字人:最终可靠方案与预算 v1

更新时间2026-03-25

1. 目标与当前结论

当前项目目标已经收敛为:

  • 第一目标:还原度最高
  • 第二目标:可以接受很大延迟
  • 第三目标:不影响最终效果的前提下,能用 API 就优先用 API

基于这个目标,当前最可靠的方案不是“把所有能力都交给 API”而是

  • 阿里 API 负责:ASR / RAG / LLM
  • 腾讯 HAI 负责:数据清洗中的视频视觉处理、动作提取、自建模型训练/推理
  • 自建 TTS 负责:最终声音还原
  • MiniMax TTS 负责:外部高质量对照组
  • 数字人渲染 继续 自建

一句话版本:

阿里做脑和耳朵腾讯做算力底座自建做嗓子和脸MiniMax 做高质量外部对照。

2. 最终可靠架构

2.1 在线交互主链路

用户语音
  -> 阿里实时 ASR
  -> RAG 检索(老师原始资料库)
  -> 阿里 LLM 生成回答草案
  -> 风格约束器(口头禅/停顿/语气模板)
  -> 自建 TTS主链
  -> 上半身数字人渲染
  -> 实时回传画面与语音

2.2 离线训练与素材生产链

公开视频抓取
  -> 音视频切段
  -> 说话人分离 / VAD / 粗转写
  -> 上半身动作提取 / 姿态关键点
  -> 黄金语料筛选
  -> 高精度转写与标注
  -> TTS 训练集 / 动作资产库 / 知识库

2.3 模块分工

ASR

  • 在线:阿里实时语音识别
  • 离线高精度清洗:阿里 SenseVoice
  • 备注ASR 不决定“像不像老师本人”,优先 API 没问题

LLM / RAG

  • 向量:阿里 text-embedding-v4
  • 重排:阿里 qwen3-rerank
  • 主对话模型:阿里 qwen-plus
  • 高难度问题:阿里 qwen-max
  • 关键约束:
    • 回答必须绑定原始出处
    • 风格模板和知识库分离
    • 不让模型无限自由模仿人格

TTS

  • 主方案:自建
  • 冠军-挑战者结构:
    • 候选 AFishAudio / Fish Speech
    • 候选 BCosyVoice 3
  • 外部对照组:MiniMax speech-2.8-hd

最终上线不建议把 API TTS 当唯一主引擎,原因很简单:

  • 老师“像不像本人”,主要就输在这层
  • 自建更容易持续调优音色、停顿、口头禅、情绪和说话习惯
  • 长期可控性也更强

数字人渲染

  • 主方向:上半身固定机位数字人
  • 面部与头部:LivePortrait 类驱动
  • 口型:MuseTalk 类高精度嘴型同步
  • 上半身动作:见下一节

3. 上半身肢体动作如何实现

上半身动作不要一开始就做“纯生成模型”,最可靠方案是:

公开视频动作提取 -> 参数化 -> 动作资产库 -> 在线检索/插值 -> 驱动数字人

3.1 推荐实现方式

第一步:从公开视频里提动作

  • OpenPose:提取肩、肘、腕、手、脸关键点
  • MediaPipe Pose Landmarker:补充 3D 姿态趋势

第二步:统一成可复用参数

  • 把关键点统一成 SMPL-X / FLAME 这类参数表达
  • 这样后面不管你是 2.5D 数字人、3D 角色、还是更重的渲染路线,都可以复用同一套动作数据

第三步:建“老师动作风格库”

把动作切成可检索的小片段并打标签:

  • 待机
  • 解释
  • 强调
  • 反问
  • 停顿思考
  • 鼓励
  • 否定提醒

第四步:在线不是“生成整段动作”,而是“选择 + 插值”

在线运行时:

  • 先根据回答语气、长度、节奏,从老师真实动作库里检索最像的片段
  • 再用插值或轻量生成模型补过渡

这比端到端直接生成整段上半身动作更像本人,也更稳。

3.2 为什么不用“纯生成全包”

因为你的第一目标是还原度,不是炫技:

  • 纯生成最容易出现“嘴对了、手假了”
  • 老师这种讲解型人物,识别度最强的是:
    • 头部微动
    • 点头频率
    • 停顿时的手势
    • 强调时肩颈和前倾节奏

所以动作层优先做成:

动作资产库 + 状态机 + 少量补帧

而不是先做“大而全的动作生成模型”。

4. 数据清洗到底用腾讯还是阿里

4.1 当前最优解:混合,但重心偏腾讯

如果只看“整套项目的最终预算”,当前更推荐:

  • bulk 清洗:腾讯 HAI 自跑
  • 黄金语料高精度转写:阿里 API

理由:

  • 你的项目反正要租腾讯 HAI 做视觉清洗、动作提取、训练和推理
  • 那么把一部分音频清洗也顺手放在腾讯上做,整体更省
  • 但阿里 SenseVoice 很适合给“最终 TTS 黄金语料”做高精度标注

4.2 为什么不是“全阿里”

如果全量都交给阿里 API

  • 语音转写很省事
  • 但视觉动作清洗你还是逃不开腾讯 GPU
  • 所以最终总账通常更高

4.3 为什么不是“全腾讯”

如果完全不碰阿里 API

  • 成本可能更低
  • 但高价值语料的文本精修质量和工程效率不一定最好

所以最稳的组合是:

  • 腾讯跑 bulk
  • 阿里跑 gold

5. 腾讯 HAI 优惠券基线

5.1 当前页面能确认的内容

腾讯当前活动页可以直接确认这些信息:

  • HAI 8 小时 使用券
    • 购买后 30 天内有效
    • 单用户最多 1 张
    • 适用于抵扣 后付费 HAI 实例
    • 适用于 GPU 基础型
  • HAI 80 小时 使用券
    • 购买后 90 天内有效
    • 单用户最多 3 张
    • 适用于 GPU 基础型
  • HAI 250 小时 使用券
    • 购买后 90 天内有效
    • 单用户最多 3 张
    • 适用于 GPU 基础型
  • 基础型标价:1.2 元/小时起
  • 进阶型标价:3.6 元/小时起

5.2 券面金额如何处理

活动页未登录状态下,券的购买金额显示为 ¥ -
因此预算里采用的券面购买价,使用的是腾讯云同域开发者社区的当前可见参考信息:

  • 8 小时券 = 1 元
  • 80 小时券 = 75 元
  • 250 小时券 = 225 元

这组价格适合做预算,但最终仍应以你实际购买页结算为准。

5.3 等效单价

  • 8 小时券0.125 元/小时
  • 80 小时券0.9375 元/小时
  • 250 小时券0.9 元/小时

如果把页面允许购买的全部基础型券都买满:

  • 总成本:901 元
  • 总可用时长:998 小时
  • 综合等效价:约 0.903 元/小时

6. 推荐预算模型

下面的预算,不是“永远总成本”,而是:

做出首个可靠可用版本所需的项目现金流预算

6.1 预算假设:推荐版 v1

假设你现在做的是:

  • 原始公开视频:40 小时
  • 目标产物:
    • 一个高还原上半身数字人
    • 可实时对话
    • 自建 TTS 主链
    • 动作资产库已经建立

6.2 腾讯 HAI 用量假设

基础型 GPU 时长

  • bulk 音视频清洗:48 小时
  • 动作提取与姿态参数化:32 小时
  • TTS 预处理与训练试错:40 小时
  • 数字人渲染调试与回归:28 小时

合计:148 小时 基础型 GPU

进阶型 GPU 时长

用于一些更吃显存的短时训练/渲染冲刺:

  • 20 小时 进阶型 GPU

6.3 预算结果:推荐版 v1

腾讯 HAI

  • 覆盖 148 小时基础型 的最低购买组合:
    • 8 小时券 x1
    • 80 小时券 x2
  • 现金支出:151 元
  • 可用总时长:168 小时
  • 剩余时长:20 小时

腾讯 HAI 进阶型

  • 20 小时 x 3.6 元/小时
  • 现金支出:72 元

阿里 API

推荐只把高价值部分交给阿里:

  • SenseVoice 高精度转写 5 小时黄金语料:约 12.6 元
  • 在线 ASR 联调预留:约 5.4 元
  • 向量 / 重排 / LLM 调试预留:建议直接按 20 元

阿里 API 合计建议预留:40 元

MiniMax 对照测试

建议只把它当外部对照组,不要大规模烧钱:

  • 1 个音色克隆
  • 约 3 万字符 HD 测试

建议预算:20.4 元

为了保守起见,可按:30~50 元 预留

6.4 推荐版 v1 总预算

核心可跑版

  • 腾讯基础型:151 元
  • 腾讯进阶型:72 元
  • 阿里 API40 元

合计:263 元

含 MiniMax 对照组

  • 核心可跑版:263 元
  • MiniMax30~50 元

合计:293~313 元

含 20% 缓冲

建议你把首版可靠预算直接按:

  • 350~380 元

去准备。

7. 如果把 bulk 清洗改成阿里,会多花多少

40 小时原始视频 为例:

  • 阿里 SenseVoice 全量转写:约 100.8 元

如果你本来就会买腾讯 HAI 券来做动作提取和训练,那么:

  • 用腾讯顺手把 bulk 音频清洗一起跑掉,通常更省
  • 再把 3~5 小时黄金语料送去阿里精修,质量和预算都更平衡

一个简单理解方式:

  • 全量阿里:省工程时间,但会额外增加约 100 元 级别的 API 成本
  • 腾讯 bulk + 阿里 gold:通常是当前性价比最高的组合

8. 两台腾讯服务器并行值不值得

值不值得,关键看你是看 现金支出 还是看 墙上时间

8.1 现金支出

如果两台机器做的是可完全拆分的任务,例如:

  • 视频切片 A-M 在机器 1
  • 视频切片 N-Z 在机器 2

那么:

  • 总 GPU 小时数基本不变
  • 现金成本基本不变
  • 只是消耗券的速度更快

也就是说:

两台并行不会天然更贵,只要总 GPU 小时数没有显著增加。

8.2 墙上时间

两台机器最适合并行这些环节:

  • 视频切段
  • 粗转写
  • 姿态提取
  • 关键帧筛选
  • 动作片段打标签前的预处理

这些任务几乎都可以直接按视频文件分片并行。

8.3 推荐结论

如果你准备买 80 小时券250 小时券,并且手头有大量原始视频:

  • 开两台基础型 HAI 做 bulk 清洗 是合理的
  • 它的主要收益是 把等待时间砍半
  • 不是为了再省钱

9. 当前最推荐的执行顺序

  1. 先买 8 小时券 x180 小时券 x2
  2. 1~2 台基础型 HAI
  3. 完成 bulk 清洗、动作提取、初步语料筛选
  4. 只把 3~5 小时黄金语料送去阿里 SenseVoice
  5. 并行训练两路自建 TTS
    • FishAudio / Fish Speech
    • CosyVoice 3
  6. MiniMax speech-2.8-hd 做小规模盲测对照
  7. 冠军模型进入主链路
  8. 再接上实时上半身数字人

10. 最终决策

在当前信息下,我认为最稳、最省钱、又不牺牲最后效果的方案是:

  • 数据清洗:腾讯 HAI 为主,阿里只做黄金语料精修
  • 在线 ASR / LLM / RAG:阿里 API
  • TTS自建为主MiniMax 为对照组
  • 上半身动作:真实动作提取 + 参数化 + 动作资产库 + 在线检索/插值

这个方案的核心优势是:

  • 最贵的“像不像本人”能力,掌握在自己手里
  • API 只承担通用能力
  • 腾讯优惠券能有效压低项目首期现金流

11. 主要来源