krisolo/boss

Fork 0

Files

kris 90cb6b7ff1 feat: ship native boss android console

2026-03-26 23:16:56 +08:00

12 KiB

Raw Permalink Blame History

顶级实时数字人：最终可靠方案与预算 v1

更新时间：2026-03-25

1. 目标与当前结论

当前项目目标已经收敛为：

第一目标：还原度最高
第二目标：可以接受很大延迟
第三目标：不影响最终效果的前提下，能用 API 就优先用 API

基于这个目标，当前最可靠的方案不是“把所有能力都交给 API”，而是：

阿里 API 负责：ASR / RAG / LLM
腾讯 HAI 负责：数据清洗中的视频视觉处理、动作提取、自建模型训练/推理
自建 TTS 负责：最终声音还原
MiniMax TTS 负责：外部高质量对照组
数字人渲染 继续 自建

一句话版本：

阿里做脑和耳朵，腾讯做算力底座，自建做嗓子和脸，MiniMax 做高质量外部对照。

2. 最终可靠架构

2.1 在线交互主链路

用户语音
  -> 阿里实时 ASR
  -> RAG 检索（老师原始资料库）
  -> 阿里 LLM 生成回答草案
  -> 风格约束器（口头禅/停顿/语气模板）
  -> 自建 TTS（主链）
  -> 上半身数字人渲染
  -> 实时回传画面与语音

2.2 离线训练与素材生产链

公开视频抓取
  -> 音视频切段
  -> 说话人分离 / VAD / 粗转写
  -> 上半身动作提取 / 姿态关键点
  -> 黄金语料筛选
  -> 高精度转写与标注
  -> TTS 训练集 / 动作资产库 / 知识库

2.3 模块分工

ASR

在线：阿里实时语音识别
离线高精度清洗：阿里 SenseVoice
备注：ASR 不决定“像不像老师本人”，优先 API 没问题

LLM / RAG

向量：阿里 text-embedding-v4
重排：阿里 qwen3-rerank
主对话模型：阿里 qwen-plus
高难度问题：阿里 qwen-max
关键约束：
- 回答必须绑定原始出处
- 风格模板和知识库分离
- 不让模型无限自由模仿人格

TTS

主方案：自建
冠军-挑战者结构：
- 候选 A：FishAudio / Fish Speech
- 候选 B：CosyVoice 3
外部对照组：MiniMax speech-2.8-hd

最终上线不建议把 API TTS 当唯一主引擎，原因很简单：

老师“像不像本人”，主要就输在这层
自建更容易持续调优音色、停顿、口头禅、情绪和说话习惯
长期可控性也更强

数字人渲染

主方向：上半身固定机位数字人
面部与头部：LivePortrait 类驱动
口型：MuseTalk 类高精度嘴型同步
上半身动作：见下一节

3. 上半身肢体动作如何实现

上半身动作不要一开始就做“纯生成模型”，最可靠方案是：

公开视频动作提取 -> 参数化 -> 动作资产库 -> 在线检索/插值 -> 驱动数字人

3.1 推荐实现方式

第一步：从公开视频里提动作

OpenPose：提取肩、肘、腕、手、脸关键点
MediaPipe Pose Landmarker：补充 3D 姿态趋势

第二步：统一成可复用参数

把关键点统一成 SMPL-X / FLAME 这类参数表达
这样后面不管你是 2.5D 数字人、3D 角色、还是更重的渲染路线，都可以复用同一套动作数据

第三步：建“老师动作风格库”

把动作切成可检索的小片段并打标签：

待机
解释
强调
反问
停顿思考
鼓励
否定提醒

第四步：在线不是“生成整段动作”，而是“选择 + 插值”

在线运行时：

先根据回答语气、长度、节奏，从老师真实动作库里检索最像的片段
再用插值或轻量生成模型补过渡

这比端到端直接生成整段上半身动作更像本人，也更稳。

3.2 为什么不用“纯生成全包”

因为你的第一目标是还原度，不是炫技：

纯生成最容易出现“嘴对了、手假了”
老师这种讲解型人物，识别度最强的是：
- 头部微动
- 点头频率
- 停顿时的手势
- 强调时肩颈和前倾节奏

所以动作层优先做成：

动作资产库 + 状态机 + 少量补帧

而不是先做“大而全的动作生成模型”。

4. 数据清洗到底用腾讯还是阿里

4.1 当前最优解：混合，但重心偏腾讯

如果只看“整套项目的最终预算”，当前更推荐：

bulk 清洗：腾讯 HAI 自跑
黄金语料高精度转写：阿里 API

理由：

你的项目反正要租腾讯 HAI 做视觉清洗、动作提取、训练和推理
那么把一部分音频清洗也顺手放在腾讯上做，整体更省
但阿里 SenseVoice 很适合给“最终 TTS 黄金语料”做高精度标注

4.2 为什么不是“全阿里”

如果全量都交给阿里 API：

语音转写很省事
但视觉动作清洗你还是逃不开腾讯 GPU
所以最终总账通常更高

4.3 为什么不是“全腾讯”

如果完全不碰阿里 API：

成本可能更低
但高价值语料的文本精修质量和工程效率不一定最好

所以最稳的组合是：

腾讯跑 bulk
阿里跑 gold

5. 腾讯 HAI 优惠券基线

5.1 当前页面能确认的内容

腾讯当前活动页可以直接确认这些信息：

HAI 8 小时使用券
- 购买后 30 天内有效
- 单用户最多 1 张
- 适用于抵扣 后付费 HAI 实例
- 适用于 GPU 基础型
HAI 80 小时使用券
- 购买后 90 天内有效
- 单用户最多 3 张
- 适用于 GPU 基础型
HAI 250 小时使用券
- 购买后 90 天内有效
- 单用户最多 3 张
- 适用于 GPU 基础型
基础型标价：1.2 元/小时起
进阶型标价：3.6 元/小时起

5.2 券面金额如何处理

活动页未登录状态下，券的购买金额显示为 ¥ -。
因此预算里采用的券面购买价，使用的是腾讯云同域开发者社区的当前可见参考信息：

8 小时券 = 1 元
80 小时券 = 75 元
250 小时券 = 225 元

这组价格适合做预算，但最终仍应以你实际购买页结算为准。

5.3 等效单价

8 小时券：0.125 元/小时
80 小时券：0.9375 元/小时
250 小时券：0.9 元/小时

如果把页面允许购买的全部基础型券都买满：

总成本：901 元
总可用时长：998 小时
综合等效价：约 0.903 元/小时

6. 推荐预算模型

下面的预算，不是“永远总成本”，而是：

做出首个可靠可用版本所需的项目现金流预算

6.1 预算假设：推荐版 v1

假设你现在做的是：

原始公开视频：40 小时
目标产物：
- 一个高还原上半身数字人
- 可实时对话
- 自建 TTS 主链
- 动作资产库已经建立

6.2 腾讯 HAI 用量假设

基础型 GPU 时长

bulk 音视频清洗：48 小时
动作提取与姿态参数化：32 小时
TTS 预处理与训练试错：40 小时
数字人渲染调试与回归：28 小时

合计：148 小时基础型 GPU

进阶型 GPU 时长

用于一些更吃显存的短时训练/渲染冲刺：

20 小时进阶型 GPU

6.3 预算结果：推荐版 v1

腾讯 HAI

覆盖 148 小时基础型 的最低购买组合：
- 8 小时券 x1
- 80 小时券 x2
现金支出：151 元
可用总时长：168 小时
剩余时长：20 小时

腾讯 HAI 进阶型

20 小时 x 3.6 元/小时
现金支出：72 元

阿里 API

推荐只把高价值部分交给阿里：

SenseVoice 高精度转写 5 小时黄金语料：约 12.6 元
在线 ASR 联调预留：约 5.4 元
向量 / 重排 / LLM 调试预留：建议直接按 20 元 记

阿里 API 合计建议预留：40 元

MiniMax 对照测试

建议只把它当外部对照组，不要大规模烧钱：

1 个音色克隆
约 3 万字符 HD 测试

建议预算：20.4 元

为了保守起见，可按：30~50 元 预留

6.4 推荐版 v1 总预算

核心可跑版

腾讯基础型：151 元
腾讯进阶型：72 元
阿里 API：40 元

合计：263 元

含 MiniMax 对照组

核心可跑版：263 元
MiniMax：30~50 元

合计：293~313 元

含 20% 缓冲

建议你把首版可靠预算直接按：

350~380 元

去准备。

7. 如果把 bulk 清洗改成阿里，会多花多少

以 40 小时原始视频 为例：

阿里 SenseVoice 全量转写：约 100.8 元

如果你本来就会买腾讯 HAI 券来做动作提取和训练，那么：

用腾讯顺手把 bulk 音频清洗一起跑掉，通常更省
再把 3~5 小时黄金语料送去阿里精修，质量和预算都更平衡

一个简单理解方式：

全量阿里：省工程时间，但会额外增加约 100 元 级别的 API 成本
腾讯 bulk + 阿里 gold：通常是当前性价比最高的组合

8. 两台腾讯服务器并行值不值得

值不值得，关键看你是看 现金支出 还是看 墙上时间。

8.1 现金支出

如果两台机器做的是可完全拆分的任务，例如：

视频切片 A-M 在机器 1
视频切片 N-Z 在机器 2

那么：

总 GPU 小时数基本不变
现金成本基本不变
只是消耗券的速度更快

也就是说：

两台并行不会天然更贵，只要总 GPU 小时数没有显著增加。

8.2 墙上时间

两台机器最适合并行这些环节：

视频切段
粗转写
姿态提取
关键帧筛选
动作片段打标签前的预处理

这些任务几乎都可以直接按视频文件分片并行。

8.3 推荐结论

如果你准备买 80 小时券 或 250 小时券，并且手头有大量原始视频：

开两台基础型 HAI 做 bulk 清洗 是合理的
它的主要收益是 把等待时间砍半
不是为了再省钱

9. 当前最推荐的执行顺序

先买 8 小时券 x1 和 80 小时券 x2
开 1~2 台基础型 HAI
完成 bulk 清洗、动作提取、初步语料筛选
只把 3~5 小时黄金语料送去阿里 SenseVoice
并行训练两路自建 TTS：
- FishAudio / Fish Speech
- CosyVoice 3
用 MiniMax speech-2.8-hd 做小规模盲测对照
冠军模型进入主链路
再接上实时上半身数字人

10. 最终决策

在当前信息下，我认为最稳、最省钱、又不牺牲最后效果的方案是：

数据清洗：腾讯 HAI 为主，阿里只做黄金语料精修
在线 ASR / LLM / RAG：阿里 API
TTS：自建为主，MiniMax 为对照组
上半身动作：真实动作提取 + 参数化 + 动作资产库 + 在线检索/插值

这个方案的核心优势是：

最贵的“像不像本人”能力，掌握在自己手里
API 只承担通用能力
腾讯优惠券能有效压低项目首期现金流

11. 主要来源

腾讯 HAI 活动页：https://cloud.tencent.com/act/pro/hai
腾讯 HAI 套餐类型：https://cloud.tencent.com/document/product/1721/112699
腾讯 HAI 使用券说明：https://cloud.tencent.com/document/product/1721/104127
腾讯开发者社区 HAI 优惠参考（1 元 8 小时券）：https://cloud.tencent.com/developer/article/2405436
阿里百炼模型价格：https://help.aliyun.com/zh/model-studio/model-pricing
阿里向量模型定价参考：https://help.aliyun.com/zh/dashscope/developer-reference/text-embedding-quick-start
阿里人声克隆概述：https://help.aliyun.com/zh/ims/user-guide/overview-of-human-voice-cloning
MiniMax 中国大陆定价页：https://www.minimaxi.com/pricing
MiniMax 语音定价说明：https://platform.minimaxi.com/docs/guides/pricing-speech
MuseTalk：https://github.com/TMElyralab/MuseTalk
LivePortrait：https://github.com/KlingAIResearch/LivePortrait
OpenPose：https://github.com/CMU-Perceptual-Computing-Lab/openpose
MediaPipe Pose Landmarker：https://ai.google.dev/edge/mediapipe/solutions/vision/pose_landmarker/python

12 KiB Raw Permalink Blame History Unescape Escape