Files
boss/docs/source-material/顶级实时数字人_券后采购建议与全流程预算_v2.md
2026-03-26 23:16:56 +08:00

11 KiB
Raw Blame History

顶级实时数字人:券后采购建议与全流程预算 v2

更新时间2026-03-25

1. 这次重算后的核心结论

按你这次提供的活动页截图,券价已经明确:

  • HAI 8 小时使用券1 元
  • HAI 80 小时使用券75 元
  • HAI 250 小时使用券225 元

结合腾讯官方使用说明,这些券:

  • 只适用于 后付费 HAI 实例
  • 会被系统 自动抵扣
  • 8 小时券 有效期 30 天
  • 80 / 250 小时券 有效期 90 天
  • 活动页明确写的是:这三种券都用于 GPU 基础型算力套餐

所以这次重算后的最重要结论是:

1. 不要用 HAI 做前期爬虫。

原因不是功能不行,而是 经济性和效率都不划算

  • HAI 基础型是 1.2 元/小时起
  • 爬虫/下载/去重/元数据整理主要是 网络 + CPU + 存储,不是 GPU 问题
  • 云上机房 IP 抓国内视频站点,往往比你本地/住宅网络更容易触发风控

所以最优策略是:

  • 爬虫阶段:本地电脑,或者便宜 CPU 机器
  • GPU 阶段只在进入姿态提取、面部裁切、数字人渲染、TTS 训练时再开 HAI

2. 券的购买顺序,不是“越大越好”,而是看阶段。

  • 8 小时券:一定买,性价比最高
  • 80 小时券:最灵活,适合首轮项目
  • 250 小时券:最适合已经确定自己会长期跑、或者要双机并行的人

3. 对你当前项目,经济性和效率综合最优的主方案是:

  • 前期爬虫:不用 HAI
  • 第一阶段 GPU1 台 HAI 基础型 16GB
  • 第二阶段短时冲刺:按量加 1 台 HAI 进阶型 32GB
  • 券的购买建议:
    • 如果先求稳:8 小时券 + 2 张 80 小时券
    • 如果已经确定素材量大、要双机并行:8 小时券 + 1 张 250 小时券

2. 券的真实经济性

2.1 等效小时成本

  • 8 小时券1 / 8 = 0.125 元/小时
  • 80 小时券75 / 80 = 0.9375 元/小时
  • 250 小时券225 / 250 = 0.9 元/小时

对比基础型原价 1.2 元/小时

  • 8 小时券:极便宜,但只能买 1 张
  • 80 小时券:比原价便宜约 21.9%
  • 250 小时券:比原价便宜约 25%

所以:

  • 灵活性最好80 小时券
  • 大规模最划算250 小时券

2.2 券组合怎么选

组合 A8h + 80h

  • 总价:76 元
  • 总时长:88 小时
  • 适合:
    • 第一次试跑
    • 原始视频量还不确定
    • 先跑一轮姿态提取和小规模训练

组合 B8h + 80h + 80h

  • 总价:151 元
  • 总时长:168 小时
  • 适合:
    • 40 小时左右原始视频
    • 单机完成 bulk 清洗
    • 有一定试错空间

组合 C8h + 250h

  • 总价:226 元
  • 总时长:258 小时
  • 适合:
    • 已明确会做完整项目
    • 计划双机并行
    • 原始视频量大于 80~100 小时

组合 D250h + 80h

  • 总价:300 元
  • 总时长:330 小时
  • 适合:
    • 素材非常多
    • 需要双机跑较长时间
    • 项目已经进入稳定实施阶段

2.3 一个关键判断

如果你的预算已经来到 226 元 左右:

  • 不要买 8h + 80h + 80h + 80h
  • 直接买 8h + 250h

因为两者现金支出几乎一样:

  • 8 + 3*80 = 248 小时226 元
  • 8 + 250 = 258 小时226 元

同样的钱,250 小时券 多给你 10 小时

3. 把“爬虫阶段”单独拆开后,最优流程是什么

这个项目最容易花冤枉钱的地方,就是把“采集”也放进 GPU 预算里。
实际最优做法是三段式:

3.1 第一段:源站发现

目标:

  • 先找到所有候选视频链接
  • 不急着全量下载

这一段做什么:

  • 搜索平台内公开视频
  • 抓标题、链接、封面、时长、发布时间、播放量、UP 主信息
  • 建一个素材总表

这一段最优资源:

  • 本地电脑
  • 便宜 CPU 机器

不需要 HAI。

3.2 第二段:选择性下载

目标:

  • 只下载高价值素材

推荐规则:

  • 优先下载:
    • 清晰正脸
    • 单人主讲
    • 音乐少
    • 语速自然
    • 机位稳定
  • 暂时不下载:
    • 纯搬运混剪
    • 远景多
    • 背景音重
    • 第三人频繁插话

这样做的好处是:

  • 大幅减少后面 GPU 处理量
  • 存储压力更小
  • 动作提取质量更高

3.3 第三段GPU 清洗和训练

这一段才轮到 HAI 出场:

  • 人脸检测与裁切
  • 姿态提取
  • 手势切片
  • 动作标签
  • TTS 训练预处理
  • 实时数字人渲染调试

4. 我建议你买几台、买什么配置

4.1 爬虫阶段

结论:不要买 HAI 来做爬虫。

最经济高效的方案是:

  • 本地电脑 跑采集和下载
  • 如果你不想占本机,就用 廉价 CPU 云机

原因:

  • 爬虫不吃 GPU
  • HAI 的 GPU 基础型 1.2 元/小时,拿来跑下载器和转存,非常浪费
  • 本地网络往往比云机房 IP 更适合抓公开视频

4.2 GPU 处理阶段:推荐机型

主力机

  • HAI 基础型 16GB

用途:

  • bulk 视频清洗
  • 人脸裁切
  • 姿态/手势提取
  • 初步数字人推理

原因:

  • 券只适用于这一档
  • 这档是你整个项目里性价比最高的 GPU

冲刺机

  • HAI 进阶型 32GB

用途:

  • 更重的训练
  • 更吃显存的推理
  • 实时数字人联调

原因:

  • 32GB 更稳
  • 但不享受这些券
  • 所以只建议在需要时短时开机

4.3 台数建议

最省钱方案

  • 1 台基础型 16GB
  • 需要时临时开 1 台进阶型 32GB

这是当前最稳的默认方案。

最平衡方案

  • 常态:1 台基础型 16GB
  • bulk 清洗高峰期:临时再开 1 台基础型 16GB
  • 冲刺训练:需要时再开 1 台进阶型 32GB

这是我认为最适合你的方案。

不建议方案

  • 一上来就长期开两台或三台 HAI

原因:

  • 你前期很多时间都会花在:
    • 采集
    • 整理
    • 过滤
    • 标注
  • 这些阶段 GPU 利用率并不高

5. 基于你这个项目的实际预算重算

下面按一个更贴近你项目的现实版本来估:

  • 原始候选视频:80~120 小时
  • 最终下载入库:30~50 小时
  • 其中高价值黄金语料:3~5 小时

5.1 爬虫与下载阶段

方案 1本地跑

  • 增量 GPU 成本:0
  • 增量云成本:0

这是最推荐的。

方案 2便宜 CPU 云机跑

  • 只建议当你不想占用本机时用
  • 这一部分不要放在 HAI 预算里

这里我不把它强行写死进总预算,因为你完全可以本地跑掉。

5.2 GPU 基础型预算

按更经济的做法,基础型只承担真正需要 GPU 的环节:

  • 姿态提取 / 动作切片:20~35 小时
  • 人脸裁切 / 素材筛选:15~25 小时
  • 初步数字人推理 / 回归:10~20 小时

合计更现实的基础型需求:

  • 45~80 小时

这意味着:

如果你控制得好,第一轮甚至 8h + 80h = 88 小时 就够。

5.3 进阶型预算

进阶型只留给真正重负载环节:

  • TTS 训练试错
  • 更高显存的实时联调

建议预算:

  • 10~20 小时
  • 成本:36~72 元

5.4 阿里 API 预算

只把高价值部分交给阿里:

  • SenseVoice 精修 3~5 小时黄金语料:约 7.56~12.6 元
  • 在线 ASR / RAG / LLM 调试预留:20~40 元

建议按:

  • 30~50 元

预留。

5.5 MiniMax 对照预算

如果只做小规模对照:

  • 1 个音色克隆
  • 少量 HD 文本测试

建议按:

  • 20~40 元

预留。

6. 最终采购建议

6.1 我最推荐的采购顺序

第一步

  • 8 小时券 x1
  • 80 小时券 x1

总支出:

  • 76 元

用途:

  • 先完成第一轮 bulk GPU 清洗
  • 看真实素材量和 GPU 消耗速度

为什么这样买:

  • 成本最低
  • 足够完成第一轮验证
  • 不会过早把钱压进 250 小时券

第二步

如果第一轮下来你确认:

  • 视频素材多
  • 动作库要做深
  • 需要第二轮或第三轮试错

再补:

  • 80 小时券 x1

这时总预算来到:

  • 151 元
  • 可用基础型时长:168 小时

这个组合是当前最稳的中档方案。

第三步

如果你已经确认:

  • 项目会长期推进
  • 素材量大
  • 很可能双机并行

那么后续就不要继续堆 80 小时券 了,直接改买:

  • 250 小时券

6.2 什么时候直接买 250 小时券

满足下面任意两条,我就建议你直接上 250 小时券

  • 你确定会收集 100 小时以上 原始视频
  • 你确定会开 2 台基础型 并行清洗
  • 你确定这个项目不是试验,而是要落地
  • 你希望未来 90 天内持续迭代

6.3 我的最终推荐

按你当前描述,我的最终建议不是一口气买满,而是:

方案 A当前最优默认方案

  • 爬虫:本地电脑
  • HAI
    • 基础型 16GB x 1
    • 进阶型 32GB x 0按需开
  • 券:
    • 8 小时券 x1
    • 80 小时券 x1

适合:

  • 先把第一轮素材链路跑通
  • 最低成本验证真实消耗

方案 B我最推荐的平衡方案

  • 爬虫:本地电脑
  • HAI
    • 常态 基础型 16GB x 1
    • 高峰期 基础型 16GB x 2
    • 训练冲刺 进阶型 32GB x 1临时
  • 券:
    • 8 小时券 x1
    • 80 小时券 x2

适合:

  • 真正开始做老师数字人
  • 既看成本,也看效率

这是我当前最推荐的方案。

方案 C已明确长期投入方案

  • 爬虫:本地电脑 + 便宜 CPU 机器(可选)
  • HAI
    • 基础型 16GB x 2
    • 进阶型 32GB x 1按需
  • 券:
    • 8 小时券 x1
    • 250 小时券 x1

适合:

  • 素材量大
  • 双机并行
  • 确定会做完整项目

7. 成本总额:按推荐的平衡方案计算

方案 B 算:

  • 8h + 80h + 80h151 元
  • 进阶型 32GB 预留 10~20 小时36~72 元
  • 阿里 API30~50 元
  • MiniMax 对照:20~40 元
  • 爬虫阶段:本地跑,按 0 元 增量计

总预算:

  • 237~313 元

为了防止试错超支,建议实际准备:

  • 300~380 元

8. 一句话结论

如果你问我现在最合适怎么买:

先不要为爬虫买 HAI。

先买 8 小时券 + 1 张 80 小时券,开 1 台基础型 16GB 跑第一轮。

如果第一轮确认素材量和试错量都不小,再补到:

8 小时券 + 2 张 80 小时券,并在高峰时临时开第 2 台基础型。

只有在你已经明确会长期做、而且会双机并行时,才直接上:

8 小时券 + 250 小时券

9. 主要依据