Files
boss/docs/source-material/顶级实时数字人_券后采购建议与全流程预算_v2.md
2026-03-26 23:16:56 +08:00

502 lines
11 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 顶级实时数字人:券后采购建议与全流程预算 v2
更新时间2026-03-25
## 1. 这次重算后的核心结论
按你这次提供的活动页截图,券价已经明确:
- `HAI 8 小时使用券``1 元`
- `HAI 80 小时使用券``75 元`
- `HAI 250 小时使用券``225 元`
结合腾讯官方使用说明,这些券:
- 只适用于 `后付费 HAI 实例`
- 会被系统 `自动抵扣`
- `8 小时券` 有效期 `30 天`
- `80 / 250 小时券` 有效期 `90 天`
- 活动页明确写的是:这三种券都用于 `GPU 基础型算力套餐`
所以这次重算后的最重要结论是:
**1. 不要用 HAI 做前期爬虫。**
原因不是功能不行,而是 `经济性和效率都不划算`
- HAI 基础型是 `1.2 元/小时起`
- 爬虫/下载/去重/元数据整理主要是 `网络 + CPU + 存储`,不是 GPU 问题
- 云上机房 IP 抓国内视频站点,往往比你本地/住宅网络更容易触发风控
所以最优策略是:
- `爬虫阶段`:本地电脑,或者便宜 CPU 机器
- `GPU 阶段`只在进入姿态提取、面部裁切、数字人渲染、TTS 训练时再开 HAI
**2. 券的购买顺序,不是“越大越好”,而是看阶段。**
- `8 小时券`:一定买,性价比最高
- `80 小时券`:最灵活,适合首轮项目
- `250 小时券`:最适合已经确定自己会长期跑、或者要双机并行的人
**3. 对你当前项目,经济性和效率综合最优的主方案是:**
- 前期爬虫:`不用 HAI`
- 第一阶段 GPU`1 台 HAI 基础型 16GB`
- 第二阶段短时冲刺:`按量加 1 台 HAI 进阶型 32GB`
- 券的购买建议:
- 如果先求稳:`8 小时券 + 2 张 80 小时券`
- 如果已经确定素材量大、要双机并行:`8 小时券 + 1 张 250 小时券`
## 2. 券的真实经济性
### 2.1 等效小时成本
- `8 小时券``1 / 8 = 0.125 元/小时`
- `80 小时券``75 / 80 = 0.9375 元/小时`
- `250 小时券``225 / 250 = 0.9 元/小时`
对比基础型原价 `1.2 元/小时`
- `8 小时券`:极便宜,但只能买 1 张
- `80 小时券`:比原价便宜约 `21.9%`
- `250 小时券`:比原价便宜约 `25%`
所以:
- `灵活性最好``80 小时券`
- `大规模最划算``250 小时券`
### 2.2 券组合怎么选
#### 组合 A`8h + 80h`
- 总价:`76 元`
- 总时长:`88 小时`
- 适合:
- 第一次试跑
- 原始视频量还不确定
- 先跑一轮姿态提取和小规模训练
#### 组合 B`8h + 80h + 80h`
- 总价:`151 元`
- 总时长:`168 小时`
- 适合:
- 40 小时左右原始视频
- 单机完成 bulk 清洗
- 有一定试错空间
#### 组合 C`8h + 250h`
- 总价:`226 元`
- 总时长:`258 小时`
- 适合:
- 已明确会做完整项目
- 计划双机并行
- 原始视频量大于 `80~100 小时`
#### 组合 D`250h + 80h`
- 总价:`300 元`
- 总时长:`330 小时`
- 适合:
- 素材非常多
- 需要双机跑较长时间
- 项目已经进入稳定实施阶段
### 2.3 一个关键判断
如果你的预算已经来到 `226 元` 左右:
- 不要买 `8h + 80h + 80h + 80h`
- 直接买 `8h + 250h`
因为两者现金支出几乎一样:
- `8 + 3*80 = 248 小时226 元`
- `8 + 250 = 258 小时226 元`
同样的钱,`250 小时券` 多给你 `10 小时`
## 3. 把“爬虫阶段”单独拆开后,最优流程是什么
这个项目最容易花冤枉钱的地方,就是把“采集”也放进 GPU 预算里。
实际最优做法是三段式:
### 3.1 第一段:源站发现
目标:
- 先找到所有候选视频链接
- 不急着全量下载
这一段做什么:
- 搜索平台内公开视频
- 抓标题、链接、封面、时长、发布时间、播放量、UP 主信息
- 建一个素材总表
这一段最优资源:
- `本地电脑`
-`便宜 CPU 机器`
不需要 HAI。
### 3.2 第二段:选择性下载
目标:
- 只下载高价值素材
推荐规则:
- 优先下载:
- 清晰正脸
- 单人主讲
- 音乐少
- 语速自然
- 机位稳定
- 暂时不下载:
- 纯搬运混剪
- 远景多
- 背景音重
- 第三人频繁插话
这样做的好处是:
- 大幅减少后面 GPU 处理量
- 存储压力更小
- 动作提取质量更高
### 3.3 第三段GPU 清洗和训练
这一段才轮到 HAI 出场:
- 人脸检测与裁切
- 姿态提取
- 手势切片
- 动作标签
- TTS 训练预处理
- 实时数字人渲染调试
## 4. 我建议你买几台、买什么配置
### 4.1 爬虫阶段
**结论:不要买 HAI 来做爬虫。**
最经济高效的方案是:
- `本地电脑` 跑采集和下载
- 如果你不想占本机,就用 `廉价 CPU 云机`
原因:
- 爬虫不吃 GPU
- HAI 的 GPU 基础型 `1.2 元/小时`,拿来跑下载器和转存,非常浪费
- 本地网络往往比云机房 IP 更适合抓公开视频
### 4.2 GPU 处理阶段:推荐机型
#### 主力机
- `HAI 基础型 16GB`
用途:
- bulk 视频清洗
- 人脸裁切
- 姿态/手势提取
- 初步数字人推理
原因:
- 券只适用于这一档
- 这档是你整个项目里性价比最高的 GPU
#### 冲刺机
- `HAI 进阶型 32GB`
用途:
- 更重的训练
- 更吃显存的推理
- 实时数字人联调
原因:
- 32GB 更稳
- 但不享受这些券
- 所以只建议在需要时短时开机
### 4.3 台数建议
#### 最省钱方案
- `1 台基础型 16GB`
- `需要时临时开 1 台进阶型 32GB`
这是当前最稳的默认方案。
#### 最平衡方案
- 常态:`1 台基础型 16GB`
- bulk 清洗高峰期:`临时再开 1 台基础型 16GB`
- 冲刺训练:`需要时再开 1 台进阶型 32GB`
这是我认为最适合你的方案。
#### 不建议方案
- 一上来就长期开两台或三台 HAI
原因:
- 你前期很多时间都会花在:
- 采集
- 整理
- 过滤
- 标注
- 这些阶段 GPU 利用率并不高
## 5. 基于你这个项目的实际预算重算
下面按一个更贴近你项目的现实版本来估:
- 原始候选视频:`80~120 小时`
- 最终下载入库:`30~50 小时`
- 其中高价值黄金语料:`3~5 小时`
### 5.1 爬虫与下载阶段
#### 方案 1本地跑
- 增量 GPU 成本:`0`
- 增量云成本:`0`
这是最推荐的。
#### 方案 2便宜 CPU 云机跑
- 只建议当你不想占用本机时用
- 这一部分不要放在 HAI 预算里
这里我不把它强行写死进总预算,因为你完全可以本地跑掉。
### 5.2 GPU 基础型预算
按更经济的做法,基础型只承担真正需要 GPU 的环节:
- 姿态提取 / 动作切片:`20~35 小时`
- 人脸裁切 / 素材筛选:`15~25 小时`
- 初步数字人推理 / 回归:`10~20 小时`
合计更现实的基础型需求:
- `45~80 小时`
这意味着:
**如果你控制得好,第一轮甚至 `8h + 80h = 88 小时` 就够。**
### 5.3 进阶型预算
进阶型只留给真正重负载环节:
- TTS 训练试错
- 更高显存的实时联调
建议预算:
- `10~20 小时`
- 成本:`36~72 元`
### 5.4 阿里 API 预算
只把高价值部分交给阿里:
- `SenseVoice` 精修 `3~5 小时黄金语料`:约 `7.56~12.6 元`
- 在线 ASR / RAG / LLM 调试预留:`20~40 元`
建议按:
- `30~50 元`
预留。
### 5.5 MiniMax 对照预算
如果只做小规模对照:
- 1 个音色克隆
- 少量 HD 文本测试
建议按:
- `20~40 元`
预留。
## 6. 最终采购建议
### 6.1 我最推荐的采购顺序
#### 第一步
-`8 小时券 x1`
-`80 小时券 x1`
总支出:
- `76 元`
用途:
- 先完成第一轮 bulk GPU 清洗
- 看真实素材量和 GPU 消耗速度
为什么这样买:
- 成本最低
- 足够完成第一轮验证
- 不会过早把钱压进 250 小时券
#### 第二步
如果第一轮下来你确认:
- 视频素材多
- 动作库要做深
- 需要第二轮或第三轮试错
再补:
- `80 小时券 x1`
这时总预算来到:
- `151 元`
- 可用基础型时长:`168 小时`
这个组合是当前最稳的中档方案。
#### 第三步
如果你已经确认:
- 项目会长期推进
- 素材量大
- 很可能双机并行
那么后续就不要继续堆 `80 小时券` 了,直接改买:
- `250 小时券`
### 6.2 什么时候直接买 250 小时券
满足下面任意两条,我就建议你直接上 `250 小时券`
- 你确定会收集 `100 小时以上` 原始视频
- 你确定会开 `2 台基础型` 并行清洗
- 你确定这个项目不是试验,而是要落地
- 你希望未来 90 天内持续迭代
### 6.3 我的最终推荐
按你当前描述,我的最终建议不是一口气买满,而是:
#### 方案 A当前最优默认方案
- 爬虫:`本地电脑`
- HAI
- `基础型 16GB x 1`
- `进阶型 32GB x 0按需开`
- 券:
- `8 小时券 x1`
- `80 小时券 x1`
适合:
- 先把第一轮素材链路跑通
- 最低成本验证真实消耗
#### 方案 B我最推荐的平衡方案
- 爬虫:`本地电脑`
- HAI
- 常态 `基础型 16GB x 1`
- 高峰期 `基础型 16GB x 2`
- 训练冲刺 `进阶型 32GB x 1临时`
- 券:
- `8 小时券 x1`
- `80 小时券 x2`
适合:
- 真正开始做老师数字人
- 既看成本,也看效率
这是我当前最推荐的方案。
#### 方案 C已明确长期投入方案
- 爬虫:`本地电脑 + 便宜 CPU 机器(可选)`
- HAI
- `基础型 16GB x 2`
- `进阶型 32GB x 1按需`
- 券:
- `8 小时券 x1`
- `250 小时券 x1`
适合:
- 素材量大
- 双机并行
- 确定会做完整项目
## 7. 成本总额:按推荐的平衡方案计算
`方案 B` 算:
- `8h + 80h + 80h``151 元`
- `进阶型 32GB` 预留 `10~20 小时``36~72 元`
- 阿里 API`30~50 元`
- MiniMax 对照:`20~40 元`
- 爬虫阶段:本地跑,按 `0 元` 增量计
总预算:
- `237~313 元`
为了防止试错超支,建议实际准备:
- `300~380 元`
## 8. 一句话结论
如果你问我现在最合适怎么买:
**先不要为爬虫买 HAI。**
**先买 `8 小时券 + 1 张 80 小时券`,开 `1 台基础型 16GB` 跑第一轮。**
如果第一轮确认素材量和试错量都不小,再补到:
**`8 小时券 + 2 张 80 小时券`,并在高峰时临时开第 2 台基础型。**
只有在你已经明确会长期做、而且会双机并行时,才直接上:
**`8 小时券 + 250 小时券`。**
## 9. 主要依据
- 用户提供的腾讯 HAI 活动页截图2026-03-25
- 腾讯 HAI 活动页https://cloud.tencent.com/act/pro/hai
- 腾讯 HAI 使用现金券说明https://cloud.tencent.com/document/product/1721/104127
- 腾讯 HAI 套餐类型https://cloud.tencent.com/document/product/1721/112699
- 阿里百炼模型价格https://help.aliyun.com/zh/model-studio/model-pricing
- MiniMax 中国大陆定价页https://www.minimaxi.com/pricing