krisolo/boss

Fork 0

Files

kris 90cb6b7ff1 feat: ship native boss android console

2026-03-26 23:16:56 +08:00

14 KiB

Raw Permalink Blame History

研究版成熟方案：设备证书、AI 网关、临时密钥与权威计量

1. 文档说明

这份文档是在前面几版方案基础上，结合 2026-03-14 检索到的官方资料，再收敛出来的一版“更成熟、可量产、可商业化”的方案。

这次研究的重点不是再凭经验拼一套架构，而是验证下面几件事：

云厂商是否已经提供更成熟的临时凭证能力
是否已有更成熟的托管网关、会话保持、Fallback、限流和鉴权能力
是否已有更成熟的 authoritative metering（权威计量）与分账模式
IoT 行业里设备身份和短期凭证通常如何做

基于调研结果，我认为前面那版“媒体直连 + 任务网关 + 配额账本 + 长任务代理兜底”方向是对的，但还可以继续升级成一版更成熟的：

设备证书 -> 临时凭证 -> 托管 AI 网关 -> 自建推理接入点 -> 权威计量与分账

2. 调研得到的关键事实

2.1 火山方舟已经支持“临时 API Key”

在火山方舟管控面 API 中，GetApiKey 可以获取临时 API Key，用于在有效期内访问指定资源。
官方文档明确写到：

有效期 DurationSeconds 范围是 0-30d
资源类型支持 endpoint 和 bot
可以把授权收敛到指定的接入点或智能体

这说明：

设备侧拿短期、资源范围受限的访问能力 不是我们自己拍脑袋想出来的，而是方舟官方已经支持的一种更成熟模式。

2.2 火山方舟已经有查询用量和控制台用量统计能力

官方文档中，方舟既有：

GetUsage / GetInferenceUsage 这类用量查询能力
控制台的 用量统计，支持按天/小时查看输入 tokens、输出 tokens、总 tokens，并可按接入点拆分

这说明：

最终用量真相应以平台侧计量为准，而不是设备上报为准 是完全合理且更成熟的落地方式。

2.3 火山方舟支持“数据回流”

官方文档说明，针对 自定义推理接入点，支持把调用数据（request + response）加密投递到 AI 数据湖；数据可见可能有约 10 分钟延迟。

这说明：

数据回流适合做审计、训练、分析、质检
不适合做毫秒级实时限额
但非常适合作为二级核对和模型优化的数据基础设施

2.4 生产级 QPS 建议使用“自建推理接入点”

火山官方在“模型推理接入点保障 QPS”里明确建议：

默认公共推理接入点适合试用和调试
有较高生产级 QPS 需求时，建议使用自建推理接入点
按模型单元计费可获得更高并发和更强确定性

这说明：

如果你要做量产，不应该把核心业务长期压在默认公共资源池上，而应该从一开始就预留：

自建接入点
主备接入点
模型单元 / TPM 保障

2.5 火山 API 网关已经具备成熟的网关能力

火山 API 网关官方文档显示，APIG 已经支持：

HMAC 认证鉴权
API Key 认证鉴权
JWT 认证鉴权
自建认证鉴权
访问限流
IP 黑白名单
AI 网关
AI 多模型代理
AI 模型 Fallback
LLM Session 亲和路由
全局限流插件

这意味着：

托管网关 + 会话保持 + Fallback + 限流 这些能力，不必全部自己从零手撸。

2.6 火山方舟高代码应用已经出现“APIG 触发器 + JWT”模式

方舟高代码应用官方文档的 APIG 触发器模式中，调用流程已经出现：

通过 APIG 调用
使用 JWT token 鉴权
适合对独立网关需求更强、对信息传输安全性要求更高的场景

这说明：

设备先拿短期 JWT，再走托管网关，而不是直接裸连模型服务，本身就是平台已经在推广的成熟思路。

2.7 IoT 领域的成熟模式是“设备证书换临时凭证”

AWS IoT Core 官方文档说明：

设备先用 X.509 证书认证
然后由 credentials provider 发放 temporary, limited-privilege security token
从而避免在设备上保存长期 AK/SK

这说明：

更成熟的设备安全模式不是“给设备发一个长期密钥”，而是：

每台设备有硬件级或证书级身份，然后再换取短期、低权限凭证

2.8 更成熟的商业计量模式是“权威事件 + Meter + Threshold”

Stripe 官方 usage-based billing 文档里，已经形成一套非常成熟的模式：

Meter 负责聚合 usage event
Meter 支持 sum/count/last
Meter event 可以带 dimensions
可以做 usage threshold 和 alerts

这说明：

商业化量产不应该围绕“单个 token 的实时余额”去设计用户产品，而应该围绕：

entitlement
included usage
overage
threshold alert
authoritative usage event

来设计。

3. 研究后的新结论

基于上面的事实，我认为更成熟的方案不是“让设备直接调用方舟文本 API，然后自己用业务 token 切片兜住”。

更成熟的方案应该是：

设备证书身份 + 临时资源密钥 + 托管 AI 网关 + 自建接入点 + 平台侧权威计量 + 账本分账

它比前面几版方案更成熟的点在于：

安全模型更像成熟 IoT 平台
网关能力更多利用托管能力而不是自建轮子
计量更多依赖平台 authoritative usage 而不是设备估算
商业化表达更多围绕 entitlement 和 threshold，而不是对用户暴露原始 token

4. 新版推荐方案

4.1 方案名称

量产成熟版：设备证书 + AI 网关 + 临时 API Key / JWT + 权威计量账本

4.2 方案总览

设备
  │
  ├─ 1. 用设备证书或安全芯片身份登录你的控制服务
  │
  ├─ 2. 控制服务签发短期 JWT 或临时 API Key
  │
  ├─ 3. 设备调用你的 APIG / AI Gateway
  │
  ├─ 4. AI Gateway 做会话保持、限流、Fallback、统一鉴权
  │
  ├─ 5. Gateway 再访问你绑定的方舟自建推理接入点
  │
  └─ 6. 云侧 usage / 回流 / 账单进入你的计量账本系统

你的服务端
  │
  ├─ 设备身份中心
  ├─ 临时凭证签发中心
  ├─ 套餐与 entitlement 中心
  ├─ 会话中心
  ├─ 权威计量账本
  ├─ 风控与审计
  └─ 运营与分账后台

5. 为什么这版更成熟

5.1 不再把设备当“可信模型客户端”

设备只做两件事：

证明“我是谁”
使用“短期、可撤销、范围受限”的调用能力

这样设备被逆向时，风险被压缩在：

当前短期凭证
当前资源范围
当前会话

而不是整个平台主能力。

5.2 把成熟网关能力拿来用

如果你自己从零实现：

JWT/HMAC 鉴权
限流
Fallback
会话亲和
黑白名单
路由切换

后面一定会花很多维护成本。
APIG / AI Gateway 已经提供了很多成熟基础设施，更适合量产阶段复用。

5.3 用“平台权威计量 + 内部账本”替代“设备估算真相”

成熟做法不是：

让设备自己算用了多少，然后服务端信它

成熟做法是：

设备估算只用于低水位续权
平台权威 usage 用于最终结算
内部账本做预占、扣减、释放、调整和审计

5.4 更适合商业化

你真正卖给用户的不是 token，而是：

月度权益
设备数
高级功能 entitlement
超额阈值
overage 规则

这个思路和成熟 SaaS 的 usage-based billing 更接近。

6. 核心架构设计

6.1 设备身份层

建议量产设备从出厂开始就有唯一身份。

推荐做法：

每台设备一个 device_id
每台设备一对设备密钥
私钥尽量放在安全芯片或安全区
服务端保存设备公钥或设备证书链

设备登录时：

带设备签名
带时间戳
带随机 nonce

这样可以防重放和仿冒。

6.2 临时凭证层

优先顺序建议如下：

方案 A：设备拿短期 JWT，只能调你的 APIG

适用：

你希望所有 AI 请求都经过你的网关
更重视风控、商业控制和灰度能力

优点：

安全边界最清晰
最利于统一路由和计量

方案 B：设备拿方舟 `GetApiKey` 的临时 API Key，但必须资源绑定

适用：

你要让一部分能力更靠近云侧直连
但仍不想下发长期主 API Key

要求：

严格限制 ResourceType 和 ResourceIds
TTL 尽量短
必须配合服务端会话状态控制

最终建议

量产第一版以 JWT -> APIG / AI Gateway 为主，
临时 API Key 作为少数场景的增强能力或旁路能力。

原因：

JWT + APIG 更容易统一治理
临时 API Key 更适合当“平台能力”，不适合作为你主要商业控制面的唯一抓手

6.3 网关层

网关层建议使用托管 APIG / AI Gateway，而不是完全自研。

网关至少承担：

JWT / HMAC 鉴权
session affinity
route 到不同 endpoint
fallback 到备用模型
全局限流
黑白名单
灰度发布

6.4 模型接入层

建议为生产业务准备：

主自建推理接入点
备用推理接入点
高峰期保障并发的模型单元

不要把量产主链路长期依赖在共享公共资源池。

6.5 计量与账本层

推荐采用“双层计量”：

第一层：实时业务账本

用于：

会话预占
低水位续权
entitlement 校验
前台提示

第二层：权威计量结算

基于：

平台 usage
平台账单
数据回流

用于：

最终扣费
差异纠偏
财务对账
客诉核查

7. 用户体验策略

7.1 续权必须无感

续权动作不要等额度用尽才触发。

建议：

低水位阈值 25% 到 35%
后台静默续权
当前流式任务不断流

7.2 长任务一定要有自然边界

长故事、长续写、长播报必须按：

句子
段落
章节片段

来切分租约，而不是按底层 token 生硬截断。

7.3 grace quota 必须保留

推荐为每个长任务都保留一个小额 grace bucket：

不用于常规消耗
只用于“把当前片段收完”

这样可以极大改善用户体感。

8. 商业化设计

8.1 面向用户的售卖方式

建议卖：

基础包：月度陪伴次数 / 时长
故事包：月度故事次数
高级包：高质量模型 entitlement
家庭包：可绑定设备数
企业包：独立配额池 + 分账报表

不要让最终用户直接理解内部 token。

8.2 entitlement 与 overage

更成熟的商业模式不是“余额归零就死停”，而是：

套餐内含额度
额度不足时触发告警
到阈值后做降级、限速、限制高级功能或 overage

8.3 分账

火山方舟已经给出分账最佳实践，维度包括：

账号
项目
标签
配置名称 / 计费单元
createdBy

你自己的系统里建议同步保留：

tenant_id
channel_id
user_id
device_id
plan_id
feature_id

这样可以同时支持：

内部分账
渠道结算
用户级账单

9. 我建议的最终落地形态

如果只选一版，我建议你这样做：

9.1 主路径

设备证书 -> 登录控制服务 -> 获取短期 JWT -> 调用 APIG / AI Gateway -> Gateway 调方舟自建 endpoint -> usage 回到账本

9.2 媒体路径

如果场景有 RTC / 实时媒体：

媒体流尽量直连云侧
会话控制和高价值文本任务仍走你的控制面和网关

9.3 临时 API Key 的使用方式

GetApiKey 不建议作为所有设备的常规主调用方式。
更建议把它用于：

受控的旁路能力
少量可信环境
特定 bot / endpoint 的短期授权

不要把它变成所有量产设备的常驻主模式。

10. 这版方案和前面几版的关系

相比“设备直连方舟文本 API + 业务切片”

新方案更成熟，因为：

更像官方已经支持的临时凭证模式
更像成熟 IoT 的设备身份模式
更像成熟 SaaS 的权威计量模式

相比“全量自研代理网关”

新方案更成熟，因为：

充分复用托管 APIG / AI Gateway 能力
少造轮子
更利于量产阶段运维

相比“完全全量代理”

新方案更轻，因为：

不必让最重的媒体流全经过你
文本与控制流量依然可控

11. 最终推荐

经过这轮外部调研后，我给你的单一推荐结论是：

量产成熟版 = 设备证书身份 + 短期 JWT 主路径 + APIG/AI Gateway + 自建方舟接入点 + 平台权威计量 + 内部账本分账

这版是我目前看下来最平衡的一版：

比纯设备直连安全
比全量自研网关成熟
比完全全量代理更轻
比业务 token 切片思路更适合长期商业化

12. 参考来源

以下是本次收敛时重点参考的官方资料：

14 KiB Raw Permalink Blame History Unescape Escape

研究版成熟方案：设备证书、AI 网关、临时密钥与权威计量

1. 文档说明

2. 调研得到的关键事实

2.1 火山方舟已经支持“临时 API Key”

2.2 火山方舟已经有查询用量和控制台用量统计能力

2.3 火山方舟支持“数据回流”

2.4 生产级 QPS 建议使用“自建推理接入点”

2.5 火山 API 网关已经具备成熟的网关能力

2.6 火山方舟高代码应用已经出现“APIG 触发器 + JWT”模式

2.7 IoT 领域的成熟模式是“设备证书换临时凭证”

2.8 更成熟的商业计量模式是“权威事件 + Meter + Threshold”

3. 研究后的新结论

4. 新版推荐方案

4.1 方案名称

4.2 方案总览

5. 为什么这版更成熟

5.1 不再把设备当“可信模型客户端”

5.2 把成熟网关能力拿来用

5.3 用“平台权威计量 + 内部账本”替代“设备估算真相”

5.4 更适合商业化

6. 核心架构设计

6.1 设备身份层

6.2 临时凭证层

方案 A：设备拿短期 JWT，只能调你的 APIG

方案 B：设备拿方舟 GetApiKey 的临时 API Key，但必须资源绑定

最终建议

6.3 网关层

6.4 模型接入层

6.5 计量与账本层

第一层：实时业务账本

第二层：权威计量结算

7. 用户体验策略

7.1 续权必须无感

7.2 长任务一定要有自然边界

7.3 grace quota 必须保留

8. 商业化设计

8.1 面向用户的售卖方式

8.2 entitlement 与 overage

8.3 分账

9. 我建议的最终落地形态

9.1 主路径

9.2 媒体路径

9.3 临时 API Key 的使用方式

10. 这版方案和前面几版的关系

相比“设备直连方舟文本 API + 业务切片”

相比“全量自研代理网关”

相比“完全全量代理”

11. 最终推荐

12. 参考来源

14 KiB

Raw Permalink Blame History

方案 B：设备拿方舟 `GetApiKey` 的临时 API Key，但必须资源绑定