diff --git a/README.md b/README.md
index 18740e1..a24dc2b 100644
--- a/README.md
+++ b/README.md
@@ -328,8 +328,10 @@ npm run aab:release
 - 当前默认最高管理员账号：`17600003315`
 - 当前默认测试密码：`boss123456`
 - 当前本机 Codex 节点 `mac-studio` 已绑定到 `17600003315`
-- 主 Agent 对话当前真实执行链路是：`Boss Web -> master-agent task queue -> local-agent -> codex exec -> complete task -> project ledger`
-- 主 Agent 同步等待窗口已调到 55 秒；如果本机 Codex 节点执行较慢，项目页也会通过 SSE 在任务完成后自动刷新出真实回复
+- 主 Agent 对话当前真实执行链路是：`Boss Web -> 写入用户消息 -> 返回 queued/running -> master-agent task queue -> local-agent / OpenAI API -> complete task -> project ledger`
+- `master-agent` 单聊当前已改成“快速入队 + 异步回流”：发送后会立即返回任务包和 `masterReplyState`，前台先显示“主 Agent 思考中”，真实回复稍后自动回写到账本
+- `master-agent` 单聊当前已支持当前对话级别的 `模型 / 推理强度` 覆盖，服务端会优先把该会话的 `agentControls` 用到实际 OpenAI 回复和 Master Codex Node 执行 prompt 中
+- 原生 Android 当前在 `master-agent` 聊天页右上角提供微信式 `...` 菜单，菜单项包含 `模型 / 推理强度 / 会话信息 / 刷新`
 - 服务器已经部署 `Postfix + Dovecot`，邮箱别名 `verify@boss.hyzq.net` / `no-reply@boss.hyzq.net` 当前会投递到本机 `bossmail` 邮箱
 - 应用内 `POST /api/auth/send-code` 已经支持 email 模式，并可通过 `/opt/boss/.env.server` 切换；本轮已临时切到 email 模式验证成功，随后恢复默认 fixed
 - 应用内 `GET /api/v1/user/ota` / `POST /api/v1/user/ota` / `GET /api/v1/user/ota/package` 现在已经支持 OTA 状态、检查更新、执行升级和 APK 包下载
@@ -341,4 +343,4 @@ npm run aab:release
 - 图片 / PDF / 文本默认自动进入主 Agent 附件分析；视频 / Office / 大文件默认手动触发
 - 当前采用“极轻云 + 本地设备端”的路线，云端只承载 Web、轻 API 和状态文件
 - 服务器侧主 Agent 对话能否返回真实大模型回复，依赖被绑定设备的 `local-agent` 在线并能执行 `codex exec`；服务器本身不直接持有主 GPT 会话
-- 原生 Android 当前对 `master-agent` 聊天消息已单独放宽读超时到 `65s`；不会再因为默认 `12s` 超时把“主 Agent 无响应”误判成对话失败
+- 原生 Android 当前不再依赖长时间同步等待 `master-agent` 完整回复；消息发送后会立即进入“主 Agent 思考中”状态，并通过后台轮询刷新真实回复
diff --git a/docs/architecture/api_and_service_inventory_cn.md b/docs/architecture/api_and_service_inventory_cn.md
index 7549fa9..4b404ad 100644
--- a/docs/architecture/api_and_service_inventory_cn.md
+++ b/docs/architecture/api_and_service_inventory_cn.md
@@ -340,7 +340,7 @@
 - 当前行为：
   - 普通单线程项目当前会在写入用户消息后，继续创建 `taskType=conversation_reply` 的主 Agent 任务
   - 返回体会附带 `task.taskId / taskType / status`，给 Web 和原生 Android 保持等待真实回写使用
-  - `projectId=master-agent` 且 `kind=text` 时，会继续触发主 Agent 真实回复链路
+  - `projectId=master-agent` 且 `kind=text` 时，会先返回 `masterReplyState + task`，真实回复随后异步回写到账本
   - 当前主链路优先走 `Master Codex Node`：`task queue -> local-agent -> codex exec -> complete`
   - 如果当前主控是 `Master Codex Node`，但节点离线或执行立即失败，主 Agent 当前会优先尝试已配置的 `OpenAI API` 账号，避免聊天直接只剩失败日志
   - 如本机节点未接通，可切到 `OpenAI API` 容灾账号
@@ -348,6 +348,21 @@
   - 群聊文本消息当前还会返回 `dispatchPlan / dispatchRecommendation`，用于展示主 Agent 推荐的线程下发方案
   - 如果群里已经有一条待确认推荐，接口会直接返回 `409`，要求先确认或拒绝当前推荐，避免审批消息叠加
 
+#### `GET /api/v1/projects/[projectId]/agent-controls`
+
+- 用途：读取当前对话级别的 `modelOverride / reasoningEffortOverride`
+- 当前约束：
+  - 当前只支持 `projectId=master-agent`
+  - 未配置时返回 `controls: null`
+
+#### `POST /api/v1/projects/[projectId]/agent-controls`
+
+- 用途：更新当前对话级别的 `modelOverride / reasoningEffortOverride`
+- 当前约束：
+  - 当前只支持 `projectId=master-agent`
+  - 仅 `highest_admin` 可写
+  - 显式传 `null` 或空字符串表示清空覆盖；省略字段表示保留原值
+
 #### `GET /api/v1/projects/[projectId]/participants`
 
 - 用途：读取单线程会话的线程归属信息，或群聊会话的成员线程列表
diff --git a/docs/architecture/current_runtime_and_deploy_status_cn.md b/docs/architecture/current_runtime_and_deploy_status_cn.md
index f587506..f41bf40 100644
--- a/docs/architecture/current_runtime_and_deploy_status_cn.md
+++ b/docs/architecture/current_runtime_and_deploy_status_cn.md
@@ -132,7 +132,8 @@ cd /Users/kris/code/boss
 - 因此 `POST /api/v1/accounts/onboard/openai-api` 在公网环境下已经能返回明确中文网络错误，但在服务器出网恢复前，还不能完成真实 OpenAI 平台账号探针与调用
 - `POST /api/v1/accounts/[accountId]/validate` 当前对 `master_codex_node` 不再只看 `nodeId`，还会同时校验绑定设备是否在线；设备离线时返回 `degraded` 和清晰的人类可读提示
 - 主 Agent 当前真实对话链路已验证通过：`Boss Web -> /api/v1/projects/master-agent/messages -> master-agent task queue -> local-agent -> codex exec -> /complete -> 项目消息账本`
-- 主 Agent 同步等待窗口当前为 55 秒；若本机 Codex 节点回复更慢，项目页仍会通过 SSE 在任务完成后自动刷新出真实回复
+- 主 Agent 单聊当前已改成“快速入队 + 异步回流”：`POST /api/v1/projects/master-agent/messages` 会先返回 `masterReplyState + task`，真实回复随后再回写消息账本
+- 当前对话级 `agentControls` 已经生效：`master-agent` 会话支持 `modelOverride / reasoningEffortOverride`，并会优先作用到实际 OpenAI 回复和 Master Codex Node 执行 prompt
 - `GET /api/v1/app-logs` 当前已支持登录态分页查询
 - `POST /api/v1/app-logs`、`POST /api/v1/devices/[deviceId]/skills`、`POST /api/v1/workers/[workerId]/thread-context` 当前都要求有效设备 token 或匹配登录会话
 - 设备页当前只保留生产设备；旧演示脏数据已经从设备、运维和审计聚合视图里剔除
@@ -175,7 +176,7 @@ cd /Users/kris/code/boss
 - 当前历史脏群如果不再包含真实线程成员，群聊消息不会再表现成“无响应”；服务端会在群内追加明确 `system_notice`，提示先重新添加线程成员
 - 当前设备导入决议已经会先落 `device_import_resolution` master task 再写回结果，但决议内容仍是服务端 heuristic 版；下一阶段可再升级成真正通过 `local-agent -> codex exec` 参与理解的主 Agent 决议
 - 当前 `local-agent` 已改成先启动本地 `4317` 健康监听，再异步跑首次 heartbeat 和 task poll，避免控制面短时阻塞时本地健康探针不可用
-- 原生 Android 当前对 `master-agent` 聊天消息已单独放宽读超时到 `65s`；之前默认 `12s` 会把等待 `Master Codex Node / local-agent` 回写的长请求误判成“主 Agent 无响应”
+- 原生 Android 当前对 `master-agent` 聊天不再依赖长时间同步等待；发送后会先显示“主 Agent 思考中”，右上角改成微信式 `...` 菜单，菜单项包含 `模型 / 推理强度 / 会话信息 / 刷新`
 
 ## 2. 服务器状态