在使用 OpenClaw + 付费大模型(如 GPT-4 / Claude / OpenRouter 模型) 时,很多人都会遇到一个问题:
👉 Token 消耗极快,费用上涨明显,尤其是在 Multi-Agent 场景下更严重。
本文分享一套 多智能体(Multi-agent)低成本高质量输出的落地方案,适合正在使用 OpenClaw 或自研 Agent 框架的开发者。
一、为什么 Multi-agent 容易“Token 爆炸”?
多智能体的典型流程:
用户输入
→ Agent A 思考
→ Agent B 分析
→ Agent C 生成
→ Agent D 复核
问题在于:
- 每个 Agent 都重复携带大量上下文
- 多轮对话历史全部传递
- Prompt 设计冗长
- 使用高价模型做简单任务
- 没有分层模型策略
最终结果:
- 单任务消耗上万 Token
- 复杂任务消耗数十万 Token
- 成本不可控
二、核心思路:模型分层 + 任务拆解 + 上下文压缩
低成本高质量输出的核心不是“换便宜模型”,而是:
让贵模型只做高价值决策
让便宜模型做重复执行
让上下文尽可能短
三、最佳架构:分层多模型 Multi-Agent 架构
推荐结构:
高端模型(决策层)
│
┌───────────┴───────────┐
中端模型(规划/结构) 中端模型(分析)
│ │
低端模型(执行) 低端模型(执行)
1️⃣ 第一层:高端模型(少量调用)
用途:
- 任务拆解
- 结构设计
- 策略判断
- 质量评估
调用频率:极低
示例:
- GPT-4
- Claude Opus
只在关键节点调用。
2️⃣ 第二层:中端模型(结构与规划)
用途:
- 生成目录
- 输出 JSON 结构
- 生成步骤
- 生成规则
示例:
- GPT-4o-mini
- Claude Sonnet
- OpenRouter 中端模型
成本明显下降。
3️⃣ 第三层:低端模型(执行层)
用途:
- 内容填充
- 文本扩写
- 改写润色
- 数据格式化
示例:
- DeepSeek Chat
- GPT-3.5
- 其他开源模型
这是最大降本点。
四、降低 Token 的关键技巧
1️⃣ 绝对不要传完整历史
错误方式:
messages: 全量历史
正确方式:
- 只传当前任务所需上下文
- 任务结束即丢弃
- 使用结构化状态而非对话历史
2️⃣ 使用 JSON 状态替代对话
❌ 低效:
“刚刚你说的第三点...”
✅ 高效:
{
"task": "写博客",
"outline": ["问题", "原因", "解决方案"]
}
结构化数据 Token 更少。
3️⃣ 使用摘要压缩上下文
长文本 → 摘要模型 → 精简输入
流程:
长文档
→ 便宜模型摘要
→ 传给贵模型决策
Token 可降低 60% 以上。
4️⃣ 使用“工具化执行”替代语言生成
例如:
- 代码生成 → 用函数调用
- 数据处理 → 用脚本
- 文件操作 → 用工具
减少模型参与环节。
五、OpenClaw 场景实战优化
假设你在做一个自动写博客 Agent:
❌ 原始方式
- 一个 GPT-4 Agent
- 负责:
- 选题
- 结构
- 写作
- SEO
- 修改
单篇 30k Token 起步。
✅ 优化方式
流程设计:
1️⃣ 规划 Agent(高端模型)
→ 输出目录
2️⃣ 内容 Agent(中端模型)
→ 分章节写作
3️⃣ SEO Agent(低端模型)
→ 生成关键词
4️⃣ 审核 Agent(高端模型)
→ 只做评分,不改写
成本下降:
- Token 降低 50%~80%
- 输出质量反而更稳定
六、进阶优化:智能路由模型
可以实现:
如果任务简单 → 直接低端模型
如果复杂 → 升级到高端模型
实现方式:
- 评分器 Agent
- 或基于规则判断
例如:
if (complexityScore > 7) {
model = "gpt-4"
} else {
model = "gpt-4o-mini"
}
七、真正的关键:减少“无意义思考”
Multi-agent 常见浪费:
- 每个 Agent 都在“重新理解任务”
- 反复自我总结
- 多次复述用户需求
优化原则:
- 任务一次解析
- 后续全部使用结构化状态
- Agent 只做本职工作
八、推荐多智能体低成本方案总结
| 层级 | 模型 | 任务 | 频率 |
|---|---|---|---|
| 决策层 | 高端模型 | 拆解 / 评分 | 少 |
| 结构层 | 中端模型 | 规划 / JSON | 中 |
| 执行层 | 低端模型 | 内容生成 | 多 |
核心原则:
- 贵模型少用
- 历史上下文不传
- 使用结构化状态
- 动态模型路由
九、最终结论
Multi-agent 并不是越多越好。
真正高质量低成本的关键是:
让每个 Agent 专业化
让模型分层
让上下文最小化
如果架构设计合理:
- 成本可降低 70%+
- 输出更稳定
- 系统更可扩展
文章评论