开源AI 搜索代理 MiroThinker 1.7：当大家还在卷参数，它已经开始卷“查证能力”了

2026年3月20日 236点热度 0人点赞 0条评论

引言：AI 搜索代理的新突破 🔥

在这个大模型"狂卷"参数和长文本的时代，你是否也陷入过"信息雾霾"？AI 给出的答案看似完美，却充满了似是而非的幻觉。

最近，一个名为 MiroThinker 的开源项目引起了我的注意。它不拼万亿参数，而是走了一条反共识的"发现式智能"路线。

在使用了一周并深度拆解了其 GitHub 代码后，我决定聊聊为什么我认为它可能是目前最接近"真相"的搜索智能体。

一、MiroThinker 是什么？🤔

MiroThinker 是由 MiroMind 团队开发的开源搜索代理模型（Search Agent），专为处理复杂研究和预测任务而设计。

团队背景

联合创始人：陈天桥（盛大网络创始人）+ 代季峰（清华大学 AI 青年学者）
核心成就：凭借成功预测 Polymarket 题目，连续登顶 Future X 全球榜首
开源地址：https://github.com/MiroMindAI/MiroThinker（7.1k Stars⭐）
在线体验：https://dr.miromind.ai/

模型版本	参数量	上下文窗口	最大工具调用
MiroThinker-1.7-mini	30B	256K	300 次
MiroThinker-1.7	235B	256K	300 次
MiroThinker-H1(专有)	-	-	-

二、核心创新：Interactive Scaling 🚀

要理解 MiroThinker 为什么厉害，我们需要先了解 AI 领域的一个核心概念：Scaling Law（规模法则）。

传统 Scaling Law 的困境

过去几年，AI 大模型的发展遵循一个基本规律：模型越大，效果越好。

基于这个规律，各大公司开始了参数军备竞赛：

GPT-3：1750 亿参数
GPT-4：据传万亿参数级别
国内模型：动辄几百亿、上千亿参数

但越来越多的研究表明，单纯增加参数的边际效益正在递减——你把参数从 1000 亿增加到 2000 亿，性能提升可能只有几个百分点。

MiroThinker 提出的新路径

MiroThinker 团队提出了一个不同的思路：与其不断增加模型内部的参数，不如增强模型与外部世界的交互能力。

他们把这个思路命名为 Interactive Scaling（交互式扩展）。

核心理念：模型性能的提升不一定来自"记住更多知识"，也可以来自"更好地获取和使用外部知识"。

Interactive Scaling 的三个维度

维度	说明	MiroThinker 实现
模型规模	增加参数量	8B/30B/72B/235B 多版本
上下文长度	处理更长输入	256K 上下文窗口
交互深度	与外部工具交互	最多 300 次工具调用

第三个维度是真正的游戏规则改变者。它意味着一个 30B 参数的模型，通过更好的工具使用策略，可以在特定任务上超越 1000B 参数的模型。

三、性能表现：小参数大能量 💪

光说不练假把式，让我们看看 MiroThinker 在各种测试基准上的实际表现。

权威基准测试成绩

基准测试	MiroThinker-1.7	MiroThinker-H1	对比参考
BrowseComp	74.0%	88.2%	超越 GPT-5.4、Claude-4.6
BrowseComp-ZH	75.3%	84.4%	开源模型 SOTA
GAIA-Val-165	82.7%	88.5%	所有模型最佳
HLE-Text	42.9%	-	人类终极测试

越级挑战：30B vs 1T

面对参数量高达 30 倍 的万亿参数巨兽 Kimi-K2-Thinking，MiroThinker-v1.5-30B 用极低的成本展示了旗鼓相当的表现：

对比项	MiroThinker-30B	Kimi-K2-Thinking
参数量	30B	~1000B
推理成本	$0.07/次	~$1.4/次
BrowseComp-ZH	超越 4.5%	-
推理速度	更快	-

成本仅为竞品的 1/20，性能却相当甚至更好！

四、技术架构深度解析 🔧

整体架构

┌─────────────────────────────────────┐
│         基础模型层                    │
│   (Qwen3-30B/235B 等)               │
├─────────────────────────────────────┤
│         Agent 框架层 (MiroFlow)      │
│   - 工具交互管理                     │
│   - 研究轨迹追踪                     │
│   - 上下文管理                       │
├─────────────────────────────────────┤
│           工具层                     │
│   - 网络搜索 | 网页浏览 | 代码执行    │
│   - 文件读取 | 音频转录 | 视觉问答    │
└─────────────────────────────────────┘

核心训练机制

MiroThinker 的训练目标不是让模型记住更多答案，而是让模型学会"不确定时主动查证"。

1. Evidence-Seeking（主动求证）

模型被鼓励将每一个关键判断拆解为可验证的子假设
主动发起对外查询、检索与比对
缺乏信源支撑的高置信输出会被惩罚

2. Iterative Verification（多轮校验）

推理不被视为一次性路径，而是可反复回溯修正的过程
发现证据冲突时，必须显式调整假设
不"带着错误继续推下去"

3. Anti-Hallucination（反幻觉）

对"看起来合理、但缺乏真实依据"的推理捷径零容忍
不仅评估答案是否正确，更关注答案是如何得到的

时序敏感训练沙盒

普通大模型训练常处在"上帝视角"——它在数据里早已"见过结果"，学到的往往是复述与"剧透"。

MiroThinker 的训练则约束模型"只能看过去，不能看未来"：

构建覆盖多任务类型的、难度与时间戳可控的数据合成体系
每一步训练只能访问当前时间戳之前的信息
彻底杜绝 Future Leakage（未来信息泄露）

五、实际应用场景 📊

场景 1：深度研究报告生成

任务：调研 2026 年全球 AI 大模型市场竞争格局

MiroThinker 表现：

进行 30+ 次搜索，浏览 10+ 网页
输出结构完整的研究报告
准确涵盖主要玩家，包括容易被遗漏的公司
每个结论都有引用来源和链接

场景 2：金融预测分析

任务：A 股连板股晋级预测

实测结果：

12 月 10 日：8 支二板股中精准押中唯一晋级成功的跃岭股份
12 月 11 日：9 支连板股中命中高位晋级者再升科技
12 月 12 日：不仅命中市场最高连板，还准确预判继续晋级（后续累计涨幅 58%）

注：以上仅为技术展示，不构成投资建议

场景 3：信息查证与事实核查

任务：GTA 6 明年能按时发布吗？

MiroThinker 表现：

围绕 R 星官方发布的权威信息进行多维度交叉验证
对比 ChatGPT、Gemini、DeepSeek 等模型
发现部分模型"忘了已经 2026 年"的时效性问题
给出有理有据的预测逻辑

六、部署指南 🛠️

方案一：在线体验（推荐新手）

访问官方 Demo：https://dr.miromind.ai/

无需部署，即开即用
支持文件上传（.pdf/.doc/.ppt/.xls/.jpg 等）
可生成、预览、分享研究报告

方案二：本地部署（开发者）

硬件要求

模型版本	建议 GPU 配置	显存需求
30B	2-4 卡 A100 或 4 张 RTX 4090	~70GB
235B	多节点集群	~500GB

快速开始

# 1. 克隆项目
git clone https://github.com/MiroMindAI/MiroThinker
cd MiroThinker

# 2. 安装依赖
cd apps/miroflow-agent
uv sync

# 3. 配置 API 密钥
cp .env.example .env
# 编辑 .env 文件，添加 SERPER_API_KEY、JINA_API_KEY 等

# 4. 启动推理服务（使用 SGLang）
NUM_GPUS=4
PORT=61002
AGENT_PATH=miromind-ai/MiroThinker-1.7-mini

python3 -m sglang.launch_server \
    --model-path $AGENT_PATH \
    --tp $NUM_GPUS \
    --host 0.0.0.0 \
    --port $PORT \
    --trust-remote-code

运行第一个任务

# 使用 MiroThinker 模型
uv run python main.py llm=qwen-3 agent=mirothinker_1.7_keep5_max200 llm.base_url=http://localhost:61002/v1

# 或使用 Claude/GPT（需在.env 中配置 API 密钥）
uv run python main.py llm=claude-3-7 agent=single_agent_keep5

方案三：Ollama 部署（消费级硬件友好）

# 1. 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 2. 下载 GGUF 量化模型（从 HuggingFace）
# 3. 创建 Modelfile 并运行

七、与其他方案对比 📈

vs OpenAI Deep Research

维度	OpenAI Deep Research	MiroThinker
是否开源	❌ 否	✅ 是
可定制性	低	高
成本	较高	较低（1/20）
性能	~50% (BrowseComp)	可比或超越
中文能力	一般	更好

vs Perplexity

Perplexity 偏向于快速问答，而 MiroThinker 更适合深度研究。

场景	推荐方案
快速查找事实	Perplexity
深度行业调研	MiroThinker
多源信息交叉验证	MiroThinker
日常问答	Perplexity

vs AutoGPT 等早期 Agent

问题	AutoGPT 类	MiroThinker
行为稳定性	容易不稳定	模型层面训练优化
循环问题	容易陷入循环	有反循环机制
工具调用成功率	较低	较高

八、总结与展望 🎯

为什么 MiroThinker 值得关注？

开源透明：模型权重、训练数据、代码框架全部开源
高性价比：30B 参数跑出 1T 性能，成本仅 1/20
反幻觉设计：从训练机制上减少"一本正经胡说八道"
中文友好：在 BrowseComp-ZH 等中文基准上表现优异
可定制性强：支持本地部署、工具扩展、领域微调

适用人群

✅ 推荐使用：

需要开源、可审计方案的团队
需要针对特定领域定制
需要本地化部署（数据隐私要求）
对成本敏感
需要处理中文内容

⚠️ 可能需要商业产品：

没有技术团队支持部署
需要即开即用的服务
对 SLA 有严格要求

未来展望

MiroThinker 代表的 Interactive Scaling 思路，可能会深刻影响 AI 发展的方向：

与其让模型"记住"更多东西，不如让模型"学会"更好地获取和使用外部信息。

这可能会改变整个行业的研发重点：

更多资源投入到 Agent 能力 的研发
更注重 工具生态 的建设
更关注模型与环境的 交互质量