蓝戒博客

  • 首页
  • 研发说
  • 架构论
  • 效能录
  • AI谈
  • 随笔集
智构苍穹
融合 AI、架构与工程实践,沉淀方法论,构建可持续的技术价值。
  1. 首页
  2. AI谈
  3. 正文

bb-browser:把你的真实浏览器,变成 AI Agent 的互联网入口

2026年3月31日 6点热度 0人点赞 0条评论

大家好,我是蓝戒,本篇我们来聊聊“bb-browser”

AI 会写代码、会调 API、会读文档,但一到“真正上网”这一步,很多能力就突然掉线了。

原因很简单:互联网从来不是为 Agent 设计的,而是为浏览器设计的。

这也是我最近看到 bb-browser 时,觉得它特别值得聊的原因。它没有沿着传统思路继续卷“更强的爬虫”“更稳的反爬”“更复杂的浏览器自动化”,而是直接换了一个方向:

既然绝大多数网站都没有为机器提供好用的 API,那就别逼网站适配机器了,干脆让机器直接使用人类已经在用的浏览器。

一句话概括它的核心理念就是:

你的浏览器就是 API。​

这句话看上去有点狂,甚至有点“不讲武德”,但越往下看,你越会发现这不是一句口号,而是一套非常有现实感、也非常有想象力的工程思路。

根据项目公开资料,bb-browser 通过 Chrome 扩展、CLI、Daemon 和 MCP Server,把你已经登录好的真实浏览器,变成 AI Agent 可以直接调用的互联网入口。它当前公开列出的能力包括 36 个平台、103 个命令,覆盖搜索、社交媒体、新闻、开发、视频、金融、招聘、知识等多个场景。

为什么这个项目一眼就让人上头?​

很多人第一次接触这类工具,最容易忽略的一点是:

真正麻烦的从来不是“打开网页”,而是“以真实用户身份稳定地打开网页”。

写过爬虫的人都懂,最痛苦的根本不是解析 HTML,而是登录态、Cookie、Token、签名、风控、反爬、权限、上下文。

你可能今天刚把脚本跑通,明天接口参数就变了;你可能本地抓到请求了,线上一跑就被拦;你可能好不容易拿到了 Cookie,过几天又失效;你可能以为自己在调接口,实际上还在跟网站的一整套前端运行时博弈。

问题并不是开发者不够努力,而是你一直站在网站外面,试图模仿一个用户。

bb-browser 的思路恰恰相反:既然你本来就在浏览器里,为什么不让 AI 直接进入这个浏览器上下文?

项目文档里写得很直白,它不是要求网站提供额外接口,而是让适配器直接运行在你的浏览器标签页中,可以在页面上下文里执行逻辑、调用带着你 Cookie 的 fetch(),甚至在必要时借用页面自己的模块能力。网站为什么会把请求当成“真实用户行为”?因为它确实就是从真实用户的浏览器里发出去的。

它到底厉害在哪?不是“自动化”,而是“换解法”​

这件事听起来很简单,但它改变的,其实是 Agent 访问互联网的基本假设。

过去的默认思路是:Agent 想联网,先找 API;没有 API,就写爬虫;爬虫不稳,就上无头浏览器;无头浏览器被识别,就继续想办法绕。整个过程像是在一堵墙外面不断加长梯子。

而 bb-browser 做的,是直接去开门。

它没有试图把互联网改造成机器友好型世界,而是承认一个事实:人类早就有一套成熟的互联网访问入口,那就是浏览器。登录态、鉴权、前端状态、交互上下文,全都已经存在。与其重新复制一遍,不如直接拿来用。

这就是为什么我会觉得 bb-browser 不是“又一个自动化工具”,而是一种可能会影响 AI Agent 落地方式的基础思路。

它的架构不花哨,但很聪明

从公开信息来看,bb-browser 的整体架构并不花哨,但很有效。

上层既可以通过 CLI 使用,也可以通过 MCP Server 接入 Agent 工作流;中间由 daemon 负责通信;再通过 Chrome 扩展连接真实浏览器,最终借助浏览器调试能力完成操作。项目还提供了 OpenClaw 模式,在特定场景下甚至不需要额外装扩展。

这种设计有一个特别现实的优点:它不是把自己做成“只能演示、很难接入”的玩具,而是尽量让它能进入真实工作流。

你可以把它当成独立命令行工具来用,也可以把它当成 MCP Server 接给 Claude Code、Cursor 这类 Agent 工作环境。换句话说,它不是一个“功能”,而是一层“能力接口”。

真正关键的一步:它不是点网页,而是在“适配网站”​

真正让我觉得这个项目有潜力的地方,是它没有停留在“能控制浏览器”这件事上,而是继续往前走了一步:把网站能力抽象成了 Site Adapter。

这点非常关键。

因为如果只是控制浏览器,那它的价值更多还是自动化;但如果它把网站操作进一步抽象成一条条可调用命令,那它就开始接近“互联网能力层”了。

从 README 看,bb-browser 的命令体系已经覆盖了不少主流场景。比如搜索引擎、社交平台、开发社区、视频平台、财经网站、招聘网站、百科知识等,都有对应适配器。命令背后依赖的是社区维护的 bb-sites 仓库,每个命令本质上就是一个 JS 文件。也就是说,bb-browser 想做的不是“帮你点页面”,而是“把网站变成结构化接口”。

这一步一旦成立,意义就很不一样了。

因为一个工具最怕每次都从零开始。今天为了某个平台写一套脚本,明天为了另一个平台再写一套;每次都得重新理解页面、重新抓包、重新处理认证,效率极低,也几乎无法形成复用。

但 Site Adapter 的思路是,一次抽象,长期复用;一个人打通,社区共享;AI 不只是用工具,还能继续扩展工具。

最有想象力的地方:AI 可以给自己“修路”​

项目文档里甚至把新增网站的过程讲得非常激进:如果网站不在列表里,可以让 AI Agent 去读 guide、抓网络请求、分析认证方式、写 adapter、测试、提交 PR。README 里把适配器复杂度分成三层,最简单的站点可能一分钟左右就能搞定,复杂一些的三分钟、十分钟级别。

你可以说这个表述很理想化,但这并不影响它传递出的信号:bb-browser 正在降低“让一个网站被 Agent 使用”的边际成本。

这一点,可能比它已经支持了多少平台更重要。

因为平台数量只能说明现在,扩展机制才决定未来。

真实案例 1:它不是从概念出发,而是从真实痛点出发

而且,这个项目最有意思的地方在于,它不是凭空画饼,它背后已经有一些很能说明问题的真实案例。

一个非常典型的案例,来自作者自己的公开分享。

他提到,这个项目最初并不是为了做一个“大而全”的 Agent 上网系统,而是为了解决自己一个很具体的小问题:在社区平台上看评论、整理内容、翻译回复时,整套流程太手工了。看评论、复制、贴给 AI、翻译、组织回复、再粘贴回去,重复又低效。于是他开始想,能不能让 Agent 直接借助自己已经登录的浏览器来处理这件事。结果,一个 Reddit 适配器很快做出来了,后面更多网站也顺着这个思路接了进来。

这个故事特别值得注意,因为它不是“先做技术,再找场景”,而是从一个真实到不能再真实的工作流痛点长出来的。

很多产品的问题在于,概念很大,落地很虚;但 bb-browser 这个出发点非常朴素:我已经登录了网站,我已经在浏览器里了,为什么 AI 不能直接利用这个环境?

真实案例 2:复杂签名问题,换个姿势就解了

另一个更有冲击力的案例,是作者提到的复杂站点搜索接口问题。

公开分享中提到,某社交平台的搜索请求依赖动态生成的签名参数,这类机制对传统爬虫来说非常头疼,因为你需要在站外复刻网站内部逻辑,一旦网站更新,脚本就容易失效。

结果在 bb-browser 的思路下,处理方式不是“在外面猜”,而是直接进入页面自己的模块体系里调用已有函数,让页面自己完成签名,然后再发起请求。

这个案例为什么重要?

因为它揭示了 bb-browser 最核心的价值:不是提高了多少“抓取速度”,而是换掉了问题的求解方式。

传统爬虫是在浏览器外面复制一个浏览器;bb-browser 是直接进入浏览器里面借力。

这两者的稳定性、维护成本和扩展效率,往往差得不是一点半点。

真实案例 3:20 个 Agent 并发做适配器,这味道就不一样了

还有一个广为传播的案例,是多 Agent 并发生成适配器。

根据项目 README 和作者公开分享,曾有 20 个 Agent 并行处理多个网站,分别完成抓包、识别认证方式、编写 adapter、测试验证等工作,最终快速扩充了社区适配器数量。README 中甚至明确写到,把新网站纳入 Agent 可访问互联网的边际成本正在接近零。

如果这件事能持续成立,那它的意义其实已经超出单个项目了。

因为这意味着 Agent 的能力建设,不再只是开发者手工堆工具,而开始出现一种“Agent 为自己造工具,再把工具沉淀进生态”的自增长模式。

说得更直白一点:以前我们总说 AI 会用工具,但 bb-browser 让人看到的,是 AI 正在开始为自己修路。

它最真正的价值:重新定义了“联网成本”​

这也是为什么我认为 bb-browser 的价值,不只是“提高效率”,而是“重新定义联网成本”。

过去,给 Agent 接互联网的代价,取决于平台愿不愿意给 API、接口难不难逆、授权复不复杂、风控严不严、文档全不全。这些东西开发者很多时候没有主动权。

但在 bb-browser 这里,成本模型变成了另一种样子:只要你能在浏览器里正常访问网站,只要有人能把它抽象成一个适配器命令,这个网站就有机会被纳入 Agent 的工作流。

这就把“互联网接入权”从平台端,部分拉回到了用户与开发者手里。

放到真实工作流里,它到底能怎么用?​

而且,这个思路非常适合当下 AI Agent 的真实使用场景。

1. 跨平台信息研究

过去你想调研一个主题,要自己分别去搜索引擎、论文站、社区论坛、代码仓库、新闻网站、问答平台搜一圈,再手动整理。

现在如果 Agent 能直接调用这些站点能力,把不同来源结果统一成结构化数据,那它做的就不再只是“搜索”,而是“跨平台研究助理”。项目文档中也给出了类似示例:围绕同一主题跨多个平台获取结果,统一输出 JSON。

2. 登录态内容访问

很多真正有价值的内容,并不在公开页面上,而在你的关注流、收藏夹、个性化推荐、订阅列表、观察列表、已登录社区视图里。

传统工具往往在这些地方就失效了,因为缺失真实会话。而 bb-browser 的优势恰恰在于,它不是从外部硬闯,而是借助你已有的登录环境进入这些场景。

3. 日常自动化与信息搬运

每天汇总行业资讯、筛选 GitHub 项目动态、整理招聘信息、跟踪财经数据、提炼社区讨论、辅助内容选题,这些工作本质上都不复杂,但极其消耗时间。

一个真正好用的 Agent,不一定要替你做所有决策,但至少应该能先把信息搬运、归类、结构化。bb-browser 在这一步上,很可能比很多“高概念 Agent”更接地气。

当然,它也不是没有边界

聊到这里,也必须说清楚:bb-browser 并不是没有边界。

首先,它非常依赖真实浏览器和真实登录态,所以它天然更适合个人电脑、开发环境、可信工作站,而不一定适合完全无状态、标准化、纯后端的云端批处理场景。

其次,因为它连接的是你的真实账号环境,所以权限、会话、隔离和安全边界一定要认真处理。作者在公开分享里也提到过一个很实用的建议:可以专门准备一个浏览器实例,登录常用网站,把它作为 bb-browser 的工作浏览器,而不是直接拿主浏览器裸奔。这个建议听起来朴素,但其实非常重要。

再者,它也不意味着官方 API、传统爬虫、常规浏览器自动化就没价值了。标准化、正式集成、长期稳定的业务链路里,官方 API 依旧是优先选项;页面测试、行为脚本、固定自动化任务,也仍然有成熟工具可用。

bb-browser 解决的,更像是一块长期没人真正补好的空白地带:当网站没有开放合适接口,但人类又确实能正常使用时,Agent 终于有机会以低摩擦方式接入这个网站。

为什么我觉得它值得持续关注?​

这正是它最迷人的地方。

它不是一套理想化的“未来互联网标准”,而是一套极其现实的“今天就能工作”的方案。

它没有要求整个世界为 AI 重写一遍接口,而是直接借用了人类已经构建好的那套入口。它也没有执着于最优雅、最正统的工程路径,而是优先考虑最有效、最贴近真实场景的那条路。

所以如果你问我,bb-browser 到底值不值得关注,我的答案是:非常值得。

不是因为它已经完美了,而是因为它抓住了一个很多人都忽视、但又极其关键的问题——AI Agent 真正缺的,未必是更强的模型,而是更低成本、更少阻力、更贴近现实的互联网访问能力。

最后

bb-browser 给出的回答是:别再逼互联网适配 Agent 了,让 Agent 去使用浏览器。

而浏览器,本来就是人类世界最通用的互联网 API。

在这个意义上,bb-browser 最厉害的,并不是帮 AI 学会了“自动打开网页”,而是让 AI 第一次更像一个真正活在互联网里的使用者。

开源地址: GitHub:https://github.com/epiral/bb-browser

标签: AI Agent bb-browser Chrome 扩展 MCP Server 浏览器自动化
最后更新:2026年3月30日

cywcd

我始终相信,技术不仅是解决问题的工具,更是推动思维进化和创造价值的方式。从研发到架构,追求极致效能;在随笔中沉淀思考,于 AI 中对话未来。

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

cywcd

我始终相信,技术不仅是解决问题的工具,更是推动思维进化和创造价值的方式。从研发到架构,追求极致效能;在随笔中沉淀思考,于 AI 中对话未来。

最新 热点 随机
最新 热点 随机
VibeVoice 火了:这个开源语音 AI,正在重塑播客和语音 Agent bb-browser:把你的真实浏览器,变成 AI Agent 的互联网入口 99%的人都误解了“口才好”:真正的表达力,只靠这 3 个框架 Dan Koe:不想打工?用这套方法把兴趣变成收入 GitHub 榜一项目 MoneyPrinterV2 爆了:它真的是“自动印钞机”吗? 别再盲下大模型了:用 llmfit 一秒看懂你的电脑到底能跑谁
OpenClaw 太费 Token 的终极解决方案(可省 90%+)Codex + Agent Browser:让 AI 精准还原前端 UI 的新范式(从设计稿到像素级实现)低门槛快速搭建为自己干活的 OpenClaw 打工虾近2亿阅读《如何在一天内彻底改变你的人生》原文完整翻译与总结思考Agent 生态分裂:OpenClaw 之外,OpenFang 给出另一条路AI 编程神器 Qoder 专业版免费体验攻略 + QoderWork 全面解析
别再盲下大模型了:用 llmfit 一秒看懂你的电脑到底能跑谁 前端 Worker + WebAssembly + 主线程协作:一次讲清高性能计算模型 js页面滚动到一定位置时触发事件:隐藏、固定显示相互切换 OpenClaw 接入飞书完整教程:打造专属 AI 超级助手 js判断浏览器类型并区分IE不同版本 网页顶部页面加载线性进度条js及css3实现方法
最近评论
渔夫 发布于 5 个月前(11月05日) 学到了,感谢博主分享
沙拉小王子 发布于 8 年前(11月30日) 适合vue入门者学习,赞一个
沙拉小王子 发布于 8 年前(11月30日) 适合vue入门者学习,赞一个
cywcd 发布于 9 年前(04月27日) 请参考一下这篇文章http://www.jianshu.com/p/fa4460e75cd8
cywcd 发布于 9 年前(04月27日) 请参考一下这篇文章http://www.jianshu.com/p/fa4460e75cd8

COPYRIGHT © 2025 蓝戒博客_智构苍穹-专注于大前端领域技术生态. ALL RIGHTS RESERVED.

京ICP备12026697号-2