大家好,我是蓝戒,本篇我们来聊聊 “opencli”
这两年,大家都在聊 AI Agent。
但真正卡住 Agent 的,往往不是“它会不会思考”,而是:
它到底能不能动手。
它会分析、会总结、会规划,甚至能帮你设计完整的 PPT 结构。
但一旦进入执行环节,问题就出现了:
- 去网页上搜信息
- 点按钮
- 填表单
- 调本地工具
- 打开桌面应用
这些在人类看来再自然不过的操作,对 AI 来说却很困难。
一句话总结就是:
脑子有了,手还没长出来。
而最近,有一个很有意思的开源项目——OpenCLI,正试图解决这个问题。
它做的事情非常直接,甚至有点“激进”:
把网站、Electron 应用、本地工具,全部变成命令行。
一句话评价:
离谱,但充满想象力。

OpenCLI 是什么?
OpenCLI 的核心定位非常清晰:
Make Any Website & Tool Your CLI
简单说就是:
让任何网站、任何应用、任何工具,都能通过命令行调用。
举个例子:
以前你想看热门内容:
打开浏览器 → 找网址 → 登录 → 等加载 → 点进去看
现在可能变成:
opencli bilibili hot --limit 5
再比如搜索内容:
opencli douban search "三体"
本质上,OpenCLI 并不是提供几个命令那么简单,而是在做一件更底层的事情:
把“点鼠标的世界”,翻译成“命令可调用的世界”。
这背后对应的是一个非常关键的趋势:
AI 不只是回答问题,而是要真正替你干活。
而要“干活”,就必须具备操作能力。
OpenCLI 正是在补这块能力。
它到底能做什么?
一句话概括:
把原本只能手动操作的能力,变成可被调用、可被编排的能力。
拆开来看,大致有四层。
1. 把网站变成 CLI
很多网站没有开放 API,或者 API 使用门槛很高。
但网页本身是可以操作的。
OpenCLI 的思路是:
既然人能点,那就应该能被命令调用。
它通过适配器,把网页行为封装为命令,例如:
- 热榜获取
- 内容搜索
- 数据提取
这相当于一个“网页能力翻译器”:
- 人类:打开 → 点击 → 复制
- OpenCLI:一条命令 → 输出结构化结果
一旦变成命令,就意味着:
- 可脚本化
- 可复用
- 可自动化
这才是核心价值。
2. 复用浏览器登录态
自动化工具最大的痛点之一是登录。
OpenCLI 的策略非常务实:
直接复用你本地浏览器(Chrome/Chromium)的登录状态。
这带来几个好处:
- 不需要重复登录
- 不需要手动处理 cookie
- 大幅降低使用门槛
可以理解为:
别的工具在问你“请证明你是你”,
而 OpenCLI 直接说:
“你已经登录了,我们继续干活。”
3. 把 Electron 应用纳入命令行
很多桌面应用,本质是浏览器壳。
OpenCLI 的视角不是“这是 App”,而是:
这是一个可以被控制的界面。
于是它尝试将这些应用也纳入命令行体系。
这意味着:
终端不再只是调用程序,而是开始调度“整个图形界面”。
4. 让 AI Agent 真正“有手可用”
OpenCLI 并不是单纯为人设计的工具,而是明显面向 AI Agent。
它提供了一整套能力:
- explore:探索网站/API
- synthesize:生成适配器
- cascade:寻找认证路径
- operate:控制浏览器
- record:记录操作流程
- register:统一能力注册
核心问题是:
如何让 AI 自动发现、理解、调用、复用工具。
很多人讨论 Agent,只关注模型能力。
但实际体验的上限,往往取决于:
它有没有工具,以及工具是否标准化。
OpenCLI 正在解决这一点。
为什么这个项目值得关注?
它踩中了一个关键趋势:
软件正在从“界面驱动”,走向“能力驱动”。
演进路径大致是:
- App
- API
- CLI / Agent / Workflow
未来的入口,很可能不是界面,而是:
- 命令
- 自动化流程
- AI 调度系统
OpenCLI 本质是在做一件事:
搭一座桥。
一端连接:
- 网站
- 桌面应用
另一端连接:
- CLI
- 脚本
- AI Agent
它像一个“能力转接器”,把原本不可编排的东西,变成可编排系统的一部分。
它适合谁?
结论:不是所有人,但对特定人群价值很高。
1. 自动化开发者
如果你对“能不能脚本化”特别敏感,OpenCLI 会非常有吸引力。
2. AI Agent / RPA / 工作流开发者
核心痛点是:
API 不够用,非 API 太多。
OpenCLI 正在补这个缺口。
3. 信息采集 / 内容运营
多平台数据获取、整理、监控场景,会明显受益。
(前提:合法合规使用)
怎么上手?
npm 包:
@jackwener/opencli
安装:
npm install -g @jackwener/opencli
Node.js 要求:
>= 20
步骤 1:安装浏览器桥接扩展
OpenCLI 依赖 Browser Bridge 与浏览器通信。
未安装时,相关能力无法使用。
步骤 2:确保浏览器已登录
关键点:
- Chrome 正在运行
- 网站已登录
- 扩展正常
否则结果可能异常。
步骤 3:从简单命令开始
opencli list
opencli bilibili hot --limit 5
opencli zhihu hot -f json
opencli hackernews top --limit 5
理解重点:
- 按站点组织命令
- 支持结构化输出
- 可接入脚本/工作流
最有价值的一点:可扩展性
OpenCLI 的核心优势不在“已有功能”,而在:
它是一个框架,而不是一个工具集合。
它试图实现的是:
- 网站接入
- 应用接入
- CLI 接入
- Agent 自动发现
- 工作流组合
本质是:
构建“能力接口层”。
现实门槛
需要理性看待。
1. CLI 外壳 + 浏览器内核
它不是纯 CLI,本质依赖浏览器环境。
2. 依赖网页结构
页面变化会影响适配器稳定性。
3. 更适合工程用户
对 Node.js、扩展、命令行有一定要求。
最后总结
OpenCLI 的价值不在于“它现在能做多少”,而在于它展示的方向:
把网页、桌面应用、本地工具,统一变成可调用能力。
过去:
打开软件 → 手动操作
未来:
调用能力 → 自动执行
OpenCLI 正在把这个未来,提前落地。
更直白一点:
它不是在教你用命令,而是在尝试改造整个软件世界的使用方式。
这件事很激进,但方向很清晰。
如果你关注:
- AI Agent
- 自动化
- 工作流
这个项目值得深入研究。
甚至可能会让你产生一个新的疑问:
鼠标,还能用多久?
文章评论