一条命令操控网站：OpenCLI 会是自动化的下一步吗？

2026年4月6日 361点热度 0人点赞 0条评论

大家好，我是蓝戒，本篇我们来聊聊 “opencli”

这两年，大家都在聊 AI Agent。
但真正卡住 Agent 的，往往不是“它会不会思考”，而是：

它到底能不能动手。

它会分析、会总结、会规划，甚至能帮你设计完整的 PPT 结构。
但一旦进入执行环节，问题就出现了：

去网页上搜信息
点按钮
填表单
调本地工具
打开桌面应用

这些在人类看来再自然不过的操作，对 AI 来说却很困难。

一句话总结就是：

脑子有了，手还没长出来。

而最近，有一个很有意思的开源项目——OpenCLI，正试图解决这个问题。

它做的事情非常直接，甚至有点“激进”：

把网站、Electron 应用、本地工具，全部变成命令行。

一句话评价：

离谱，但充满想象力。

OpenCLI 是什么？

OpenCLI 的核心定位非常清晰：

Make Any Website & Tool Your CLI

简单说就是：

让任何网站、任何应用、任何工具，都能通过命令行调用。

举个例子：

以前你想看热门内容：

打开浏览器 → 找网址 → 登录 → 等加载 → 点进去看

现在可能变成：

opencli bilibili hot --limit 5

再比如搜索内容：

opencli douban search "三体"

本质上，OpenCLI 并不是提供几个命令那么简单，而是在做一件更底层的事情：

把“点鼠标的世界”，翻译成“命令可调用的世界”。

这背后对应的是一个非常关键的趋势：

AI 不只是回答问题，而是要真正替你干活。

而要“干活”，就必须具备操作能力。

OpenCLI 正是在补这块能力。

它到底能做什么？

一句话概括：

把原本只能手动操作的能力，变成可被调用、可被编排的能力。

拆开来看，大致有四层。

1. 把网站变成 CLI

很多网站没有开放 API，或者 API 使用门槛很高。
但网页本身是可以操作的。

OpenCLI 的思路是：

既然人能点，那就应该能被命令调用。

它通过适配器，把网页行为封装为命令，例如：

热榜获取
内容搜索
数据提取

这相当于一个“网页能力翻译器”：

人类：打开 → 点击 → 复制
OpenCLI：一条命令 → 输出结构化结果

一旦变成命令，就意味着：

可脚本化
可复用
可自动化

这才是核心价值。

2. 复用浏览器登录态

自动化工具最大的痛点之一是登录。

OpenCLI 的策略非常务实：

直接复用你本地浏览器（Chrome/Chromium）的登录状态。

这带来几个好处：

不需要重复登录
不需要手动处理 cookie
大幅降低使用门槛

可以理解为：

别的工具在问你“请证明你是你”，
而 OpenCLI 直接说：

“你已经登录了，我们继续干活。”

3. 把 Electron 应用纳入命令行

很多桌面应用，本质是浏览器壳。

OpenCLI 的视角不是“这是 App”，而是：

这是一个可以被控制的界面。

于是它尝试将这些应用也纳入命令行体系。

这意味着：

终端不再只是调用程序，而是开始调度“整个图形界面”。

4. 让 AI Agent 真正“有手可用”

OpenCLI 并不是单纯为人设计的工具，而是明显面向 AI Agent。

它提供了一整套能力：

explore：探索网站/API
synthesize：生成适配器
cascade：寻找认证路径
operate：控制浏览器
record：记录操作流程
register：统一能力注册

核心问题是：

如何让 AI 自动发现、理解、调用、复用工具。

很多人讨论 Agent，只关注模型能力。
但实际体验的上限，往往取决于：

它有没有工具，以及工具是否标准化。

OpenCLI 正在解决这一点。

为什么这个项目值得关注？

它踩中了一个关键趋势：

软件正在从“界面驱动”，走向“能力驱动”。

演进路径大致是：

App
API
CLI / Agent / Workflow

未来的入口，很可能不是界面，而是：

命令
自动化流程
AI 调度系统

OpenCLI 本质是在做一件事：

搭一座桥。

一端连接：

网站
桌面应用

另一端连接：

CLI
脚本
AI Agent

它像一个“能力转接器”，把原本不可编排的东西，变成可编排系统的一部分。

它适合谁？

结论：不是所有人，但对特定人群价值很高。

1. 自动化开发者

如果你对“能不能脚本化”特别敏感，OpenCLI 会非常有吸引力。

2. AI Agent / RPA / 工作流开发者

核心痛点是：

API 不够用，非 API 太多。

OpenCLI 正在补这个缺口。

3. 信息采集 / 内容运营

多平台数据获取、整理、监控场景，会明显受益。

（前提：合法合规使用）

怎么上手？

npm 包：

@jackwener/opencli

安装：

npm install -g @jackwener/opencli

Node.js 要求：

>= 20

步骤 1：安装浏览器桥接扩展

OpenCLI 依赖 Browser Bridge 与浏览器通信。
未安装时，相关能力无法使用。

步骤 2：确保浏览器已登录

关键点：

Chrome 正在运行
网站已登录
扩展正常

否则结果可能异常。

步骤 3：从简单命令开始

opencli list
opencli bilibili hot --limit 5
opencli zhihu hot -f json
opencli hackernews top --limit 5

理解重点：

按站点组织命令
支持结构化输出
可接入脚本/工作流

最有价值的一点：可扩展性

OpenCLI 的核心优势不在“已有功能”，而在：

它是一个框架，而不是一个工具集合。

它试图实现的是：

网站接入
应用接入
CLI 接入
Agent 自动发现
工作流组合

本质是：

构建“能力接口层”。

现实门槛

需要理性看待。

1. CLI 外壳 + 浏览器内核

它不是纯 CLI，本质依赖浏览器环境。

2. 依赖网页结构

页面变化会影响适配器稳定性。

3. 更适合工程用户

对 Node.js、扩展、命令行有一定要求。

最后总结

OpenCLI 的价值不在于“它现在能做多少”，而在于它展示的方向：

把网页、桌面应用、本地工具，统一变成可调用能力。

过去：

打开软件 → 手动操作

未来：

调用能力 → 自动执行

OpenCLI 正在把这个未来，提前落地。

更直白一点：

它不是在教你用命令，而是在尝试改造整个软件世界的使用方式。

这件事很激进，但方向很清晰。

如果你关注：

AI Agent
自动化
工作流

这个项目值得深入研究。

甚至可能会让你产生一个新的疑问：

鼠标，还能用多久？