轻量级 JavaScript 库,让网页听懂人话、替你操作,无需任何后端改动

#AI Agent#浏览器自动化#开源工具#TypeScript#GUI Agent
你是不是也经常遇到这种场景:在 ERP 系统里填一张采购单,要点十几个下拉框、敲七八个输入框;在后台管理页面上找一个“用户详情”,得先点菜单、再翻列表、再点按钮;或者想帮同事操作某个网站,只能一步步截图指导……
如果能直接对网页说一句“帮我查一下上个月销售报表,导出成 Excel”,页面就能自己完成所有点击和输入,那该多省事。
这种工具以前不是没有,但大多需要装浏览器插件、跑 Python 脚本、搭无头浏览器,甚至还得给页面截图调用多模态大模型。门槛高,改造成本也不小。
阿里最近开源了一个叫 Page Agent 的项目,思路很不一样。它本质上就是一段纯 JavaScript 脚本,往你的网页里一插,就能让页面听懂自然语言指令,并自动操控界面元素。不需要装任何扩展,不需要额外的运行时,甚至连后端都不用碰。

Page Agent 的核心能力很简单:把用户的自然语言指令,转化成对网页 DOM 元素的操作。
比如你告诉它“把搜索框里的内容清空,然后输入‘季度报告’,点搜索按钮”,它会自动识别搜索框、输入内容、找到按钮点击。整个过程中,它不依赖截图,也不调用视觉模型,而是直接通过文本分析页面结构和元素语义,去理解每个控件的作用。
这个思路的好处很明显:速度快、成本低、兼容性好。不需要花钱调用多模态的视觉模型,只要普通文本 LLM 就能跑起来。而且因为只操作前端 DOM,任何现代浏览器都能跑,不需要特殊权限。

如果只是想快速体验,Page Agent 提供了一个 demo 版本,一行 script 标签就能引入:
```html
<script src="https://cdn.jsdelivr.net/npm/page-agent@1.10.0/dist/iife/page-agent.demo.js"></script>
`
把这段代码加到你自己的页面里,就会自动出现一个可交互的 AI 助手。你可以在输入框里打字告诉它要做什么,它就会尝试执行。当然,这个 demo 用的是阿里提供的免费测试大模型,仅供技术评估。
如果你要用在生产环境,可以走 npm 安装,然后接入你自己的 LLM 和更精细的控制逻辑。项目完全开源,MIT 协议,怎么折腾都行。
还有支持chrome浏览器的插件

不需要浏览器扩展。这是和很多同类项目最大的区别。Page Agent 就是普通的 JavaScript,跑在网页自己的上下文里。你不需要去 Chrome Web Store 装任何东西,也不需要用户手动开启什么权限。你的 SaaS 产品要加一个 AI 助手,可能就是部署一个 JS 文件的事。
不需要截图和多模态大模型。它直接操作 DOM 文本,意味着响应更快、更省 token。对用户来说,指令执行几乎是实时的。
支持你自己的大模型。你可以把 OpenAI、Claude,或者自己部署的模型接进来。Page Agent 只负责理解页面、生成操作,模型你说了算。
可选 Chrome 扩展和 MCP 支持。虽然核心是页面内的 agent,但项目也提供了一个 Chrome 扩展原型,用来处理跨标签页的多页面任务。同时还有一个 MCP Server(测试版),让外部 agent 客户端可以远程控制浏览器。

官方列了几个典型用例,我觉得都非常实际:
持续分享优质 AI 开源项目与源码实战,一个人摸索很容易踩坑。
对 Agent、智能体感兴趣的朋友,无论新手还是大佬,都欢迎一起交流。私信「时之」拉你进群。
想拿到仓库地址,直接动手试试?
GITHUB: https://github.com/alibaba/page-agent