当前位置：首页>网站源码>阿里开源王炸!一行代码让AI直接帮你填写网页表单等自动化操作

阿里开源王炸!一行代码让AI直接帮你填写网页表单等自动化操作

2026-06-25 23:52:23

轻量级 JavaScript 库，让网页听懂人话、替你操作，无需任何后端改动

#AI Agent#浏览器自动化#开源工具#TypeScript#GUI Agent

网页操作，能不能像和人说话一样简单？

你是不是也经常遇到这种场景：在 ERP 系统里填一张采购单，要点十几个下拉框、敲七八个输入框；在后台管理页面上找一个“用户详情”，得先点菜单、再翻列表、再点按钮；或者想帮同事操作某个网站，只能一步步截图指导……

如果能直接对网页说一句“帮我查一下上个月销售报表，导出成 Excel”，页面就能自己完成所有点击和输入，那该多省事。

这种工具以前不是没有，但大多需要装浏览器插件、跑 Python 脚本、搭无头浏览器，甚至还得给页面截图调用多模态大模型。门槛高，改造成本也不小。

阿里最近开源了一个叫 Page Agent 的项目，思路很不一样。它本质上就是一段纯 JavaScript 脚本，往你的网页里一插，就能让页面听懂自然语言指令，并自动操控界面元素。不需要装任何扩展，不需要额外的运行时，甚至连后端都不用碰。

它到底做了什么？

Page Agent 的核心能力很简单：把用户的自然语言指令，转化成对网页 DOM 元素的操作。

比如你告诉它“把搜索框里的内容清空，然后输入‘季度报告’，点搜索按钮”，它会自动识别搜索框、输入内容、找到按钮点击。整个过程中，它不依赖截图，也不调用视觉模型，而是直接通过文本分析页面结构和元素语义，去理解每个控件的作用。

这个思路的好处很明显：速度快、成本低、兼容性好。不需要花钱调用多模态的视觉模型，只要普通文本 LLM 就能跑起来。而且因为只操作前端 DOM，任何现代浏览器都能跑，不需要特殊权限。

打开即用，集成代码短得惊人

如果只是想快速体验，Page Agent 提供了一个 demo 版本，一行 script 标签就能引入：

```html

把这段代码加到你自己的页面里，就会自动出现一个可交互的 AI 助手。你可以在输入框里打字告诉它要做什么，它就会尝试执行。当然，这个 demo 用的是阿里提供的免费测试大模型，仅供技术评估。

如果你要用在生产环境，可以走 npm 安装，然后接入你自己的 LLM 和更精细的控制逻辑。项目完全开源，MIT 协议，怎么折腾都行。

还有支持chrome浏览器的插件

几个让你眼前一亮的能力

不需要浏览器扩展。这是和很多同类项目最大的区别。Page Agent 就是普通的 JavaScript，跑在网页自己的上下文里。你不需要去 Chrome Web Store 装任何东西，也不需要用户手动开启什么权限。你的 SaaS 产品要加一个 AI 助手，可能就是部署一个 JS 文件的事。

不需要截图和多模态大模型。它直接操作 DOM 文本，意味着响应更快、更省 token。对用户来说，指令执行几乎是实时的。

支持你自己的大模型。你可以把 OpenAI、Claude，或者自己部署的模型接进来。Page Agent 只负责理解页面、生成操作，模型你说了算。

可选 Chrome 扩展和 MCP 支持。虽然核心是页面内的 agent，但项目也提供了一个 Chrome 扩展原型，用来处理跨标签页的多页面任务。同时还有一个 MCP Server（测试版），让外部 agent 客户端可以远程控制浏览器。

这些场景已经有人用上了

官方列了几个典型用例，我觉得都非常实际：

SaaS AI Copilot
：在你的产品里加一个能听懂人话的操作助手，不用改后端逻辑，前端插段脚本就行。用户说“把今天的订单按金额排序”，系统就照做。

智能表单填写
：CRM、ERP 里的复杂表单，以前要点几十下，现在一句话搞定。对业务流程固定的后台管理尤其适用。

无障碍访问
：让视障用户或其他有操作障碍的人，通过语音指令或键盘命令就能操控任意网站。Page Agent 的文本化操作本质，天然就和读屏软件配合得很好。

多页面 agent
：结合 Chrome 扩展，你可以在多个标签页间调度任务，比如“打开 A 站复制这个数据，到 B 站粘贴提交”。

MCP 控制
：如果你在用其他 agent 框架，可以通过 MCP 接口让它们直接操控浏览器，就像给 AI 装上了一双“手”。

持续分享优质 AI 开源项目与源码实战，一个人摸索很容易踩坑。

对 Agent、智能体感兴趣的朋友，无论新手还是大佬，都欢迎一起交流。私信「时之」拉你进群。

想拿到仓库地址，直接动手试试？

GITHUB: https://github.com/alibaba/page-agent

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

网页操作，能不能像和人说话一样简单？

它到底做了什么？

打开即用，集成代码短得惊人

几个让你眼前一亮的能力

这些场景已经有人用上了

阿里开源王炸!一行代码让AI直接帮你填写网页表单等自动化操作

最新文章

热门文章

随机文章

阿里开源王炸!一行代码让AI直接帮你填写网页表单等自动化操作

网页操作，能不能像和人说话一样简单？

它到底做了什么？

打开即用，集成代码短得惊人

几个让你眼前一亮的能力

这些场景已经有人用上了

零代码,「手搓」了个网站.

不懂代码也能建站!2026网站建设方案,打造专属线上门面

最新文章

热门文章

随机文章