在 AI 助手(Agent)遍地开花的今天,我们见过能在终端跑代码的 Agent,见过能通过视觉识别屏幕的 Agent,但你见过直接“活”在网页代码里的 Agent 吗?
阿里巴巴最近开源了一个名为 Page Agent 的项目,它的出现让网页自动化和交互体验提升到了一个新的高度。简单来说,它是一个基于 JavaScript 的网页原生 GUI 代理,让你能够直接用自然语言来控制网页界面。
为什么它与众不同?
以往的网页自动化方案往往离不开 Selenium、Puppeteer 或是复杂的 Python 环境,甚至需要安装特定的浏览器插件。而 Page Agent 另辟蹊径,它具有以下几个核心优势:
- 1. 极简集成
它不需要浏览器扩展,不需要 Python 运行环境,更不需要无头浏览器。它只是一段纯粹的网页 JavaScript 代码,所有操作都直接在当前页面内完成。 - 2. 基于文本的 DOM 操作
很多 Agent 依赖屏幕截图和多模态大模型(VLM)来识别按钮和输入框,这不仅对算力要求高,速度也慢。Page Agent 直接操作文本化的 DOM 树,无需截图,也不需要昂贵的多模态模型支持。 - 3. 模型自由
你可以根据自己的需求,接入任何支持的大语言模型(LLM),比如阿里自家的通义千问或是其他主流模型。 - 4. 人机协同
它提供了一个美观的 UI 界面,支持“人机回环”模式。当 Agent 执行任务时,用户可以实时观察并干预,确保操作的准确性和安全性。
它能帮你做什么?
Page Agent 的应用场景非常广泛,对于开发者和普通用户来说都极具吸引力:
SaaS 产品的 AI 助手:开发者只需几行代码,就能在现有的 SaaS 产品中植入一个 AI Copilot。无需重写后端逻辑,AI 就能帮用户在复杂的系统里完成操作。
智能表单填充:面对繁琐的 ERP、CRM 或后台管理系统,过去可能需要点击二十次的流程,现在只需说一句话,Agent 就能自动识别并填好所有字段。
无障碍辅助:对于视障人士或操作不便的用户,Page Agent 可以将任何网页转化为支持自然语言指令的系统,消除操作障碍。
多页面协同:虽然它主打页面内原生运行,但也提供了可选的 Chrome 插件,支持跨标签页完成复杂的联动任务。
如何快速上手?
Page Agent 的集成方式极其简单。如果你只是想进行技术评估,甚至可以通过一行 script 标签直接引入:
<script src="https://registry.npmmirror.com/page-agent/1.5.11/files/dist/iife/page-agent.demo.js" crossorigin="true"></script>
而对于正式的项目开发,可以通过 NPM 安装:
npm install page-agent
在代码中使用也符合现代开发者的直觉,只需配置好模型信息,即可通过 execute 方法下达指令:
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus',
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: '你的API密钥',
language: 'zh-CN',
})
await agent.execute('帮我点击登录按钮')
总结
Page Agent 的核心逻辑建立在优秀的开源项目 browser-use 之上,但它专注于客户端网页的增强,而非服务器端的自动化。这种“轻量化”和“原生化”的思路,避开了传统自动化工具的厚重,让 AI Agent 真正能够像一个隐形的助手一样,嵌入到每一个网页中。
随着这个项目的开源,我们可以预见,未来的网页交互将不再仅仅是鼠标的点选,而是对话式的、意图导向的新体验。
GitHub 项目链接地址:https://github.com/alibaba/page-agent
还在手动搜索你喜欢的开源项目?
关注公众号,和我们的 AI 助手聊聊吧 🤖
它接入了大模型 RAG 知识库,你只需要描述你的需求,
它就能帮你找到对应的开源项目和文章。
哪篇文章忘了叫什么?直接问它,比你自己翻还快!