不一样的思路
你可能用过 Playwright、Selenium,或者浏览器自动化工具。但这些工具都有一个共同点——它们从"外部"控制网页。
阿里巴巴开源的 Page Agent,彻底颠覆了这个逻辑。
Page Agent 是一个嵌入式 GUI Agent,它不是用 Python 脚本从外部控制浏览器,而是直接运行在网页内部的 JavaScript Agent。
一行代码引入脚本,你的网页就多了一个能用自然语言操控的 AI 助手:
<script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.4/dist/iife/page-agent.demo.js"></script>
用户说"点击登录按钮",Agent 直接操作页面上的真实按钮。整个过程都在浏览器里发生,不需要后端。
核心技术差异
传统 AI 浏览器工具(如 browser-use)通常需要:
• Python 后端服务
• 多模态视觉模型分析截图
• 复杂的浏览器权限配置
Page Agent 走的是纯文本路线。它直接解析页面的 HTML DOM 结构,识别按钮、表单、链接等元素,然后生成操作指令。
这带来了几个显著优势:
成本低:不需要调用昂贵的视觉模型,纯文本处理 token 消耗极低。
速度快:文本解析比图像分析快得多,响应几乎是实时的。
接入简单:不需要特殊浏览器权限,不需要搭建后端服务。
自带人工审核:每次关键操作前,用户都能看到 Agent 打算做什么,可以批准也可以取消。
接入方式
Page Agent 采用了"自备大模型"的策略。你可以接入 GPT-4、Claude、Qwen,或者任何兼容 OpenAI API 格式的模型。
生产环境接入非常简洁:
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus',
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: 'YOUR_API_KEY',
language: 'en-US',
})
await agent.execute('Click the login button')
配置对象加一行 execute(),AI 助手就接入了。
适合什么场景
SaaS 产品 AI 助手
Notion、Salesforce、HubSpot 都在卖每月 20-30 美元的 AI Copilot 功能。有了 Page Agent,任何 SaaS 厂商都能用几行 JS 代码给自己的产品加上类似能力,不需要重构后端,不需要新建基础设施。
企业系统自动化
用过 SAP、Salesforce 这类系统都知道,一个简单操作可能要点十几下。Page Agent 能把这些变成一句话:"创建联系人,张三,某科技公司,邮箱 zhangsan@example.com"。
对于销售、行政、财务团队,这是实实在在的效率提升。
无障碍访问
复杂页面对视障用户极不友好。通过 Page Agent,用户可以用自然语言操作界面——说"打开消息"而不是在几十个菜单里导航。这不是完整的无障碍解决方案,但确实是一层有意义的辅助。
自然语言测试
QA 团队不用再写和维护复杂的测试脚本。可以用自然语言描述测试流程:"进入注册页面,填写表单,点击提交,验证确认消息出现"。非技术人员也能看懂和编写测试用例。
智能新手引导
传统的视频教程和 PDF 没人看。接入 Page Agent,用户说"教我创建第一个活动",Agent 就会一步步演示并执行每个操作,手把手带用户上手。
和现有工具的对比
<browser-use:Python 后端驱动,可选视觉模型,需要较大接入工作量,无内置人工审核。
Playwright/Selenium:原生浏览器控制,需要后端服务,接入工作量较大,主要用于 E2E 测试。
Page Agent:运行在浏览器内,无需后端,纯文本解析,接入只需 1 行代码,内置人工审核机制。
核心定位差异:传统工具是给开发者用的自动化库,Page Agent 是给终端用户用的交互式助手。
总结
Page Agent 代表了一种新的 AI Agent 形态——不是后台运行的自动化脚本,而是直接面向终端用户的交互式助手。
它把"用自然语言操控界面"这件事,从需要专业团队才能实现,变成了几行代码就能搞定。
对于 AI 应用开发者,这是值得关注的方向。对于 SaaS 厂商,这可能是拉开产品差距的机会。
GitHub:github.com/alibaba/page-agent,17k+ Star,MIT 协议。