当前位置：首页>网站源码>一行代码,让你的网页学会“听人话”!阿里开源 Page Agent,彻底解放双手

一行代码,让你的网页学会“听人话”!阿里开源 Page Agent,彻底解放双手

2026-06-27 13:29:56

在 AI 助手（Agent）遍地开花的今天，我们见过能在终端跑代码的 Agent，见过能通过视觉识别屏幕的 Agent，但你见过直接“活”在网页代码里的 Agent 吗？

阿里巴巴最近开源了一个名为 Page Agent 的项目，它的出现让网页自动化和交互体验提升到了一个新的高度。简单来说，它是一个基于 JavaScript 的网页原生 GUI 代理，让你能够直接用自然语言来控制网页界面。

为什么它与众不同？

以往的网页自动化方案往往离不开 Selenium、Puppeteer 或是复杂的 Python 环境，甚至需要安装特定的浏览器插件。而 Page Agent 另辟蹊径，它具有以下几个核心优势：

1. 极简集成
它不需要浏览器扩展，不需要 Python 运行环境，更不需要无头浏览器。它只是一段纯粹的网页 JavaScript 代码，所有操作都直接在当前页面内完成。
2. 基于文本的 DOM 操作
很多 Agent 依赖屏幕截图和多模态大模型（VLM）来识别按钮和输入框，这不仅对算力要求高，速度也慢。Page Agent 直接操作文本化的 DOM 树，无需截图，也不需要昂贵的多模态模型支持。
3. 模型自由
你可以根据自己的需求，接入任何支持的大语言模型（LLM），比如阿里自家的通义千问或是其他主流模型。
4. 人机协同
它提供了一个美观的 UI 界面，支持“人机回环”模式。当 Agent 执行任务时，用户可以实时观察并干预，确保操作的准确性和安全性。

它能帮你做什么？

Page Agent 的应用场景非常广泛，对于开发者和普通用户来说都极具吸引力：

SaaS 产品的 AI 助手：开发者只需几行代码，就能在现有的 SaaS 产品中植入一个 AI Copilot。无需重写后端逻辑，AI 就能帮用户在复杂的系统里完成操作。

智能表单填充：面对繁琐的 ERP、CRM 或后台管理系统，过去可能需要点击二十次的流程，现在只需说一句话，Agent 就能自动识别并填好所有字段。

无障碍辅助：对于视障人士或操作不便的用户，Page Agent 可以将任何网页转化为支持自然语言指令的系统，消除操作障碍。

多页面协同：虽然它主打页面内原生运行，但也提供了可选的 Chrome 插件，支持跨标签页完成复杂的联动任务。

如何快速上手？

Page Agent 的集成方式极其简单。如果你只是想进行技术评估，甚至可以通过一行 script 标签直接引入：

<script src="https://registry.npmmirror.com/page-agent/1.5.11/files/dist/iife/page-agent.demo.js" crossorigin="true"></script>

而对于正式的项目开发，可以通过 NPM 安装：

npm install page-agent

在代码中使用也符合现代开发者的直觉，只需配置好模型信息，即可通过 execute 方法下达指令：

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
    model: 'qwen3.5-plus',
    baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    apiKey: '你的API密钥',
    language: 'zh-CN',
})

await agent.execute('帮我点击登录按钮')

总结

Page Agent 的核心逻辑建立在优秀的开源项目 browser-use 之上，但它专注于客户端网页的增强，而非服务器端的自动化。这种“轻量化”和“原生化”的思路，避开了传统自动化工具的厚重，让 AI Agent 真正能够像一个隐形的助手一样，嵌入到每一个网页中。

随着这个项目的开源，我们可以预见，未来的网页交互将不再仅仅是鼠标的点选，而是对话式的、意图导向的新体验。

GitHub 项目链接地址：https://github.com/alibaba/page-agent

还在手动搜索你喜欢的开源项目？

关注公众号，和我们的 AI 助手聊聊吧 🤖
它接入了大模型 RAG 知识库，你只需要描述你的需求，
它就能帮你找到对应的开源项目和文章。
哪篇文章忘了叫什么？直接问它，比你自己翻还快！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

一行代码,让你的网页学会“听人话”!阿里开源 Page Agent,彻底解放双手

为什么它与众不同？

它能帮你做什么？

如何快速上手？

总结

还在手动搜索你喜欢的开源项目？

最新文章

热门文章

随机文章

一行代码,让你的网页学会“听人话”!阿里开源 Page Agent,彻底解放双手

为什么它与众不同？

它能帮你做什么？

如何快速上手？

总结

还在手动搜索你喜欢的开源项目？

新手小白也能写代码 - 我用AI搞定宠物APP代码部分

不懂代码,花了2天做出一个小程序,差点被AI气死

最新文章

热门文章

随机文章