当前位置：首页>网站源码>17k star!一行代码让你的网站支持自然语言操控

17k star!一行代码让你的网站支持自然语言操控

2026-05-11 20:02:02

不一样的思路

你可能用过 Playwright、Selenium，或者浏览器自动化工具。但这些工具都有一个共同点——它们从"外部"控制网页。

阿里巴巴开源的 Page Agent，彻底颠覆了这个逻辑。

Page Agent 是一个嵌入式 GUI Agent，它不是用 Python 脚本从外部控制浏览器，而是直接运行在网页内部的 JavaScript Agent。

一行代码引入脚本，你的网页就多了一个能用自然语言操控的 AI 助手：

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.4/dist/iife/page-agent.demo.js"></script>

用户说"点击登录按钮"，Agent 直接操作页面上的真实按钮。整个过程都在浏览器里发生，不需要后端。

核心技术差异

传统 AI 浏览器工具（如 browser-use）通常需要：

• Python 后端服务 • 多模态视觉模型分析截图 • 复杂的浏览器权限配置

Page Agent 走的是纯文本路线。它直接解析页面的 HTML DOM 结构，识别按钮、表单、链接等元素，然后生成操作指令。

这带来了几个显著优势：

成本低：不需要调用昂贵的视觉模型，纯文本处理 token 消耗极低。

速度快：文本解析比图像分析快得多，响应几乎是实时的。

接入简单：不需要特殊浏览器权限，不需要搭建后端服务。

自带人工审核：每次关键操作前，用户都能看到 Agent 打算做什么，可以批准也可以取消。

接入方式

Page Agent 采用了"自备大模型"的策略。你可以接入 GPT-4、Claude、Qwen，或者任何兼容 OpenAI API 格式的模型。

生产环境接入非常简洁：

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  model: 'qwen3.5-plus',
  baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
  apiKey: 'YOUR_API_KEY',
  language: 'en-US',
})

await agent.execute('Click the login button')

配置对象加一行 execute()，AI 助手就接入了。

适合什么场景

SaaS 产品 AI 助手

Notion、Salesforce、HubSpot 都在卖每月 20-30 美元的 AI Copilot 功能。有了 Page Agent，任何 SaaS 厂商都能用几行 JS 代码给自己的产品加上类似能力，不需要重构后端，不需要新建基础设施。

企业系统自动化

用过 SAP、Salesforce 这类系统都知道，一个简单操作可能要点十几下。Page Agent 能把这些变成一句话："创建联系人，张三，某科技公司，邮箱 zhangsan@example.com"。

对于销售、行政、财务团队，这是实实在在的效率提升。

无障碍访问

复杂页面对视障用户极不友好。通过 Page Agent，用户可以用自然语言操作界面——说"打开消息"而不是在几十个菜单里导航。这不是完整的无障碍解决方案，但确实是一层有意义的辅助。

自然语言测试

QA 团队不用再写和维护复杂的测试脚本。可以用自然语言描述测试流程："进入注册页面，填写表单，点击提交，验证确认消息出现"。非技术人员也能看懂和编写测试用例。

智能新手引导

传统的视频教程和 PDF 没人看。接入 Page Agent，用户说"教我创建第一个活动"，Agent 就会一步步演示并执行每个操作，手把手带用户上手。

和现有工具的对比

<browser-use：Python 后端驱动，可选视觉模型，需要较大接入工作量，无内置人工审核。

Playwright/Selenium：原生浏览器控制，需要后端服务，接入工作量较大，主要用于 E2E 测试。

Page Agent：运行在浏览器内，无需后端，纯文本解析，接入只需 1 行代码，内置人工审核机制。

核心定位差异：传统工具是给开发者用的自动化库，Page Agent 是给终端用户用的交互式助手。

总结

Page Agent 代表了一种新的 AI Agent 形态——不是后台运行的自动化脚本，而是直接面向终端用户的交互式助手。

它把"用自然语言操控界面"这件事，从需要专业团队才能实现，变成了几行代码就能搞定。

对于 AI 应用开发者，这是值得关注的方向。对于 SaaS 厂商，这可能是拉开产品差距的机会。

GitHub：github.com/alibaba/page-agent，17k+ Star，MIT 协议。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

17k star!一行代码让你的网站支持自然语言操控

不一样的思路

核心技术差异

接入方式

适合什么场景

和现有工具的对比

总结

最新文章

热门文章

随机文章

17k star!一行代码让你的网站支持自然语言操控

不一样的思路

核心技术差异

接入方式

适合什么场景

和现有工具的对比

总结

领航2026潮玩生态:盲盒V6MAX源码系统小程序全景解析,深度解构盲盒程序与海外盲盒源码的爆客密码

零代码,一天,我用AI撸了个微信小程序,还过审上线了

最新文章

热门文章

随机文章