当前位置：首页>网站源码>微软用1000行代码造了个网页AI,跑分暴涨81%

微软用1000行代码造了个网页AI,跑分暴涨81%

2026-06-24 19:39:10

网页智能体，怎么就卡住了？

说到让 AI 帮你操作网页，很多人第一反应是"这不是已经能做了吗？"——各类截图识别、元素定位的方案确实不少。但说实话，目前主流的网页智能体用起来，体验并不能算好。

原因很简单：大多数方案走的是"截图或 DOM → 预测下一步动作"的路子。什么意思呢？就是 AI 每一步都要先看一眼当前页面长什么样，然后决定"该点哪里""该输入什么""该不该滚动"。每做一件事，就重复一次这个流程。

这听起来没毛病，但问题在于，网页操作天然是多步骤的。你要注册一个账号，可能需要：填用户名、设密码、选生日、勾同意、点提交——五个步骤。用"逐步预测"的方式，AI 得猜五次，每猜一次都有出错的可能。而且这种低级动作预测，没法表达"把整个表单填完"这种复杂意图。更要命的是，一旦中间某步猜错了，后面的步骤基本全废。

我的理解是，这本质上是一个"动作粒度"的问题——你让 AI 在太细的粒度上做决策，它就很难处理长链条、有逻辑依赖的任务。

微软的解法：别点鼠标了，直接写代码

微软研究院本月发布的开源框架 Webwright，思路和上面说的完全不同。

它的核心理念可以用一句话概括：让 AI 在终端里写 Playwright 代码，而不是一步一步地点鼠标。

Playwright 是微软自己家的浏览器自动化库，你用 Python 或 JS 写几行脚本就能控制浏览器自动填表单、点按钮、截页面。Webwright 的做法是，让大模型直接生成 Playwright 脚本，然后在终端里跑，跑完看结果，发现报错就改代码再来一轮。

打个比方：传统的网页智能体就像你遥控一个人去操作网页，每一步都要告诉他"现在点右上角那个蓝色按钮"。而 Webwright 是直接给那个人一台电脑，让他自己写个脚本来自动化完成。后者效率高得多，因为一个脚本就能把一整套操作串起来。

而且代码天生支持循环、函数、条件判断这些抽象能力。比如"在五个页面上重复同样的操作"，写个 for 循环就行，比让 AI 一遍一遍预测点击省事太多了。

三个组件，加起来一千行

Webwright 的架构极其精简，只有三个核心组件：

Runner
（约 150 行代码）：负责整个流程的调度，把当前上下文发给模型，拿到模型返回的思考和命令，然后交给环境执行。
Model Endpoint
（约 550 行代码）：和模型 API 对接的接口层。
终端环境
（约 300 行代码）：负责执行命令，返回终端输出、日志、截图或错误信息。

三个加起来大概 1000 行代码。没有多智能体编排，没有分层规划，没有各种花里胡哨的中间件。

这在当下动不动就"多 Agent 协同""复杂编排"的 AI 工具圈里，算是一股清流了。我觉得这种极简设计反而是一个聪明的选择——框架越简单，模型的能力就越直接地体现在结果上，调试也更容易。你要是出了 bug，看 1000 行代码总能找到问题在哪。

执行流程也很直观：Runner 把上下文给模型 → 模型返回思考内容和一条 shell 命令 → 环境执行命令并返回结果 → 进入下一轮。就这样循环，直到任务完成。

两个工程难题，微软是怎么解的

当然，让 AI 写代码来操作网页，听起来美好，实际落地会碰到两个很实际的坑。

第一个坑：AI 容易"过早交卷"。

模型跑着跑着，可能还没真正完成任务，就信誓旦旦地说"我搞定了"。这在 LLM 场景里太常见了——模型天生想让你开心，所以倾向于说"做完了"。

Webwright 的解法是加了一个门控步骤：模型声称完成之后，必须先生成一个自检配置，然后在一个全新的干净文件夹里重新跑一遍最终脚本。跑完之后，结合日志和截图，让模型自己再判断一次——到底成功了没有。只有通过了这轮自检，才会输出完成标记。

说白了就是"你说做完了？那从头跑一遍证明给我看"。这招挺实用的。

第二个坑：对话历史太长，上下文爆炸。

复杂任务可能要跑几十步甚至上百步，每一步都有终端输出、日志、截图。这些全部塞进上下文窗口，很快就会超限。

Webwright 的做法是每 20 步做一次压缩——把之前的历史记录总结成一份摘要，替换掉原始内容。这样上下文长度就能控制住。当然，压缩必然会丢失一些细节，但在实际测试中，这个 tradeoff 是值得的。

跑分：GPT-5.4 + Webwright = 大幅领先

光说架构好不行，最终还得看成绩单。Webwright 在两个主流基准测试上都交出了不错的答卷。

Online-Mind2Web：这个测试包含 300 个任务，覆盖 136 个常用网站，是网页智能体领域的"标准考试"。基于 GPT-5.4 的 Webwright 拿到了 86.67% 的整体准确率，在 100 步预算限制下，排进了公开方案的前列。

Odysseys：这个测试更难，关注的是跨多个网站的长链路浏览任务，平均每个任务指令有 272 个词。2026 年 4 月这个榜单上的最佳模型是 Opus 4.6，得分 44.5%。而 Webwright 搭配 GPT-5.4 达到了 60.1%，相对之前最好成绩提升了 35.1%。

更直观地说，裸跑的 GPT-5.4 在这个测试上只有 33.5% 的得分。加上 Webwright 框架之后跳到了 60.1%，提升了 81.49%。这个提升幅度，老实讲，相当夸张。

个人看法，这个结果说明了一件事：对于复杂网页任务，怎么用模型比模型本身有多强更重要。同样是 GPT-5.4，换一种使用方式（从"逐步预测动作"变成"生成代码"），效果就天差地别。

我怎么看：简单粗暴，但方向对了

我觉得 Webwright 最有意思的点，不在于它用了什么新技术，而在于它验证了一个思路——让大模型用编程的方式来操作网页，比让它模仿人类点击更高效。

这其实符合一个更大的趋势：AI Agent 的进化方向，正在从"模拟人类低级动作"转向"利用编程能力完成高级任务"。毕竟代码是计算机的母语，让 AI 用自己的语言和计算机打交道，比让它假装成一个拿着鼠标的人，效率高得多。

当然，1000 行代码的框架也有它的局限。比如对动态渲染很强的页面（大量 JS 交互）、需要验证码的场景、需要登录态的复杂操作，这些都会是挑战。而且目前测试主要基于 GPT-5.4，换到其他模型上表现如何，还需要社区验证。

作为微软研究院出品的开源项目，Webwright 已经给了一个很好的起点。如果你对 AI Agent 感兴趣，或者正好在做网页自动化相关的工作，花半小时看看它的源码（反正才 1000 行），我觉得是值得的。

GitHub源码地址：https://github.com/microsoft/Webwright

大家好，我是一直在准备跑路搞 AI 的奇菲特。关注「AI奇菲特」，让 AI 成为你的杠杆！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

微软用1000行代码造了个网页AI,跑分暴涨81%

网页智能体，怎么就卡住了？

微软的解法：别点鼠标了，直接写代码

三个组件，加起来一千行

两个工程难题，微软是怎么解的

跑分：GPT-5.4 + Webwright = 大幅领先

我怎么看：简单粗暴，但方向对了

最新文章

热门文章

随机文章

微软用1000行代码造了个网页AI,跑分暴涨81%

网页智能体，怎么就卡住了？

微软的解法：别点鼠标了，直接写代码

三个组件，加起来一千行

两个工程难题，微软是怎么解的

跑分：GPT-5.4 + Webwright = 大幅领先

我怎么看：简单粗暴，但方向对了

读懂软件Bug:真正的系统缺陷,从来不止代码出错

微信小程序代码构成

最新文章

热门文章

随机文章