当前位置：首页>网站源码>AI写网页代码有多“水”?新评测曝光真相:闭源与开源差出26分鸿沟

AI写网页代码有多“水”?新评测曝光真相:闭源与开源差出26分鸿沟

2026-05-11 10:22:37

每天打开浏览器，我们刷到的购物页面、登录界面、炫酷动画，看似简单的视觉呈现，背后都是成千上万行代码在“默默打工”。这两年，AI大模型扎堆宣称自己能“写网页代码”，吹得天花乱坠，仿佛程序员要被取代。但很少有人追问一句：这些AI写的代码，真的能用吗？

这就像雇装修工人，你不能只看他能把墙刷上颜色，更要关注墙面平不平、门窗顺不顺、整体美观不美观。网页开发也是一个道理——能“跑起来”只是底线，好看、好点、能适配手机和电脑，才是合格的标准。但现在的AI评测，大多只盯着“代码能不能运行”，至于视觉好不好看、交互顺不顺畅，根本不管不顾。

好在，南京大学和快手的研究团队，看穿了这个行业盲区，打造了一套堪称“终极考场”的WebCompass评测体系。这套体系一出手，就把当下AI写网页代码的“遮羞布”扯得一干二净，很多我们以为的“AI神技”，其实都是“半吊子水平”。

先吐槽：现有AI评测，简直是“自欺欺人”

要明白WebCompass的厉害，得先说说现在的AI评测有多“敷衍”。我们常见的评测基准，比如HumanEval、SWE-Bench，本质上就是考AI做“算法题”、修“小bug”，就像用数学成绩衡量建筑师，根本看不出他能不能设计出实用又好看的房子。

就算是专门针对网页的评测，也离谱得很——给AI一段文字描述，让它生成一个静态页面，然后截个图对比一下，就完事了。既不测试按钮能不能点，也不看动画流不流畅，更不考验AI能不能修改已有代码、修复隐藏缺陷。这种评测，说白了就是“自欺欺人”，根本反映不出AI在真实工作中的表现。

总结下来，现有评测有三大致命死角，也是我一直以来吐槽的点：

第一，任务太单一，只考“从零写代码”，却忽略了真实工作中“修改已有代码”“修复缺陷”这两个高频场景——毕竟程序员日常大多是改代码，不是从零新建；第二，输入太局限，只认文字描述，可实际开发中，我们经常对着参考截图、演示视频写代码，AI连这个都适应不了，谈何实用？第三，评判太粗糙，只要代码不报错就给过，不管页面丑得离谱、交互卡得要死，这种“合格”，在实际工作中根本没人要。

而WebCompass的核心价值，就是把这三个死角全部补上，用最贴近真实开发的场景，给AI来一场“真刀真枪”的考试。

终极考场有多严？7张考卷，覆盖网页开发全流程

研究团队特别懂行，他们把真实的网页开发，拆成了三个核心环节——生成（从零写网页）、编辑（改已有代码）、修复（找bug打补丁），这就像厨师的三项基本功：做菜、改菜、救菜。

在此基础上，又加入了三种输入方式：纯文字、参考截图、演示视频，两两组合，最终形成了7类任务，相当于7张不同的考卷，每一张都直击痛点：

文字生成=给菜谱做菜；图片生成=看成品照片复刻；视频生成=看别人做菜录像再动手；文字编辑=告诉厨师“少放盐、加香菜”；图片编辑=给厨师看改良后的照片，让他自己调整；文字修复=告诉厨师“火候过了”，让他找问题；图片修复=给厨师看“失败菜”和“理想菜”的对比，让他修正。

整个数据集一共有1526道题，还分了简单、中等、困难三个难度，难度高低，全看功能复杂程度、交互多少、视觉设计精不精细。更良心的是，这些题目不是随便编的，每一道都经过了严格筛选，确保贴合真实开发场景——这也是我觉得这套评测最有价值的地方，不玩虚的，只测实用的。

考题怎么来的？比我们上班还严谨的“出卷流程”

一套好考试，题目质量是关键。WebCompass的出卷流程，比很多公司的开发流程还严谨，全程人工介入，层层筛选，杜绝“垃圾题目”。

生成类题目的素材，来自四个靠谱渠道：专门收集网页需求的WebGen-Bench、筛选严格的ArtifactsBench、真实用户的需求记录，还有AI网页设计平台V0的优质案例。先去重，再按类别和难度打标签，最后抽样，才得到123道文字生成题。

这里有个细节特别戳我：原始用户需求往往很模糊，比如“做一个购物网站”，这种需求太开放，AI做出来千差万别，根本没法对比。研究团队的解决办法很聪明——让大模型扮演“产品经理”，把模糊需求扩充成结构化文档，明确写清页面内容、交互行为、视觉风格，这样评测才有统一标准，也更贴近真实工作中“产品提需求、开发做实现”的流程。

图片引导的题目，来自包含大量复杂网页的WebRenderBench，用工具截图，还标注出跳转链接，测试AI能不能理解多页面结构；动态交互的题目，从V0和Figma上挑优质动效网页，提取关键帧制作；视频引导的题目，更是人工录制，确保覆盖所有交互功能——每一道题，都透着“严谨”二字。

编辑和修复类题目，共用50个优质代码原型，这些原型经过三道筛选：控制代码量、GPT-4o打分（9分以上）、人工审核，相当于“百里挑一”。编辑题会加入16种高难度需求，比如可拖拽界面、实时仪表盘、视差滚动，而且只说“要做什么”，不说“怎么做”，避免作弊；修复题更有意思，先做一个“完美版本”，再人工注入11种常见缺陷——这些缺陷不是瞎编的，是从200多个真实项目中提炼的，比如元素遮挡、文字溢出、点击事件失效，全是程序员日常踩坑的点。

怎么判卷？AI当评委，比人工还靠谱

出好题，还要有好的判卷方式。WebCompass针对不同任务，设计了两套判卷机制，实测下来，和人类判断的相似度高达93%以上，比很多公司的QA审核还严格。

编辑和修复任务，用“LLM-as-a-Judge”（大模型当评委），把AI生成的代码补丁用上，运行后截图，再把所有证据交给Claude模型，从三个维度打分：补丁位置对不对、功能正常不、视觉风格符不符合，最后取调和平均——这种算法对“短板”特别敏感，只要一个维度拉胯，总分就上不去，避免了“某一项优秀就掩盖短板”的情况。

生成任务，用的是更高级的“Agent-as-a-Judge”（智能体当评委）。这个智能体能控制Chrome浏览器，像真实用户一样点击、滚动、填表单，还能录屏、写测试脚本，核验页面的DOM状态和CSS属性——再也不是简单对比截图，而是真正“用起来”测试，连动态交互的流畅度都能测出来。

更关键的是，评分必须有证据支撑，没有截图、测试日志的打分，直接作废。这种严谨性，确保了评测结果的可信度，也让我们能真正看清AI的真实水平。

实测结果曝光：差距悬殊，这些真相太扎心

研究团队用WebCompass测试了10款主流模型，有闭源的也有开源的，结果出来后，很多人都被惊到了——差距之大，远超预期。

首先，闭源模型碾压开源模型，鸿沟明显。Claude Opus 4.5以67.40分排名第一，Gemini 3 Pro Preview紧随其后（66.68分），GPT-5.2排第三（61.90分）。而表现最好的开源模型Qwen3-VL-235B，综合得分只有41.14分，和第一名差了26分还多；30B规模的开源模型，得分只有28分左右，连顶级闭源模型的一半都不到。

这一点我并不意外，毕竟闭源模型有更多数据和算力支撑，但差距这么大，还是超出了我的预期——这也说明，现在说“开源AI能取代前端程序员”，还为时过早。

其次，所有模型都有一个共同软肋：视觉质量。不管是生成任务的设计质量，还是编辑任务的样式合规性，所有模型都拿了最低分。哪怕是表现最好的Gemini 3 Pro Preview，生成任务的设计质量也只有64.07分，远低于功能得分。这也解释了为什么很多AI生成的网页，能跑但不好看——AI能搞定“能用”，却搞不定“好看”，审美和细节把控，依然是AI的硬伤。

还有一个特别有意思的发现：Vue框架，让所有模型都头疼。测试了React、Vue、原生HTML三种框架，结果显示，所有模型用原生HTML时得分最高，用Vue时得分最低。

其实道理很简单：原生HTML就像手工做菜，步骤简单，出错概率低；Vue就像全自动料理机，功能多但规则复杂，稍有不慎就出错——它的单文件组件把HTML、JS、CSS塞在一个文件里，任何一处写错，都可能引发连锁反应。而React的JSX语法，本质还是JavaScript，相对更容易处理。

另外，难度越高，AI越拉胯。尤其是生成任务的功能实现，简单题得分能到89分，困难题直接跌到37分，缩水一半还多。这说明，AI写简单网页还行，一旦遇到复杂的多步骤流程、动态交互，就彻底“露馅”了——能跑起来，但实现不了全部功能，这在真实开发中，等于“无用功”。

这些冷知识，程序员必看

除了核心结果，研究中还有几个特别有实践意义的发现，不管是用AI写代码的程序员，还是关注AI发展的人，都值得一看：

1. 过度编辑=画蛇添足。AI修复代码时，补丁越大，越容易引入新bug。闭源模型的修复错误中，8%-12%都是“新引入的缺陷”，那些生成大补丁的模型，反而更容易搞砸原本没问题的代码——就像厨师改菜，手太重，把原来的优点也弄坏了。

2. 思维链不是万能的，甚至会帮倒忙。很多人觉得，让AI“先想再说”（思维链）能提升效果，但实测发现，在生成复杂网页时，思维链会让AI忘记部分需求，导致功能实现得分下滑。尤其是大模型，思维链越长，注意力越分散，反而不如直接生成代码。

3. AI写网页，最常犯这两个错。生成任务中，“功能缺失”和“资源加载失败”占了错误的40%-55%；编辑任务中，70%以上的错误是“功能缺失”或“功能不完整”；修复任务中，最大的问题是“找不到缺陷位置”——哪怕是顶级模型，也有近一半的修复补丁没修到点子上。

最后想说：AI写代码，离“好用”还有很长的路

WebCompass这套评测，最有价值的地方，不是“排名”，而是让我们看清了AI写网页代码的真实水平——它远没有宣传的那么神，能“跑起来”只是第一步，要做到“好用、好看、好维护”，还有很长的路要走。

现在的AI，更像是一个“辅助工具”，能帮程序员省点重复劳动，但没法替代程序员的核心能力——审美、逻辑、对需求的精准理解，还有解决复杂问题的能力。尤其是视觉设计和缺陷定位，AI目前的表现，还差得很远。

对于程序员来说，不用过分焦虑被AI取代，反而可以利用AI提高效率；对于企业来说，也别盲目迷信“AI能省人力”，现阶段用AI写代码，还需要人工严格审核，否则很容易出现“看似能用，实则全是bug”的情况。

未来，随着评测体系的完善和模型的迭代，AI写网页代码的能力一定会提升，但至少现在，它还只是一个“半吊子”——好看的网页，终究还是要靠人来打造。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI写网页代码有多“水”?新评测曝光真相:闭源与开源差出26分鸿沟

先吐槽：现有AI评测，简直是“自欺欺人”

终极考场有多严？7张考卷，覆盖网页开发全流程

考题怎么来的？比我们上班还严谨的“出卷流程”

怎么判卷？AI当评委，比人工还靠谱

实测结果曝光：差距悬殊，这些真相太扎心

这些冷知识，程序员必看

最后想说：AI写代码，离“好用”还有很长的路

最新文章

热门文章

随机文章

AI写网页代码有多“水”?新评测曝光真相:闭源与开源差出26分鸿沟

先吐槽：现有AI评测，简直是“自欺欺人”

终极考场有多严？7张考卷，覆盖网页开发全流程

考题怎么来的？比我们上班还严谨的“出卷流程”

怎么判卷？AI当评委，比人工还靠谱

实测结果曝光：差距悬殊，这些真相太扎心

这些冷知识，程序员必看

最后想说：AI写代码，离“好用”还有很长的路

从来不会写代码的人,上周做了一个自己用的小程序

动漫论坛小程序源码,带管理后台,亲测完美

最新文章

热门文章

随机文章