这条路的左端和右端,差距大到离谱。左端是 3 行代码——微信云开发 extend.AI,createModel 一下,流式输出开箱即用,一分钱不花。右端是自己买服务器、搭后端、搞备案、配域名、对 API、防刷限流——没有几个月下不来。
两个极端之间,还有四条路。我花了两天把每条都走了一遍。
先说三件事,帮你理解为什么现在是窗口期:
6 月 8 日,微信 AI 正式公开内测,开放"自动模式 + 开发模式"双轨接入。
1 月 5 日,腾讯推出 AI 小程序成长计划,1 亿混元 token 额度白送,外加 6 个月免费云开发。
去年 2 月起,wx.cloud.extend.AI 就已经全面公测,3 行代码调大模型。
换句话说——以前接 AI,不管你是谁,都得先走一遍右端那条路。现在左端直接开了一条高速匝道,门槛低到离谱。
不管你是个人在做 MVP,还是公司项目要上生产环境,这篇文章都能帮你在十分钟内搞清楚:你该走哪条路,每条路要付出什么代价。
不是因为 AI 热,是因为时间窗口和成本地板同时到了拐点。
先说时间窗口。微信 AI 的「自动模式」意味着什么?用户对微信 AI 说一句「帮我在 XX 水果店买两斤西瓜」,AI 就能自动跳进你的小程序完成下单。这个入口背后是 14.32 亿月活(2026 Q1 微信+WeChat 合并数据)——而且现在是内测期,越早接入越有先发优势。等所有人都上线了你再跟进,用户的注意力已经被先入场的分完了。
再说成本。腾讯甩出来的 1 亿 token 额度加 6 个月免费云开发,意味着个人开发者一分钱不花就能把 AI 功能跑起来。这在一年前是不可想象的——那时候光 API 调用费和服务器成本就能劝退一大半人。
但最让我觉得有意思的,是一个反常识的判断:不是「小程序要不要接 AI」,而是「不接 AI 的小程序还能活多久」。当竞品的小程序能用自然语言理解用户意图、自动完成操作,你的小程序还在让用户翻三屏找按钮——这个体验差值是致命的。
左端和右端,是两种完全不同的世界。
左端,微信生态内的两条捷径——3 行代码搞定,零后端零备案,腾讯还倒贴 1 亿 token。你只需要一个想法。中间,现成的智能体平台——不想写代码的可以直接用,运营同学一小时搭个客服机器人。右端,完全自主可控——从买服务器开始,备案、安全、流式、限流、模型选型,每一样都要你自己扛。
关键不是你走不走得到右端。关键是:你的项目现在真的需要走到右端吗?
最省事的一条路。基础库 3.15.1 以上才能用上混元、DeepSeek、GLM、Kimi 这些当前主推的模型(早期 3.7.1 时代只支持几个有限的接口,混元/DeepSeek V4 这些新模型都得 3.15.1+)。核心代码长这样:
wx.cloud.init({ env: "你的环境ID" });const model = wx.cloud.extend.AI.createModel("cloudbase");const res = await model.streamText({data: {model: "hy3-preview",messages: [{ role: "system", content: "你是七言绝句创作助手" },{ role: "user", content: "写一首赞美玉龙雪山的诗" },],},});
零后端、零域名、零备案,流式输出开箱即用。月度资源包计费,成长计划直接送 1 亿 token——够一个 MVP 跑好一阵了。
但局限也很明显。
模型选择权在平台手里,你不能直接调 OpenAI 或者 Claude。
个人主体小程序也别想用这个做商业化的深度合成场景——算法备案那关过不了(必须企业主体 + 服务类目勾选"深度合成-AI 问答" + 订单有效期 ≥ 3 个月)。
走云开发 extend.AI 流程,平台会帮你生成备案资料,省一半事。
一句话:适合快速验证想法,不适合做成付费产品。
这是 2026 年 6 月刚出来的新能力,也是整个生态里最让我兴奋的东西。
它的「自动模式」逻辑很简洁:你把小程序提交审核,平台自动解析你的页面结构、API 定义、交互流程,生成一套标准化的「技能」描述。审核通过后,用户直接用自然语言跟微信 AI 对话,AI 就能自动跳进你的小程序执行操作。
经典场景是这样的——用户对微信 AI 说「帮我在老王家水果店买两斤西瓜,送到阳光小区 3 号楼」,AI 自动进入小程序完成下单支付。整个过程用户不需要知道你的小程序叫什么、菜单在哪个位置、怎么操作。
官方明确表态:开发者对代码及生成的技能享有完整权利,平台不拿走版权。
接入流程也很轻:
微信公众平台 → 「基础功能 – 微信 AI 管理」
开启自动模式开关
提交小程序版本审核(平台审核时自动分析代码)
审核通过后自动生效
缺点也有。还在内测,名额有限。平台自动生成的「技能」能不能完全覆盖你的业务场景,需要人工复核。但想想这个触达效率——30 分钟零代码完成 AI 升级,直接面向 14 亿月活——值得抢个内测名额。
Coze 的逻辑是「让不会写代码的人也能搭 AI 应用」。可视化配置人设、回复规则、知识库、工作流,内置 100+ 插件(搜索、计算器、图像理解),豆包、DeepSeek、Moonshot 多模型随便切换。做好之后一键发布到微信公众号、小程序。
接入路径:Coze 国内版(coze.cn)发布到微信小程序时走的是 OAuth 授权 → 生成小程序绑定 → 嵌入对话组件这一套。具体来说:先在 Coze 后台创建智能体 → 选「发布到微信小程序」→ 扫码授权 → 拿到绑定 ID → 在小程序里拉起对话组件即可,运营同学一小时能搭出一个客服机器人。
代价也有。自定义能力受限——UI 和交互逻辑基本被平台框住了。按 token 计费,高频调用的成本不好预估。真要上量得买企业版。
Dify 和 Coze 的定位很像,但底子是开源的。意味着你可以把它部署在自己的服务器上,模型任选(OpenAI、Claude、Qwen、DeepSeek、甚至本地模型),知识库 RAG、工作流、Agent 一应俱全,而且数据不出企业内网。
我用一个比喻你就能理解两条路的区别:Coze 是租个精装公寓,拎包入住但墙上不能打孔。Dify 是自己买地建房,爱怎么折腾怎么折腾,但水电物业都得自己操心。
对接小程序的方式:Dify 提供的是与 OpenAI API 兼容的接口,所以小程序端可以用云函数或自建后端做中转,调用方式跟调 OpenAI 一模一样(base URL 换成你的 Dify 服务地址即可),对老 OpenAI 玩家非常友好。
金融、医疗、政务这类行业——数据合规是红线——Dify 基本是唯一的选择。代价也清晰:自己运维,自己买 LLM API 费用加服务器费用,学习曲线比 Coze 陡不少。
这套架构我画一下你就懂了:
小程序端 → 云函数或自建后端 → 第三方 LLM API(OpenAI / Claude / Gemini...)↓向量数据库(可选)↓RAG 知识库(可选)
模型完全任选,业务逻辑完全自主。想做多轮对话、上下文管理、敏感词过滤、Function Calling——全都自己掌控。
但这也是所有方案里面坑最多的。
流式输出,小程序 request 不支持 SSE,你得自己搞 WebSocket 或者分块返回。域名白名单,wx.request 只能访问已配置的 HTTPS 域名,业务域名还得下载校验文件放到服务器根目录——最简单的解法是用云函数中转,云开发环境自带域名一步到位。API Key 安全——千万千万别放小程序端,代码能被反编译提取,放出去就是送钱;正确的姿势是密钥永远放在后端,前端拿 Token 鉴权。限流防刷——每个用户的 wx.login 拿到的 code 都要校验,按用户和按 IP 都得做限流,不然 LLM 费用直接爆炸。用户鉴权——wx.login 拿 code 传后端 → code2Session 换 openid 和 session_key → 自建 JWT 给前端鉴权,别直接拿 openid 当 token 用。
再加上算法备案和模型备案可能要折腾几个月,这条路只适合已经有成熟后端的项目。
如果你的场景涉及隐私敏感数据——医疗问诊、法律咨询、金融分析——端侧 AI 是唯一让数据完全不出设备的方案。
技术上用的是 Transformers.js v3(Hugging Face 官方出品),基于 ONNX Runtime Web,走 WebGPU 加速。参考 CSDN 2026-05 公开 benchmark 数据,在 Snapdragon 8 Gen3 上 1024×1024 的矩阵乘法只要 8ms(比 WebGL 快 5.6 倍),MobileBERT 推理 38ms 出结果。HuggingFace 上 1200+ 个 ONNX 模型预转换好了直接用。
优点一目了然:零后端、离线可用、隐私友好。缺点也实在:
模型一般不超过 3B 参数,再大加载太慢。
首次要从 CDN 下载几百 MB 模型文件——主包 2MB 限制是死线,绝对不能把模型打进主包。
小程序的 WebGPU 支持还在完善中,iOS Safari 16.4+ / Android Chrome 113+ 才能跑,老设备直接跑不动。
这条路不适合做通用 AI 产品,但如果你正好在隐私刚需的赛道里,它是唯一的解。
我在整理资料的时候发现,每一条路都有一些共同的绊脚石。我把最痛的 6 个直接列出来:
算法备案是第一个门槛。只要你的小程序涉及 AI 问答,就必须备案「深度合成-AI 问答」服务类目。个人主体过不了审,必须企业主体,而且订单有效期不少于 3 个月。走 extend.AI 的话平台会帮你生成备案资料,省一半事。
流式输出是第二个大坑。小程序的 request 对 SSE 支持很差,用户体验上想做到 ChatGPT 那种逐字蹦出来的效果,要么用 WebSocket,要么用云函数的 streamText。别在产品做完了才回头改这个——那时候改起来就费劲了。
域名白名单容易被忽略。wx.request 只能访问你在后台配置过的 HTTPS 域名,业务域名还要下载校验文件放服务器根目录。最简单的解法是用云函数中转让它——云开发环境自带域名,一步到位。
API Key 安全是一个低级但致命的错误。小程序代码可以被反编译,API Key 写在前端就是明文送给别人。正确的姿势是密钥永远放在后端,前端拿 Token 鉴权。
成本控制必须做在需求评审阶段。LLM 按 token 计费,不设限流和缓存,费用是没上限的。高频问题做语义缓存(向量数据库加相似度阈值),多轮对话做历史压缩,每个用户每分钟限制调用次数——这些不是优化项,是底线。
主包 2MB 限制会卡住所有想做端侧 AI 的人。一个模型文件几百 MB,绝对不能打进主包。正确做法是放 CDN,小程序端按需下载到本地缓存,用 wx.getFileSystemManager 管理,第二次启动秒开。

没有最完美的方案,只有最适合你当前阶段的方案。我把选型逻辑压缩成这 6 句话:
想 3 天出 MVP,验证想法有没有人用?走 extend.AI,3 行代码跑起来再说。
想让微信 AI 给你带量,用户连你小程序叫什么都不用知道?抢微信 AI 双模式的内测名额。
做客服机器人、工具类 AI 应用,数据不敏感?Coze 搭一个小时就能上线。
数据敏感、行业合规要求高?Dify 私有部署,数据和模型都捏在自己手里。
成熟项目、复杂业务、需要最大灵活度?自建后端加云函数中转,模型任选、逻辑全控——代价是你得自己搞定备案、安全、流式输出和成本控制。
医疗、法律、金融这类数据不能出手机的刚需场景?端侧 AI 是唯一的选择。模型小一点,但隐私和安全不打折。
一年前,如果有人说「给小程序加个 AI 对话,3 行代码搞定」,我会觉得他在开玩笑。但 2026 年 6 月的现实是:左端 3 行代码白嫖腾讯的 token 和云开发,右端自己买服务器从零搭建——两条路都能到终点,但代价差了十倍不止。
腾讯给的第一波红利不会一直开着。1 亿 token 白送和微信 AI 内测名额都是限时限量的。如果你正准备给小程序加 AI,别犹豫太久。
选好路线,先把第一行代码跑起来。