跳到主要内容

绘制 2026 AI Agent 全景图:从协议到预测

· 阅读需 17 分钟
马老师 Marvin
软件工程师 & 开源爱好者

六大协议。六个自动化级别。十七款工具。十二项预测。一张交互式全景图将它们串联起来。

AI Agent 交互全景图是我构建的一个开源双语单页应用,旨在厘清 2026 年 AI Agent 如何与开发者、编辑器、工具以及彼此之间进行交互。本文将梳理其中引入的关键框架——以及构建过程中涌现的洞察。

为什么需要一张全景图?

2026 年初的 AI Agent 领域,让人想起 2016 年的 JavaScript 框架大战——只不过赌注更高,缩写词增长得更快。MCP、ACP、A2A、A2UI、AG-UI、AP2:来自四个不同组织的六大协议,各自解决 Agent 交互栈的不同层级。与此同时,工具在 CLI、IDE、移动应用和无头平台上遍地开花,每种工具在不同自动化级别上支持这些协议的不同子集。

这张全景图的存在,是因为没有任何单篇文章、演讲或文档站点能覆盖完整图景。它不是产品对比。它是一张 协议栈可视化图 ,展示这些拼图如何组合——从人类端点(你的手机、终端、IDE)一直到执行底座(云容器、本地运行时、LLM 路由)。

相关阅读

关于 AI Agent 架构模式的基础概念,请参阅 AI 智能体:工程高于智能

协议栈:五大层级

全景图的核心是一个五层协议栈。每一层解决 Agent 交互模型中的不同边界问题。点击任意层级以展开详情:

点击层级以展开详情
L1 · 人类端点
L2 · Agent↔人类协议
L3 · Agent Harness
L4 · Agent↔Agent/Tool
L5 · 执行底座

L0→L5 自动化光谱

全景图中最实用的框架,或许是参照自动驾驶等级建模的六级自动化光谱。选择任意级别,查看人类/Agent 分工和具体的 Bug 修复示例:

L0人工
L1辅助
L2协作
L3半自动
L4全自动
L5编排
L2 · 协作★ 主流45 分钟
人类 55%
Agent 45%
关键转变: 编写代码 → 审查变更
Bug 修复示例: 在 Cursor 聊天中描述 Bug → AI 扫描代码库 → 提出行内修复 → 人类一键批准。

行业主流停留在 L2 (协作),前沿正在推进到 L3 (半自动)。从 L2 到 L3 是真正的范式转变:开发者不再编写代码,而是描述意图。从 L3 到 L4 更为激进——开发者完全退出循环,转而设定治理边界。

模式清晰可见:人类时间呈指数下降,但 每个剩余人类决策的权重在增加 。L4 级别一次 30 秒的审批,可以为 8 小时的 Agent 工作开绿灯。

L2-L4 的一天

全景图包含一个"Day in Life"视图,展示这些自动化级别如何在真实工作日中交织:

  • 07:30 (手机,L4):滑动批准隔夜重构结果。28 个文件变更,412 个测试通过。15 秒。
  • 08:15 (手机,L3):通过 Claude Code Remote Control 从 Slack 下发 Bug 修复,同时点咖啡。
  • 09:30 (IDE,L2):与 Cursor 结对编程 OAuth 集成。开发者做架构,AI 实现。2 小时,约 30% 人类编写。
  • 11:45 (手机,L3):早上的 Bug 修复完成。手机上批准,PR 自动合并。
  • 14:00 (IDE,L2):AI 辅助代码审查,捕获缺失索引和 N+1 查询风险。
  • 16:00 (终端,L4):配置隔夜 Agent——依赖升级 + 安全审计。5 分钟设置,8 小时以上自主工作。
  • 22:00 (手机,L4):快速查看仪表盘。Agent A 进度 45%。Agent B 已完成,提交了 2 个工单。无告警。

合计: 约 3.5 小时 人类时间, **约 11 小时 ** Agent 时间,跨 3 种设备和 3 个自动化级别。手机不是编码工具——它是 审批界面

工具生态:17 款产品全景

全景图按协议支持和自动化范围映射了 17 款工具。按协议筛选,查看生态系统的聚类方式:

全部MCPACPA2AA2UIAG-UI
⌨️ CLI Agent
Claude CodeAnthropicMCPACPL2-5
Gemini CLIGoogleMCPACPL2-4
Codex CLIOpenAIMCPACPL2-4
Aider开源MCPL2-3
OpenCode开源MCPACPL2-3
🖥️ IDE
CursorCursorMCPL2-3
WindsurfCodeiumMCPL2-3
JetBrains AIJetBrainsMCPACPL2-3
ZedZedMCPACPL2-3
CopilotGitHubMCPACPL1-3
📱 移动端
Claude Code RCAnthropicAG-UIA2UIL3-4
Pocket Agent社区AG-UIL3-4
🔧 框架与平台
CopilotKitCopilotKitAG-UIA2UIMCPL2-5
Google ADKGoogleA2AA2UIMCPL3-5
LangGraphLangChainAG-UIMCPL3-5
BeeAIIBM/LFA2AMCPL4-5
16 / 16 款工具

核心观察: 协议支持决定自动化上限 。仅支持 MCP 的工具大约在 L3 封顶。加入 ACP 可实现 IDE 集成。加入 A2A + AG-UI 才能解锁 L4-L5 多 Agent 网格。

八大洞察

全景图的"WHY"部分提炼了八个核心观察:

  1. ** "TUI 复兴不是怀旧" ** —— AI 输出天然是文本流。终端是有史以来最高效的文本流渲染器。

  2. ** "MUI 不会出现" ** —— 不会有 Agent 的"移动端 UI 标准"。A2UI 已经让移动端成为原生渲染目标。

  3. ** "你的手机是审批界面,不是编码工具" ** —— 移动端的瓶颈不是输入(AI 解决了),而是输出。手机最适合做批准/拒绝决策。

  4. ** "四个端点是投影,不是替代方案" ** —— 移动端、终端、IDE 和无头端不是竞争关系。它们是同一 Agent 系统的不同视角。

  5. ** "更少时间,更大杠杆" ** —— 从 L0 到 L5,人类时间从 100% 降至 2%,但每个决策的影响力呈指数增长。

  6. ** "治理才是真正的产品" ** —— 在 L4/L5,治理是 Agent 与生产环境之间唯一的屏障。2027 年最有价值的 AI 基础设施不是最聪明的模型——而是最好的护栏。

  7. ** "协议 > 产品" ** —— MCP、ACP 和 A2A 将比今天的 AI 工具活得更久,就像 HTTP 比 Netscape 活得更久一样。

  8. ** "编码的未来是异步的" ** —— 在 L4+:设定意图 → Agent 隔夜工作 → 早上审查结果。

十二项预测及置信度

全景图在五个维度上追踪了 12 项预测,每项附带置信度评分和时间线:

技术

预测置信度时间线
ACP 成为 AI 编码的 LSP90%2026 下半年
A2UI 消灭"构建移动应用"步骤70%2027
终端变为 Agent 间接口45%2028+

ACP 预测是全景图中置信度最高的判断。JetBrains + Zed 联合开发了它,GitHub Copilot CLI 在 2026 年 1 月加入 ACP,Agent Registry 已推出一键安装。到 2026 年底,每个主流 IDE 和终端 Agent 都将说 ACP——"哪个编辑器支持哪个 Agent"的问题将不复存在。

职业

预测置信度时间线
"提示工程"融入每个角色85%2026 下半年
10x 开发者变为 100x 架构师70%2027
"软件工程师"分裂为两条职业路径50%2028+

职业分裂的预测颇具挑衅性:一条路通向 系统架构师 ,设计 Agent 编排系统;另一条路通向 Agent 工艺专家 ,构建单个 Agent 能力。通才型"全栈开发者"逐渐消解。

组织

预测置信度时间线
团队结构跟随自动化级别80%2026 下半年
"Agent 预算"成为类似云支出的账目60%2027

产品

预测置信度时间线
AI 原生 IDE 失去护城河75%2026 下半年
Agent 市场出现55%2027

社会

预测置信度时间线
编程变得普及但不再是一种职业65%2027
全天候 Agent 重塑工作与生活的边界40%2028+

追踪器显示,截至 2026 年 3 月:1 项预测完全验证("提示工程融入每个角色"——LinkedIn 提示工程师岗位据报下降 60% 为其提供了支撑),6 项部分验证,4 项待验证,0 项修正。多项预测的置信度自首发以来已有调整:"Agent 预算成为账目"从 60% 升至 65%,而"A2UI 消灭移动应用步骤"从 70% 降至 65%。

安全:六大威胁,六道防线

随着 Agent 推进到 L4-L5,安全成为关键瓶颈。全景图识别了六个威胁向量:

  1. 权限过度的 Agent —— 一个拥有不受限文件系统访问权的 L4 Agent 在重构任务中删除了生产配置。 防御 :按任务最小权限、允许列表优于拒绝列表、限时权限信封。

  2. 信任链断裂 —— Agent A 通过 A2A 委托给 Agent B,无意中授予了更宽泛的权限。 防御 :每次委托跳转时能力降级、随交接次数递减的权限衰减。

  3. 提示注入传播 —— 代码注释中的恶意指令劫持 Agent 行为,在多 Agent 系统中扩散。 防御 :在每个边界消毒、金丝雀令牌、交叉验证多 Agent 输出。

  4. 非预期数据泄露 —— Agent 在调试过程中将密钥发送到外部日志服务。 防御 :MCP 资源数据分类标签、网络隔离、Token 级脱敏。

  5. 通过工具组合绕过治理 —— 单个工具是安全的,但组合使用创造了危险能力。 防御 :分析动作序列、估算爆炸半径、超过阈值要求人类审批。

  6. 审批疲劳 —— 批准了 50 个常规请求后,开发者橡皮图章式地放过了一个安全漏洞。 防御 :基于风险的路由、高影响变更的注意力信号、随机注意力检查。

最隐蔽的是第 6 条。其他每个威胁都有技术防御方案。审批疲劳是一个 人为因素 问题,它侵蚀了整个人类在环安全模型。

时间-杠杆悖论

构建这张全景图最深刻的洞察,是我所说的 时间-杠杆悖论 :当人类时间趋近于零时,每个剩余人类时刻的价值趋近于无穷大。

在 L0,你花 4 小时修复一个 Bug。每分钟大致等价。在 L4,你花 0 分钟——Agent 处理一切。但当某件事确实需要你关注时,那 30 秒的审批决策为 8 小时的自主工作开了绿灯。在 L5,30 分钟的目标设定会话产生数天的 Agent 网格输出。

这不仅仅是生产力的故事。这是对"成为开发者意味着什么"的根本转变。稀缺资源不再是编码时间——而是 判断力 。设定正确边界、批准正确方案、捕捉正确边界情况的能力。治理才是真正的产品,因为它是判断力的代码化。

来试试

AI Agent 交互全景图以 MIT 协议开源,代码托管在 github.com/tikazyq/agent-landscape。它使用 React 18 + Vite 构建,压缩后约 88KB,支持中英双语。内置自评测试,可以告诉你当前的自动化级别并推荐下一步行动。

无论你是刚开始使用 AI 工具的 L1 开发者,还是正在向自主 Agent 迈进的 L3 开发者,全景图旨在展示你所在的位置、可能达到的高度,以及哪些协议和工具能帮你到达那里。

Agent 生态系统正在快速演进。协议在诞生,工具在汇聚,开发者的工作方式正被根本性重塑。理解这幅全景图最好的时间是六个月前。第二好的时间是现在。