历史周报

共 15 期

W302026

2026-07-19 — 2026-07-25

全双工语音进入 Codex，Octopus v3 把多模态 Agent 压缩到亚十亿参数端侧，AI 手机战事同步拉响。但本周真正的张力落在监督真空上：Rubrik 用 AI 裁判 Agent 每一步操作，却无人衡量裁判本身的对错；操作幻觉与 AI 间的强制欺骗也开始被量化。记忆学习（AttriMem、CMI-Mem）与 DynamicMCPBench 等基准，则共同指向可泛化长效记忆与协作信号保真度的双重追问。

→

W292026

2026-07-12 — 2026-07-18

本周 Agent 领域在同时拉两根线。一根是部署侧的现实判断：企业 AI 组织面临的是编排问题，而非平台问题——多数人仍把聊天机器人称作 Agent。另一根是认知框架的重构：记忆概念正在被“获取”替代，视频被拆解为世界加事件流，任务复杂度感知开始进入基准评测。语音作为交互入口重新回到牌桌上，而多智能体协作的评估体系还在试图追上实验速度。

→

W282026

2026-07-05 — 2026-07-11

本周的动态指向同一个趋势：Agent 从对话工具走向行动系统。OpenAI 用 GPT-Live 全双工语音把 ChatGPT 推向更像人的即时对话，另一头，Karpathy 的 700 次 Loop 实验则戳破了一个常见误区——性能提升未必绑在模型身上，代理的循环设计本身才是关键。与此同时，多智能体决策协议、工具制造与自我进化、以及低时延系统中的代理实践在这些发布里密集出现。表面在谈性能，底层全是架构与控制的重新厘定。

→

W272026

2026-06-28 — 2026-07-04

本周动态呈现 Agent 可靠性攻坚与商业现实间的张力。多篇研究从参数化世界模型、符号反馈与回合记忆入手，试图解决规划中的幻觉传播与长期记忆失效；一项针对代码生成的观察明确指出，推理深度而非工具可及性，才是首次可靠性的关键筹码。而快手可灵 AI 百亿估值与其承载空间的矛盾，则无意中度量了大模型叙事的落地温差。

→

W262026

2026-06-21 — 2026-06-27

本周AI Agent动态呈现三重张力：模型能力正从单点突破转向系统协同（如Qwen-Image-Agent弥合图像生成语境断层、AgentX推动推荐系统自迭代）；工业落地路径愈发清晰——OCR泛化、医疗靶区自动勾画、GUI任务规划等场景已脱离Demo阶段；更值得注意的是，非代理预训练模型（阿里某模型）反向提升代理性能，暗示“代理性”或正成为可迁移的涌现属性，而非必须内生于训练目标。

→

W252026

2026-06-14 — 2026-06-20

本周52条动态勾勒出AI Agent正经历三重跃迁：从单点能力验证（鸿蒙小艺、GLM-5.2）转向系统级韧性建设（防御性误导分析、降级诊断恢复）；从通用架构探索（DeLM去中心化协同、DreamX世界模型）深入垂直纵深（医疗手递交接缓解、DeFi风险监督）；而“预测部署行为”“Trace-Economic承保”等提法，则暗示产业界已开始用工程与金融双重视角，为Agent规模化铺就可信基础设施。

→

W242026

2026-06-07 — 2026-06-13

本周AI Agent动态呈现“感知—决策—行动”链条的纵深演进：多模态感知（Kwai Keye-VL-2.0、Gemini 3.5 Live Translate）、临床级持续照护（Baichuan-M4）、科学自主发现（EurekAgent）、数学证明扩展（MaxProof）与环境工程范式（Arbor、EurekAgent、Agentic Environment Engineering Survey）齐头并进。值得注意的是，GPT-5.5在严苛新基准中胜出，而ARMOR-MAD与FlowBank则揭示多智能体协作正从静态编排转向自适应路由与工作流复用——系统性能力正在取代单点突破。

→

W232026

2026-05-31 — 2026-06-06

本周AI Agent动态呈现三重张力：模态边界持续消融（Gemma 4本地多模态、Cosmos 3物理世界建模），工程落地加速分化（Qwen3.7-Plus低成本但闭源，VAMPS/StepAudio 2.5等开源基准密集涌现），而可靠性正成为新分水岭——从动态重规划评测到机制化风险监测，从供应链实战（BASF）到遥感知识流融合，Agent正从“能做”转向“可信可控”。

→

W222026

2026-05-24 — 2026-05-30

本周AI Agent动态呈现三重张力：效率与风险并存（Opus 4.8动态工作流、MCP剪枝降本62%），能力跃迁与人机边界再定义（Robinhood开放交易权、Figma Make直连GitHub生成生产代码），以及系统性隐忧浮现（技能生态威胁报告、2万+真实会话揭示的开发者-代理错配）。技术成熟度正从单点突破转向治理纵深——AWS MCP GA、IAM治理、审计机制密集落地，暗示Agent已进入可运营阶段。

→

W212026

2026-05-17 — 2026-05-23

本周 AI Agent 聚焦长程自主与企业治理。Qwen3.7-Max 实现 35 小时连续运行，AgentArk 推进多智能体能力蒸馏，凸显架构优化。MCP 隧道与凭证隔离重塑安全边界，外部集成赋予 Agent 真实资产操作权限。技术叙事正从对话交互向可控执行层迁移。

→

W202026

2026-05-10 — 2026-05-16

本周动态呈现从“能力扩张”向“可控可信”的收敛。Gemini 3.5 与 Mavis 推进架构分层，Claude Code 的 `/goals` 与长程研究正划定自主边界。伴随 MCP 攻击与工具投毒曝光，Agent 演进已越过能力竞赛，进入安全交付与自我终止的深水区。

→

W182026

2026-04-26 — 2026-05-02

本周AI Agent重心转向工作流编排与系统化治理。企业方案聚焦流程修复与多智能体协同，开源模型持续压低部署成本。招考场景的“AI攻防”、系统卡片与提示词管理同步浮现。能力扩张与可控性之间的张力，正重塑技术落地的实际边界。

→

W172026

2026-04-19 — 2026-04-25

本周AI Agent生态正从“模型堆料”转向“工程化落地”。开源模型与算力加速打破壁垒，智能体框架推动工作流协同。伴随多模态基准完善与安全争议凸显，行业焦点已转向系统可控性与场景适配。未来竞争核心将是架构鲁棒性与生态整合力。

→

W162026

2026-04-12 — 2026-04-18

本周AI Agent正跨越“演示期”，向高可靠、可治理的生产范式收敛。技术呈现三大跃迁：自进化架构驱动持续迭代；企业级治理强化策略审批与审计；多智能体协同向垂直科研纵深突破。Agent开发已从单点调优全面转向系统化自治与工程落地。

→

W152026

2026-04-07 — 2026-04-11

本周是2026年智能体技术最密集的一周之一。工业侧，Anthropic 的 Claude Mythos 展示了 Agent 在真实安全任务中的自主执行极限，但选择不公开——以 Project Glasswing 启动防御性协作；Claude Managed Agents 将生产部署基础设施平台化；Meta Muse Spark 正式入场，多 Agent 并行推理成为新旗舰特性；Microsoft Agent Framework 1.0 完成大一统。学术侧，CMU Gym-Anything 将任何软件变成 Agent 测试环境，SkillClaw 提出跨用户技能自演化框架，ICSE 2026 把智能体软件工程 SE 3.0 写进主旨议题。本周主线：Agent 能力的边界被进一步推开，同时工程化与治理化的压力同步升级。

→