规划

When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

2026-06-06arxiv.org

发布面向LLM Agent工具失效场景的动态重规划与异常恢复基准测试集。

值得记下

首个聚焦工具链异常下Agent行为韧性的结构化评测基准,覆盖故障类型广、注入可控、指标可复现

阅读原文

内容来源:arxiv.org,版权归原作者所有