规划
When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents
2026-06-06arxiv.org
★★★★★
发布面向LLM Agent工具失效场景的动态重规划与异常恢复基准测试集。
值得记下
阅读原文↗首个聚焦工具链异常下Agent行为韧性的结构化评测基准,覆盖故障类型广、注入可控、指标可复现
内容来源:arxiv.org,版权归原作者所有
发布面向LLM Agent工具失效场景的动态重规划与异常恢复基准测试集。
首个聚焦工具链异常下Agent行为韧性的结构化评测基准,覆盖故障类型广、注入可控、指标可复现
内容来源:arxiv.org,版权归原作者所有