工具

The Amazing Agent Race: Strong Tool Users, Weak Navigators

2026-04-14arxiv.org

揭示现有工具基准线性局限,提出新框架以全面评估智能体复杂导航与调用能力。

值得记下

突破传统线性评测局限,首创融合复杂导航与多步工具调用的综合评估体系,推动工具智能体向高阶演进。

阅读原文

内容来源:arxiv.org,版权归原作者所有