工具

TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents

2026-06-06arxiv.org

TAPO提出一种面向多模态搜索Agent的工具感知策略优化方法,通过信用转移机制改进动作选择。

值得记下

信用转移逻辑与工具API签名强耦合,能识别并抑制语义相近但功能不匹配的工具误调用

阅读原文

内容来源:arxiv.org,版权归原作者所有