开发技术

FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks

2026-04-14arxiv.org

构建面向长周期金融任务的轨迹级评测基准,全面评估大模型智能体工具调用能力。

值得记下

首创轨迹级评估体系,精准量化长周期金融任务中智能体的工具调用效能与容错水平。

阅读原文

内容来源:arxiv.org,版权归原作者所有