开发技术
FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks
2026-04-14arxiv.org
★★★★★
构建面向长周期金融任务的轨迹级评测基准,全面评估大模型智能体工具调用能力。
值得记下
阅读原文↗首创轨迹级评估体系,精准量化长周期金融任务中智能体的工具调用效能与容错水平。
内容来源:arxiv.org,版权归原作者所有
构建面向长周期金融任务的轨迹级评测基准,全面评估大模型智能体工具调用能力。
首创轨迹级评估体系,精准量化长周期金融任务中智能体的工具调用效能与容错水平。
内容来源:arxiv.org,版权归原作者所有