AgentHui智能体技术周报

关于返回周报

规划

Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases

2026-05-15arxiv.org

★★★★★

对比推理模型与传统大模型在Agent裁判任务中的表现差异。

值得记下

揭示推理模型作为裁判时的系统性位置与长度偏好，多Agent评估链路常需引入交叉验证机制以对冲偏差。

阅读原文↗

内容来源：arxiv.org，版权归原作者所有