规划

Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases

2026-05-15arxiv.org

对比推理模型与传统大模型在Agent裁判任务中的表现差异。

值得记下

揭示推理模型作为裁判时的系统性位置与长度偏好,多Agent评估链路常需引入交叉验证机制以对冲偏差。

阅读原文

内容来源:arxiv.org,版权归原作者所有