执行开发技术
CMU Gym-Anything:将任意软件自动转化为 Agent 测试环境
2026-04-07arXiv 2604.06126 / CMU L3 Lab
★★★★★
首个可将任意真实软件自动转化为可交互 Agent 评测环境的框架,覆盖200个经济价值软件应用,生成超10000个长程任务,彻底打破评测环境人工构建的瓶颈。
值得记下
阅读原文↗将环境创建本身定义为多 Agent 任务是关键创新。此前每个新软件测试环境需人工数周构建,Gym-Anything 将其变为可规模化的自动化流程,使 Agent 评测覆盖范围从几十个跃升至任意软件。
内容来源:arXiv 2604.06126 / CMU L3 Lab,版权归原作者所有