执行

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

2026-05-01arxiv.org

发布面向专业跨应用环境的GUI智能体流程中心型评测基准。

值得记下

评测维度从单一界面点击准确率转向完整业务流的过程合规性,记录智能体在跨应用上下文切换时的状态保持与错误恢复路径。

阅读原文

内容来源:arxiv.org,版权归原作者所有