开发技术

CocoaBench: Evaluating Unified Digital Agents in the Wild

2026-04-14arxiv.org

发布面向真实场景的统一数字智能体评测基准,覆盖软件工程与界面自动化。

值得记下

构建贴近真实业务流的数字智能体评估体系,加速自动化工作流技术迭代。

阅读原文

内容来源:arxiv.org,版权归原作者所有