开发技术
CocoaBench: Evaluating Unified Digital Agents in the Wild
2026-04-14arxiv.org
★★★★★
发布面向真实场景的统一数字智能体评测基准,覆盖软件工程与界面自动化。
值得记下
阅读原文↗构建贴近真实业务流的数字智能体评估体系,加速自动化工作流技术迭代。
内容来源:arxiv.org,版权归原作者所有
发布面向真实场景的统一数字智能体评测基准,覆盖软件工程与界面自动化。
构建贴近真实业务流的数字智能体评估体系,加速自动化工作流技术迭代。
内容来源:arxiv.org,版权归原作者所有