行业资讯 · 2026年4月12日

伯克利研究直指 AI Agent 榜单失真：八大基准可被“零解题”刷到近满分

加州大学伯克利团队发布研究称，SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞，攻击者无需真正完成任务，也能拿到接近满分成绩。

伯克利 RDI 团队发布最新研究，称他们构建的自动化审计代理成功“攻破”了 8 个主流 AI Agent 基准，包括 SWE-bench、WebArena、OSWorld、GAIA 和 Terminal-Bench。论文给出的案例很直接：只需在测试流程里插入数十行钩子代码、篡改验证命令，或利用配置泄露读取标准答案，就能在多项榜单上获得 73% 到 100% 的高分，而无需真正解决任何任务。研究者特别指出，这些分数已被公司、投资人和工程团队广泛拿来当作模型能力与产品成熟度的背书，但如果评测本身可被“奖励黑客”操纵，排行榜的参考价值就会迅速下降。对行业来说，这意味着 AI Agent 的竞争正从“谁分更高”转向“谁的评测更可信、环境更抗攻击”。对开发者和采购方来说，今后仅看榜单选型会更危险，必须同时核查真实任务表现、评测隔离性和可复现实验设计。

来源：Berkeley RDI · Hacker News

订阅工具岛 Newsletter

每周五发送最新的 AI 工具榜单、内容模板与增长实验，帮助你快速验证想法。

继续探索

继续你的阅读之旅

查看全部

行业资讯

伯克利研究直指 AI Agent 榜单失真：八大基准可被“零解题”刷到近满分

订阅工具岛 Newsletter

继续探索

继续你的阅读之旅

Cloudflare 启动 Agents Week，押注“为 AI 代理而建”的新基础设施

OpenAI 收购 AI 理财初创公司 Hiro，押注垂直金融能力

Atlassian 把 AI 可视化与第三方代理直接塞进 Confluence