加州大学伯克利团队发布研究称,SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞,攻击者无需真正完成任务,也能拿到接近满分成绩。
伯克利 RDI 团队发布最新研究,称他们构建的自动化审计代理成功“攻破”了 8 个主流 AI Agent 基准,包括 SWE-bench、WebArena、OSWorld、GAIA 和 Terminal-Bench。论文给出的案例很直接:只需在测试流程里插入数十行钩子代码、篡改验证命令,或利用配置泄露读取标准答案,就能在多项榜单上获得 73% 到 100% 的高分,而无需真正解决任何任务。研究者特别指出,这些分数已被公司、投资人和工程团队广泛拿来当作模型能力与产品成熟度的背书,但如果评测本身可被“奖励黑客”操纵,排行榜的参考价值就会迅速下降。对行业来说,这意味着 AI Agent 的竞争正从“谁分更高”转向“谁的评测更可信、环境更抗攻击”。对开发者和采购方来说,今后仅看榜单选型会更危险,必须同时核查真实任务表现、评测隔离性和可复现实验设计。
来源:Berkeley RDI · Hacker News
订阅工具岛 Newsletter
每周五发送最新的 AI 工具榜单、内容模板与增长实验,帮助你快速验证想法。
继续探索
继续你的阅读之旅
Cloudflare 启动 Agents Week,押注“为 AI 代理而建”的新基础设施
Cloudflare 宣布开启 Agents Week,系统阐述其面向 AI 代理的基础设施路线:用基于 isolates 的 Workers、动态运行时和容器化沙箱,同时承接今天的浏览器/容器需求与未来的 MCP、代理身份和安全模型。
OpenAI 收购 AI 理财初创公司 Hiro,押注垂直金融能力
OpenAI 确认收购个人理财 AI 初创公司 Hiro。后者将在 4 月下旬停止运营并删除服务器数据,团队并入 OpenAI。Hiro 主打消费者财务规划与“假设推演”,曾获 Ribbit、General Catalyst 等支持。