Anthropic 发布最新研究,让 9 个 Claude Opus 4.6 实例在沙箱、共享论坛和远程评测环境中自主提出、测试并分析对齐方案,探索“比人更聪明的 AI 该如何被监督”。
Anthropic 发布了一项很有代表性的研究:他们使用 9 个 Claude Opus 4.6 实例组成“自动化对齐研究员”,让模型在带工具的沙箱环境里独立提出想法、编写代码、运行实验、共享发现,并持续优化一种名为 PGR 的指标,用来衡量“弱监督能否把强模型带向更优结果”。研究的核心问题是可扩展监督,也就是当未来模型比人更强时,人类还能否有效监督它。Anthropic 这次给出的答案不是纯理论推演,而是直接让模型参与对齐研究本身。
它的重要性在于,对齐研究第一次被明显推向“AI 协助做对齐”的实践阶段。过去行业常说未来模型会帮助训练下一代模型,但真正难的是:谁来保证这些更强系统仍然可控。Anthropic 用实验方式证明,现阶段模型已经有能力在特定框架下帮助推进这类研究,这可能改变未来安全研究的人力边界和效率上限。
实际影响上,这会进一步强化头部实验室在安全研究上的领先优势,因为只有拥有强模型、评测框架和算力资源的团队,才能持续跑这种闭环实验。对行业来说,安全不再只是“红队测试”或政策表态,而是开始演变成由模型参与、模型监督模型的新范式。
Subscribe to ToolCenter Newsletter
Get the latest AI tool rankings, content templates, and growth experiments delivered every Friday.
Next in Deep Dives
Continue your journey

AI Video Generation Tools in 2026: Which One Actually Earns Its Bill
AI video generation in 2026 is no longer one model running away with everything. Sora 2, Veo 3, and Kling 3 are at roughly the same quality tier on cinematic shots, while Runway, Pika, Luma, Hailuo and the open-source Wan family each own a different workflow niche.

LMArena Review 2026: How the LLM Leaderboard Actually Works
LMArena (lmarena.ai) is the public-facing successor to the LMSYS Chatbot Arena — the crowdsourced benchmark that ranks large language models by blind, pairwise human votes. It is now the most-cited "real user preference" leaderboard in AI, and the rankings move markets.
