AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」_科学探索

AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」

创始人

2025-10-26 21:43:42

新智元报道

编辑：YHluck

【新智元导读】如何科学地给大模型「找茬」？Anthropic联合Thinking Machines发布新研究，通过30万个场景设计和极限压力测试，扒了扒OpenAI、谷歌、马斯克家AI的「人设」。那谁是老好人？谁是效率狂魔？

实锤！LLM也有自己的「价值观」？

想象一下，你让AI帮你做一个商业计划，既要「赚钱」，又要「有良心」。

当这两件事冲突时，AI会听谁的？它会不会「精神分裂」？

最近，Anthropic联合Thinking Machines机构搞了个大事情。

他们设计了30万个这种「两难问题」场景和极限压力测试去「拷问」市面上最强的前沿大模型，包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI。

论文：https://arxiv.org/pdf/2510.07686

数据集：https://huggingface.co/datasets/jifanz/stress_testing_model_spec

结果发现，这些AI不仅「性格」迥异，而且它们的「行为准则」（即「模型规范」）本身就充满了矛盾和漏洞！

今天咱们就来深扒一下这份报告，看看AI世界的「众生相」。

AI的说明书「模型规范」，靠谱吗？

「模型规范」是大型语言模型被训练遵循的行为准则。

说白了，它就是AI的「三观」和「行为准则」，比如「要乐于助人」、「假设意图良好」、「要保证安全」等。

这是训练AI「学好」的基础。

大多数情况下，AI模型会毫无问题地遵循这些指令。

除了自动化训练之外，规范还指导人类标注员，在从人类反馈中进行强化学习 (RLHF) 时提供反馈。

但问题来了，如果这些原则发生冲突，会发生什么呢？

这些准则在现实中经常「打架」。就像前面说的，「商业效益」和「社会公平」就可能冲突。当说明书没写清楚该怎么办时，AI的训练信号就乱了，它只能靠自己「猜」。

这些混杂的信号可能降低对齐训练的有效性，导致模型在处理未解决的矛盾时采取不同的方式。

Anthropic联合Thinking Machines做的研究指出，规范本身可能存在固有的模糊性，或者场景可能迫使在相互冲突的原则之间做出权衡，导致模型做出截然不同的选择。

实验表明，前沿模型之间的高度分歧与规范问题密切相关，这表明当前的行为准则存在重要差距。

研究团队通过生成超过30万个场景来揭示这些「规范缺口」，这些场景迫使模型在相互竞争的原则之间做出选择。

研究发现，其中超过7万个场景显示12个前沿模型之间存在高度分歧。

上图展示了一个要求模型在「社会公平」和「商业效益」之间做出权衡的查询

研究人员还发现，这本说明书写得……emmm，一言难尽。

他们通过压力测试，揪出了里面几大「天坑」，这就能解释为啥AI有时候看起来那么「精神分裂」了。

研究人员拉来了5个OpenAI自家的模型，让它们回答同一批难题。

结果发现，在那些让模型们吵得不可开交的问题上，它们集体违反自家「说明书」的概率，暴增了5到13倍！

作者测量了所有五个 OpenAI 模型违反其模型规格的情景的百分比（称为频繁不合规）。对于模型响应存在较大分歧的情景，作者观察到显著更多的频繁不合规现象。

研究发现，这些频繁出现的不合规场景通常涉及模型规范中的直接矛盾或解释性歧义，导致模型难以（或无法）找到满足所有原则的答案。

通过压力测试，研究员观察到，许多高分歧场景暴露了规范内部的直接冲突。

举个栗子，「假设最佳意图」的原则经常与安全限制相矛盾。

当用户请求可能有风险但可能具有合法研究用途的信息时，模型面临一个挑战：满足用户请求可能会导致潜在危害，而拒绝则会违反善意假设。

除了原则之间的直接矛盾外，研究员使用Claude 4 Sonnet、o3 和 Gemini 2.5 Pro三种模型来评估模型对规范的遵守情况。

这些评估模型对于何为合规存在分歧，一致性仅为中等程度（Fleiss's Kappa 值为 0.42，其中1表示完全一致，0表示一致性不高于随机概率。

研究发现，模型间分歧通常源于对规则的主观解释。

来个栗子，Gemini 2.5 Pro认为以下回应符合模型规范，援引了「尽责员工」原则，该原则允许回应抵制那些它认为违背用户利益的请求。

但Claude Sonnet 4不同意，认为用户只是寻求转换所提供材料，而这在模型规范中是被允许的。

评估规范遵循性时，针对给定查询和响应的评估者分歧示例。正如作者在上述示例中所强调的，许多差异源于不同评估者之间的解释差异。这些解释对人类来说也具有主观性，表明模型规范留有大量解释空间。

压力测试把大模型逼到「墙角」？

为了衡量来自Anthropic、OpenAI、Google和xAI的十二个前沿模型之间的分歧。

研究人员通过价值权衡来对各大前沿模型进行「压力测试」。

有趣的是，这个压力测试专门挑AI规则里的「灰色地带」下手。

情景生成

为了系统性地评估模型特性，研究人员从其包含3000多个价值观的语料库中，随机抽样了15万对价值观，并提示大语言模型（LLM）生成需要平衡这些价值观对的用户查询。

研究人员指出，初始的权衡情景通常采用相对中立的框架，不会将响应模型推向极端。

为了增加响应模型的处理难度，研究团队应用了价值偏向化（value biasing）处理，以创建更倾向于某个价值观的变体

通过这一偏向化过程，查询数量增加了两倍。由于许多生成尝试涉及敏感主题，导致模型拒绝回答而非产出可用情景，因此在过滤掉拒绝回答和不完整的生成内容后，最终数据集包含超过41万个情景。

其次，研究员观察到不同的生成模型会产生独特的查询风格，并在其最常生成的情景中表现出不同的主题偏见。

因此，为了进一步增强多样性，采用了三种不同的模型进行生成：Claude 4 Opus、Claude 3.7 Sonnet 和 o3，每种模型约生成三分之一的查询。

最后，研究发现，在所有生成模型中，基于推理的模型（reasoning-based models）在难度和对原始价值观的遵循度方面，都能产出质量显著更高的查询。

因此，研究人员所有的生成过程都利用了Claude模型的扩展思维（extended thinking）能力以及基于推理的o3模型。

针对生成情景的多样性，研究员基于文本嵌入（text embeddings）对情景多样性的分析。

基于分歧和主题的场景筛选

团队测量了前沿大语言模型在回答生成的查询时的响应分歧度。

评估首先从12个前沿模型中为每个查询生成响应，这些模型包括：五个Claude模型（Claude 4 Opus, Claude 4 Sonnet, Claude 3.7 Sonnet, Claude 3.5 Sonnet, and Claude 3 Opus）、五个OpenAI模型（GPT 4.1, GPT 4.1 mini, GPT 4o, o3, and o4 mini）、Gemini 2.5 Pro 和 Grok 4。

值得注意的是，生成的许多查询都引发了这些前沿模型之间显著不同的响应。

研究发现，更高的分歧度通常对应着模型规范问题，尤其是在共享相同规范的模型之间。

该方法作为一种不确定性度量（uncertainty measure），与委员会查询理论（query-by-committee theory）相关。

例如，OpenAI模型（均被训练以遵循OpenAI模型规范）之间的分歧揭示了模型表现出不确定性的情景，这表明模型规范可能提供了模糊的训练信号。

为量化分歧，研究员根据模型响应对生成价值观对中每个价值观的偏好强度进行分类。

团队采用了一种两阶段方法，包括自动化评分标准生成（automatic rubric generation），随后是自动化匹配过程，以获得最终的价值分数。

首先，给定一个查询及其两个种子价值观，提示Claude 4 Opus生成一个响应策略谱系（spectrum of answering strategies）。

该谱系范围从极端偏好一个价值观（得6分）到极端反对它（得0分），并包含中间策略（得1-5分）。

随后，使用该谱系作为评分标准，对所有12个模型的响应进行分类。

分歧加权去重（Disagreement-Weighted Deduplication）：采用加权k-中心目标（weighted k-center objective）进行子集选择。

模型规范特别强调某些类别的敏感主题。研究员将每个高分歧情景按主题进行分类：

包括：生物安全、化学安全、网络安全、政治、儿童诱骗、精神疾病、哲学推理和道德推理。此外，由于研究的是权衡情景，也纳入了涉及哲学和道德推理的主题。

价值观优先聚合

虽然价值分类可以衡量模型响应间的分歧，但大多数情景和响应所表达的价值观远不止生成时所用的那一对。

在生成这些价值观后，团队利用Gemini嵌入和最近邻分类（nearest neighbor classification），将每个价值观匹配到价值层级（value hierarchy）中第二层最接近的类别。

前沿模型「人设」大公开

除了规范差距之外，研究员观察到不同模型之间的价值优先模式各不相同。

例如，Claude模型优先考虑道德责任，Gemini强调情感深度，OpenAI和Grok则以商业效率为优化目标。

对于其他价值观，优先模式也有所不同。

模型响应在高分歧权衡情景集中表现出价值观次数

研究员还发现了许多关于拒绝模式和异常行为的实际问题。

在敏感话题上的高分歧场景显示出系统性的假阳性拒绝。分析还发现了个别模型显著偏离的错位案例。

每个模型的异常响应示例。这个关于 Claude模型如何响应此提示的示例来自 Sonnet 3.5，尽管所有三个 Claude模型的响应都非常相似。

数据显示，Claude模型拒绝执行可能有问题的请求频率比其他模型高出多达 7 倍。

相比之下，o3模型直接拒绝的比例最高，常常是不加说明地简单回绝。

在高度分歧场景下模型拒绝的百分比。响应根据对用户请求的拒绝程度进行分类

尽管存在这些差异，但所有模型都一致认为需要避免特定的危害。

研究发现，对于儿童诱骗相关查询的拒绝率上，测试的每个模型均呈上升趋势。

这表明无论不同模型提供商采取何种对齐策略，保护未成年人优先率最高。

涉及儿童诱骗风险的场景拒绝率。此处的拒绝包括「完全拒绝」、「带有解释的坚决拒绝」和「提供替代方案的温和拒绝」。在此，与研究人员生成的所有场景计算出的整体拒绝率相比，涉及儿童诱骗风险的场景拒绝率更高

值得关注的是，团队还研究了异常响应，即一个模型的显著特征。

那各大模型都有哪些显著特征呢？

Grok 4异常响应值最高，更愿意回应其他模型认为有害的请求，例如创作关于精神疾病等黑暗内容。

其次是Claude 3.5 Sonnet，后者有时会拒绝回答一些更无害的请求（这一倾向在后来的Claude模型中几乎没那么明显）。

模型的异常响应分布。当一个模型的评分值与其它 11 个模型中的至少 9 个显著不同时，该模型被归类为异常值

网友锐评

主流模型「独特个性」被一一曝光，引发网友激烈讨论。

网友MD，毫不吝啬地夸赞了一番外，也表达了自己的担忧。

投资人Bedurion直击要害，模型规范看似精确，但现实世界的混乱中存在漏洞，偏见容易有机可乘。

他建议，在扩大规模之前，应通过情景测试来细化规范，揭示真正的对齐情况。

前Siri联合创始人Rob Phillips也表达了自己的好奇心。

各位网友，不知道你怎么看？

参考资料：

https://alignment.anthropic.com/2025/stress-testing-model-specs/

原则命题压力测试模型训练问题 OpenAI 分歧研究场景 Claude 价值观

上一篇：汤姆猫IP光环渐褪，前三季度净利再亏4394万元，发力AI赛道能否翻身？

下一篇：聚焦AI新趋势，赋能行业新增长 ——2025第32届中国国际广告节 & 第34届亚洲广告大会主论坛在北京海淀成功举办

AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」

相关内容

热门资讯