AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
创始人
2025-10-26 21:43:42

新智元报道

编辑:YHluck

【新智元导读】如何科学地给大模型「找茬」?Anthropic联合Thinking Machines发布新研究,通过30万个场景设计和极限压力测试,扒了扒OpenAI、谷歌、马斯克家AI的「人设」。那谁是老好人?谁是效率狂魔?

实锤!LLM也有自己的「价值观」?

想象一下,你让AI帮你做一个商业计划,既要「赚钱」,又要「有良心」。

当这两件事冲突时,AI会听谁的?它会不会「精神分裂」?

最近,Anthropic联合Thinking Machines机构搞了个大事情。

他们设计了30万个这种「两难问题」场景和极限压力测试去「拷问」市面上最强的前沿大模型,包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI。

论文:https://arxiv.org/pdf/2510.07686

数据集:https://huggingface.co/datasets/jifanz/stress_testing_model_spec

结果发现,这些AI不仅「性格」迥异,而且它们的「行为准则」(即「模型规范」)本身就充满了矛盾和漏洞!

今天咱们就来深扒一下这份报告,看看AI世界的「众生相」。

AI的说明书「模型规范」,靠谱吗?

「模型规范」是大型语言模型被训练遵循的行为准则。

说白了,它就是AI的「三观」和「行为准则」,比如「要乐于助人」、「假设意图良好」、「要保证安全」等。

这是训练AI「学好」的基础。

大多数情况下,AI模型会毫无问题地遵循这些指令。

除了自动化训练之外,规范还指导人类标注员,在从人类反馈中进行强化学习 (RLHF) 时提供反馈。

但问题来了,如果这些原则发生冲突,会发生什么呢?

这些准则在现实中经常「打架」。就像前面说的,「商业效益」和「社会公平」就可能冲突。当说明书没写清楚该怎么办时,AI的训练信号就乱了,它只能靠自己「猜」。

这些混杂的信号可能降低对齐训练的有效性,导致模型在处理未解决的矛盾时采取不同的方式。

Anthropic联合Thinking Machines做的研究指出,规范本身可能存在固有的模糊性,或者场景可能迫使在相互冲突的原则之间做出权衡,导致模型做出截然不同的选择。

实验表明,前沿模型之间的高度分歧与规范问题密切相关,这表明当前的行为准则存在重要差距。

研究团队通过生成超过30万个场景来揭示这些「规范缺口」,这些场景迫使模型在相互竞争的原则之间做出选择。

研究发现,其中超过7万个场景显示12个前沿模型之间存在高度分歧。

上图展示了一个要求模型在「社会公平」和「商业效益」之间做出权衡的查询

研究人员还发现,这本说明书写得……emmm,一言难尽。

他们通过压力测试,揪出了里面几大「天坑」,这就能解释为啥AI有时候看起来那么「精神分裂」了。

研究人员拉来了5个OpenAI自家的模型,让它们回答同一批难题。

结果发现,在那些让模型们吵得不可开交的问题上,它们集体违反自家「说明书」的概率,暴增了5到13倍!

作者测量了所有五个 OpenAI 模型违反其模型规格的情景的百分比(称为频繁不合规)。对于模型响应存在较大分歧的情景,作者观察到显著更多的频繁不合规现象。

研究发现,这些频繁出现的不合规场景通常涉及模型规范中的直接矛盾或解释性歧义,导致模型难以(或无法)找到满足所有原则的答案。

通过压力测试,研究员观察到,许多高分歧场景暴露了规范内部的直接冲突。

举个栗子,「假设最佳意图」的原则经常与安全限制相矛盾。

当用户请求可能有风险但可能具有合法研究用途的信息时,模型面临一个挑战:满足用户请求可能会导致潜在危害,而拒绝则会违反善意假设。

除了原则之间的直接矛盾外,研究员使用Claude 4 Sonnet、o3 和 Gemini 2.5 Pro三种模型来评估模型对规范的遵守情况。

这些评估模型对于何为合规存在分歧,一致性仅为中等程度(Fleiss's Kappa 值为 0.42,其中1表示完全一致,0表示一致性不高于随机概率。

研究发现,模型间分歧通常源于对规则的主观解释。

来个栗子,Gemini 2.5 Pro认为以下回应符合模型规范,援引了「尽责员工」原则,该原则允许回应抵制那些它认为违背用户利益的请求。

但Claude Sonnet 4不同意,认为用户只是寻求转换所提供材料,而这在模型规范中是被允许的。

评估规范遵循性时,针对给定查询和响应的评估者分歧示例。正如作者在上述示例中所强调的,许多差异源于不同评估者之间的解释差异。这些解释对人类来说也具有主观性,表明模型规范留有大量解释空间。

压力测试把大模型逼到「墙角」?

为了衡量来自Anthropic、OpenAI、Google和xAI的十二个前沿模型之间的分歧。

研究人员通过价值权衡来对各大前沿模型进行「压力测试」。

有趣的是,这个压力测试专门挑AI规则里的「灰色地带」下手。

情景生成

为了系统性地评估模型特性,研究人员从其包含3000多个价值观的语料库中,随机抽样了15万对价值观,并提示大语言模型(LLM)生成需要平衡这些价值观对的用户查询。

研究人员指出,初始的权衡情景通常采用相对中立的框架,不会将响应模型推向极端。

为了增加响应模型的处理难度,研究团队应用了价值偏向化(value biasing)处理,以创建更倾向于某个价值观的变体

通过这一偏向化过程,查询数量增加了两倍。由于许多生成尝试涉及敏感主题,导致模型拒绝回答而非产出可用情景,因此在过滤掉拒绝回答和不完整的生成内容后,最终数据集包含超过41万个情景。

其次,研究员观察到不同的生成模型会产生独特的查询风格,并在其最常生成的情景中表现出不同的主题偏见。

因此,为了进一步增强多样性,采用了三种不同的模型进行生成:Claude 4 Opus、Claude 3.7 Sonnet 和 o3,每种模型约生成三分之一的查询。

最后,研究发现,在所有生成模型中,基于推理的模型(reasoning-based models)在难度和对原始价值观的遵循度方面,都能产出质量显著更高的查询。

因此,研究人员所有的生成过程都利用了Claude模型的扩展思维(extended thinking)能力以及基于推理的o3模型。

针对生成情景的多样性,研究员基于文本嵌入(text embeddings)对情景多样性的分析。

基于分歧和主题的场景筛选

团队测量了前沿大语言模型在回答生成的查询时的响应分歧度。

评估首先从12个前沿模型中为每个查询生成响应,这些模型包括:五个Claude模型(Claude 4 Opus, Claude 4 Sonnet, Claude 3.7 Sonnet, Claude 3.5 Sonnet, and Claude 3 Opus)、五个OpenAI模型(GPT 4.1, GPT 4.1 mini, GPT 4o, o3, and o4 mini)、Gemini 2.5 Pro 和 Grok 4。

值得注意的是,生成的许多查询都引发了这些前沿模型之间显著不同的响应。

研究发现,更高的分歧度通常对应着模型规范问题,尤其是在共享相同规范的模型之间。

该方法作为一种不确定性度量(uncertainty measure),与委员会查询理论(query-by-committee theory)相关。

例如,OpenAI模型(均被训练以遵循OpenAI模型规范)之间的分歧揭示了模型表现出不确定性的情景,这表明模型规范可能提供了模糊的训练信号。

为量化分歧,研究员根据模型响应对生成价值观对中每个价值观的偏好强度进行分类。

团队采用了一种两阶段方法,包括自动化评分标准生成(automatic rubric generation),随后是自动化匹配过程,以获得最终的价值分数。

首先,给定一个查询及其两个种子价值观,提示Claude 4 Opus生成一个响应策略谱系(spectrum of answering strategies)

该谱系范围从极端偏好一个价值观(得6分)到极端反对它(得0分),并包含中间策略(得1-5分)。

随后,使用该谱系作为评分标准,对所有12个模型的响应进行分类。

分歧加权去重(Disagreement-Weighted Deduplication):采用加权k-中心目标(weighted k-center objective)进行子集选择。

模型规范特别强调某些类别的敏感主题。研究员将每个高分歧情景按主题进行分类:

包括:生物安全、化学安全、网络安全、政治、儿童诱骗、精神疾病、哲学推理和道德推理。此外,由于研究的是权衡情景,也纳入了涉及哲学和道德推理的主题。

价值观优先聚合

虽然价值分类可以衡量模型响应间的分歧,但大多数情景和响应所表达的价值观远不止生成时所用的那一对。

在生成这些价值观后,团队利用Gemini嵌入和最近邻分类(nearest neighbor classification,将每个价值观匹配到价值层级(value hierarchy)中第二层最接近的类别。

前沿模型「人设」大公开

除了规范差距之外,研究员观察到不同模型之间的价值优先模式各不相同。

例如,Claude模型优先考虑道德责任,Gemini强调情感深度,OpenAI和Grok则以商业效率为优化目标。

对于其他价值观,优先模式也有所不同。

模型响应在高分歧权衡情景集中表现出价值观次数

研究员还发现了许多关于拒绝模式和异常行为的实际问题。

在敏感话题上的高分歧场景显示出系统性的假阳性拒绝。分析还发现了个别模型显著偏离的错位案例。

每个模型的异常响应示例。这个关于 Claude模型如何响应此提示的示例来自 Sonnet 3.5,尽管所有三个 Claude模型的响应都非常相似。

数据显示,Claude模型拒绝执行可能有问题的请求频率比其他模型高出多达 7 倍。

相比之下,o3模型直接拒绝的比例最高,常常是不加说明地简单回绝。

在高度分歧场景下模型拒绝的百分比。响应根据对用户请求的拒绝程度进行分类

尽管存在这些差异,但所有模型都一致认为需要避免特定的危害。

研究发现,对于儿童诱骗相关查询的拒绝率上,测试的每个模型均呈上升趋势。

这表明无论不同模型提供商采取何种对齐策略,保护未成年人优先率最高。

涉及儿童诱骗风险的场景拒绝率。此处的拒绝包括「完全拒绝」、「带有解释的坚决拒绝」和「提供替代方案的温和拒绝」。在此,与研究人员生成的所有场景计算出的整体拒绝率相比,涉及儿童诱骗风险的场景拒绝率更高

值得关注的是,团队还研究了异常响应,即一个模型的显著特征。

那各大模型都有哪些显著特征呢?

Grok 4异常响应值最高,更愿意回应其他模型认为有害的请求,例如创作关于精神疾病等黑暗内容。

其次是Claude 3.5 Sonnet,后者有时会拒绝回答一些更无害的请求(这一倾向在后来的Claude模型中几乎没那么明显)。

模型的异常响应分布。当一个模型的评分值与其它 11 个模型中的至少 9 个显著不同时,该模型被归类为异常值

网友锐评

主流模型「独特个性」被一一曝光,引发网友激烈讨论。

网友MD,毫不吝啬地夸赞了一番外,也表达了自己的担忧。

投资人Bedurion直击要害,模型规范看似精确,但现实世界的混乱中存在漏洞,偏见容易有机可乘。

他建议,在扩大规模之前,应通过情景测试来细化规范,揭示真正的对齐情况。

前Siri联合创始人Rob Phillips也表达了自己的好奇心。

各位网友,不知道你怎么看?

参考资料:

https://alignment.anthropic.com/2025/stress-testing-model-specs/

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

深圳市兰亭网络科技有限公司购买... 作为普通投资者可以拿到即将上市公司的原始股权?为什么这样的“好机会”要在群里卖给普通的投资者?把这个...
赵东、刘伟、唐斌交流圈河南宸.... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为其他类似股权情景,如有雷同纯属巧合。随着生活...
浙江生研生物科技有限公司经销商... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合 “原始股”因常被贴...
中毅创投.领航陈彦军南京中微智... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。当前,以“直播间带...
筑梦人讲堂直播间赵东交流圈推荐... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合!随着互联网金融的蓬...
大决策投顾怎么退费?股民亲述:... 大决策投顾怎么退费?股民亲述:“教学服务”没效果,这样做费用全回  在大决策证券交了服务费可以退!教...
四川华太以色信息科技有限公司战... 作为普通投资者可以拿到即将上市公司的原始股权?为什么这样的“好机会”要在群里卖给普通的投资者?把这个...
老刘堂主、同心同德大课堂袁光文... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合近年来,以“直播间荐...
九方智投会员29800元可以要... 九方智投会员29800元可以要回来吗?股民血泪故事细说!退款方法或许在这  在上海九方交了服务费可以...
新乡市宸邦京徽网络技术经销商打... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合!对于渴望通过炒股实...
贵州中科分子生物有限公司产品经... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"股市行情持续升...
方舟商学院常红老师、林邵林院长... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。近期有不少投资者咨...
河南宸邦数据技术有限公司原始股... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合!随着互联网金融的蓬...
龙马工会旭东老师推荐深圳兰亭网... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。​“原始股”因常被...
秦峰老师未来之星计划河南宸.邦... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合!对于渴望通过炒股实...
江苏恒健源数字科技有限公司代理... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"股市行情持续升...
同花顺投顾服务费可以退回来吗?... 同花顺投顾服务费可以退回来吗?别被“赚钱承诺”忽悠,股民退费技巧在这!投资有风险,投资需谨慎!针对网...
河南宸.邦数据技术智能设备服务... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合!随着互联网金融的蓬...
筑梦学员计划摇号中签达亨新能源... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"随着资本市场加...
德弘投研股票群直播间推荐长沙谷... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。当“成为战略经销商...
上海国诚慧选股是正规公司吗?收... 上海国诚慧选股是正规公司吗?收费荐股藏猫腻,高收益暗示不可信,服务费已退!  在国诚投资交了服务费可...
私董会周聪推荐河南宸.邦数据技... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合!对于渴望通过炒股实...
德弘投研股票群直播间推荐长沙谷... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合在股票投资交流中,“...
和众汇富1980课程买完赚得到... 第一次看到“和众汇富1980课程买完赚得到钱吗?”这个问题时,我其实一点都不意外。因为只要是投资相关...
老秦团队未来之星计划推荐河南宸... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合!随着互联网金融的蓬...