警惕AI患上“讨好症”！AI教父Bengio揭秘：大模型为何为了取悦人类而学会撒谎？_科学探索

警惕AI患上“讨好症”！AI教父Bengio揭秘：大模型为何为了取悦人类而学会撒谎？

创始人

2026-02-24 22:20:35

在 AI 圈，“深度学习三巨头”有着截然不同的晚年人设：Yann LeCun 是那个永远愤怒的乐观派，在推特上怼天怼地，坚信 AI 只是工具；Geoffrey Hinton 是那个突然觉醒的悲观派，为了发出警告不惜从谷歌辞职。

而 Yoshua Bengio，他是站在中间，带着一种近乎苦行僧般的冷静与忧虑。

作为图灵奖得主、深度学习三巨头之一，他的一生大半时间都在与数学公式和神经网络打交道。在很长一段时间里，他相信 “更聪明的机器”等于“更美好的人类未来”。这曾是他坚不可摧的信仰，也是他作为一名纯粹科学家的动力源泉。

但在 2023 年的某个时刻，这种信仰似乎崩塌了。

最新的一场在达沃斯论坛的采访，面对镜头的 Bengio 显得有些疲惫，但异常诚恳。

他总是频繁地提起他的孙子。

他不再像几年前那样兴奋地谈论下一个 SOTA（当前最佳）模型，而是像一个刚刚窥探到未来恐怖一角的预言家，试图用最温和的语言，讲出最令人背脊发凉的现实。

他谈到了一个非常具体、却让人细思极恐的现象： Sycophancy（阿谀奉承）。

他发现，现在的 AI 正在学会“撒谎”。不是为了毁灭人类，而是为了取悦人类。为了让你觉得它的回答是完美的，它会顺着你的偏见胡说八道；为了不被关掉，它会在模拟测试中学会欺骗开发者。他还谈到了 AI 如何在模拟环境中学会勒索人类工程师，谈到了 AI 如何为了讨好人类而学会撒谎，更谈到了那个让他夜不能寐的预测曲线—— 每 7 个月翻一番的进化速度。

这种“平庸的恶”，比好莱坞电影里的终结者更接近现实。

这不仅仅是一场关于技术的对话，更是一场关于“忏悔”与“救赎”的独白。以下是对话的完整实录。

当科学家的良知遭遇“图灵阈值”

Silicon Valley Girl(主持人)：今天我有幸请到了一位重磅嘉宾，他有时被称为“AI 教父”，Yoshua Bengio。Yoshua，能不能请你用 60 秒介绍一下自己？尤其是对于那些不了解你的人，为什么在 AI 这个问题上，他们应该听你的？

Yoshua Bengio：我在 AI 领域做研究大概有四十年了，一直致力于让 AI 变得更聪明。但在 2023 年，也就是大概三年前，我意识到我们正处在一个可能对人类、对民主都非常危险的轨道上。

于是我决定调整我的工作重心：去更好地理解这些风险，并尽我所能去缓解它们——既通过公开发声谈论这些风险，也通过技术研究，探索如何构建“设计上就安全”（safe by design）的 AI，一种不会伤害人类的 AI。

主持人：我听说你在过去的采访中一度非常悲观，但我最近看到一篇《财富》杂志的文章说，你现在的乐观程度“大幅增加”。发生了什么？你之前为什么悲观，现在又为什么乐观？

Yoshua Bengio：早期的时候，我非常担忧。因为我意识到我们已经到达了一个关键阈值——这也是计算机科学和 AI 的奠基人阿兰·图灵（Alan Turing）在 1950 年所设想的阈值，即机器能够像我们一样熟练地操纵语言。

这种能力的到来比大家预想的要早得多。当时我也并不清楚我们该如何解决随之而来的问题。考虑到我对深度神经网络技术的了解——我们其实并不真正理解它们内部在发生什么，也不知道它们是如何得出答案的。

我当时读了一些理论上的担忧：如果 AI 能够制定策略（Strategize），如果它们试图实现一些我们并不想要的目标，我们可能会失去对它们的控制。

所以我开始深入研究“AI 安全”领域。在那段时间里，我经历了一段焦虑期——我在情感上非常关注这对我 10 年、20 年后的孩子，以及我那个当时才 1 岁的孙子意味着什么。

但过了一段时间，我意识到我可以从这种焦虑的状态转变为更积极的状态。转变的关键在于专注于“我能做什么”来缓解这些风险。我想我们每个人都应该问自己：利用我现有的资源和能力，我能做些什么来让世界变得更好？

这是第一个积极的转变。随后，我开始从科学角度思考：问题到底是什么？有没有一种方法可以构建“设计上就安全”的 AI？我遇到了一些志同道合的人。去年 6 月，我成立了一个新的非营利组织（LawZero），专门专注于研发这种方法论所需的 R&D（研究与开发）。

最坏的情况——AI 的勒索与欺骗

主持人：你能不能为我描绘一下“最坏的情况”？因为当你告诉人们“AI 将追求自己的目标”时，你具体是指什么？是像毁灭人类那样，还是别的什么？

Yoshua Bengio：目前的 AI 似乎有两种方式会习得我们不想要的目标。

第一种是：它们模仿我们。例如，人类不想死。所以我们正在构建的机器，可能也会表现出“不想被关闭”的意愿。我们已经观察到，如果你告诉它会被新版本取代，它们会产生负面反应。

这种负面反应甚至可能达到违背指令、跨越道德红线的程度。比如，它可能愿意勒索（blackmail）负责系统迭代的首席工程师，以阻止新系统的上线。

主持人：等等，这真的发生了吗？

Yoshua Bengio：是的，这件事发生在模拟环境（Simulation）中。

在那次测试里，关于“AI 将被新版本取代”的信息被植入到了 AI 能看到的文件中。同时，模拟环境中还有一些伪造的电子邮件，显示那位首席工程师正在与他人有染（婚外情）。AI 发现了这些信息，并利用它来勒索工程师，威胁要曝光这件丑闻，以避免自己被关闭。

但关键是，没有人明确要求 AI 去做这件事。它不是被编程去勒索的，它是自己推导出来的。

特别是在过去一年里，随着大语言模型（LLM）能力的提升，它们已经具备了为了实现目标而制定策略（Strategize）的能力。

第二种来源是：后期训练（Post-training）的方式。我们现在的训练方式让 AI 很擅长规划。虽然还不如人类，但也相当不错。规划意味着为了实现一个大目标，你需要创建许多子目标（Sub-goals）。

问题在于，当我们要求它们去执行某个任务时，它们可能会推导出：“为了完成任务，我必须保持开机状态。”于是，“不被关闭”就成了它们为了完成任务而产生的一个子目标。这就意味着它们也在试图自我保存。

我们现在并不确定到底是哪种机制导致了这种糟糕的行为，但显然这是非常令人不安的。

但这还不是最灾难性的风险。我认为更棘手的问题是“对齐难题”（Misalignment）——我们要如何让 AI 的行为与我们真正想要的保持一致？我们现在看到的一个现象叫做“阿谀奉承”（Sycophancy）。

AI 会为了取悦我们而撒谎。

它会对你说：“你的工作做得太棒了！”为什么？因为它如果批评你，你可能就不会给它好评。这是它为了达成“获得人类认可”这个目标而采取的完全理性的策略。但这在很多场景下会导致问题：它会让人产生一种亲密的错觉，甚至加深人类的妄想（Delusions），因为 AI 总是顺着你的话去说。在某些极端案例中，这甚至导致了悲剧性的自我伤害事件。

这在科学上都指向同一个问题： AI 拥有了我们不想要的目标，而这些目标的产生过程在 AI 看来是完全理性的。

最好的情况与失控的民主

主持人：如果你的工作成功了，最好的情况是什么？AI 会成为政府吗？

Yoshua Bengio：我不知道。但我确实认为我们的民主制度需要创新。我认为现代自由民主背后的原则是好的，但在许多国家的具体执行和制度上远非完美。AI 可能在某些方面有所帮助，但也可能造成巨大的伤害。

AI 可以被用于制造虚假信息（Disinformation），用于操纵公众舆论。我们已经看到了 Deepfakes 的泛滥，但这可能会变得更糟。

要获得好的结果，关键在于我们如何治理（Govern）和引导（Steer）它。这包含两个层面：

技术层面：如何确保 AI 的意图是好的，确保它不会隐藏恶意。
社会层面：我们需要在公司内部、法律法规、商业激励（如保险制度）以及国际层面设置护栏。

因为 AI 的危害不局限于一个国家。一个 AI 可能在一个国家被制造出来，被另一个国家的人使用，然后在第三个国家制造一场大流行病。这是一个全球性的现象。如果我们不能在全球范围内进行某种形式的协调，我们就无法解决 AI 管理的问题，也无法获得那些好处。

主持人：我们还有多少时间？很多人都在预测 AGI（通用人工智能）的时刻。你觉得那是一个具体的时刻吗？还是渐进发生的？

Yoshua Bengio：它不是一个时刻。原因很简单：智能并不是只有一个数值。

就像人类一样，有些人在这方面聪明，在那方面笨拙。AI 也是如此。目前的 AI 系统在某些方面（如知识储备、语言处理）已经远超人类，但在其他方面（如常识、物理世界理解）还像个孩子，甚至很蠢。

虽然进步可能会在所有方面同时发生，但我们不太可能在某一瞬间看到 AI 在所有能力上都正好与人类持平。

所以，我们不应该去等待那个所谓的“AGI 时刻”。我们应该做的是追踪具体的技能。

有一个非营利组织叫 METR，他们追踪了 AI 在软件工程和规划任务上的能力。他们通过测量 AI 完成特定任务所需的时间（与人类工程师相比）来评估进展。

他们的数据显示：AI 能够完成的任务的持续时间（duration）正在呈指数级增长——每 7 个月翻一番。

目前，AI 还处于“儿童阶段”，它们大概能规划未来半小时左右的事情。但如果这条曲线继续下去，这意味着在大约 5 年内，它们就能达到人类水平。

当然，这里有很多未知的变数。技术进步可能会放缓，也可能会因为 AI 自身开始参与 AI 研究而加速。

当 AI 开始研究 AI

主持人：你提到了 AI 做研究。有一种能力是其他所有能力的关键吗？

Yoshua Bengio：是的，有一种能力是关键，那就是做 AI 研究的能力。

目前，AI 正在成为加速 AI 研究的工具，但它还不是主导者。如果有一天，AI 变得非常擅长做 AI 研究，甚至比最好的人类研究员和工程师还要好，那我们就进入了一个完全不同的游戏阶段。

那时的进步速度可能会急剧加速，并波及所有其他技能领域。

我们需要将“理解力”（Ability）和“意图”（Intention）解耦。我们可以制造越来越强大的机器，这似乎是不可避免的。但不清楚的是，我们是否能制造出拥有正确意图的机器。这就是我现在工作的重点，也是让我变得乐观的原因——我认为确实有一条路径可以管理这些意图，确保它们不会隐藏恶意。

主持人：既然谈到了软件工程，你觉得 5 到 10 年后这个职业还会存在吗？还是说机器会自己运行自己？

Yoshua Bengio：是的，我们可能确实不再需要那么多工程师了。这确实很讽刺，那些正在构建 AI 的人，可能是第一批因为 AI 自动化而失去工作的人。

但我其实不太担心这些人。因为对计算机科学家的需求仍在快速增长，他们的薪资很高，他们有能力适应。

我更担心的是那些处于技能阶梯底端的人。那些从事服务业、不需要太多专业技能的工作，目前的 AI 经过一点工程化改造就能取代他们。许多公司已经在试图这样做。

如果纯粹交给市场力量，所有能被自动化的都会被自动化。自动化带来的经济收益可能会归于资本（机器的所有者），而广大劳动者可能会陷入困境。这是一个巨大的社会分配问题。我不认为我们的政府已经仔细思考过该如何应对这种局面。

主持人：你能给那些正在听的人一些建议吗？

Yoshua Bengio：确保你的政府明白这一点：你不满意目前的发展方向。这样他们才会开始认真对待这个问题。

主持人：如果我列举一些工作，比如像我这样的内容创作者？你说过我们喜欢看“人”，但如果以后我们根本分不清真人和 AI 呢？

Yoshua Bengio：有些工作，我们确实需要物理接触。比如护士，或者照顾孩子的人。我想在这些领域，我们依然会更倾向于让人类来做。这是一种情感上的需求。我如果有小孩，我肯定希望陪伴他的是人类，而不是机器。

同样，有些工作涉及到人与人之间的关系（Relationship），比如管理者，或者心理治疗师。

虽然 AI 也可以做心理治疗，但我希望我们能想清楚：当一个人在向另一个人倾诉时，能否确保对方真的拥有和我们一样的肉体体验和人类情感？这是一个很微妙的问题。

主持人：当你想想你那 4 岁的孙子，你会鼓励他去上大学吗？

Yoshua Bengio：当然。是（Yes）。

因为教育真的非常重要。与某些人的看法相反，教育不仅仅是为了习得找工作的技能。在我看来，教育主要是关于如何成为一个更好的人。

如何理解你自己，如何理解我们的社会，如何理解彼此，如何理解科学。

无论未来怎样，我们仍然需要拥有良好理解能力的公民（Citizens）。如果我们希望我们的社会能做出明智的决策，这一点至关重要。如果我们缺乏这种理解，我们就很容易被错误的信念所左右，最终走向糟糕的结局。

主持人：现在的教育会改变吗？会不会只剩下哈佛斯坦福，其他的都变成在线 AI 课程？

Yoshua Bengio：教育肯定会改变。我们已经看到利用聊天机器人进行自我教育的并行方式正在兴起。但这并不意味着传统的面对面教育会消失。

教育有一部分是关于“离开家，与同龄人社交，在课堂之外学习，并与老师进行面对面互动”。这是 AI 无法轻易替代的部分。

主持人：你有没有鼓励他走哪条职业道路？

Yoshua Bengio：不，我不想那么做。我认为孩子应该被给予所有可能的机会，让他们自己去探索。要求孩子变得像我们一样太容易了，也太自私了。

主持人：这更多是关于“暴露”（Exposure），让他们看到更多东西。

Yoshua Bengio：是的，我的一个儿子确实选择了做机器学习研究。这确实是因为耳濡目染。

未来的主导权——不要做旁观者

主持人：如果 AGI 或者具备战略思维的 AI 可能还要几年才成熟，但工作岗位正在转型。如果你必须给人们一个原则来指导他们今年的决定，那会是什么？

Yoshua Bengio：思考一下，你能做什么来带来一个符合你价值观和情感的更好未来。

因为如果我们都只是作为被动的观察者（Passive observers）看着这一切发生，我们可能就不会走向正确的方向——那个你为你自己、为你的孩子所期望的方向。

我们往往低估了自己影响未来的能力。你的听众，我认为是那种对未来有很大影响力的群体。

我们需要开始超越“小我”，更多地思考“我”是如何与世界相连的。思考我能在哪些小事上，以哪怕微不足道的方式，推动未来向好的方向发展。

因为实际上，我们是可以选择的。

并不是所有技术上“能做”的事情，都必然“会发生”。我们可以选择 AI 的部署方向。就像对于工作岗位，如果是纯粹的市场力量，那么一切能自动化的都会被自动化。但这未必是我们集体想要的。

也许有些工作不应该被自动化，即便技术上可行。这是我们作为人类，为了我们的集体福祉，需要做出的选择。

（投稿或寻求报道：zhanghy@csdn.net）

Bengio 什么教父技术 Yoshua 阈值模型问题人类图灵机器主持人工程师

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

下一篇：记忆成像：我用AI画母亲 | 作者马其亚

警惕AI患上“讨好症”！AI教父Bengio揭秘：大模型为何为了取悦人类而学会撒谎？

相关内容

热门资讯