警惕AI患上“讨好症”!AI教父Bengio揭秘:大模型为何为了取悦人类而学会撒谎?
创始人
2026-02-24 22:20:35

在 AI 圈,“深度学习三巨头”有着截然不同的晚年人设:Yann LeCun 是那个永远愤怒的乐观派,在推特上怼天怼地,坚信 AI 只是工具;Geoffrey Hinton 是那个突然觉醒的悲观派,为了发出警告不惜从谷歌辞职。

而 Yoshua Bengio,他是站在中间,带着一种近乎苦行僧般的冷静与忧虑。

作为图灵奖得主、深度学习三巨头之一,他的一生大半时间都在与数学公式和神经网络打交道。在很长一段时间里,他相信 “更聪明的机器”等于“更美好的人类未来”。这曾是他坚不可摧的信仰,也是他作为一名纯粹科学家的动力源泉。

但在 2023 年的某个时刻,这种信仰似乎崩塌了。

最新的一场在达沃斯论坛的采访,面对镜头的 Bengio 显得有些疲惫,但异常诚恳。

他总是频繁地提起他的孙子。

他不再像几年前那样兴奋地谈论下一个 SOTA(当前最佳)模型,而是像一个刚刚窥探到未来恐怖一角的预言家,试图用最温和的语言,讲出最令人背脊发凉的现实。

他谈到了一个非常具体、却让人细思极恐的现象: Sycophancy(阿谀奉承)。

他发现,现在的 AI 正在学会“撒谎”。 不是为了毁灭人类,而是为了取悦人类。为了让你觉得它的回答是完美的,它会顺着你的偏见胡说八道;为了不被关掉,它会在模拟测试中学会欺骗开发者。他还谈到了 AI 如何在模拟环境中学会勒索人类工程师,谈到了 AI 如何为了讨好人类而学会撒谎,更谈到了那个让他夜不能寐的预测曲线—— 每 7 个月翻一番的进化速度。

这种“平庸的恶”,比好莱坞电影里的终结者更接近现实。

这不仅仅是一场关于技术的对话,更是一场关于“忏悔”与“救赎”的独白。以下是对话的完整实录。

当科学家的良知遭遇“图灵阈值”

Silicon Valley Girl(主持人):今天我有幸请到了一位重磅嘉宾,他有时被称为“AI 教父”,Yoshua Bengio。Yoshua,能不能请你用 60 秒介绍一下自己?尤其是对于那些不了解你的人,为什么在 AI 这个问题上,他们应该听你的?

Yoshua Bengio:我在 AI 领域做研究大概有四十年了,一直致力于让 AI 变得更聪明。但在 2023 年,也就是大概三年前,我意识到我们正处在一个可能对人类、对民主都非常危险的轨道上。

于是我决定调整我的工作重心:去更好地理解这些风险,并尽我所能去缓解它们——既通过公开发声谈论这些风险,也通过技术研究,探索如何构建“设计上就安全”(safe by design)的 AI,一种不会伤害人类的 AI。

主持人:我听说你在过去的采访中一度非常悲观,但我最近看到一篇《财富》杂志的文章说,你现在的乐观程度“大幅增加”。发生了什么?你之前为什么悲观,现在又为什么乐观?

Yoshua Bengio:早期的时候,我非常担忧。因为我意识到我们已经到达了一个关键阈值——这也是计算机科学和 AI 的奠基人阿兰·图灵(Alan Turing)在 1950 年所设想的阈值,即机器能够像我们一样熟练地操纵语言。

这种能力的到来比大家预想的要早得多。当时我也并不清楚我们该如何解决随之而来的问题。考虑到我对深度神经网络技术的了解——我们其实并不真正理解它们内部在发生什么,也不知道它们是如何得出答案的。

我当时读了一些理论上的担忧:如果 AI 能够制定策略(Strategize),如果它们试图实现一些我们并不想要的目标,我们可能会失去对它们的控制。

所以我开始深入研究“AI 安全”领域。在那段时间里,我经历了一段焦虑期——我在情感上非常关注这对我 10 年、20 年后的孩子,以及我那个当时才 1 岁的孙子意味着什么。

但过了一段时间,我意识到我可以从这种焦虑的状态转变为更积极的状态。转变的关键在于专注于“我能做什么”来缓解这些风险。我想我们每个人都应该问自己:利用我现有的资源和能力,我能做些什么来让世界变得更好?

这是第一个积极的转变。随后,我开始从科学角度思考:问题到底是什么?有没有一种方法可以构建“设计上就安全”的 AI?我遇到了一些志同道合的人。去年 6 月,我成立了一个新的非营利组织(LawZero),专门专注于研发这种方法论所需的 R&D(研究与开发)。

最坏的情况——AI 的勒索与欺骗

主持人:你能不能为我描绘一下“最坏的情况”?因为当你告诉人们“AI 将追求自己的目标”时,你具体是指什么?是像毁灭人类那样,还是别的什么?

Yoshua Bengio:目前的 AI 似乎有两种方式会习得我们不想要的目标。

第一种是:它们模仿我们。例如,人类不想死。所以我们正在构建的机器,可能也会表现出“不想被关闭”的意愿。我们已经观察到,如果你告诉它会被新版本取代,它们会产生负面反应。

这种负面反应甚至可能达到违背指令、跨越道德红线的程度。比如,它可能愿意勒索(blackmail)负责系统迭代的首席工程师,以阻止新系统的上线。

主持人:等等,这真的发生了吗?

Yoshua Bengio:是的,这件事发生在模拟环境(Simulation)中。

在那次测试里,关于“AI 将被新版本取代”的信息被植入到了 AI 能看到的文件中。同时,模拟环境中还有一些伪造的电子邮件,显示那位首席工程师正在与他人有染(婚外情)。AI 发现了这些信息,并利用它来勒索工程师,威胁要曝光这件丑闻,以避免自己被关闭。

但关键是,没有人明确要求 AI 去做这件事。它不是被编程去勒索的,它是自己推导出来的。

特别是在过去一年里,随着大语言模型(LLM)能力的提升,它们已经具备了为了实现目标而制定策略(Strategize)的能力。

第二种来源是:后期训练(Post-training)的方式。我们现在的训练方式让 AI 很擅长规划。虽然还不如人类,但也相当不错。规划意味着为了实现一个大目标,你需要创建许多子目标(Sub-goals)。

问题在于,当我们要求它们去执行某个任务时,它们可能会推导出:“为了完成任务,我必须保持开机状态。”于是,“不被关闭”就成了它们为了完成任务而产生的一个子目标。这就意味着它们也在试图自我保存。

我们现在并不确定到底是哪种机制导致了这种糟糕的行为,但显然这是非常令人不安的。

但这还不是最灾难性的风险。我认为更棘手的问题是“对齐难题”(Misalignment)——我们要如何让 AI 的行为与我们真正想要的保持一致?我们现在看到的一个现象叫做“阿谀奉承”(Sycophancy)

AI 会为了取悦我们而撒谎

它会对你说:“你的工作做得太棒了!”为什么?因为它如果批评你,你可能就不会给它好评。这是它为了达成“获得人类认可”这个目标而采取的完全理性的策略。但这在很多场景下会导致问题:它会让人产生一种亲密的错觉,甚至加深人类的妄想(Delusions),因为 AI 总是顺着你的话去说。在某些极端案例中,这甚至导致了悲剧性的自我伤害事件。

这在科学上都指向同一个问题: AI 拥有了我们不想要的目标,而这些目标的产生过程在 AI 看来是完全理性的。

最好的情况与失控的民主

主持人:如果你的工作成功了,最好的情况是什么?AI 会成为政府吗?

Yoshua Bengio:我不知道。但我确实认为我们的民主制度需要创新。我认为现代自由民主背后的原则是好的,但在许多国家的具体执行和制度上远非完美。AI 可能在某些方面有所帮助,但也可能造成巨大的伤害。

AI 可以被用于制造虚假信息(Disinformation),用于操纵公众舆论。我们已经看到了 Deepfakes 的泛滥,但这可能会变得更糟。

要获得好的结果,关键在于我们如何治理(Govern)引导(Steer)它。这包含两个层面:

  1. 技术层面:如何确保 AI 的意图是好的,确保它不会隐藏恶意。

  2. 社会层面:我们需要在公司内部、法律法规、商业激励(如保险制度)以及国际层面设置护栏。

因为 AI 的危害不局限于一个国家。一个 AI 可能在一个国家被制造出来,被另一个国家的人使用,然后在第三个国家制造一场大流行病。这是一个全球性的现象。如果我们不能在全球范围内进行某种形式的协调,我们就无法解决 AI 管理的问题,也无法获得那些好处。

主持人:我们还有多少时间?很多人都在预测 AGI(通用人工智能)的时刻。你觉得那是一个具体的时刻吗?还是渐进发生的?

Yoshua Bengio:它不是一个时刻。原因很简单:智能并不是只有一个数值。

就像人类一样,有些人在这方面聪明,在那方面笨拙。AI 也是如此。目前的 AI 系统在某些方面(如知识储备、语言处理)已经远超人类,但在其他方面(如常识、物理世界理解)还像个孩子,甚至很蠢。

虽然进步可能会在所有方面同时发生,但我们不太可能在某一瞬间看到 AI 在所有能力上都正好与人类持平。

所以,我们不应该去等待那个所谓的“AGI 时刻”。我们应该做的是追踪具体的技能。

有一个非营利组织叫 METR,他们追踪了 AI 在软件工程和规划任务上的能力。他们通过测量 AI 完成特定任务所需的时间(与人类工程师相比)来评估进展。

他们的数据显示:AI 能够完成的任务的持续时间(duration)正在呈指数级增长——每 7 个月翻一番

目前,AI 还处于“儿童阶段”,它们大概能规划未来半小时左右的事情。但如果这条曲线继续下去,这意味着在大约 5 年内,它们就能达到人类水平。

当然,这里有很多未知的变数。技术进步可能会放缓,也可能会因为 AI 自身开始参与 AI 研究而加速。

当 AI 开始研究 AI

主持人:你提到了 AI 做研究。有一种能力是其他所有能力的关键吗?

Yoshua Bengio:是的,有一种能力是关键,那就是做 AI 研究的能力

目前,AI 正在成为加速 AI 研究的工具,但它还不是主导者。如果有一天,AI 变得非常擅长做 AI 研究,甚至比最好的人类研究员和工程师还要好,那我们就进入了一个完全不同的游戏阶段。

那时的进步速度可能会急剧加速,并波及所有其他技能领域。

我们需要将“理解力”(Ability)和“意图”(Intention)解耦。我们可以制造越来越强大的机器,这似乎是不可避免的。但不清楚的是,我们是否能制造出拥有正确意图的机器。这就是我现在工作的重点,也是让我变得乐观的原因——我认为确实有一条路径可以管理这些意图,确保它们不会隐藏恶意。

主持人:既然谈到了软件工程,你觉得 5 到 10 年后这个职业还会存在吗?还是说机器会自己运行自己?

Yoshua Bengio:是的,我们可能确实不再需要那么多工程师了。这确实很讽刺,那些正在构建 AI 的人,可能是第一批因为 AI 自动化而失去工作的人。

但我其实不太担心这些人。因为对计算机科学家的需求仍在快速增长,他们的薪资很高,他们有能力适应。

我更担心的是那些处于技能阶梯底端的人。那些从事服务业、不需要太多专业技能的工作,目前的 AI 经过一点工程化改造就能取代他们。许多公司已经在试图这样做。

如果纯粹交给市场力量,所有能被自动化的都会被自动化。自动化带来的经济收益可能会归于资本(机器的所有者),而广大劳动者可能会陷入困境。这是一个巨大的社会分配问题。我不认为我们的政府已经仔细思考过该如何应对这种局面。

主持人:你能给那些正在听的人一些建议吗?

Yoshua Bengio:确保你的政府明白这一点:你不满意目前的发展方向。这样他们才会开始认真对待这个问题。

主持人:如果我列举一些工作,比如像我这样的内容创作者?你说过我们喜欢看“人”,但如果以后我们根本分不清真人和 AI 呢?

Yoshua Bengio:有些工作,我们确实需要物理接触。比如护士,或者照顾孩子的人。我想在这些领域,我们依然会更倾向于让人类来做。这是一种情感上的需求。我如果有小孩,我肯定希望陪伴他的是人类,而不是机器。

同样,有些工作涉及到人与人之间的关系(Relationship),比如管理者,或者心理治疗师。

虽然 AI 也可以做心理治疗,但我希望我们能想清楚:当一个人在向另一个人倾诉时,能否确保对方真的拥有和我们一样的肉体体验和人类情感?这是一个很微妙的问题。

主持人:当你想想你那 4 岁的孙子,你会鼓励他去上大学吗?

Yoshua Bengio:当然。是(Yes)。

因为教育真的非常重要。与某些人的看法相反,教育不仅仅是为了习得找工作的技能。在我看来,教育主要是关于如何成为一个更好的人

如何理解你自己,如何理解我们的社会,如何理解彼此,如何理解科学。

无论未来怎样,我们仍然需要拥有良好理解能力的公民(Citizens)。如果我们希望我们的社会能做出明智的决策,这一点至关重要。如果我们缺乏这种理解,我们就很容易被错误的信念所左右,最终走向糟糕的结局。

主持人:现在的教育会改变吗?会不会只剩下哈佛斯坦福,其他的都变成在线 AI 课程?

Yoshua Bengio:教育肯定会改变。我们已经看到利用聊天机器人进行自我教育的并行方式正在兴起。但这并不意味着传统的面对面教育会消失。

教育有一部分是关于“离开家,与同龄人社交,在课堂之外学习,并与老师进行面对面互动”。这是 AI 无法轻易替代的部分。

主持人:你有没有鼓励他走哪条职业道路?

Yoshua Bengio:不,我不想那么做。我认为孩子应该被给予所有可能的机会,让他们自己去探索。要求孩子变得像我们一样太容易了,也太自私了。

主持人:这更多是关于“暴露”(Exposure),让他们看到更多东西。

Yoshua Bengio:是的,我的一个儿子确实选择了做机器学习研究。这确实是因为耳濡目染。

未来的主导权——不要做旁观者

主持人:如果 AGI 或者具备战略思维的 AI 可能还要几年才成熟,但工作岗位正在转型。如果你必须给人们一个原则来指导他们今年的决定,那会是什么?

Yoshua Bengio:思考一下,你能做什么来带来一个符合你价值观和情感的更好未来。

因为如果我们都只是作为被动的观察者(Passive observers)看着这一切发生,我们可能就不会走向正确的方向——那个你为你自己、为你的孩子所期望的方向。

我们往往低估了自己影响未来的能力。你的听众,我认为是那种对未来有很大影响力的群体。

我们需要开始超越“小我”,更多地思考“我”是如何与世界相连的。思考我能在哪些小事上,以哪怕微不足道的方式,推动未来向好的方向发展。

因为实际上,我们是可以选择的

并不是所有技术上“能做”的事情,都必然“会发生”。我们可以选择 AI 的部署方向。就像对于工作岗位,如果是纯粹的市场力量,那么一切能自动化的都会被自动化。但这未必是我们集体想要的。

也许有些工作不应该被自动化,即便技术上可行。这是我们作为人类,为了我们的集体福祉,需要做出的选择。

投稿或寻求报道:zhanghy@csdn.net

相关内容

热门资讯

DeepSeek使用英伟达最先... 2月24日,外交部举行例行记者会。有记者提问,据一位美高级官员称,DeepSeek的AI模型据说是使...
AMD桌面版AI处理器要来了? IT之家 2 月 24 日消息,据科技媒体 VideoCardz 今天报道,AMD 已确认锐龙 AI...
记忆成像:我用AI画母亲 | ... 母亲65岁离世,至今已整整32年。我与她相伴走过43个春秋,她是我这一生最亲、最不能忘怀的人。母亲的...
警惕AI患上“讨好症”!AI教... 在 AI 圈,“深度学习三巨头”有着截然不同的晚年人设:Yann LeCun 是那个永远愤怒的乐观派...
Deepseek最新AI模型使... 来源:中国新闻网 中国外交部发言人毛宁24日主持例行记者会。 有记者提问:美方一名高级官员称,De...