开源 AI 及其在当今世界中的重要作用
创始人
2025-11-10 20:14:30

当团队准备部署大语言模型时,他们面临一个重要选择:是否向全世界公开系统的运作机制,包括参数、训练数据和权重输入的详细信息?还是将所有这些信息保密,由制造商严格保护?由此产生的"开源"与"闭源"之间的争论,在政府和商界讨论 AI 时总是回响在会议厅中。

科技公司的领导者也必须应对这些问题。他们需要从战略角度和其他方面考虑,究竟是公开相关数据更好,还是保密更好。

战略与国际研究中心的 Masao Dalhgren 写道:"围绕 AI 安全的新兴公民社会辩论——特别是关于开放基础模型的辩论——值得特别关注。"他提到了一场"非常激烈的辩论"并解释了其背景。"与 GPT-4 等闭源模型不同,Llama、Mistral 或 Qwen 等开放基础模型的开发者公开发布模型的底层参数('权重'),允许终端用户检查、修改和操作这些模型。随着开源模型的性能接近其闭源对手,一些人认为开源模型的分发可能带来误用的'极端风险'。与此同时,其他人则强调了开源模型在研究、安全和国家竞争力方面的好处。"

这篇文章主要关注美国的国防应用,但开源辩论在其他领域也同样存在。

主权、信任与合作

最近的一次专家小组会议展现了选择开源或闭源设计背后的一些逻辑。MacKenzie Sigalos 采访了 Dinesh Maheshwari、Karl Zhao、Charles Fan 和 Jose Plehn,讨论了这些选择以及如何通过国家安全等视角来做出这些决定。

其中一个共识是,美国总体上缺乏开源领导者。

Plehn 说:"美国的 AI 生态系统似乎变得更加封闭了。"他描述了其公司在开发"独特全球标识符"方面的工作,该标识符旨在解决版权或专有权侵犯的担忧。

他说:"我们正在尽力开源数据,这意味着这些数据可以用来训练模型,也可以让模型更加准确。"

Zhao 补充道:"从基础模型的角度来看,现在确实有更多开源模型来自中国...而美国的前沿实验室基本上选择了更加闭源的方法。"

信任问题

Maheshwari 在谈到这种二元性时,建议开源系统可以在信任环境中推广。

他说:"开源关乎信任。这不仅仅是开源权重,还包括开源数据。这意味着开源模型、架构、元参数,并且知道它可以被复制和审计。这就是建立信任的方式。"

至于中国的主导地位,他指出,被广泛誉为"开源"系统的 DeepSeek 本身并不完全开源。

他说:"说句实话,DeepSeek 是半开半闭的。数据不开放。你不知道它是基于什么训练的。模型参数需要开放。"

Fan 谈到了以新方式利用记忆,这将影响开源或闭源系统的选择。

他解释道:"每一个公开的知识都被模型捕获,但属于我们或属于公司的记忆不在互联网上,因此不会被这些权重捕获。需要设计系统来保存这些东西。"

他说,前沿实验室正在这方面开展工作,但根据他的定义,它们不是开源的。

Fan 补充道:"不仅如此,它们不支持彼此的模型。所以如果你使用特定的记忆系统,你就被绑定到特定的模型上。而我们今天开源的是一个记忆模型——我们相信记忆应该属于拥有记忆的人,因此,通过开源它,这确保了信任和安全,无论你使用哪种模型,无论是开源还是闭源,这都会伴随你。"

利润动机

在提出问题时,Sigalos 这样谈论开源和闭源项目:

她指出:"我和某人有过一次对话,他们说开源技术动力不足的部分原因是基于这样一个事实:像你的企业客户出于各种原因想要一个封闭系统,当你考虑 B2B 细分市场时,这可能更有利可图。"

Maheshwari 回应了这一点,再次指出一些所谓"开源"系统之间的差异,并建议实际上,操作系统是一个谱系。

他说:"模型的价值在于它们在应用中的使用,而应用是建立在经过微调的模型之上的,这些模型可能也被进一步'定制',拥有...一个开放权重模型。不要称之为开源模型。即使是开放权重模型也允许在不同的基础设施上托管。它允许人们使用它。这意味着他们可以'选择'你可以使用的基础设施成本。这允许改进。"

二十一世纪的 AI 主权

Sigalos 问道:"主权是国家安全和韧性的必要步骤,还是这是一个可能导致 AI 互联网碎片化的陷阱?"

Maheshwari 说:"民众正在陷入技术民族主义。不幸的是,'由外而内'定义的民族自豪感对人们来说太诱人了,无法做到'由内而外'...主权是关于能够控制社会未来的能力...人们需要能够在当地环境中为社会利益部署 AI。我不相信主权必须以'分裂努力'的方式行使...如果做得周到,没有理由我们不能让社会、当地社会控制自己的命运,而不分裂努力。"

Plehn 描述了美国 AI 行动计划及其运作方式,以及他的公司所扮演的角色。

他说:"政策的一个关键组成部分实际上是开源,以及对它的推广,当然是以美国优先的视角,但确实是开源。"他透露他的公司 BrightQuery 正在致力于一个叫做国家安全数据服务的项目。

他说:"这是第一个集中式的美国政府数据生态系统,将为整个人口和机构以及整个世界提供服务,帮助告知公众关于美国及其各种组成部分。"

Plehn 也谈到了反审查的斗争。

他说:"抹除历史事实,或修改历史事实,是世界上一些政府和国家确实在做的事情,我相信我们都知道。因此美国反对这样的政策。"

Zhao 谈到了他在希腊国家 AI 系统方面的工作,该系统由一家名为 Kiefer 的公司构建,我过去曾写过这家公司。

他说:"让他们这样做的吸引力在于它是如此缺乏服务。对这些国家来说重要的是,特别是从语言角度来看,他们控制自己的命运,使用自己的语言、特定的文化,并确保模型代表这些,这对他们很重要。"

Plehn 补充道:"数据和知识没有边界。这确实是我们需要牢记的一个基本概念。一旦知识出来了,就出来了,很难遏制,除非当然,你有过度的审查。因此,尽管前沿 AI 公司可能会保护和包含他们发布和公布的底层模型和权重等,但对此的反驳是尽可能多地开源数据。"

所有这些都强调了关于是否向公众开放数据的真正辩论。随着我们看到世界各地出现新模型,我们必须继续思考这个问题。

Q&A

Q1:什么是开源 AI 模型和闭源 AI 模型?它们有什么区别?

A:开源 AI 模型是指开发者公开发布模型的底层参数、训练数据和权重输入,允许用户检查、修改和操作。而闭源模型如GPT-4则保密这些信息。开源模型提供透明度和可审计性,但也可能面临误用风险,闭源模型则相对安全但缺乏透明度。

Q2:为什么说美国在开源 AI 领域处于劣势?

A:专家指出美国 AI 生态系统变得更加封闭,更多开源模型来自中国,而美国的前沿实验室基本选择闭源方法。这导致美国缺乏开源领导者,在全球 AI 开源竞争中处于相对劣势地位。

Q3:AI 主权对国家安全有什么重要意义?

A:AI 主权关乎国家控制自身 AI 未来发展的能力,让国家能够在本地环境中为社会利益部署 AI。它涉及使用本土语言和文化训练模型,确保数据安全和技术自主,避免过度依赖外国 AI 系统,同时防止技术民族主义导致的过度分裂。

相关内容

热门资讯

开源 AI 及其在当今世界中的... 当团队准备部署大语言模型时,他们面临一个重要选择:是否向全世界公开系统的运作机制,包括参数、训练数据...
北京一副区长停“小电驴”遭“三... “没地停了”“这不让停”“人行通道不能停”……近日,北京一副区长实地体验早高峰停放电动车却遭遇“三连...
打字就能补全句子,讯飞推出个性... 2025科大讯飞全球1024开发者节AI文娱生态战略发布会近日在合肥举办。会上透露,讯飞AI文娱将基...
对话华为樊杰:AI落地浪潮下的... 随着大模型的规模落地,AI发展的主战场正从“模型训练”转向“行业推理”,解决推理效率瓶颈成为释放AI...
线上考试录屏防不住AI?韩国顶... 封面新闻记者 边雪 近日,韩国顶级高校之一的延世大学爆出一场大规模考试作弊风波。该校一门标注为“自然...