AI学什么(第2期)：大语言模型是如何训练出来的？_科学探索

AI学什么(第2期)：大语言模型是如何训练出来的？

创始人

2025-07-05 21:12:03

0次

大家好，欢迎回到「AI学什么」栏目，我是蓝衣剑客。在上一期中，我们探讨了大语言模型如何"理解"语言。我们发现，AI的"理解"更像是一种精巧的统计模拟，而非真正的思维过程。但这引出了一个更深层的问题：这些看似"智能"的模型是如何诞生的？今天，我们要从头梳理一遍大语言模型的完整训练过程，看看它们是如何从毫无"知识"的随机参数，一步步成长为能与人类对话的AI助手。

知识的诺亚方舟

公元前259年，亚历山大城。托勒密一世站在新建的图书馆前，心中怀着一个前所未有的雄心壮志。这位马其顿将军，亚历山大大帝的继承者之一，想要做一件在当时看来极其疯狂的事情——收集全世界的知识。

"我要让这里成为人类智慧的宝库，"他对身边的学者德米特里乌斯说道，"不管是希腊的哲学、埃及的医学、波斯的天文学，还是印度的数学，我都要收集到这里。"

这个想法确实疯狂。在那个交通全靠步行、信息传播极为缓慢的年代，要收集全世界的知识几乎是不可能的任务。但托勒密一世有着常人难以理解的执着。他颁布了一项令人震惊的法令：所有进入亚历山大港的船只，都必须交出船上携带的所有书籍和手稿。这些珍贵的文献会被专业抄写员复制，原件留在图书馆，副本还给船主。

更激进的是，托勒密王朝甚至派遣专门的"图书猎人"前往各地搜集典籍。他们用重金购买、借阅复制，甚至不惜用欺骗的手段获取珍贵手稿。据说，托勒密三世曾经向雅典借来埃斯库罗斯、索福克勒斯和欧里庇得斯的原始手稿，承诺复制后归还。结果他留下了原件，把复制品还给了雅典人，甘愿损失巨额押金。

这种对知识的狂热追求持续了几个世纪。亚历山大图书馆最终收藏了约70万卷书籍，涵盖了当时已知世界的几乎所有学科。数学家欧几里得在这里写下了《几何原本》，地理学家埃拉托色尼在这里测量了地球的周长，医学家希罗菲洛斯在这里进行了最早的人体解剖...

如果托勒密一世能够穿越时空，看到今天正在发生的事情，他一定会感到似曾相识。

两千多年后的今天，硅谷的数据中心里，科技公司们正在进行一场与古代亚历山大图书馆惊人相似的工程。他们不再派遣"图书猎人"到世界各地搜集羊皮纸手稿，而是让算法爬虫在互联网上搜集人类创造的一切文本。就像托勒密王朝强制过往船只交出书籍一样，这些公司正在"征收"网络上能找到的所有内容：维基百科、新闻报道、学术论文、小说、博客、社交媒体帖子...

这些文本被送入神经网络——我们这个时代的"抄写员"，它们以人类无法想象的速度"阅读"并"记忆"着这些知识。就像古代的学者们在亚历山大图书馆里潜心研究，试图理解世界的奥秘一样，这些AI模型正在从海量数据中学习语言的规律和世界的知识。

区别在于，古代的图书馆是静默的宝库，而今天的AI模型学会了开口说话。它们不仅存储了知识，还能与人类进行对话，回答问题，甚至创造新的内容。从某种意义上说，大语言模型就是我们这个时代的"亚历山大图书馆"——一个会思考、会交流的知识宝库。

但如何让一个知识库“开口说话”？这个过程究竟有多复杂？需要多少资源？面临哪些挑战？这些都是我们尚未讲到的。

让我们今天挨个讲明白。

史诗级阅读马拉松

"我读完了整个互联网。"

听到这话任谁都会笑。

不过，训练大语言模型的第一步，确实需要让它"阅读"海量文本。

GPT-4的训练语料估计超过数万亿个单词，相当于数十亿本书。要是换成人类，每天读8小时，每分钟读300字，不吃不喝不睡，也得读几万年才能完成。这真是史诗级的阅读马拉松。

业内把这个阶段叫做"预训练"。

那么，这些数据从哪里来？答案是——网页、电子书、论文、代码、维基百科、新闻、社交媒体帖子，几乎包含了所有能获取的人类文本。

在收集到这些内容后，研究团队会对数据进行一系列筛选：删除重复的、过滤低质量的、去除有害的、平衡不同类型的内容。这些筛选标准直接决定了模型未来的"知识结构"和"行为倾向"，就像教育影响着人的发展方向。

经过处理后，模型的训练数据可能达几百TB，但这也只是原始数据的十分之一或二。剩下的都被筛掉了。

数据准备好后，真正的预训练就开始了。这个过程看似简单——其实就是一个不断猜词的游戏。模型会看到一个句子："苹果树上结满了红色的____"，然后预测下一个词是什么。猜对了会得到奖励，猜错了则会受到惩罚。

这种方法看似过于简单，怎么能培养出复杂的能力呢？实际上，为了准确预测下一个词，模型必须理解语言的深层结构和意义。就像下棋一样，规则简单但变化无穷。在不断猜测和修正中，模型内部构建起一个庞大复杂的表示系统，能够捕捉语言的多层面特征。这种学习方法被称为"自监督学习"，因为数据本身既是问题也是答案，不需要人去告诉它（人工标注）。

而这背后，是惊人的算力消耗。数据是"食材"，算力则是"火力"。GPT-4的训练据估计使用了数千张高端GPU，每张价值上万美元。

这些GPU组成的超级计算机日夜不停地调整模型内部数十亿甚至数万亿个参数，就像无数个微小的旋钮，每一个都会影响最终的预测结果。

这个过程类似于数万个厨师同时调整一道有着无数种配料的复杂佳肴，每次尝试后稍微调整一下配方，直到味道恰到好处。只不过这些"厨师"是算法，而非人类。

从"博学"到"会说话"

预训练完成后的模型就像那种读了万卷书的书呆子一样，一跟人说话就暴露了——书是读了，但不会聊天。

所以，为了让模型更好地服务人类，还需要两个关键步骤：监督式微调和基于人类反馈的强化学习。这两个步骤要教会它如何表达。

教会模型"说人话"

监督式微调的目标看起来很简单：教会模型回应人类的各种问题和指令。就像教一个博学的教授如何用通俗易懂的语言与普通人交流。但实际操作起来，这个过程充满了挑战。

研究团队需要收集大量高质量的人类问答对，这些数据就像是给AI制作的"标准答案集"。每一个问答对都要精心设计，涵盖各种场景和需求。比如当有人问"如何煮一杯好咖啡"时，模型需要学会不要从咖啡豆的化学成分讲起，而是直接给出实用的步骤："先用热水冲洗滤杯，然后用15:1的水粉比例..."

这个过程中最大的挑战是数据的质量和多样性。研究团队要考虑无数种情况：用户可能是新手，也可能是专家；可能想要简单快速的答案，也可能需要详细的解释；甚至同一个问题在不同文化背景下可能需要不同的回答方式。

为了解决这个问题，一些研究团队会雇佣专业的写手和各领域专家来创作高质量的示例对话。这些人就像是AI的"私人教师"，不仅要回答问题，还要示范如何以合适的语气、结构和详细程度来回应。有些团队甚至会创建详细的写作指南，规定什么样的回答是"好的"——要准确、有帮助、简洁明了，同时避免可能造成伤害的内容。

让AI学会"察言观色"

仅会回答问题还远远不够。优秀的模型还应该能提供有帮助、安全且符合人类价值观的回答。这就是"人类反馈的强化学习"（RLHF）阶段要解决的问题。

这个阶段的工作更像是在教AI"察言观色"——不仅要知道什么是正确答案，还要知道什么是好答案。具体做法是让模型针对同一个问题生成多个不同的回答，然后人类评估者对这些回答进行排序，选出最好的。

比如对于"我心情不好，该怎么办"这个问题，模型可能会生成这样几个回答：

1. "建议你去看心理医生"
2. "试试深呼吸，或者听听音乐放松一下"
3. "每个人都会有低落的时候，这很正常。你可以试试出去散散步，或者和朋友聊聊天"

人类评估者会考虑哪个回答更有帮助、更温暖、更符合实际情况，然后给出排序。第三个回答可能会被评为最佳，因为它既给出了实用建议，又表达了理解和安慰。

这个过程需要大量的人类评估者参与，他们来自不同的背景和文化，确保AI学到的价值观能够适应不同的用户群体。这些评估者每天要处理成千上万个这样的对比，工作强度很大。有些公司甚至会聘请专门的伦理专家来参与这个过程，确保AI的回答符合社会道德标准。

更有趣的是，这个过程中模型会逐渐学会一些微妙的社交技巧。比如当用户问一些敏感问题时，模型学会了如何礼貌地拒绝或者重新引导话题；当用户表达沮丧时，AI学会了先表示理解，再给出建议；当用户问专业问题时，模型学会了承认自己的局限性，建议咨询专业人士。

经过这两步，模型不再只是一个被动的知识库，而是一个尝试理解并满足人类需求的助手。

至少，它看起来是这样。

从实验室到我们的设备

经过前面几个步骤，模型已经具备了不俗的能力，但离真正投入使用还有最后几步。这些步骤主要解决两个问题：模型是否可靠安全，以及它是否能在普通设备上运行。

研究团队会设计各种各样的"考试"来测试模型，涵盖了数学题、编程题、法律考题、医学问题、伦理困境...几乎所有知识领域。这些测试的目的不是给模型打分，而是找出它的弱点和盲区，了解它在哪些情况下可能出错。就像对新药进行全面检测，目的是确保它能安全、有效地发挥作用。

而且，原始训练出的模型通常体积庞大、运行成本高昂。为了让AI更广泛地服务人类，研究人员会进行模型压缩和优化，这些技术包括：

量化：将模型参数的精度从32位浮点数降至8位整数，大幅减小模型体积
蒸馏：训练一个小模型来模仿大模型的行为
剪枝：删除模型中不重要的连接和参数
优化推理算法：改进模型运行的方式，提高效率

这就像我们常在B站或抖音上看的“XX分钟带你看完全片”的电影解说一样。虽然损失了一些细节，但核心内容和体验基本保留。通过这些技术，如今一些强大的AI模型甚至可以在普通笔记本电脑或智能手机上运行，使AI技术真正走进了普通人的生活。

训练的未来与挑战

对于模型训练，现在有个问题越来越明显了：好的训练数据快不够用了。

互联网上的优质文本内容是有限的，一些研究甚至预测在2026年前后，可用的高质量数据将被"消耗殆尽"。就像挖矿一样，最好挖的矿先被挖光了，剩下的越来越难搞。

怎么办？研究人员想了不少招：让现有模型自己创造新的训练数据，或者加入图像、视频这些非文本内容，还有人在琢磨更聪明的学习算法，希望模型能从更少的数据中学到更多东西。总之，光靠现有的人类文本是不够了。

不过还有个更大的问题——训练这些大模型实在太烧钱了。动辄几千万美元的训练成本，只有那些科技巨头玩得起。更别提环境成本，一个模型训练下来的耗电量堪比小城镇。在气候变化越来越严重的今天，为了训练更强大的AI而消耗如此多能源，这真的合理吗？

当然，研究人员也在想办法：开发专用芯片，优化训练算法，探索更节能的模型架构。这些努力不仅可能让训练成本降下来，让更多人参与AI研究，还能减少环境影响。

希望未来的AI训练能更绿色，也更民主化一些。毕竟，这么重要的技术不应该只掌握在少数巨头手里。

结尾

亚历山大图书馆和今天的大语言模型，追求的可能是同一个梦想——让知识穿越时间，启迪未来的生命。只不过这次，我们的"知识容器"已经学会了与我们对话。

我是蓝衣剑客，谢谢你看我的文章。

什么语言海量数据托勒密模型训练手稿人类内容知识文本托勒密一世评估者

上一篇：从欧洲回来，我找到了旅游AI最酷的模样

下一篇：科马斯特申请工件质量AI检测方法及装置和系统专利，提高检测的效率

AI学什么(第2期)：大语言模型是如何训练出来的？

相关内容

热门资讯