当前AI产业有一个绕不开的现实,全球每100台AI训练设备中,可能就有92台搭载着英伟达的芯片。
这个市值一度冲破4万亿美元的科技巨头,不仅稳稳占据全球最大芯片公司的宝座,更成了AI算力领域的“隐形裁判”。
可回溯二十年前,它还只是个靠游戏显卡谋生的小众厂商,这种从“边缘”到“中心”的跨越,究竟靠的是什么?而面对虎视眈眈的挑战者,这股“英伟达旋风”又能刮多久?
AI为何离不开英伟达
翻开行业报告,英伟达在AI芯片领域的92%份额,足以说明其垄断地位,第二名AMD仅占1.2%,英特尔不足1%。
先看技术底层的适配性,AI的深度学习本质是海量数据的重复运算,比如成百上千万次的矩阵乘法。
而计算机的两大处理器中,CPU更像“全能管家”,擅长处理复杂但单一的逻辑任务,GPU则是“流水线工厂”,由数千个计算单元组成,能同时完成大量重复运算。
但真正让英伟达站稳脚跟的,是2006年推出的CUDA技术,在此之前,开发者想调用GPU算力,得啃下晦涩的底层代码,技术门槛极高。
CUDA的出现相当于给开发者递了一把“通用钥匙”,无需深耕复杂指令,用熟悉的C语言就能操控GPU,模型训练速度一下提升数倍。
关键是这套工具慢慢成了行业标准,高校AI课程以CUDA为核心教材,企业招聘把“熟练掌握CUDA”列为硬性要求,当整个行业的研发习惯都围绕它建立,切换到其他平台的成本就变得难以承受。
再看生态的深度绑定,大模型训练需要成百上千张GPU组成“计算集群”,而数据在设备间传输的损耗,曾是行业痛点。
英伟达的NVLink技术恰好解决了这个问题,它能让GPU之间高速低延迟互联,减少损耗的同时降低运营成本,且这项技术只适配自家芯片。
与此同时,过去一年它还投资了355家AI企业,比红杉、A16Z等顶级机构更活跃,一手给资金,一手给顶级算力设备,几乎把OpenAI、微软等巨头都“绑”在了自己的生态船上。
关键三步棋
英伟达的崛起从不是一蹴而就的幸运,而是三步关键决策埋下的伏笔,每一步都踩在了行业迭代的节点上。
第一步是1999年的“破局”,当时PC游戏产业刚兴起,玩家对3D画面的需求激增,但传统显卡高度依赖CPU,运算速度慢得让人抓狂。
英伟达抓住这个痛点,推出全球首款GPU——GeForce256,这款产品的核心突破,是让显卡摆脱了CPU的“控制”,能独立完成3D图形处理。
第二步是2006年的“筑墙”,彼时AI产业还在萌芽阶段,多数厂商仍聚焦硬件参数比拼,英伟达却率先推出CUDA技术。
当时没人能预料到AI会爆发,但它精准判断了“工具生态”的重要性,与其在硬件上拼一时高下,不如搭建一套让开发者离不开的工具体系。
第三步是2016年的“押注”,那一年OpenAI刚成立,办公场地还挤在小写字楼里,英伟达CEO黄仁勋就带着团队上门,送来一台当时全球最强的DGX-1服务器。
他留下一句话:“为了计算和人类的未来,你们该拥有世界第一的设备。”这步看似寻常的合作,后来成了关键转折点。
正是这台服务器,为ChatGPT的研发提供了早期算力支撑,而当ChatGPT引爆AI热潮,全球算力需求呈指数级增长时,英伟达自然成了最大受益者。
这三步棋,看似分散,却形成了完整的逻辑链,从技术突破到生态搭建,再到产业押注,最终在AI爆发期实现了“量变到质变”的跨越。
2023年,它的营收超越英特尔、市值突破2万亿美元,不过是这场长期布局的必然结果。
挑战者阵营
科技行业从没有“永远的王者”,面对英伟达的强势,传统芯片厂商、互联网巨头乃至国产力量,都已纷纷入局,试图在AI算力赛道分一杯羹。
传统厂商中,AMD是最接近英伟达的挑战者,2023年6月,AMD推出InstinctMI300系列GPU,官方宣称其训练性能与英伟达H100相当,推理速度甚至快40%-60%。
为了突破CUDA壁垒,它一边开发“代码翻译工具”,把CUDA应用转化为MI300可兼容的格式;一边开源自家ROCM软件,降低开发者使用门槛。
但现实仍有差距,ROCM比CUDA晚17年起步,软件生态的丰富度和稳定性远不及前者。
即便OpenAI用MI300做辅助训练,核心任务仍依赖英伟达,生态的惯性远比硬件参数更难打破。
英特尔则选择另辟蹊径,它计划2024年推出新一代AI芯片“高迪三”,宣传其带宽是上代产品的1.5倍,算力提升至2倍,性能有望超越H100。
英特尔的优势在PC端,当前AIPC成了新风口,它想借助自己在CPU领域的垄断地位,先抢占消费端算力市场,再反向渗透数据中心,不过英特尔此前的AI芯片表现平平,“高迪三”能否兑现承诺,还需市场给出答案。
互联网巨头们则走上了“自研”之路,谷歌的TPU、微软的ASA、亚马逊的Trainium,都是为适配自家云服务和AI模型而生,比如谷歌用TPU运行自有大模型,能大幅降低算力成本。
但这类芯片的局限性很明显:定制化属性强,只适配自身业务,无法规模化对外供应,顶多算“局部突破”,难以对英伟达形成全面挑战。
在国产算力领域,华为升腾系列是值得关注的力量,升腾910B的性能已接近英伟达A100,更关键的是,华为是国内唯一能提供“芯片-服务器-AI框架-模型”全链条解决方案的厂商。
目前国内政务云、工业AI等项目中,升腾芯片的应用比例正在提升,尽管它在性能、成本和生态成熟度上与英伟达仍有代际差距,但国产替代的核心价值在于“突破技术封锁”。
国盛证券的测算数据显示,到2030年,全球AI训练端需相当于2000万张H100的算力,推理端需相当于1.16亿张A30的算力。
到2032年,生成式AI市场规模将从2023年的4400亿美元增长至1.3万亿美元。如此庞大的需求,注定无法由一家企业长期垄断。
短期内英伟达的优势仍难撼动,生态闭环的搭建非一日之功,即便AMD、英特尔能在硬件上追平,软件工具的成熟、开发者习惯的培养,都需要时间。
而英伟达也在持续加码,H200已发布,下一代GPU“Blackwell100”有望提前亮相,CUDA的开发者数量还在不断增长,同时通过上百亿美元采购承诺锁定上游产能。
但长期来看,变数始终存在,芯片行业的技术迭代速度极快,量子计算的突破、新型存储技术的出现,甚至一套更易用的开源工具,都可能成为改写格局的“黑天鹅”。
结语
英伟达的故事,既是一家企业的成功史,也是科技产业迭代的缩影,没有永远的王者,只有不断适应变化的幸存者。
而这场围绕AI算力的博弈,最终受益的会是整个行业,更多的竞争将推动算力成本下降、技术普及,让AI真正走出实验室,渗透到医疗、工业、生活的方方面面,这才是算力革命的终极意义。