英伟达最近收购了Slurm工作负载管理器背后的公司SchedMD,这一举动引发了AI行业高管和超级计算专家的担忧。他们担心这家芯片巨头可能利用其新地位,通过代码优先级或路线图决策来偏向自己的硬件,而非竞争对手的芯片。
据路透社报道,引用了五名匿名消息来源,其中三名在AI行业工作,两名了解超级计算机运营情况,他们表示担忧很直接:英伟达现在控制着也在其竞争对手硬件上运行的调度软件,包括AMD和英特尔的产品。控制工作负载调度软件的供应商在共享计算环境中对竞争硬件的执行效率具有重大影响力——无论是否行使这种影响力。
接受InfoWorld采访的分析师表示,英伟达的开源承诺——该公司在收购公告中表示将"继续开发和分发Slurm作为开源、供应商中立的软件"——可能无法提供充分保护。
TechInsights半导体分析师Manish Rawat表示:"Slurm的开源基础提供了透明代码、分叉能力和社区治理等保护措施,但SchedMD的控制权给了英伟达软实力而非硬锁定。"Rawat说,英伟达可能会巧妙地塑造路线图,优先考虑GPU感知调度和拓扑优化,这些都有利于其自身硬件,集成时间表已经显示出对CUDA生态系统的支持比AMD的ROCm或英特尔的oneAPI等替代方案更快——创造了他所描述的"最佳支持路径效应"。
Slurm最初由劳伦斯利弗莫尔国家实验室开发,在全球约60%的超级计算机上运行。据路透社报道,该软件在主要AI公司中积极使用,包括Meta Platforms、法国AI初创公司Mistral和Anthropic,用于AI模型训练的部分工作。
用于天气预报和国家安全研究的政府超级计算机也依赖它。英伟达于2024年12月收购了Slurm开发商SchedMD,并将这笔交易描述为加强其开源生态系统、帮助用户在传统超级计算工作的基础上采用更新AI技术的推动力。
美国AI硬件和数据中心咨询公司Fab Economics首席执行官Danish Faruqui博士表示,这种风险是真实存在的。
"对英伟达可能在未来软件更新中优先考虑自己的硬件,可能延迟或未充分优化对竞争对手支持的怀疑,是一个可行的结果,"他说。Faruqui表示,作为主要开发者,英伟达现在控制着Slurm的官方开发路线图和代码审查过程,"这可能影响竞争芯片在新开发或持续改进元素方面的集成速度。"
他补充说,拥有控制平面以及GPU和InfiniBand等网络基础设施,使英伟达能够创建一个紧密的垂直集成堆栈,这可能导致他所描述的"浅护城河,其中高级功能仅在英伟达硬件上可用或表现良好。"
行业观察者表示,对此的一个具体测试将是英伟达将AMD下一代芯片的支持集成到Slurm代码库中的速度,与它集成自己即将推出的硬件和网络技术(如InfiniBand)的速度相比。
分析师指出,英伟达2022年收购Bright Computing作为参考点,称该软件以不利于竞争硬件用户的方式针对英伟达芯片进行了优化。英伟达对这种描述提出异议,称Bright Computing支持"几乎任何CPU或GPU加速集群"。
Rawat表示这种比较具有指导意义但并不完美。"英伟达收购Bright Computing凸显了其对垂直整合的偏好,将Bright紧密嵌入DGX和AI工厂堆栈中,而不是保持中立的多供应商编排角色,"他说。"这反映了更广泛的战略模式——英伟达寻求控制全栈AI基础设施体验。"
然而,他说Slurm面临着根本不同的挑战。"深深扎根于超级计算中心和学术界,并由社区有效治理,Slurm具有很高的转换成本,"Rawat说。"英伟达可能会产生影响,但不太可能在由既定的、中立的、社区驱动的平台主导的市场中复制同样紧密集成的控制。"
Faruqui承认,Slurm在GNU GPL v2.0许可证下的开源许可提供了一些保护,包括如果英伟达的管理被视为有偏见,社区有权分叉项目。但他警告说,这一选择也有其自身风险。"Slurm的开源状态提供了一个有限制的安全阀,但它不是供应商中立性的完全屏障,"他说。
他指出,收购将世界上许多领先的Slurm开发者纳入英伟达内部,这意味着社区主导的分叉将难以维持相同的开发速度。
Rawat将这种情况描述为"战略依赖风险,而非危机",并表示组织应该多样化GPU采购,在多个供应商生态系统中对工作负载进行基准测试,并开发内部专业知识以在需要时修改或切换编排工具。
Faruqui建议,企业买家在谈判Slurm支持协议时应寻求同样适用于非英伟达硬件的服务级别保证,涵盖响应时间、错误修复和异构集群中的功能对等。在架构方面,他说组织应该考虑将AI工作负载容器化,以将应用程序与底层调度器隔离,如果需要的话,使迁移到Flux或Kubernetes等替代调度器更可行。
Q&A
Q1:Slurm是什么软件?它有多重要?
A:Slurm是一个工作负载管理器,最初由劳伦斯利弗莫尔国家实验室开发,在全球约60%的超级计算机上运行。它在主要AI公司如Meta、Mistral和Anthropic中积极使用,用于AI模型训练,政府超级计算机也依赖它进行天气预报和国家安全研究。
Q2:英伟达收购SchedMD会带来什么影响?
A:英伟达现在控制着也在竞争对手硬件上运行的调度软件,可能通过代码优先级或路线图决策来偏向自己的硬件。分析师担心英伟达可能会优先考虑GPU感知调度和拓扑优化,创造"最佳支持路径效应",使其硬件获得更好支持。
Q3:开源许可能否保护Slurm的中立性?
A:Slurm在GNU GPL v2.0许可证下的开源状态提供了一些保护,包括社区分叉项目的权利。但专家警告这不是完全屏障,因为英伟达控制了主要开发者,社区主导的分叉将难以维持相同的开发速度。