让数据常青,为AI立基,撑起AI基础设施长期演进的底层逻辑
创始人
2026-01-16 17:18:51

作者:王聪彬

“21世纪什么最重要?人才!”如今,21世纪已过半,人才依旧是推动产业前行的核心驱动力。但AI带来了同等重要的新力量:算力成为推动产业升级的新驱动力,存储则为AI和数字经济的持续发展提供坚实底座。

根据IDC预测,到2025年全球每年产生的数据量将达到约213ZB,并在2029年超过500ZB 级规模,中国市场年数据产量也有望从约52ZB增长至136ZB以上,年复合增长率接近27%。

数据的高速膨胀,正在倒逼存储架构的重构与升级。

XSKY用10年时间已经从一个初创团队,现在已经肩负起中国核心产业5500PB关键数据的安全重任。

回顾XSKY发展历程,2015-2017年,云时代开启,其用软硬件架构解耦,打破了集中式存储的硬件黑盒,把选择权交还给客户。

2017-2022年,面对大数据爆发,XSKY通过XEDP统一数据平台,打通了协议壁垒,实现了“一个数据中心,一套存储”。

2022年,XSKY就预判了AI对于极致性能和数据治理的重要性,投入研发并发布了XSEA全闪底座和EasyData数据管理平台。三年的技术积累,也为支撑当前大规模AI场景和高性能计算提供了基础。

2026年XSKY再次出发,通过架构创新,打造了全栈AI数据方案——AIMesh。

“有‘三堵墙’ 阻碍着AI进化:IO墙、重力墙、内存墙。”XSKY星辰天合CEO胥昕说道。既要守住数据安全的护城河,又要打破阻碍效率的三堵墙,解决之道既不能简单的修补,也不能推倒重来,而要持续演进。今天企业真正的差异化优势在于“专有数据”,XSKY的价值在于帮助企业在私有环境内,安全地将这些专有数据转化为智慧。构筑企业AI工厂的稳固、高效、灵活的数据底座,让企业在AI时代占据竞争制高点。

AIMesh织起三张网,撑起AI工厂的数据底座

AIMesh是面向AI工厂的一张数据与内存网。XSKY的目标只有一个:让每一张GPU都被数据和上下文喂满,而不是被I/O和内存拖慢。

AIMesh处在复杂的存储资源层和算力层之间,构建了一个统一的抽象平面,平面上编织了三张网,实现了训练、推理、数据湖,三网合一。第一张是训练数据网。专为解决IO墙而生,让数据像电流一样极速供给GPU;第二张是推理内存网。它作为KVCache的L3外部内存,让推理不再受限于显存的物理边界。第三张是全局对象网。它是AI全生命周期的数据总管,打破数据重力,实现EB级数据的自由流动。

MeshFS打破IO墙:化出专为AI训练设计的并行文件系统

在AI场景下,存储并不是“有没有方案”的问题,而是长期存在的结构性取舍:HPC存储足够快,却难以适配云原生和多协议生态;而通用NAS易用性更好,但一旦进入高并发、小文件训练场景,性能短板便迅速暴露。

这背后,本质是文件系统能力的断层。早在七年前,XSKY就发布了面向高性能NAS场景的 XGFS文件系统。不同于单点突破型产品,XGFS的演进路径,始终围绕“协议完整性”和“企业级稳定性”展开:从NFS、SMB、FTP、S3,到大数据的HDFS、云原生的CSI,以及最新支持SFTP,几乎覆盖了企业所有文件访问路径。

这套系统在工业质检、EDA芯片设计、量化交易、金融营销与风控、基因测序、数字病理以及自动驾驶等高稳定性场景中长期运行,代表了文件存储的“稳态能力”。

但AI时代改变了规则。极端并发、全闪介质、分布式训练,让“稳”不再足够,“快”成为刚需。所以2023年发布的XSEA“星飞”全闪架构成为转折点,基于Shared-Everything底座,其块存储产品XEBS-XINFINI在200Gb ROCE网络下实现了单卷410万IOPS,刷新了行业纪录。

针对“稳”和“快”两个企业级AI场景的核心需求,XSKY选择将XGFS成熟的POSIX语义与 XSEA的全闪极速底座深度融合,由此诞生了专为AI训练的新一代并行文件系统——MeshFS。

MeshFS的设计逻辑非常明确:第一,全协议兼容。坚持提供标准的POSIX语义;第二,线性的极致性能。通过全分布式架构和元数据分片技术,MeshFS 的性能随节点数线性增长;第三,企业级管理与智能分层。数据可以在全闪存层和低成本层之间透明流动。

实测中,MeshFS在顺序读写、随机IO等关键指标上,均显著领先同类方案。其核心价值只有一句话:为计算让路,让训练不再等待数据。

MeshSpace推倒重力墙:一个支持EB级数据的全局非结构化数据平台

如果说训练数据网解决的是“快”,那么下一道难题就是“大”。

过去九年,XSKY的对象存储XEOS从V2.0演进到V6.4,长期位居中国对象存储软件市场份额第一。但真正值得关注的,是其在V6阶段做出的一个看似“超前”的工程决策,挑战单桶 1000亿对象规模。

在当时,大多数厂商还停留在“十亿级”对象的性能优化讨论中。XSKY在XScale引擎的全局元数据管理、小文件索引归并、以及海量数据下的追加写(Append-only)上,投入了长达三年的底层重构与打磨。

这一决定,在AI时代也被证明是对趋势的预判。当AI开启了对物理世界的全量数字化,数据规模从TB跃迁至PB、EB,单集群对象存储开始遇到无法回避的物理极限,当年的“单桶千亿”不再是天花板,而仅仅是AI数据湖的起跑线。

于是,架构需要一次从“有限”到“无限”的升维。XSKY将XScale架构进行了推出了MeshSpace,一个面向EB级数据的全局非结构化数据平台,其目标不再是“做大单集群”,而是打破集群边界。

MeshSpace具备了三大核心能力,第一,平滑演进能力,无需迁移,现有XEOS集群可直接接入;第二,全局控制面统一,通过统一的DNS,将多地集群抽象为一个逻辑存储;第三,数据治理全局化,跨全闪、HDD、磁带的智能调度。

XScale引擎最新版本已进入“百万 OPS 单桶时代”,并且分布式KV引擎进行了彻底的优化,让AI训练中关键的大块写性能提升了近50%,同时将延迟降低了30%。

从“单点极致”到“全局统筹”,MeshSpace 更像是为AI数据湖准备的一块“无限底座”。

MeshFusion击穿内存墙:面向KVCache的“持久化内存”方案

训练之后,真正决定AI成本结构的是推理。随着AI从简单的Chatbox变成复杂的AI Agent(智能体),从几句对话变成百万级(1M+)超长上下文。KVCache 成为新的性能与成本黑洞。KVCache是AI“短期记忆”,为了记住一百万字的上下文,显存被迅速填满,而用HBM 或DRAM扩容,代价更为昂贵。

XSKY的判断是在HBM(L1)和DRAM(L2)之外,构建一层极其廉价、但性能又要跟得上的L3级外部内存。这就是MeshFusion的定位,面向KVCache的“持久化内存”。

MeshFusion直接运行在GPU服务器内部,利用本地NVMe SSD构建高性能的资源池,拥有零拷贝、极致并发、协议自适应三大必杀技。

在多组实测中,MeshFusion与纯DRAM的性能差距被控制在 10% 以内;在高并发和内存溢出场景下,甚至实现了20%的性能反超。MeshFusion的意义不在于“替代内存”,而在于用1%的成本,换取近乎无限的上下文能力。

AI基础设施的长期命题,数据如何穿越算力周期

在AI时代,合作伙伴们也与XSKY建立起了更加密切的关系。云计算时代,“存算分离”“私有云建设”是企业私有云绕不开的命题,ZStack与XSKY也由此形成了高度稳定的合作关系。一方以极简、稳定的云平台降低企业用云门槛,一方以高性能软件定义存储夯实数据底座。“ZStack云平台+XSKY存储”,已经成为私有云建设中的成熟组合。

这种信任被延展到新的技术周期,随着大模型兴起,ZStack的战略重心从CPU管理转向以 GPU为核心的AI基础设施。依托AIOS 智塔,ZStack正在构建面向智算中心的平台体系,AIMesh中的MeshFS和MeshFusion,与ZStack的智算平台规划高度一致。

这一判断同样得到芯片与模型侧的验证。Intel从硬件视角看到,算力决定速度,存储决定供给效率,能够跟上硬件演进节奏的存储体系,是AI生态中不可或缺的底座。十年来,双方合作从底层技术共创、到方案级验证、再到新品首发协同,逐步形成成熟的软硬协同路径,这也直接体现在AIMesh针对I/O墙与内存墙的系统级设计中。

在模型侧,Minimax的实践进一步放大了这一价值。在多地域、多集群的混合云架构下,性能、稳定性与成本成为核心指标。PB级核心训练与推理数据的长期运行验证了系统稳定性,MeshSpace的统一命名空间有效缓解了数据孤岛问题;MeshFS在训练与推理阶段提供高吞吐、低延迟 I/O,为大规模模型与推理服务的快速上线提供了现实支撑。

未来算法快速迭代、架构持续演进,不确定性将成为AI时代的常态。面对这种不确定性,XSKY给出的答案是:坚持开放解耦,构建绝对中立的数据底座。不绑定任何算力路线,不预设任何硬件阵营,无论选择哪一种芯片架构、部署在私有云还是混合云,AIMesh都提供统一、标准的数据服务。

这种“中立”和“解耦”源于一个清晰判断:算力的摩尔定律正在放缓,而数据的价值定律正在生效。硬件平台的生命周期可能只有三到五年,但承载企业智慧的数据资产,往往需要十年甚至二十年的持续存续。用确定性的数据能力,对抗技术快速更替带来的不确定性,成为底层战略选择。

从这个意义上看,算力是不断轮换的“流水之兵”,而数据才是长期稳固的“营盘”。AIMesh的目标,正是构建这样一个长周期、可演进的数据底座,以不变的基础能力,支撑上层算力与模型的持续迭代。让数据常青,为AI立基,这也是AI基础设施走向成熟所必须具备的底层逻辑。

相关内容

热门资讯

原创 A... 定焦One(dingjiaoone)原创 作者 | 李云朵 编辑 | 方展博 一句话就能完成一次消费...
AI技术创新提升米兰冬奥会转播... 新华社北京1月15日电(记者刘旸)奥林匹克广播服务公司(OBS)首席执行官兼奥林匹克频道服务公司(O...
让数据常青,为AI立基,撑起A... 作者:王聪彬 “21世纪什么最重要?人才!”如今,21世纪已过半,人才依旧是推动产业前行的核心驱动力...
1月16日华懋科技涨8.60%... 证券之星消息,1月16日华懋科技(603306)涨8.60%,收盘报66.9元,换手率7.24%,成...