今天是开年第一个工作日,不过我还是选择在家里办公,因为下午要见一个合作伙伴,就懒得跑来跑去了。实际上从初五开始,我就已经进入工作状态了,这几天初步完成了达梦数据库的新一轮知识标注工作。
对于AI算力问题,去年这个时候我是不担心的,因为我认识的客户几乎都在购买Deepseek一体机这样的算力平台,各大云平台、第三方算力公有云平台也在快速增长。半年后,我才发现真实的现状是令人担忧的。
我国的企业级应用领域十分特殊,因为种种原因,对于安全有一种近乎畸形的追求,哪怕企业规模不大,资金无法支撑自建算力平台,也无法接受使用公有云的服务,算力必须私有化部署,这种安全方面的担忧大部分来自于来自上级的安全合规性考核而不是安全本身。在这种情况下,廉价的公有云算力无法合规使用,算力的成本就远高于国外。
从另外一个宏观角度看,从2021年开始的在AI领域中美博弈,老美卡死了高端算力卡对我们的出口。原本在2020年左右的时候,中美的总算力大致相当,但是到2025年末,中国的AI算力不足老美的1/3。从中可以看出,我国的总算力缺口是巨大的。
实际情况与宏观数据是吻合的,去年在推广数据库AIOPS项目的时候,绝大部分客户都无法对接大规模参数的大语言模型,顶多能提供70B规模的模型。这种现状也让我们尽可能提高知识图谱的质量,让AI诊断分析能够在32B规模的模型上获得较好的效果。即便将算力要求做了极大压缩,目前绝大多数企业的AI算力还是无法支撑AI应用的普遍应用,仅仅能够把AIOPS平台跑起来。我们目前的系统中设计了SQL自动优化、故障预警自动诊断、数据库风险智能分析与预警等数个可自动化运行的模块,让AI智能体能够代替人一样帮用户自动看管数据库系统,就像有一批不知疲倦的专家在不断优化系统一样。可惜的是,如果这些自动功能都开启起来,算力要求就太高了,几乎没有哪个企业的自有算力能够支撑得起。
我们来算一笔账,比如系统纳管了1000个数据库实例,每天每个数据库实例优化24条SQL,对5条告警做自动诊断,完成6次状态巡检,总共需要跑35000个后台任务,按照每个任务2分钱算力计(实际公有云服务每个任务成本低于一分钱),一天的算力成本大约是700块钱,这个成本企业还是能够承受的,但是如果都在企业自有算力平台上跑,那么建设这样的算力平台的投资还是相当巨大的。简单算一下,每个小时要跑1000个SQL优化任务,250个状态巡检任务,200多个诊断任务,再加上人工操作,一个小时的任务量在1500-2000个左右,对于自建AI算力的用户来说,压力是不小的。去年我们上线部署BIC-QA国产数据库智能助手平台的用户,他们的AI中台几乎都无法支持后台自动任务开启。
自动化是AIOPS的基本特性,让AI智能体能够在自主运营是未来AIOPS必然的模式,但是企业自建AI算力的不足将会限制这种最为高效的业务模式,只能采用按需点击调用智能体的方式去工作,这样AIOPS系统的效率就被大大限制了。企业使用公有云算力的成本是最低的,因为公有云有集约化效应,同时分时共享会大幅降低算力成本。如果无法构建起安全可信的行业算力公有云平台,很多企业的AI应用将会受到巨大的限制。不仅AIOPS如此,业务领域也存在类似的问题,而且业务领域,算力需求的规模更加庞大。
目前大量国产算力卡已经上市,价格也还算便宜,虽然在训练方面差距还不小,不过在推理上,也是凑合能用了。但是国产卡的生态都不太好,比如某64G的国产推理卡,售价不到4万,但是能够完美适配这块卡的国产服务器十分有限,而且价格都十分昂贵,配一个单卡的服务器,总成本超过10万,与N卡相比,其实没有价格优势。
另外一个方面来自于决策高层,很多企业的领导并不太懂IT,他们觉得买了AI一体机,部署上Deepseek或者Qwen,能够跑跑RAG知识问答了,企业的AI建设就已经上路了。实际上企业在AI算力上的投资到底需要多少,在企业的高层来说是没什么概念的。这种决策层的统筹缺失,将会在未来企业AI应用建设方面,成为最大的障碍。
下一篇:2026年全球AI决战时刻