“连续4周千卡不间断训练、2个月完成模型迭代,先于Sora半年开放使用……”
2024年初,Sora的惊艳亮相,将文生视频技术推向AI领域竞争的新高地。
彼时,成立仅一年多的智象未来,凭借在生成式AI和多模态领域的技术积累迅速响应,仅用短短2个月时间便推出全球首个上线开放使用的图像和视频生成(DiT)架构模型,并迅速在vivago.ai上线向全球用户提供视频生成服务,把握了行业发展先机。
商汤大装置也加入了这场竞赛。
Part1
训练节奏按月迭代,算力需求“既要也要”
目前,智象大模型已迭代至3.0版本,在架构和应用层面进一步突破。通过引入全新扩散自回归架构(DiT+AR),在提升生成质量的同时降低推理能耗。
不同于语言等单一模态模型,多模态模型的训练更加复杂。其不仅需要融合文本、图像、音频等多种模态信息,实现跨模态的深度理解与交互,而且训练任务更加多样。不仅如此,智象多模态大模型还几乎保持每月进行小版本迭代,每半年开展大版本升级的节奏,更对算力提出了高效、灵活、稳定的“既要也要”的严苛要求:
一是要高效:需要迅速调度充足算力资源,支持模型迭代冲刺。二是要灵活:不同模态信息的训练任务对算力需求各有不同,需要算力系统随时根据训练任务的具体需要,匹配最优算力方案。三是要稳定:训练过程的任何一次系统中断都可能导致训练失败和资源浪费,因此算力系统必须具备7×24小时不间断运行的绝对稳定性。
Part2
灵活、稳定、专业,为模型迭代稳定护航
作为“最懂大模型的AI基础设施”,商汤大装置通过灵活的算力资源调度,连续4周千卡不间断训练和专业高效的专家服务,助力智象未来实现了20%的资源利用率提升,让每一份算力都发挥到极致。
灵活:千卡算力按需调度,实现最高投入产出比
为满足智象未来的模型迭代冲刺需求,商汤大装置快速调度了千卡级别的算力资源,还实现了弹性的算力支持,可按需分配资源规模,通过灵活调度为智象未来提供最适配的算力方案。并针对不同训练任务可通过资源自主划分、灵活任务抢占机制,按照任务优先级灵活进行资源分配,保证最大资源利用率。
稳定:千卡4周不间断,99.99%可靠性稳定护航
在基于千卡集群的模型训练任务中,计算卡故障、通信异常等潜在问题随时可能会导致训练中断等稳定性问题,影响训练进度。得益于动态监控、异常检测等多种手段,商汤大装置以分钟级的训练容错能力,助力智象未来成功实现了连续4周千卡不间断训练的超稳表现,为模型迭代稳定护航。
从全程动态监控到多项保障机制,商汤大装置以99.99%的可靠性实现稳定支撑。在模型训练过程中,可实时监控设备状态,精准定位故障节点,通过故障节点自动剔除机制,能够迅速将问题节点隔离,减少训练中断风险;另外,通过空闲节点无缝接入机制,让训练任务能够从断点处迅速续训,避免时间浪费。
专业:全链条专家服务支持,全程守护满满安全感
凭借在模型训练、AI Infra、模型量化推理等方面积累的深厚经验与专业知识,商汤专家服务团队以敏捷、专业的支持能力,协助智象未来高效精准地完成问题定位和溯源,高效完成各类故障排查,并助力优化训练流程、提升资源利用率。
作为智象未来的坚实后盾,商汤大装置为其提供了超稳定、超高效的AI基础设施支持,以极致的资源利用助力智象未来快速完成模型迭代冲刺,在新一轮竞争中巩固核心竞争力、开拓应用新场景。
基于对文生视频模型研发与应用需求的深刻理解,商汤大装置已形成涵盖底层算力服务、laaS 服务以及文生视频数据处理平台的全链路文生视频解决方案,以端到端的 Al 基础设施能力打通从数据到价值的“最后一公里”。
未来,商汤大装置与智象未来还将进行更深层次、更多维度的合作,比如在对视频筛选、视频编码、视频超分等数据处理,以及模型推理优化等方面展开交流与合作探讨,以打造更优质、更高效、更易用的文生视频服务,满足各行业客户日益增长的多样化需求。
智象未来技术总监潘滢炜博士表示:“智象未来的模型迭代节奏快、训练强度大,对算力基础设施的响应速度、稳定性和服务能力都有着极高需求。商汤大装置‘灵活、稳定、专业’的支持能力,为我们实现模型的多元化场景应用、打通商业闭环提供了坚实基础,是我们值得信赖的长期合作伙伴。”
上一篇:中小学AI教育指南发布