2025年11月8日,在世界互联网大会乌镇峰会期间,三六零数字安全集团(以下简称“360”)正式发布《大模型安全白皮书》(以下简称“白皮书”)。
该白皮书首次系统性阐释大模型运行时的五大关键风险,建设性地提出“外筑‘以模治模’动态屏障,内固‘平台原生’安全底座”的核心理念,并源于实战,提供了可落地的安全解决方案,为大模型应用拉起了全链路安全防线,助力推动人工智能行业向“安全、向善、可信、可控”方向稳健发展。
该白皮书共计五章, 系统覆盖了大模型安全边界的演变、全景式威胁透视、源于实战的防护新思路、360全链路安全解决方案以及生态共治倡议,全面呈现了360在面对大模型安全这一挑战的技术纵深与治理前瞻性。
开篇介绍了随着大模型驱动百行千业智能化,传统且清晰网络安全边界正在消融。白皮书指出,当前大模型安全漏洞呈指数级增长,2025年国内首次AI大模型实网众测发现281个安全漏洞,其中大模型特有漏洞占比超60%。与此同时,攻击者从"专业黑客"演变为"全民黑客",通过自然语言即可发动高威胁攻击。
面对这一挑战,中国开创了“发展与安全并重”的敏捷治理路径,以《生成式人工智 能服务管理暂行办法》为代表的“包容审慎、分类分级”原则,为技术创新与风险防控提供了 动态平衡的框架。
本章提到在大模型快速发展与广泛应用的背景下,大模型安全风险已形成多维度的复杂体系。除了传统的网络安全与数据安全解决方案能够覆盖的大模型应用环境上的安全问题以外,大模型在运行时的安全风险尤其具有其独特性。
大模型运行时安全风险主要涵盖以下五个关键风险点:一是大模型基础设施安全;二是大模型内容安全;三是大模型数据与知识库安全;四是智能体安全;五是用户端安全,涵盖大模型、知识库、智能体的访问控制,API监控及恶意插件、隐私泄露等风险。这些维度共同构成了AI安全治理需重点关注的全域图景。对于上述风险,传统的安全厂商尚未提供有效的解决方案。
在本章,基于对新型威胁的深度洞察,白皮书提出"外筑'以模治模'动态屏障,内固'平台原生'安全底座"的防护理念,并通过四大原则落地实施:“安全”原则保障大模型运行时的安全防护;“向善”原则引导大模型朝着积极有益的方向发展;“可信”原则致力于提升大模型生成内容的可信度、完整性与准确性;“可控”原则实现智能体有效管理。
此外,为了推动人工智能行业向以上四大原则方向稳健发展。白皮书基于实战经验,给出了“外挂式安全 + 平台原生安全”双轨治理策略 ——外挂式安全如同“建成后加装的防盗系统”,平台原生安全则如“建造时内置的防火结构”,二者协同,从外至内构筑大模型的安全防线。通过这一体系,360实现了主动发现、动态演进的安全检测能力,有效应对复杂多变的大模型安全威胁。
本章中,360给出了全链路安全防护的解决方案。具体而言,“外挂式”安全能力不侵入大模型原生架构,通过外部工具实现灵活、快速的动态防护。
该体系下的四大产品——大模型卫士算力主机安全系统、检测系统、防护系统、幻觉检测与缓解系统——共同构建了外部屏障,重点应对大模型基础设施风险,如算力劫持、供应链投毒,以及大模型内容风险,如提示词注入、模型幻觉与违规内容,实现了从算力层到内容层的实时监测与主动防御。
同时,“平台原生安全” 则为大模型应用注入了“安全基因”,将防护能力深度内嵌于其核心组件之中。这一理念具体体现在三大平台产品上:企业级知识库从根本上守护数据与知识安全;智能体构建和运营平台确保智能体行为全程可控;智能体客户端则筑牢用户端入口的安全防线。三者协同,从底层架构解决了数据泄露、智能体行为失控及终端滥用等内生性安全挑战,为AI应用的稳定可靠运行奠定了内生性基础。
最后章节中,白皮书强调,大模型安全需通过生态共治实现可持续治理。360深度参与《GB/T 45654-2025 网络安全技术 生成式人工智能服务安全基本要求》等国家标准制定,与北京大学联合研发的TinyR1-32B模型在安全能力上超越多个主流模型。
通过发起大模型安全联盟,360携手产学研各方共建安全生态,在工信部人工智能大模型公共服务平台上,已为100余家企业提供模型安全测试服务。
《大模型安全白皮书》的发布,标志着大模型安全治理进入体系化建设新阶段。360提出的全链路防护体系,为正处于规模化应用初期的各行各业提供了从理论到实践的完整解决方案。
未来,360将继续发挥"AI+安全"双重基因优势,与产业各方携手共建"安全、向善、可信、可控"的大模型生态,为人工智能时代高质量发展保驾护航。