作者:毛烁
在摩尔定律放缓、AI模型规模持续膨胀的双重挤压下,嵌入式边缘计算(Embedded Edge Computing)正经历深层次的范式重构。
过去几年,行业的核心命题,是如何将云端训练好的视觉模型通过量化、剪枝等方式压缩到功耗、体积和散热预算都极为严苛的边缘设备中,使其能够稳定运行。但随着AI应用复杂度不断提升,边缘侧承担的任务边界也在持续抬高。
事实上,越来越多的系统开始在受限计算环境中同时完成感知、控制与推理三类任务,并尽量减少对云端的依赖。就比如,医疗终端逐步承担起影像分析、辅助诊断与临床推理,工业自动化系统则追求更少的边缘节点和更快的本地决策速度。
随着这些应用不断落地,边缘处理器所面临的性能、能效与系统协同要求也被整体推高。也正是为了满足这些需求,今天,AMD宣布扩展其AMD锐龙(Ryzen™)AI 嵌入式 P100系列处理器产品组合(以下简称 P100系列)。与此前发布的采用相同紧凑型球栅阵列(BGA)封装的P100系列处理器相比,新款处理器可提供最高2倍的CPU核心数量、最高8倍的图形处理单元(GPU)算力,且系统级每秒万亿次运算(TOPS)性能预计提升36%。
从应用定位来看,此次扩展意味着P100系列的产品定位正在发生转移。此前4-6 核版本的 P100系列偏向沉浸式体验与显示导向场景,而全新的P100系列则面向工业自动化、Physical AI、医疗与科学计算、Pro AV/Broadcast,以及测试与测量等更复杂的边缘系统。
某种程度上,这也反映出边缘计算架构的演进方向——边缘节点开始向更完善的本地计算平台靠拢。
01 告别“烟囱式”的硬件架构
在深入探讨该系列SoC的具体性能之前,有必要先理解嵌入式场景下正在发生的系统形态变化。只有把这一层背景看清楚,才更容易理解为什么AMD需要在P100系列产品线上补齐这一性能区间。
事实上,AMD在新一轮边缘智能产品升级方向中体现出几个非常有代表性的关键词——“Consolidated systems, fewer edge nodes”“AI-driven decisions without cloud reliance”。意思是,系统整合、减少边缘节点,以及在不依赖云端的情况下实现AI驱动决策。
这些关键词的背后,其实反映的是工业系统架构正在发生的转变。
过去很长一段时间里,工业场景下的边缘计算平台普遍采用“堆叠式”的系统结构:IPC负责逻辑控制,GPU承担图形或视觉任务,外接AI加速器负责推理,同时再连接各种传感器、采集卡和控制模块。多个设备拼接在一起,共同完成一套产线或设备的计算任务。
但随着节点数量不断增加,数据在不同设备之间来回搬运的次数也随之增加,系统时延、功耗、体积以及维护复杂度都会明显上升。
这是典型的“烟囱式”架构。
而随着AI开始进入边缘场景的核心链路,这种“烟囱式”架构的局限性也逐渐显现出来。在一个场景中,高速产线、机器人控制、低时延人机界面、机器视觉检测,以及边缘AI推理,往往需要在同一时间运行。而一旦这些任务分散在多个计算节点之间,跨设备的数据传输就会直接侵蚀系统的实时性。
换句话说,当系统开始同时承担“感知—决策—控制”这一完整闭环时,分散式的计算架构本身就成为了瓶颈。
与此同时,负载本身也在发生变化。
其实,早期的边缘AI主要依赖CNN架构完成目标检测和分类,而现在的系统任务已经扩展到“vision to control & reasoning”(从视觉到控制与推理),AI开始从视觉感知延伸到控制与推理环节。
放在工业场景中,典型工作负载包括检测与缺陷识别、机器人对齐与料箱抓取(bin picking),以及生产过程优化;在Physical AI领域,则进一步延伸到目标检测、空间感知、运动控制、平衡控制、抓取操作、任务规划以及人机交互;医疗场景中,还包括组织分类、肿瘤检测、医学影像与临床报告的关联分析,以及基于大语言模型的报告生成和患者问答。
这些应用有一个共同特点:AI不再仅仅负责“识别”,而是进入了决策链路。
这意味着,边缘AI芯片不能再仅仅负责“看见”,还需要能够理解、推理、做出决策,并将推理结果回写到控制系统中。
也正是在这样的背景下,计算平台开始从“多节点拼接”走向“单平台整合”。
所以,AMD此次对P100系列的扩容,回应的正是这种变化。其要解决的是在一个可以长期部署的嵌入式平台上,同时整合视觉处理、控制逻辑、AI推理、显示输出以及系统级管理等多种能力。
02 单芯集成三大计算引擎 P100抢滩边缘计算高地
AMD对系统的整合,落在P100系列所采用的单片异构架构(Monolithic, Heterogeneous Architecture)上。
具体来说,在整体设计中,AMD将三类计算引擎直接整合在同一颗芯片内。Zen 5架构的CPU负责提供可扩展的x86通用计算能力,RDNA 3.5的iGPU承担图形处理与部分AI负载,XDNA 2 NPU则针对低功耗、低时延的AI推理进行优化。
具体来说,P100系列将CPU核心规模提升至最高12核24 线程,全面采用Zen 5微架构,并配备1MB L2 + 24MB L3缓存,以降低访问时延。同时,CPU 还通过向量扩展参与部分AI计算路径,这意味着在系统架构中,其不仅扮演调度角色,也可以承担一定的AI计算任务。
在性能层面,以P100系列中12核的P185为例,相比上一代锐龙嵌入式 8845HS (8 核),其在Cinebench 20.0.6.0多线程测试中的性能最高提升39%。这一提升意味着,P185已经可以适配更复杂的混合关键系统(例如在同一台设备中同时运行控制回路、应用服务以及历史软件栈等多类负载)。
统一微架构是其CPU的另一个重要特征。P100系列的CPU核心均采用统一的Zen架构,从而简化软件扩展能力,并为虚拟化与系统分区提供更稳定的运行基础。与依赖大小核结构来换取能效的方案不同,这种统一架构能够为确定性控制、应用服务,以及legacy software stack(软件栈)的并行运行提供更可预测的软件行为。这对于工业主机、控制系统,以及虚拟化边缘平台而言,这种一致性往往比单纯追求峰值性能更有意义。
在指令层面,其还支持AVX-512与VNNI。前者提供高强度SIMD向量计算能力,后者则针对部分AI负载进行优化。其作用在于,对不适合部署在NPU上的轻量AI推理任务、非标准算子处理,或者对时延要求极高的小规模AI任务,CPU的向量扩展仍然是工程师手中非常实用的计算资源。
如果说CPU体现的是平台基础算力的提升,那么iGPU的升级则代表着并行计算能力的明显增强。
其中,P185满血配置了8个WGP(即16个CU计算单元),GPU计算能力最高可提升至上一代的8倍。对于一款嵌入式x86 SoC而言,这已经不再只是“够用即可”的核显配置,而是明确面向高并行的视觉处理、显示输出,以及GPGPU计算场景。
在架构层面,P100系列集成的iGPU基于RDNA3.5架构。除了图形渲染外,其并行计算能力同样可以用于计算机视觉、图像处理等工作负载,为视觉类应用提供重要的并行算力支撑。
与此同时,该处理器还集成了独立的媒体与显示引擎,用于完成视频编解码、传感器数据处理以及显示输出等任务。例如AV1视频编解码、图像传感器数据流处理以及音频处理等工作负载,都可以在这些专用模块中完成。
在这样的架构分工下,GPU主要承担并行图形与计算任务,而媒体与显示引擎负责视频编解码与显示管线,从而在SoC内部形成完整的视频处理流程。来自相机或其他图像传感器的视频流,可以在芯片内部完成解码、处理与渲染,而无需依赖额外的独立媒体处理器。
在显示能力方面,P100系列最高支持4路4K120或2路8K120输出。放回实际应用场景来看,无论是工业人机界面、多屏监控系统、广播级视频合成、LED墙媒体服务器还是医疗影像显示,都需要同时处理多路高分辨率视频流,并保持稳定的渲染与显示延迟。
当系统同时驱动多路高分辨率画面时,图形处理单元便成为关键计算资源。而基于RDNA 3.5 architecture的GPU并行图形算力,配合高带宽显示管线,使P100系列能够在复杂视觉负载下保持稳定的图像处理与显示性能。
CPU与GPU承担了通用计算和并行处理,那么在P100系列中,真正为AI负载提供专用加速的核心,则是其集成的NPU单元。P100系列搭载了第二代XDNA2 NPU,其单NPU算力最高可达到50TOPS。
从整个平台来看,P100最高可提供80 System TOPS的AI算力。其中,CPU约贡献6 TOPS,GPU约24 TOPS,而NPU则提供50 AI TOPS。
这样的算力划分其实反映出其在AI应用下的异构计算模式。其实,AI任务并不是全部集中在NPU上运行,而是根据计算特性在CPU、GPU和NPU之间进行分配,由不同计算单元分别承担推理、前后处理以及并行计算等不同环节。
在这套分工中,NPU的定位是承担低功耗、低时延、可长期运行的AI推理任务。对于边缘侧设备而言,大量AI负载并不是短时间爆发的计算,而是需要持续运行的“常开型”任务,例如目标检测、环境感知、唤醒模型以及安全监控等。这类任务对功耗与响应时延极为敏感,因此更适合交由专用NPU执行。
03 统一封装、统一平台、统一扩展 P100 SKU全面铺开
P100系列体现产品策略的地方,其实落在SKU设计上。
AMD为锐龙 AI 嵌入式 P100系列规划了一条从4核到12核的完整产品梯度,覆盖入门控制节点到高负载视觉系统等不同等级的工业AI设备,这种分层式SKU设计直接面向实际系统部署需求。
从标准温度版本来看,P100系列的计算能力随着核心数量逐级扩展。
入门型号P121采用4核8线程Zen5 CPU,最高频率4.4GHz,配备8MB共享L3缓存,GPU为1个WGP,NPU算力30TOPS。
向上一步,P132升级为6核12线程,最高频率4.5GHz,L3缓存维持8MB,GPU增加至2个WGP,而NPU则提升至50TOPS。
再往上,便进入此次扩展的核心区间。P164提供8核16线程配置,最高频率达到5.0GHz,L3缓存提升至16MB,并配备6个WGP;P174进一步增加到10核20线程,最高频率同样为5.0GHz,L3缓存扩大至24MB,GPU仍为6个WGP;
旗舰型号P185拥有12核24线程,最高频率5.1GHz,24MB L3缓存,同时将GPU规模提升到8个WGP。
在AI能力方面,8核以上型号统一配备50TOPS NPU,而整个SoC平台的综合AI算力最高可达到80 System TOPS。显示子系统方面,“全家族”均支持4路4K120或2路8K120输出,为多屏工业系统提供统一的显示能力基础。
除了标准版本外,P100系列还提供面向工业和车规级扩展型号。工业版本包括P121i、P132i、P164i、P174i和P185i,其CPU核心数、GPU规模以及NPU算力与对应标准型号保持一致,主要区别在于更宽的工作温度范围。
车规级方面,P122a与P132a两款型号,分别对应4核和6核配置,最高频率统一为3.65GHz,同时LPDDR5X标注为7500MT/s并支持RAS特性,整列归入Automotive Grade产品线。
相比单一SKU性能提升,P100系列更强调的是整体系列的可扩展性。AMD明确提出“全系列产品可灵活扩展”的设计目标。4核到12核型号在平台层面保持相同封装、相同BIOS环境以及可配置TDP范围。这意味着OEM或ODM厂商可以基于同一块主板设计,通过更换不同OPN型号来覆盖不同性能档位。
对于B端设备厂商而言,这种统一平台带来的价值,在于系统开发、硬件验证和软件适配都可以在同一基础平台上完成,从而降低研发投入,并让产品线更容易从入门型工控节点扩展到高性能视觉计算主机。
在功耗方面,AMD为此次新增的8核至12核型号给出了较为明确的TDP范围。扩展型号支持15W到54W的可配置TDP区间,并采用25×40mm的BGA封装。这样的功耗与封装组合,使其能够适配从紧凑型嵌入式设备到中等规模工业主机的不同散热设计。
此外,P100系列也延续了AMD嵌入式产品线的关键特性——长期稳定运行能力。“官方资料显示,P100系列面向24/7连续运行场景设计,并提供最长10年的延展生命周期支持。这对于工业自动化、医疗设备以及边缘服务器等长期部署场景尤为重要。
在内存子系统方面,不同核心数量的型号也提供了不同等级的带宽支持。P121与P132等型号的LPDDR5X最高支持7500MT/s,而8核以上的P164、P174与P185及其工业温度版本则可提升至8533MT/s。在标准版与工业版本中,DDR5最高支持5600 MT/s 并提供 ECC;车规型号的LPDDR5X 支持7500 MT/s,并提供RAS 特性支持
在纠错机制上,AMD采用了不同类型的ECC策略:LPDDR5X侧使用link ECC,而DDR5则采用sideband ECC。这种组合为持续运行的AI推理与视觉处理任务提供了更高的数据可靠性。
I/O方面,P100系列最高支持16 lane PCIe Gen4,可连接高速NVMe、相机模块或其他协处理器设备。在标准版与工业版本中,提供2个USB4 接口,并支持USB 3.2、USB 3.1和USB 2.0的组合配置。
需要特别说明的是,10GbE Ethernet Cores with TSN并非覆盖全系列型号。这一能力仅出现在P121、P132及其衍生型号上,而P164、P174和P185对应位置为N/A,因此在系统设计中需要根据具体型号确认网络能力。
04 iGPU+NPU“携手”上阵 边缘异构计算进入“协同时代”