数字时代,®Neoverse™AI已经成为企业创新和发展的出新关键动力。随着云计算 、代A低功地5G 、技术物联网技术的更高飞速发展,在小型终端和中大型数据中心 、和更耗赋云中构建AI应用已经成为用户共识,业AI应用落但同样也带来了算力的®Neoverse™挑战。近期 ,出新Arm 宣布推出新一代 Arm® Neoverse™ 技术,代A低功地其中包括通过性能效率更优异的 N 系列新 IP 扩展 Arm Neoverse 计算子系统 (CSS) 产品路线图,推出Neoverse CSS N3;以及首次将计算子系统引入性能优先的技术 V 系列产品线 ,推出新的模板下载更高 Neoverse CSS V3。
近日,和更耗赋Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 在接受记者采访时表示,业AI应用落AI有着非常庞大的®Neoverse™计算需求,传统的通用 CPU已经无法满足AI的算力要求。Arm 看到很多的大型云服务提供商正在设计自己的芯片,加速构建与 AI 加速器紧密耦合的定制通用计算产品,并且这些芯片都需要能够运行市场上已有的软件。与此同时 ,云计算业界众多的技术先行者选择了Arm Neoverse 平台作为其实现全球 AI 愿景的基石。这不仅印证了 Arm 的技术领先地位 ,以及Arm赋能合作伙伴创新的自由度,同时也彰显了Arm生态系统的强劲实力。
全新技术助力企业研发新一代高性能产品
Arm推出的新一代 Arm® Neoverse™ 技术旨在帮助用户打造更高性能、更低功耗的新一代芯片产品。据Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll介绍,与上一代 Neoverse CSS N2相比 ,Neoverse CSS N3 的高防服务器每瓦性能可提高 20%。新的 Neoverse CSS V3 基于全新的 Neoverse V3 IP 打造,与此前的 Neoverse CSS 产品相比 ,其单芯片性能可提高 50% 。
Dermot O’Driscoll表示 ,CSS N3 的首个实例能够提供 32 核 ,热设计功耗 (TDP) 低至 40W。CSS N3基于Neoverse N3 IP 平台打造 ,为新的 N 系列产品引入了 Armv9.2 功能,能够为每个核心提供 2MB 的专用 L2 缓存 ,亿华云并支持最新的 PCIe 和 CXL I/O 标准以及 UCIe 芯粒标准 。因此,CSS N3拥有非常强的可扩展性,能够覆盖电信 、网络和 DPU 等一系列应用。
据介绍,基于新一代 Arm® Neoverse™ 技术推出的新 CPU 核心性能得到了全方面的提升,从视频处理到 SQL 数据库 ,性能均有所跃进。具体来看,N 系列在压缩方面取得了性能优势,可降低云服务运营商的服务器租用成本,并最终降低云服务客户的成本 。V 系列显著提高了协议缓冲区的性能,为数据中心内传输数据提供了更加强大的关键功能。

Dermot O’Driscoll 告诉我们 ,通过分析合作伙伴的关键工作负载核心的特定关键任务算法 ,Arm能够明确并实施对提升性能最有效的微架构调整方法。在AI 数据分析工作负载用例中,通过改进分支预测 ,更好地管理最后一级缓存和相关内存带宽,源码下载以及大幅增加 L2 缓存。结果显示,N3 的性能提升高达 196%。
在火热的生成式AI方面 ,随着其广泛应用于业务场景 ,工作重点将转向推理 。Dermot O’Driscoll认为 ,由于 CPU 易于部署 ,并可支持各种软件框架,因此可灵活用于 ML 或其他工作负载 ,具备低成本和高能效等优势 。因此 ,CPU 推理将是生成式 AI 计算应用的关键组成。Arm 发现,这些工作负载已从 ML 专用的 Neoverse 功能(如 Bfloat16 、MatMul、SVE 和 SVE2) ,以及Arm的微架构优化中受益 ,而且这一趋势还将继续。

Dermot O’Driscoll强调,并非所有 AI 处理都将在 CPU 上进行,Neoverse CSS 是专为帮助客户在基于 Arm 领先的CPU 平台上快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口,以便选择耦合自身的加速器。这种方法既可以在需要 CPU 时提供 CPU,又可以在需要 AI 加速器时提供 AI 加速器,做到了两全其美。
当前 ,芯粒已成为管理良率的常用机制 ,能让企业在单个芯片上利用到多种工艺节点 。企业们也在努力寻找巧妙的方法来复用芯粒 ,尤其是当他们将不同团队的设计组合在一起时 ,还是面临一些挑战,包括存在协议层的多种标准,怎样在设计时对芯粒进行逻辑分区?如何设置直接内存访问 (DMA) 和中断 、电源和安全等管理功能?要建立可互操作的生态系统 ,就需要在生态系统层面一致地解决这些问题。据介绍,Arm近期发布了芯片系统架构 (Chiplet System Architecture, CSA),目的是与生态伙伴协力推动整个 Arm 生态系统释放芯片技术的潜力,目前已有20 多家合作伙伴加入。简单的理解就是,CSS 可以让打造计算芯粒变得更为轻松,而CSA 可以简化计算芯粒与 AI 加速器并行的联合设计。
Dermot O’Driscoll表示,凭借新的 CSS N3 和 CSS V3 ,Arm将更加专注于释放芯粒等新技术的潜力,并更大限度地优化实际工作负载的 TCO,这对于包括 AI、数据库 、网络等在内的整个生态系统至关重要。
紧密协作推动Arm 计算子系统创新设计
为了将创新技术推向千行百业 ,Arm 还紧密携手业界合作伙伴 ,共同围绕 Arm 计算子系统开展创新设计。
Arm 基础设施事业部营销副总裁 Eddie Ramirez告诉我们,Arm借由Arm全面设计生态项目将广泛的半导体产业汇聚一起,包括半导体领域的各路领先企业,囊括了芯片设计合作伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等 ,共同加快并简化基于 Neoverse CSS 的系统开发。他表示,Arm 为芯片设计开发了专业技术中心,以此来加速产品上市时间,并降低相关方打造定制芯片的成本和难度 。这将使得Arm合作伙伴更有针对性地投入资源 ,提高基于 Neoverse 平台解决方案的可触及性 。
据介绍,仅仅是在推出后短短四个月内 ,Arm 全面设计已经有 20 多家成员加入 ,其中包括新的 EDA 和配套 IP 提供商 ,以及来自包括韩国、中国台湾 、中国大陆和印度等战略市场的芯片设计合作伙伴,这些市场存在巨大的发展潜力。除此之外,Arm 正在与三家主要代工厂合作,以确保CSS 产品能在其先进工艺节点上进行优化。
“定制芯片离不开可靠供应链的支持,唯有 Arm 可提供多样的技术和选择。” Eddie Ramirez强调 ,Arm 全面设计的合作伙伴正在努力将基于 Neoverse CSS 的设计推向市场。去年十月,Socionext 成为首家宣布计划采用台积公司领先的 2 纳米工艺上开发基于 CSS 芯粒的合作伙伴。这款配置 32 核的芯粒可与其他芯粒结合使用,提供可扩展且经济高效的计算解决方案 。该设计将基于新推出的Neoverse CSS V3 来打造 。
智原科技也在构建基于芯粒的服务器芯片 ,该芯片将搭载 64 颗 N 系列核心,并基于英特尔代工服务的 18A 工艺节点进行生产制造。此外,ADTechnology 将提供高性价比的16 核 CSS N 系列边缘服务器平台,并将与三星代工厂合作,为边缘计算释放更强大的算力。
采访最后,谈到过去几年Arm 为何能在基础设施领域收获累累硕果 ,Mohamed Awad表示,一是卓越性能,Arm 工程团队坚持不懈地实现迭代提升;二是灵活性,Arm 赋能技术合作伙伴定制芯片,以支持其专用的工作负载和系统 ,而非采用一体适用的方案;三是生态系统,在软件、 IP 和芯片生态系统中,Arm 提供出色性能和灵活性 ,从而降低配置的总成本并加速产品上市 。
“我们独特的定位,皆因结合这些优势 ,帮助合作伙伴随时随地以任何方式进行部署。Arm Neoverse CSS 将这些优势演绎得淋漓尽致。” Mohamed Awad如是说 。










