数字时代的计算今天 ,AI已经成为加速业务创新,平台提高企业生产效率的终端中落核心技术。随着硬件和软件技术的设备使用飞速发展,AI正在从数据中心/云端走向以手机 、地为带更PC等设备为主的用户终端,在为用户带来更好使用体验的体验同时,也对终端设备的计算芯片性能提出了更高的要求。
在近期举行的平台Arm技术媒体分享日活动中 ,云计算Arm终端事业部智能手机市场高级总监Steve Raphael率先分享了对于终端设备上运行AI的终端中落一些看法。他表示 ,设备使用移动设备驱动创新,地为带更从生产力到娱乐应用等方方面面都在实现AI集成,用户新的体验用例和产品正在推动着人与人之间跨越语言障碍进行互动,这也预示着未来的计算发展方向。

Arm终端事业部智能手机市场高级总监Steve Raphael
Steve Raphael强调 ,AI再次重新定义了智能手机 、笔记本电脑、可穿戴设备和数字电视等终端设备的“智能性”。Arm为最大的计算生态系统提供了普适应用 ,建站模板且为开发者提供了友好的指令集 。因此,Arm是实现下一代计算性能需求的基石 。
本次活动中 ,Arm详细为我们介绍了Arm终端计算子系统 (CSS)、CPU 、GPU、软件产品的最新技术 ,并与参会媒体进行了深入的技术交流 。
面向消费电子设备的全新计算子系统:Arm 终端 CSSAI尤其是服务器租用生成式AI正在为消费者带来全新的设备使用体验 ,同时也推动了芯片的发展 。为此,Arm全新推出了面向消费电子设备的全新计算子系统 ,即Arm 终端CSS。作为 AI 体验的计算基础,它能在最广泛类别的消费电子设备中,实现性能 、效率和可扩展性的跨越式提升 。
Arm 终端 CSS 囊括最新的源码库 Armv9.2 Cortex CPU 集群和 Arm Immortalis 与 Arm Mali GPU 、CoreLink 互连系统 IP,以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现 。该平台为Arm的合作伙伴提供了生产芯片的最快途径 。通过物理实现 ,Arm 的合作伙伴能够利用前沿三纳米工艺的各种优势,同时实现高度灵活、可定制的芯片设计。

Arm终端事业部产品管理总监Steve Hopper
据Arm终端事业部产品管理总监Steve Hopper介绍,Arm终端 CSS 聚焦于实现平台能力的免费模板重大飞跃,以继续突破高端移动体验的极限。在这一代产品中,Arm优先考虑四个关键领域 :一是突破性能边界以处理要求苛刻的安卓实际工作负载;二是针对生成式 AI 以及更广泛的 AI/ML和计算机视觉工作负载提高性能;三是持续专注于实现两位数的系统能效提升;四是扩展平台以获得更高的性能点,满足新一代AI PC设备的需求(包括笔记本电脑和平板电脑)。
Arm终端CSS将物理实现与Armv9的香港云服务器AI优势结合在一起 。Arm在2021年推出了专为性能和AI而设计的Armv9架构,并在过去几年中提高了在矢量加速 、机器学习(ML)等领域的计算能力;增强系统的安全性和稳健性;更重要的是 ,增加了面向AI的功能 。
通过现场展示的一组数据显示,在游戏峰值图形性能方面 ,与 2023 Arm全面计算解决方案 (TCS23) 相比 ,终端 CSS 为包括光线追踪在内的各种游戏内容平均实现了30%的性能提升。与去年基于FPGA的安卓旗舰配置相比,2+4+2的CPU集群配置将应用启动提速了约33% 。通过集群升级,包括额外的 Cortex-X 核心,并将 L3 缓存增加到 16MB ,性能提升了约 10%。根据 Speedometer 2.1基准测试的测量结果 ,得益于新的CPU集群和更新后的软件 ,Speedometer测量得分大幅提高了60%,为用户提供了更加出色的浏览体验 。

Arm终端CSS还为CPU和GPU上的AI推理工作负载带来了显著的性能飞跃 。Steve Hopper还展示了大语言模型 (LLM) 如何在移动设备上的Arm CPU进行本地运行。借助终端CSS,LLM将得以在Arm CPU上更好地运行,带来更快的响应速度 。当运行Llama 3 LLM和Phi-3 LLM时,该平台可将词元 (Token)首次响应时间分别缩短42%以及46%。

除此之外 ,Arm终端CSS在AI网络性能、AI计算摄影和AI摄像头、能耗等方面均有巨大的提升 。
Steve Hopper表示 ,Arm终端 CSS 是 Arm 最快的安卓平台 ,持续突破移动设备的边界。Arm设计了从IP到软件的整个平台,以提供出色能效,从而实现更加持久 、更加丰富的移动体验 ,持续为高端移动设备解锁AI性能,并推动AI在更低价位的设备中的应用。
Armv9.2 CPU:加速在移动设备上运行AI的计算集群作为终端设备的核心大脑 ,CPU的性能至关重要 。为了加速在移动设备上运行AI应用 ,并为用户带来更好的体验 ,Armv9.2 CPU计算集群应运而生。
第二代Armv9.2 CPU集群包括具备超强性能的Arm Cortex-X925 CPU 和可持续提供出色性能的Arm Cortex-A725 CPU。此外,还包括 更新后的Arm Cortex-A520 CPU,它能够为低强度工作负载提供更卓越的能效表现 。与此同时,Arm还更新了 DynamIQ Shared Unit (DSU-120),从而在 Armv9.2 CPU 集群配置中,降低功耗和缩小面积 。以上产品均被集成在Arm终端CSS中。Arm终端CSS所带来的Armv9.2的能效优势,凭借物理实现和持续的软件优化 ,将彻底革新开发者和消费者的体验。
作为目前Arm最强的CPU产品,Cortex-X925 利用了领先的三纳米工艺节点,在 3.8GHz 的时钟速率和最大缓存大小的条件下,与 2023 年旗舰智能手机的四纳米 SoC 相比 ,其单线程性能大幅提高 36%。而在 AI 性能方面 ,Cortex-X925 取得了 46% 性能提升,可显著提高如大语言模型 (LLM) 等设备端生成式 AI 的响应能力。

Cortex-A725同样采用了三纳米工艺 ,与 Cortex-A720 相比,Cortex-A725 的性能效率提升了 35%,能效提升了 25%。 除此之外,作为Arm最新的高效CPU,Arm Cortex-A725还实现了性能与效率的最佳平衡。

除此之外,Cortex-A520 和DSU-120 也通过Arm终端CSS进行了全面的更新 。数据显示,与 TCS23中的 Cortex-A520 相比,得益于更新的实现与先进的三纳米物理实现 ,新一代Cortex-A520能效提升了15% 。DSU-120保留了为高性能用例扩展到14个核心的选项 ,其典型工作负载的功耗显著降低50% ,并且整个 CPU 集群的缓存未命中功耗降低60%,从而减少漏电并延长设备的电池寿命。

Arm终端事业部高级产品经理Manish Pandey
Arm终端事业部高级产品经理Manish Pandey表示,Arm 的目标之一是为 Arm技术所触及的每个细分市场提供可行且出色的解决方案,并且确保Arm为此类市场和解决方案做好迎接 AI 的准备。Arm专注于大幅提升AI性能 ,具备全面的产品组合解决方案,并且为即将到来的新一波应用提供面向未来的解决方案,进而助力解决实际应用的复杂性和多维度问题,不断提升用户体验。
Immortalis-G925 :为AI和机器学习提供更强性能除了Armv9.2 CPU集群之外,在Arm终端CSS中还包括Immortalis-G925 GPU产品。新一代的GPU除了全面提升了游戏性能之外,在AI工作负载方面也有了较大的提升。
安谋科技 (Arm China) 市场总监王刚表示,与前几代产品一样 ,Arm不断提升 AI 工作负载在 GPU 上的性能和效率。作为Arm终端CSS的重要组件,Immortalis-G925在多个 AI 和机器学习 (ML) 网络上提升了 34% 的性能。

安谋科技 (Arm China) 市场总监王刚
虽然大多数AI处理工作能够在CPU上进行 ,但GPU为各种AI用例提供加速功能,包括图像分类 、图像分割 、对象检测、自然语言处理和语音转文本等 。
数据显示,与TCS23中的Immortalis-G720相比 ,Immortalis-G925作为Arm终端CSS的一部分,在关键用例中提供一系列AI性能改进 。在图像处理方面(包括分割和分类) ,Immortalis-G925可实现 41% 的性能提升 。同时 ,在超级采样任务中 ,开发者可以使用神经网络放大图像 ,其性能可提高近30%,而在自然语言处理和语音转文本,性能可提高50%,同样十分惊艳 。

据王刚介绍 ,Immoratlis-G925同样采用了三纳米的工艺,Arm正在携手领先的代工厂合作伙伴能够在三纳米工艺上充分发挥功耗、性能和面积 (PPA) 优势 ,同时通过生产就绪的芯片解决方案来缩短芯片的开发与部署时间。
Kleidi(意为“钥匙”) :专为开发者量身定制的软件库在Arm终端CSS之外,Arm还从开发者的角度出发 ,推出了面向开发者的软件库:Arm Kleidi。
“Kleidi” ,在希腊语中代表“钥匙”。 Kleidi 软件库包含面向AI工作负载的KleidiAI和面向运行于Arm CPU上出色的计算机视觉工作负载的KleidiCV。该软件库可以被直接嵌入到热门的AI框架中 ,开发者无需进行任何操作 ,就能够轻松地启用Arm CPU的 AI功能 ,从而快速构建AI应用,并在尽可能广泛的设备上实现最出色性能。

安谋科技 (Arm China) 开发者生态高级经理李陈鲁
据安谋科技 (Arm China) 开发者生态高级经理李陈鲁介绍 ,KleidiAI 是一套面向 AI 框架开发者的计算内核 ,使他们能够在各种设备上轻松获得 Arm CPU 上的最佳性能 ,并支持 Neon 、SVE2 和 SME2 等关键 Arm 架构功能。KleidiAI 与 PyTorch 、Tensorflow、MediaPipe 等热门 AI 框架集成 ,旨在加速 Meta Llama 3、Phi-3 等关键模型的性能,并且还可前后兼容 ,以确保 Arm 在引入更多技术时依然能适用未来市场的需求。
另据了解 ,Arm还与OpenCV.ai合作,力求让安卓开发者可以更轻松地将 OpenCV纳入到他们的项目中,并从KleidiCV带来的改进中受益 。
写在最后:从数据中心/云走向终端 ,AI将变得无处不在,带给消费者全新的体验。基于AI应用对算力提出的新需求 ,Arm发布了全新Arm 终端计算子系统 (CSS) ,其中包含的全新CPU、GPU与上一代产品相比均有了较大的性能提升 ,也具备了更好的能耗比。除此之外 ,Arm还面向开发者推出了Kleidi软件库 。不难发现 ,Arm始终站在行业和技术前沿,以丰富的产品组合赋能AI落地,让AI更好地服务广大用户。期待搭载Arm终端CSS的手机产品尽快推出,为端侧AI体验提上新水平 。










