Arm推出新一代 Arm® Neoverse™ 技术：以更高性能和更低功耗赋能企业AI应用落地

数字时代，AI 已经成为企业创新和发展的关键动力。随着云计算、5G、物联网技术的飞速发展，在小型终端和中大型数据中心、云中构建AI应用已经成为用户共识，但同样也带来了算力的挑战。近期，Arm 宣布推出新一代 Arm^® Neoverse™ 技术,其中包括通过性能效率更优异的 N 系列新 IP 扩展 Arm Neoverse 计算子系统 (CSS) 产品路线图，推出Neoverse CSS N3；以及首次将计算子系统引入性能优先的 V 系列产品线，推出新的 Neoverse CSS V3。

近日，Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 在接受记者采访时表示，AI有着非常庞大的计算需求，传统的通用 CPU 已经无法满足AI的算力要求。Arm 看到很多的大型云服务提供商正在设计自己的芯片，加速构建与 AI 加速器紧密耦合的定制通用计算产品，并且这些芯片都需要能够运行市场上已有的软件。与此同时，业界众多的技术先行者选择了Arm Neoverse 平台作为其实现全球 AI 愿景的基石。这不仅印证了 Arm 的技术领先地位，以及Arm赋能合作伙伴创新的自由度，同时也彰显了Arm生态系统的强劲实力。

全新技术助力企业研发新一代高性能产品

Arm推出的新一代 Arm^® Neoverse™ 技术旨在帮助用户打造更高性能、更低功耗的新一代芯片产品。据Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll介绍，与上一代 Neoverse CSS N2相比，Neoverse CSS N3 的每瓦性能可提高 20%。新的 Neoverse CSS V3 基于全新的 Neoverse V3 IP 打造，与此前的 Neoverse CSS 产品相比，其单芯片性能可提高 50%。

Dermot O’Driscoll表示，CSS N3 的首个实例能够提供 32 核，热设计功耗 (TDP) 低至 40W。CSS N3基于Neoverse N3 IP 平台打造，为新的 N 系列产品引入了 Armv9.2 功能，能够为每个核心提供 2MB 的专用 L2 缓存，并支持最新的 PCIe 和 CXL I/O 标准以及 UCIe 芯粒标准。因此，CSS N3拥有非常强的可扩展性，能够覆盖电信、网络和 DPU 等一系列应用。

据介绍，基于新一代 Arm^® Neoverse™ 技术推出的新 CPU 核心性能得到了全方面的提升，从视频处理到 SQL 数据库，性能均有所跃进。具体来看，N 系列在压缩方面取得了性能优势，可降低云服务运营商的成本，并最终降低云服务客户的成本。V 系列显著提高了协议缓冲区的性能，为数据中心内传输数据提供了更加强大的关键功能。

Arm推出新一代 Arm® Neoverse™ 技术：以更高性能和更低功耗赋能企业AI应用落地插图1

Dermot O’Driscoll 告诉我们，通过分析合作伙伴的关键工作负载核心的特定关键任务算法，Arm 能够明确并实施对提升性能最有效的微架构调整方法。在AI 数据分析工作负载用例中，通过改进分支预测，更好地管理最后一级缓存和相关内存带宽，以及大幅增加 L2 缓存。结果显示，N3 的性能提升高达 196%。

在火热的生成式AI方面，随着其广泛应用于业务场景，工作重点将转向推理。Dermot O’Driscoll认为，由于 CPU 易于部署，并可支持各种软件框架，因此可灵活用于 ML 或其他工作负载，具备低成本和高能效等优势。因此，CPU 推理将是生成式 AI 计算应用的关键组成。Arm 发现，这些工作负载已从 ML 专用的 Neoverse 功能（如 Bfloat16、MatMul、SVE 和 SVE2），以及Arm的微架构优化中受益，而且这一趋势还将继续。

Arm推出新一代 Arm® Neoverse™ 技术：以更高性能和更低功耗赋能企业AI应用落地插图3

Dermot O’Driscoll强调，并非所有 AI 处理都将在 CPU 上进行，Neoverse CSS 是专为帮助客户在基于 Arm 领先的CPU 平台上快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口，以便选择耦合自身的加速器。这种方法既可以在需要 CPU 时提供 CPU，又可以在需要 AI 加速器时提供 AI 加速器，做到了两全其美。

当前，芯粒已成为管理良率的常用机制，能让企业在单个芯片上利用到多种工艺节点。企业们也在努力寻找巧妙的方法来复用芯粒，尤其是当他们将不同团队的设计组合在一起时，还是面临一些挑战，包括存在协议层的多种标准，怎样在设计时对芯粒进行逻辑分区？如何设置直接内存访问 (DMA) 和中断、电源和安全等管理功能？要建立可互操作的生态系统，就需要在生态系统层面一致地解决这些问题。据介绍，Arm近期发布了芯片系统架构 (Chiplet System Architecture, CSA)，目的是与生态伙伴协力推动整个 Arm 生态系统释放芯片技术的潜力，目前已有20 多家合作伙伴加入。简单的理解就是，CSS 可以让打造计算芯粒变得更为轻松，而CSA 可以简化计算芯粒与 AI 加速器并行的联合设计。

Dermot O’Driscoll表示，凭借新的 CSS N3 和 CSS V3，Arm 将更加专注于释放芯粒等新技术的潜力，并更大限度地优化实际工作负载的 TCO，这对于包括 AI、数据库、网络等在内的整个生态系统至关重要。

紧密协作推动Arm 计算子系统创新设计

为了将创新技术推向千行百业，Arm 还紧密携手业界合作伙伴，共同围绕 Arm 计算子系统开展创新设计。

Arm 基础设施事业部营销副总裁 Eddie Ramirez告诉我们，Arm 借由Arm全面设计生态项目将广泛的半导体产业汇聚一起，包括半导体领域的各路领先企业，囊括了芯片设计合作伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等，共同加快并简化基于 Neoverse CSS 的系统开发。他表示，Arm 为芯片设计开发了专业技术中心，以此来加速产品上市时间，并降低相关方打造定制芯片的成本和难度。这将使得 Arm合作伙伴更有针对性地投入资源，提高基于 Neoverse 平台解决方案的可触及性。

据介绍，仅仅是在推出后短短四个月内，Arm 全面设计已经有 20 多家成员加入，其中包括新的 EDA 和配套 IP 提供商，以及来自包括韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴，这些市场存在巨大的发展潜力。除此之外，Arm 正在与三家主要代工厂合作，以确保CSS 产品能在其先进工艺节点上进行优化。

“定制芯片离不开可靠供应链的支持，唯有 Arm 可提供多样的技术和选择。” Eddie Ramirez强调，Arm 全面设计的合作伙伴正在努力将基于 Neoverse CSS 的设计推向市场。去年十月，Socionext 成为首家宣布计划采用台积公司领先的 2 纳米工艺上开发基于 CSS 芯粒的合作伙伴。这款配置 32 核的芯粒可与其他芯粒结合使用，提供可扩展且经济高效的计算解决方案。该设计将基于新推出的Neoverse CSS V3 来打造。

智原科技也在构建基于芯粒的服务器芯片，该芯片将搭载 64 颗 N 系列核心，并基于英特尔代工服务的 18A 工艺节点进行生产制造。此外，ADTechnology 将提供高性价比的16 核 CSS N 系列边缘服务器平台，并将与三星代工厂合作，为边缘计算释放更强大的算力。

采访最后，谈到过去几年Arm 为何能在基础设施领域收获累累硕果，Mohamed Awad表示，一是卓越性能，Arm 工程团队坚持不懈地实现迭代提升；二是灵活性，Arm 赋能技术合作伙伴定制芯片，以支持其专用的工作负载和系统，而非采用一体适用的方案；三是生态系统，在软件、 IP 和芯片生态系统中，Arm 提供出色性能和灵活性，从而降低配置的总成本并加速产品上市。

“我们独特的定位，皆因结合这些优势，帮助合作伙伴随时随地以任何方式进行部署。Arm Neoverse CSS 将这些优势演绎得淋漓尽致。” Mohamed Awad如是说。

Arm推出新一代 Arm® Neoverse™ 技术：以更高性能和更低功耗赋能企业AI应用落地

相关推荐

服务器CPU价格之谜，为何初代产品总是昂贵？

Dell服务器CPU1颗究竟指的是什么？

为什么在服务器上打游戏的性能不如单机CPU？