Arm推出新一代 Arm® Neoverse™ 技术:以更高性能和更低功耗赋能企业AI应用落地

数字时代,AI 已经成为企业创新和发展的关键动力。随着云计算、5G、物联网技术的飞速发展,在小型终端和中大型数据中心、云中构建AI应用已经成为用户共识,但同样也带来了算力的挑战。近期,Arm 宣布推出新一代 Arm® Neoverse™ 技术,其中包括通过性能效率更优异的 N 系列新 IP 扩展 Arm Neoverse 计算子系统 (CSS) 产品路线图,推出Neoverse CSS N3;以及首次将计算子系统引入性能优先的 V 系列产品线,推出新的 Neoverse CSS V3。

近日,Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 在接受记者采访时表示,AI有着非常庞大的计算需求,传统的通用 CPU 已经无法满足AI的算力要求。Arm 看到很多的大型云服务提供商正在设计自己的芯片,加速构建与 AI 加速器紧密耦合的定制通用计算产品,并且这些芯片都需要能够运行市场上已有的软件。与此同时,业界众多的技术先行者选择了Arm Neoverse 平台作为其实现全球 AI 愿景的基石。这不仅印证了 Arm 的技术领先地位,以及Arm赋能合作伙伴创新的自由度,同时也彰显了Arm生态系统的强劲实力。

全新技术助力企业研发新一代高性能产品

Arm推出的新一代 Arm® Neoverse™ 技术旨在帮助用户打造更高性能、更低功耗的新一代芯片产品。据Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll介绍,与上一代 Neoverse CSS N2相比,Neoverse CSS N3 的每瓦性能可提高 20%。新的 Neoverse CSS V3 基于全新的 Neoverse V3 IP 打造,与此前的 Neoverse CSS 产品相比,其单芯片性能可提高 50%。

Dermot O’Driscoll表示,CSS N3 的首个实例能够提供 32 核,热设计功耗 (TDP) 低至 40W。CSS N3基于Neoverse N3 IP 平台打造,为新的 N 系列产品引入了 Armv9.2 功能,能够为每个核心提供 2MB 的专用 L2 缓存,并支持最新的 PCIe 和 CXL I/O 标准以及 UCIe 芯粒标准。因此,CSS N3拥有非常强的可扩展性,能够覆盖电信、网络和 DPU 等一系列应用。

据介绍,基于新一代 Arm® Neoverse™ 技术推出的新 CPU 核心性能得到了全方面的提升,从视频处理到 SQL 数据库,性能均有所跃进。具体来看,N 系列在压缩方面取得了性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本。V 系列显著提高了协议缓冲区的性能,为数据中心内传输数据提供了更加强大的关键功能。

Arm推出新一代 Arm® Neoverse™ 技术:以更高性能和更低功耗赋能企业AI应用落地插图1

Dermot O’Driscoll 告诉我们,通过分析合作伙伴的关键工作负载核心的特定关键任务算法,Arm 能够明确并实施对提升性能最有效的微架构调整方法。在AI 数据分析工作负载用例中,通过改进分支预测,更好地管理最后一级缓存和相关内存带宽,以及大幅增加 L2 缓存。结果显示,N3 的性能提升高达 196%。

在火热的生成式AI方面,随着其广泛应用于业务场景,工作重点将转向推理。Dermot O’Driscoll认为,由于 CPU 易于部署,并可支持各种软件框架,因此可灵活用于 ML 或其他工作负载,具备低成本和高能效等优势。因此,CPU 推理将是生成式 AI 计算应用的关键组成。Arm 发现,这些工作负载已从 ML 专用的 Neoverse 功能(如 Bfloat16、MatMul、SVE 和 SVE2),以及Arm的微架构优化中受益,而且这一趋势还将继续。

Arm推出新一代 Arm® Neoverse™ 技术:以更高性能和更低功耗赋能企业AI应用落地插图3

Dermot O’Driscoll强调,并非所有 AI 处理都将在 CPU 上进行,Neoverse CSS 是专为帮助客户在基于 Arm 领先的CPU 平台上快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口,以便选择耦合自身的加速器。这种方法既可以在需要 CPU 时提供 CPU,又可以在需要 AI 加速器时提供 AI 加速器,做到了两全其美。

当前,芯粒已成为管理良率的常用机制,能让企业在单个芯片上利用到多种工艺节点。企业们也在努力寻找巧妙的方法来复用芯粒,尤其是当他们将不同团队的设计组合在一起时,还是面临一些挑战,包括存在协议层的多种标准,怎样在设计时对芯粒进行逻辑分区?如何设置直接内存访问 (DMA) 和中断、电源和安全等管理功能?要建立可互操作的生态系统,就需要在生态系统层面一致地解决这些问题。据介绍,Arm近期发布了芯片系统架构 (Chiplet System Architecture, CSA),目的是与生态伙伴协力推动整个 Arm 生态系统释放芯片技术的潜力,目前已有20 多家合作伙伴加入。简单的理解就是,CSS 可以让打造计算芯粒变得更为轻松,而CSA 可以简化计算芯粒与 AI 加速器并行的联合设计。

Dermot O’Driscoll表示,凭借新的 CSS N3 和 CSS V3,Arm 将更加专注于释放芯粒等新技术的潜力,并更大限度地优化实际工作负载的 TCO,这对于包括 AI、数据库、网络等在内的整个生态系统至关重要。

紧密协作推动Arm 计算子系统创新设计

为了将创新技术推向千行百业,Arm 还紧密携手业界合作伙伴,共同围绕 Arm 计算子系统开展创新设计。

Arm 基础设施事业部营销副总裁 Eddie Ramirez告诉我们,Arm 借由Arm全面设计生态项目将广泛的半导体产业汇聚一起,包括半导体领域的各路领先企业,囊括了芯片设计合作伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等,共同加快并简化基于 Neoverse CSS 的系统开发。他表示,Arm 为芯片设计开发了专业技术中心,以此来加速产品上市时间,并降低相关方打造定制芯片的成本和难度。这将使得 Arm合作伙伴更有针对性地投入资源,提高基于 Neoverse 平台解决方案的可触及性。

据介绍,仅仅是在推出后短短四个月内,Arm 全面设计已经有 20 多家成员加入,其中包括新的 EDA 和配套 IP 提供商,以及来自包括韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴,这些市场存在巨大的发展潜力。除此之外,Arm 正在与三家主要代工厂合作,以确保CSS 产品能在其先进工艺节点上进行优化。

“定制芯片离不开可靠供应链的支持,唯有 Arm 可提供多样的技术和选择。” Eddie Ramirez强调,Arm 全面设计的合作伙伴正在努力将基于 Neoverse CSS 的设计推向市场。去年十月,Socionext 成为首家宣布计划采用台积公司领先的 2 纳米工艺上开发基于 CSS 芯粒的合作伙伴。这款配置 32 核的芯粒可与其他芯粒结合使用,提供可扩展且经济高效的计算解决方案。该设计将基于新推出的Neoverse CSS V3 来打造。

智原科技也在构建基于芯粒的服务器芯片,该芯片将搭载 64 颗 N 系列核心,并基于英特尔代工服务的 18A 工艺节点进行生产制造。此外,ADTechnology 将提供高性价比的16 核 CSS N 系列边缘服务器平台,并将与三星代工厂合作,为边缘计算释放更强大的算力。

采访最后,谈到过去几年Arm 为何能在基础设施领域收获累累硕果,Mohamed Awad表示,一是卓越性能,Arm 工程团队坚持不懈地实现迭代提升;二是灵活性,Arm 赋能技术合作伙伴定制芯片,以支持其专用的工作负载和系统,而非采用一体适用的方案;三是生态系统,在软件、 IP 和芯片生态系统中,Arm 提供出色性能和灵活性,从而降低配置的总成本并加速产品上市。

“我们独特的定位,皆因结合这些优势,帮助合作伙伴随时随地以任何方式进行部署。Arm Neoverse CSS 将这些优势演绎得淋漓尽致。” Mohamed Awad如是说。

本文来源于互联网,如若侵权,请联系管理员删除,本文链接:https://www.9969.net/26178.html

沫沫沫沫
上一篇 2024年7月23日 02:22
下一篇 2024年7月23日 02:22

相关推荐