从幕后到台前，HBM为何成为生成式AI时代的“新宠儿”

人工智能进入生成式AI时代，各种大模型应用层出不穷，对算力提出了更高的要求，推动着AI服务器与高端GPU产品需求的不断上涨。与此同时，拥有更高性能的HBM存储产品也进入了人们的视野，市场规模不断增长。

HBM，即高带宽内存（High
Bandwidth Memory），是一款新型的内存芯片，通过使用先进的封装方法（如 TSV 硅通孔技术）垂直堆叠多个DRAM，并与GPU/CPU封装在一起，用以提供更大的存储容量和带宽，满足数据快速读写的需求。简单来看，HBM更像是高层楼房设计，而传统的内存则更像是平房设计。当然，由于结构不同，HBM的生产制造工艺更难。

生成式AI对存储提出了更高的要求

随着AI技术的发展，GPU的功能越来越强，需要更加快速地从内存中访问数据，以此来缩短应用处理的时间。

众所周知，大语言模型（LLM）需要重复访问数十亿甚至数万亿个参数，如此庞大且频繁的数据处理，往往需要数小时甚至数天的时间，这显然无法满足要求。于是，如何提高存储的读写性能成为存储重点突破的技术方向。

具体来看，AI尤其是生成式AI对存储提出了以下要求：

一是更高的内存带宽：大语言模型（LLM）动辄数十亿甚至万亿个参数的读取，对内存带宽提出了更高的要求。

二是高速数据处理能力：AI需要快速处理和分析庞大数据集，这就要求存储系统必须具备高效的数据读写能力。

三是大容量存储系统：不断增长的海量数据，要求存储系统需要更大的空间来容纳训练数据、模型参数及推理结果。

四是高响应低延迟：实时AI应用对存储系统的响应速度要求极高，低延迟的存储解决方案能显著提高处理速度和应用响应时间。

五是可扩展性：存储系统必须能够随着AI应用的扩展而灵活增长，适应日益增长的存储需求。

在生成式AI对存储系统提出的以上五个要求中，率先要解决的是高性能、高带宽、低延迟的问题，这也是HBM的核心技术优势所在。

HBM的核心技术优势

由于HBM采用了近存计算架构，不通过外部连线与 GPU/CPU/SoC 连接，因此HBM 解决了传统 GDDR 遇到的“内存墙”问题。另外，HBM可以通过中间介质层紧凑快速地连接信号处理器芯片，因此极大地节省了数据传输所使用的时间与耗能。具体来看，HBM主要有以下几大优势：

一是高带宽低延迟：HBM采用了垂直堆栈的内存结构，通过将多个内存芯片垂直堆叠在一起，并通过高密度的Through-Silicon Vias（TSV）连接它们，因此相比于传统的内存，HBM拥有更高的带宽，能够实现更大的数据通路，更好地解决了生成式AI对于数据高速传输的需求。

与此同时，HBM通过减少芯片之间的连接距离，能够实现更低的延迟，更加适用于对延迟敏感的大模型应用。

二是更高的容量。通过3D堆叠芯片的技术，HBM能够在更小的物理空间内实现更高的内存容量，甚至能够实现高达数TB级别的内存容量。

三是能耗更低。通过采用更加先进的制程工艺和更紧凑的物理布局，HBM能够在相同的工作频率下实现比传统内存更低的功耗。这也就意味着在相同功耗下，HBM能够提供更高的性能。

四是更小的尺寸：由于其垂直堆叠的结构，HBM内存芯片的尺寸相对较小，能够与CPU/GPU更好地集成，为AI芯片的小型化和集成化带来更多可能性，实现在更加紧凑的空间内提供更强大的计算能力。

虽然与传统内存相比，HBM在技术上有着很大的优势，但作为金字塔顶端的产品，HBM的价格非常昂贵。据了解，英伟达H100等高端GPU之所以价格居高不下，与HBM存储有着一定的关系。

即使如此，在AI时代的今天，HBM市场需求仍旧高居不下。根据海力士的预测，到2030年，海力士每年HBM的出货量将达到1亿颗，隐含产值规模将接近300亿美元。假设届时海力士市场份额为50%，则整个市场空间将在500亿美元左右。

可以看出，在AI的推动下，市场对于HBM的需求正在不断地增长。

HBM技术发展趋势

首款HBM产品于2014年正式发布，时至今日已经演进到第五代产品，分别是： HBM （第一代）、HBM2（第二代）、HBM2E（第三代）、HBM3（第四代）、HBM3E （第五代）。HBM芯片的容量也从1GB升级至24GB，带宽从128GB/s提升至 1.2TB/s，数据传输速度从1Gbps提高至9.2Gbps。

第一个HBM标准由JEDEC制定，并于2013年10月正式发布，该标准为：JESD235A。之后的几年中，JEDEC陆续制定了HBM的不同标准。

2014年SK海力士和AMD宣布联合开发TSV HBM 产品，之后在2015年6 月SK海力士推出HBM1，采用了4×2 Gbit 29nm工艺DRAM堆叠，主要用于AMD GPU等产品中。

2018年11月，JEDEC发布了第二代HBM技术，即JESD235B标准。该技术最多支持12 层TSV堆叠。当年，三星率先推出
Aquabolt（HBM2），数据带宽 3.7GB/s。SK海力士紧随其后推出 HBM2产品，采用伪通道模式优化内存访问并降低延迟，提高有效带宽。

2020年1月，JEDEC更新发布HBM技术标准JESD235C，并于2021年2月更新为 JESD235D，即 HBM2E。

2019 年，三星推出
Flashbolt（HBM2E），堆叠 8个 16 Gbit DRAM 芯片。SK海力士在2020 年7月推出了HBM2E产品，是当时业界速度最快的DRAM解决方案。

2022 年1月，JEDEC 发布了HBM3高带宽内存标准JESD238，拓展至实际支持32个通道，并引入片上纠错（ECC）技术。2021 年10月开发出全球首款HBM3，容量为HBM2E的1.5x，运行带宽为HBM2E的 2x。

HBM3E正式发布时间是2024年，此时三星已开始向客户提供HBM3E 12H样品，预计于24H2半年开始大规模量产。同年2月，美光开始量产HBM3E芯片，并主要应用于英伟达H200系列芯片中。3月，SK海力士开始量产HBM3E芯片。

根据Trendforce数据显示，2023年客户需求从HBM2E逐步转向HBM3，占比约为 39%。随着使用HBM3的AI芯片陆续放量，预计2024年HBM3市场需求将大幅增长，占比将达60%。

写在最后：

数据是AI的基石，数据量越庞大，对算力要求越高，对数据读写的性能要求就会越高。面对大模型数万亿个参数，如何提高数据传输性能，提高响应并降低延迟，是必须解决的技术问题。不难看出，HBM的出现不但很好地提高了存储性能，而且也带来了更高容量的提升，已经成为面向AI计算的CPU/GPU不可或缺的存储产品之一。正是基于此，HBM的市场份额不断提升，这也使得它从幕后走到了台前，越来越受用户关注的根本原因所在。

本文来源于互联网，如若侵权，请联系管理员删除，本文链接：https://www.9969.net/25967.html