如今的数据中心行业与十年之前颇有不同,这主要是受过去几年间诸多现实因素的影响:AI技术的大规模扩散、摩尔定律有所放缓,以及令人头痛的可持续性问题等。
Uptime Institute预计,随着运营商对于供电、冷却、管理、高密度与监管压力等问题的关注和规划,整个数据中心行业将在2024年内迎来又一波重大变化。
虽然未能在Uptime的清单中位列头名,但考虑到人人都关注AI问题,所以我们就由此入手。在过去12个月中,各大主要云服务商和超大规模基础设施运营商纷纷部署起体量可观的GPU集群。Uptime预计,英伟达单在2023年一年就售出了60万张H100(我们推测可能接近71万张)。而截至2024年底,这家芯片制造巨头的GPU出货量有望进一步增长至150万至200万张。
不必担心,AI基础设施的建设并不像大家想象中那么麻烦。
但也必须承认,面对如此规模的部署以及市场对于生成式AI支持技术似乎永无止境的需求,数据中心行业正在、也必须做好应对需求暴增,特别是支持大规模GPU及其他加速器部署所带来的散热与功耗问题。
虽然HPC专业人士对越来越高的加速器性能和供电密度并不陌生,但与典型的双插槽系统相比,新设施明显把这两项指标推向了新的水平。
英伟达的H100和即将发布的H200在额定功率方面均超过700瓦,而这还仅仅是单片的功耗。一个AI集群通常安装有四到八张GPU,这就让热设计功率直接攀升到千瓦级别。
但Uptime估计,AI基础设施浪潮对于大多数运营商其实影响有限。这主要是因为芯片产能仍无法满足需求,而能够掌握巨量部署资源的企业也相对较少。
无论如何,大规模部署此类系统的数据中心必然面临供电与热管理方面的双重挑战。好在有几种方法能够解决这些具体问题,而最简单的办法之一就是将系统分散到更大的占地面积当中,这也是对设施环境变动最小的解决方案。
举例来说,假设现有基础设施能够容纳每机架25千瓦的供电与相应发热负载,那么运营商可能会尝试把DGX节点分散在两倍的机架当中。这当然会导致机柜中出现大量留空区域,但对于某些特定工作负载来说,只要空间成本不是太高,那这反而是最简单、实施难度最低的选项。
可正如我们之前从Digital Realty公司首席技术官Chris Sharp的分享中所知,尽管分散系统的确解决了发热量和电力传输的问题,但却不太适合那些基于专用互连结构的训练类工作负载。比如说NVLink的覆盖范围有限,所以最好能配合密度更大的部署方案。
直接液冷显露优势
第二种选择是将设施升级为液体冷却,特别是直接液冷(DLC)设计。Uptime分析师们预测,面对芯片发热量、系统密度以及可持续性等方面的巨大压力,运营商们将在2024年内更广泛地部署直接液冷方案,用短期安装便利性换取更强的硬件性能表现。
直接液冷在效率上通常高于传统风冷,毕竟液体是热量的更好导体,而且这项技术也在很大程度上消除了对机柜风扇的需求。据我们了解,采用液冷技术能够将系统功耗降低达20%。但Uptime同时提到,由于液冷功耗会与整体IT系统功耗混杂一处,所以具体量化将极为困难。
而且发挥直接液冷的节能潜力也绝不是嘴上说说这般简单。Uptime解释称,不少设施运营商可能倾向于先把冷却液维持在较低温度,借此改善对基础设施的冷却效果。据我们了解,这样能够减轻基础设施设计负载,有利于延长IT硬件的使用寿命。但在能效角度看,这种作法却不及使用温度较高的室温冷却液,因为需要额外消耗电力来主动降低冷却液温度。
必须承认,低温直接液冷确实具有性能优势。液温较低意味着CPU和加速器将始终维持更低的工作温度,从而能够以更高的超频水平(以及相应的运行功率)运行更长时间。
人们真正担心的,是采用直接液冷系统所节约的成本会被更高的系统负载所抵消,导致改造缺乏回报。
实现可持续性需要另辟蹊径
Uptime还指出,直接液冷很可能无助于可持续发展目标的实现,而迫在眉睫的监管要求则让运营商们别无选择。
原则上,每家主要云服务商和超大规模数据中心运营商在过去几年间都做出了类似净零排放的可持续发展承诺。至于微软和谷歌等科技大厂,距离他们提出的首个主要里程碑就只剩下几年时间了。
Uptime预测,如果数据中心运营商真想要兑现自己的承诺,就必将面临一段艰难的时期。由于数据中心的部署区域并不一定拥有丰富的可再生能源供应,所以风能、太阳能和潮汐能等新能源类型的落地也往往于事无补。
不止如此,全球各国政府还一直在敦促各服务器农场提升电力消耗与碳足迹的透明度。
去年九月通过的欧盟企业可持续发展报告指令,以及加州气候企业数据责任法案等规定,将很快要求更多企业上报碳排放及业务运营引发的气候相关风险。
Uptime报告称,美国证券交易委员会(SEC)也开始重视这一问题,并要求大型上市企业在其季度报告中披露部分排放数据。
毫无疑问,一众监管要求中最为严苛的当数去年秋季发布的欧盟能源效率指令。这份文件列出了针对数据中心及其他IT与网络运营商的报告要求。但需要强调的是,该指令旨在获取关于使用模式的数据,暂不对数据中心设施的运营方式做规范性约束。
虽然这些监管要求的本意是好的,但Uptime通过调查发现,参与调查的数据中心运营商中已经开始实际追踪碳排放等指标的比例只有不到一半。
数据中心智能化升级已经势在必行
多年以来,Uptime一直呼吁在数据中心领域广泛引入数据驱动自动化方案。分析师们认为,2024年可能就是全面实现这个目标的时间节点。
问题的根源在于,尽管数据中心内的硬件设备发生了根本性变化,但管理工具的发展却陷入了停滞。大多数楼宇管理系统(BMS)和数据中心基础设施管理(DCIM)软件所能提供的自动化分析功能仍相对有限。
可以想见,只要在管理层面做出适度改进,运营商们即可显著提高能效,同时降低后续监管和排放上报要求的执行门槛。此类系统运营自动化的典型用例,就是在需求低价阶段调整环境系统,避免浪费电力去冷却那些根本没有高强度运行的闲置系统。
Uptime还认为,更高级的自动化技术将基于由设施数据集训练而成的AI模型,以预测性方式灵活调整数据中心的运行模式。
将这种类似AIOps的功能应用于数据中心整体当然好处多多,但Uptime分析师对于现有DCIM软件供应商的适应能力却持悲观态度。相反,分析师们预计这些功能将率先诞生于新一代初创公司之手。Uptime目前正在关注六家处于不同发展阶段的此类厂商,并认为他们的研发成果有望解决基础设施的智能运营难题。
虽然报告没有具体给出名称,但我们怀疑其中之一很可能是Oxide Computer。该公司由前Sun Microsystems软件工程师Bryan Cantrill与Joyent总裁Steve Tuck共同创立,专注于机架级计算场景,甚至内部原研了基板管理控制器(BMC)以避免使用Aspeed等行业标准控制器。
超大规模设施园区或成主流
一系列现实趋势,特别是为了应对AI需求持续增长而形成的算力密度提升,正推动运营商们投资建立由多个数据机房构成的超大规模服务器园区。
根据Uptime的介绍,这些园区可能占地数百万平方米,旨在满足多租户的电力与连接需求,而且往往会在设计之初就强调使用更多清洁能源。
此类新园区的核心特征就是实现千兆瓦级容量。作为设施规划中的关键词,这些新园区肯定不会在初期运行时就达到这样的功率水平,但为了避免在生命周期内遭遇扩展瓶颈,其很可能会预留出容量空间以承载后续设施。
去年,我们还看到不少更为激进的探索案例,包括利用氢燃料电池或小型模块化反应堆等新型能源来提供数千兆瓦电力。
而且除了共享供电设施这个优势之外,相互竞争的数据中心运营商也可能出于另一个理由而选择彼此抱团,这就是设施之间的低延迟通信。
Uptime提出的这些数据中心(未来可能更适合称其为数据城市)趋势性预测将有助于降低托管与连接成本、提高设施弹性并提高运营可持续性。
这些预测最终能否落地还要留给时间来证明,但可以肯定的是,数据中心必将向着更大、更多、更费电的方向一路狂奔。