GPU迫使CIO重新思考数据中心

GPU迫使CIO重新思考数据中心插图1

生成式人工智能不仅改变了组织开展业务的方式，还改变了它们消耗计算资源的方式。这些大型语言模型(LLM)以及数字孪生、扩展现实和元宇宙等其他人工智能工具，需要大量图形处理单元(GPU)来训练数据集或处理图形密集型任务。

然而，这其中也有一个问题。GPU价格昂贵、供应不足，而且消耗大量能源。因此，首席信息官(CIO)和其他业务和IT领导者，越来越面临着如何使用它们以及在何处使用它们的问题。了解所需任务并平衡处理能力需求和成本至关重要。

所有这些都直接与数据中心相关。随着人工智能成为主流，组织必须适应，仅仅了解GPU在哪里带来战略收益是不够的，CIO必须做出关键决策，决定何时使用GPU或CPU，以及是否在本地或云端处理训练、推理和其他任务。

峰值性能

尽管最近GenAI备受关注，但GPU进入数据中心已有十多年了。图形处理器在科学研究、深度学习、机器学习以及机器视觉、机器人技术和自动化等众多其他任务中发挥着关键作用。它们已成为处理复杂模拟和海量数据挑战的宝贵工具。

然而，2022年11月，情况发生了巨大变化。在ChatGPT公开发布以及随后出现的MicrosoftCopilot和GoogleGemini等GenAI框架之后，组织开始积极探索将LLM投入使用的方法。很快人们就发现，AI定制对于实现特定任务至关重要，包括聊天机器人、内容创建、设计迭代、市场研究、网络安全、欺诈检测、产品原型设计以及各种其他用例。

如今，数据中心对GPU的需求正在飙升。预计到2027年，数据中心的平均机架密度将达到每机架50kW，超过目前的平均36kW。人工智能和机器学习的迅猛发展正在推动数据中心设计、选址和投资策略的变革浪潮。

与此同时，GPU的价格越来越高。例如，NVIDIAGeForceRTX4090是一款广泛部署的顶级型号，于2022年推出，起价约为每台1,600美元。价格较低、显存较少的GPU仍需数百美元。但硬件的前期投资只是一个起点。GPU的耗电量通常是CPU的两倍或三倍，同时需要强大的冷却和更复杂的布线。

许多数据中心都没有足够的空间和电力来运行GPU。因此，首席信息官必须就如何处理人工智能做出一些艰难的决定以及GPU何时能带来明显的优势。对于一些大规模并行任务(如人工智能训练工作负载)，GPU实际上可以通过更快地执行计算来降低总体TCO。然而，对于其他工作负载(如人工智能推理)，CPU通常可以提供足够的性能，同时降低每瓦运营成本。

首先要确定具体用例以及所需的性能和准确度水平。此时，可以考虑成本和碳排放等因素，并确定使用哪种硬件以及处理应在云端还是在本地进行。基础模型训练需要GPU，但推理则不同。在某些情况下，甚至可以在笔记本电脑或手持设备上进行推理。

数据中心的发展

所有主要的云提供商如今都提供预装GPU的虚拟机，或租用支持GPU的服务器的选项。因此，无需投资物理硬件。这些云也不会忽视可管理性。它们提供GPU直通工具，可直接管理GPU硬件上的性能因素。

这使得CIO能够配置和管理复杂的环境，包括涉及GPU和CPU的混合情况。它包括用于扩展和利用资源、配置GPU内存以及为机器学习或视频编辑等特定任务建立实例类型的工具。

通过清晰地了解关键因素(包括训练数据集的大小和广度、谁将使用它、系统上的查询或点击量预计是多少、以及GPU和CPU的堆叠方式)，可以做出明智的决策。例如，在某些情况下，可能需要不同类型的GPU来推理和运行系统，或者带有加速器的CPU可能更适合处理较小的模型。

还可以从可持续性和碳性能权衡的角度来看待GPU和CPU。我们将看到对AI的需求不断增长，企业对GPU的需求也不断增长。但我们也可能看到GPU和CPU的更多混合，因为许多任务在成本和碳排放方面仍然更高效。

GPU迫使CIO重新思考数据中心

峰值性能

数据中心的发展

相关推荐

断电监测服务器，它是如何确保数据中心持续运行的？

模块化服务器主机，下一代数据中心的革新之选？

服务器导轨功能是什么，为什么它对数据中心很重要？