Servers in a data center

数据中心经理们可以通过最快的超级计算机学到的四件事

如果在街上询问门外汉对超级计算机的看法,很可能大部分人都会提到热门电影里的例子,尤其是那些臭名昭著的例子。从哈尔 9000《2001:太空漫游》到《我,机器人》中的 VIKI,甚至是《终结者》中的天网,流行文化常常会把超级计算机描绘成实现了进化并背叛了人类的有意识系统。

如果将这些告诉美国劳伦斯利弗莫尔国家实验室或国家气象服务局的研究员,他们则会一笑置之。事实上,当今的超级计算机远远谈不上有意识,唯一的 AI 基本上是被夸大的搜索条,用于搜索超大型数据集。

今天,超级计算机为处于发展最前沿的众多应用提供了支持:从石油天然气勘探到天气预测,从金融市场到新技术开发,涉及方方面面。超级计算机如同计算机世界的兰博基尼或布加迪,在金士顿,我们非常关注在计算方面取得的突破性进步成果。从 DRAM 优化和调优,到固件在存储阵列管理方面的进步成果,再到对传输一致性与延迟速度而非峰值数值的重视,我们的技术深深影响着超级计算的前沿技术。

同样,云数据中心和组织内部数据中心的经理们可在两个方面从超级计算学到许多东西,一是基础架构设计和管理,二是如何完美选择组件,既能为未来发展做好准备,又无需庞大的改造。

实时计算
1. 超级计算机专为一致性量身打造

Amazon Web Services 或 Microsoft Azure 之类的多数云计算平台设计用于支持可利用共享资源和基础架构的各类应用,与此不同的是,多数超级计算机是针对特定需求量身打造的。最新发布的世界最快超级计算机 TOP500 榜单(公开和解密的超级计算机)不仅说明了设施的位置和速度,还说明了主要应用领域。

在排名前 12 的机器中,有 11 台专门用于能源研究、核测试和国防应用。唯一的例外是 Frontera,它是由 NSF 资助建造的千万亿次级计算系统,位于美国德克萨斯大学的德克萨斯先进计算中心,为科学和工程研究合作伙伴提供学术资源。接下来的 20 台 TOP500 超级计算机,几乎全部专门用于政府国防和情报应用。榜单中排行 30-50 的机器基本专门用于天气预报。前 100 强中的最后 50 台机器用途不一,包括企业计算(NVIDIA、Facebook 等)、中端天气预测、太空项目、石油天然气勘探、学术和特定政府用途。

这些机器并非一体适用。它们是与 Intel、Cray、HP、Toshiba 和 IBM 等制造商合作定制开发的,针对非常具体的数据集执行特定类型的计算,其中包括实时计算和异步计算。

它们有规定的可接受延迟阈值:

  • 预设可利用数百万个处理内核的计算资源
  • 提供每秒 18,000 至 200,000 万亿次浮点运算 (teraFLOPS) 的时钟速率

它们的存储容量达到 EB 级,远高于现代数据仓库的 PB 级存储容量。

Frontera 之类的系统不必在高峰计算负载时全速运行,但必须一致地读取海量数据以获得结果。计算性能峰值实际上可能导致错误的结果,因此重点在于一致性。

当今的数据中心经理们需要首先思考“我们要用系统做什么?”,以便架构系统、管理资源并置入可预测的故障保险。对运行大量虚拟桌面的数据中心进行管理,与 911 呼叫中心或空中交通管制系统存在较大不同。它们存在不同的需求、要求、服务水平协议和预算,需要进行相应的设计。

同样,经理们需要思考如何在不需要定制构建的情况下实现一致的性能。Amazon、Google 和 Microsoft 之列的公司有预算让工程师定制存储或计算基础架构,而大部分服务提供商则不得不仔细挑选现成的硬件。

因此,更多的数据中心经理们需要为针对 QoS 的性能基准测试设定严格标准,并确保重中之重不只是计算速度和延迟,还包括一致性。

服务器与代表网络的发光线缆
2. 您的实时不是我的实时

对于超级计算应用,多数实时数据实例具有重大影响。从阻止核裂变到火箭发射遥测数据,计算延迟可能会造成毁灭性后果,而这类数据集规模又非常庞大。这些数据流并非来自单个来源,而是常常来自于报告节点网络。

但这些数据寿命短暂。当利用实时源时,多数数据并不会永久保存。数据被写入,然后被覆盖,寿命结束于后续的写入和覆盖操作。实时数据始终在变化,极少有应用需要从一开始就存储每一比特的数据。数据将得到批量处理,经计算后生成结果(包括平均值、统计模型或算法),而结果正是要保存的内容。

以美国国家海洋和大气管理局 (NOAA) 的超级计算机预测为例。无论是降水、空气温度和地表温度、大气压、日期时间、太阳作用,还是风甚至是风经过地形的方式,气象因素总是变化无常。这些因素每时每刻都在发生改变,并作为实时信息流予以报告。但 NOAA 的美国国家气象局 (NWS) 并不总是需要原始数据。而是需要预测模型!随着全球天气预报系统 (GFS) 模型成形,新数据会被输入此模型,从而生成更精确、更新的预测。

此外,共享并接收 NWS 数据的地方气象学家无需访问整个全球天气数据集。他们将自己的模型限制为本地区域。通过创建批次、计算数据并生成结果(包括平均值、统计模型或算法)以及保存结果,他们可以利用本地气象站补充 NWS 数据,提供小气候见解,并更快地作出更精确的本地预测。

这同样适用于股票交易或金融模型,金融模型会利用移动平均线,每条平均线都基于针对可接受市场行为阈值的特定参数内置特定指标和操作触发条件。设计一个利用“实时”数据的系统时,不必存储系统所引入的全部内容,但应利用非易失性随机存取内存 (NVRAM) 和动态随机存取内存 (DRAM) 来缓存和处理传输中的数据,然后将计算的输出结果发送到存储器中。

闪存芯片与发光电路迹线的插图
3. 延迟阈值、NAND 闪存和调优 DRAM

多数延迟阈值是出于应用要求而设定的。在交易情景中,几秒可能意味着几百万,甚至是几十亿美元。对于天气预测和飓风跟踪,它可能意味着是疏散美国新奥尔良还是休斯顿。

超级计算机的运行在延迟、计算资源、存储或带宽方面背负着先天性的服务水平重担。多数超级计算机采用故障感知型计算,其中系统可以改变数据流的路线,以实现最优延迟条件(基于𝛱+Δmax 时钟),转用异步计算模型,或设定计算资源优先级,以便为作业提供充足的处理能力或带宽。

无论您是使用高端工作站、大型主机服务器,还是 HPC,科学工作负载、大型计算机和大数据都需要海量的 DRAM。天河二号之类的超级计算机使用了海量 RAM 和专用加速卡。超级计算机调优硬件和控制器框架的方式是应用设计所独有的。在磁盘访问导致巨大 RAM 要求瓶颈的具体计算任务中,DRAM 常常变得不切实际,但其尺寸足够小,能够置入 NAND 闪存之中。FPGA 集群会针对每项具体工作负载进行进一步调优,确保在它们使用传统介质检索数据时让大型数据集承受巨大性能下降。

美国犹他大学、美国劳伦斯伯克莱实验室、美国南加州大学和美国阿贡国家实验室联合组建的团队展示了一个全新的自动性能调优(或自动调优)模型,可在架构之间提供性能可迁移性。自动调优内核和应用并不依靠编译器为更新的多核架构提供最优性能,而是可以针对目标 CPU、网络和编程模型自动调优。

带头盔的 IT 工作人员在抬头显示器前使用笔记本电脑的插图
4. 多层故障保险

HPC 数据中心内的能源分配越来越具有挑战性,尤其是用作共享资源的基础架构。在专用基础架构或作为服务配置的基础架构中,数据中心需要持续不断地运行,并在出现电源故障、峰值或尖峰需求变化时降低脆弱硬件组件受损的风险。

架构师混合使用损失分配变压器:

  • 直流配电与 UPS 备用电源,
  • 冷热电三联供(通过热量发电并存储到备用电源)
  • 主动监控
“保存和经常保存”是适用于任何应用的准则,这同样也适用于数据中心,其中“备份”将成为关键词。

当今的多数数据中心采用高级 RAID 结构,确保在整个存储阵列中进行持续的、接近同步的写入。此外,HPC 基础架构会利用大量 NVRAM 缓存处理中的数据,此数据要么是不在存储阵列中拉取的实时数据流,要么是并行处理的信息,可创建暂存磁盘式用途以释放额外的计算资源。上文提到的 Frontera 系统利用了总计 50PB 的暂存存储容量。拥有极高带宽或 IOPS 要求的用户,将能够在存储容量约 3PB、带宽约 1.2TB/秒的全 NVMe (non-volatile memory express) 文件系统中申请分配资源。

这种持续的 RAID 存储备份和一致的 NVMe 缓存器缓存,依赖于设备控制器和用于远程存储/备份的总可用/已配置带宽的总 I/O 阈值。

通过全面采用固态阵列和闪存块,多数 HPC 基础架构还消除了传统硬盘出现硬件故障的可能。这些存储解决方案提供一致的 IOPS,并拥有不超出应用特定阈值范围的可预测延迟。许多超级计算机还利用多个磁带库(存储容量可扩展至 EB 级甚至更高),为处理和存储的每一比特提供可靠的数据归档。

许多超级计算机还可以保证,一旦任何环节出现故障,就可以利用 SSD 和 DRAM 中安装的电源故障 (PFail) 电容器(P-Cap)(也被称作断电保护 (PLP))。P-Caps 让驱动器(无论是独立驱动器还是阵列中的驱动器)完成处理中的写入操作,从而降低毁灭性故障出现时可能丢失的数据量。

总结

再强调一次,定制是超级计算世界的关键,但在构建数据中心并实现一致性能时,了解自己的需求是第一步。无论数据中心规模如何,不妨在数据生成、存储或共享方面思考一下超级计算机的运作方式。通过评估这些因素,即便是利用现成的组件,架构师也可以设计出为未来发展做好准备的高性能基础架构。

#KingstonIsWithYou

相关文章