专家:某些半导体大厂建设超高能耗数据中心,简直是在犯罪

来源:爱集微 #HPC# #能耗# #热量#
1.3w

集微网消息,随着摩尔定律的不断放缓,提供更强大的高性能计算和人工智能集群意味着建造更大、更耗电的设施。

犹他大学教授Daniel Reed在最近在丹佛举行的SC23超级计算大会上解释说:“如果你想获得更高的性能,就需要购买更多的硬件,这意味着需要更大的系统;这意味着需要更多的能源耗散和更多的冷却需求。”

如今,Top500排行榜上最大的超级计算集群耗电量超过20兆瓦,许多数据中心园区,尤其是那些为支持人工智能培训和推理需求而建的数据中心园区,甚至更大。一些预测表明,到2027年,一台能力级超级计算机将需要120兆瓦的电力。

在一个关于高性能计算中的碳中性和可持续性的专题讨论会上,来自芝加哥大学、施耐德电气公司、洛斯阿拉莫斯国家实验室、惠普企业公司和芬兰IT科学中心的专家们对这些趋势进行了分析,并就我们应该如何规划、部署、报告和运营这些设施提出了自己的见解。

节能固然重要,但不能以牺牲水资源为代价

本次对话的首要主题之一是电力使用效率(PUE)。作为参考,这一行业标准指标通过比较计算、存储或网络设备的用电量与总利用率来衡量数据中心的效率。PUE越接近1.0,说明设施的效率越高。

HPE的Nicolas Dubé解释说,虽然PUE是优化数据中心运营功耗的有效工具,但它会导致超大型企业和其他大型数据中心运营商养成一些特别不好的习惯。

“一些超大型企业——我不会说出他们的名字——在亚利桑那州、新墨西哥州和非常干燥的国家建立了大型数据中心。在那里建立数据中心,如果使用蒸发冷却技术,PUE值会非常高。然而,你将消耗对社区来说比优化百分之几的能耗更重要的资源,”他说,“我认为这是犯罪我认为他们应该因此入狱。

对于那些不熟悉蒸发冷却系统的人来说,蒸发冷却系统(有时也称为沼泽冷却器)是耗电量最高的冷却技术之一。这些系统在干燥和干旱的环境中特别有效,但需要大量的水来实现。

洛斯阿拉莫斯的Genna Waldvogel指出,对于像能源部国家实验室这样已经采用蒸发冷却的设施,有一些方法可以减少这些系统的影响。

“我们的数据中心几乎百分之百使用再生水,”她说,“我们有一个非常酷的系统……从我们的污水处理厂抽取污水,经过处理后,我们再把它泵回我们的超级计算机。”

Reed认为,蒸发冷却所消耗的大量水迫使运营商考虑系统的安装位置。

地点和规划很重要

Dubé还强调了选址的重要性。他认为,在绿色能源供应充足的地方部署数据中心,可以在一定程度上减轻生成式人工智能对环境的影响。

Dubé举例说,QScale正在魁北克开发一个100兆瓦的数据中心设施,那里近100%的电力来自水力和风力等可再生能源。“推理和其他一些工作负载对延迟非常敏感,它们需要与人口同处一地,移动起来有些困难,但大规模培训工作则不然,”他说,“当你考虑到这一点时,这些大规模工作负载实际上应该被迁移或推送到最可持续的地方进行计算。”

除了在可再生能源附近部署数据中心的明显优势外,Dubé还认为,还有机会将这些设施产生的热量加以利用,而不仅仅是将其排入大气。

Dubé重点提到的QScale设施将与农业温室同处一地,并将在加拿大漫长的冬季利用该设施收集的废热为农业温室供暖。

为了说明这一机遇,Dubé提出了一个相当幽默的问题:仅仅训练一次GPT-3能种出多少西红柿?根据他的计算,不出所料,能种出很多。

假设每个500平方米的温室每年的供热量为1,000千兆焦耳,而训练GPT-3所需的电量为1287兆瓦时,那么就相当于4.6个温室。按照每平方米每年生产75公斤西红柿和85%的温室可用于生产计算,Dubé的产量为147,677公斤,即略高于一百万个西红柿。

这可是一大堆番茄酱。

热量再利用绝不是高性能计算或人工智能领域的新概念。欧洲最大的超级计算机LUMI系统就是一个典型的例子。CSC的IT科学中心的Esa Heiskanen说:“我们地处北方,气候寒冷,可以全年使用干式冷却器。”除了免费冷却外,该设施还使用热捕获系统,该系统可满足卡亚尼市20%的区域供热需求。

如果我们有时关闭系统呢?

除了采用更高效的技术和选址外,芝加哥大学CERES Unstoppable计算中心的负责人Andrew Chien认为,通过以更动态的方式运行数据中心,有机会提高数据中心的可持续性。

这里的想法是,运营商不要总是以恒定的容量运行高性能计算集群或数据中心,而是要根据特定时间内电网上可用电力的多少或电力组合来改变该系统的利用率。

例如,在一天中的某些时段,风能或太阳能的输出可能会更高,这可能会让设施以更高的容量运行,同时也减少了碳排放量。

Chien将这些技术应用于日本理化学研究所实验室的“Fugaku Next”项目,预计该项目将于2030年至2040年间投入使用。他预计,从现在到那时,除了改善电网之外,还有可能将电力成本降低90%,将碳排放量减少40%。

“每个人都认为电力是问题所在,但在我看来,碳排放才是更大的制约因素。”他解释说,这暗指能源网今后可能会更多地使用可持续电力。

需要更好、更一致的报告

正如您所预料的那样,要减少规模越来越大的高性能计算和人工智能集群所产生的碳影响,就需要更好、更一致的报告,施耐德电气公司首席技术官办公室创新产品负责人Robert Bunger强调了这一事实。

“我的主张是,高性能计算社区应该努力成为领导者。他们在性能的所有其他方面都处于领先地位,我认为可持续发展报告和测量应该是其中之一。”Bunger说。

Bunger解释说,问题之一是数据中心运营商在如何报告可持续发展指标方面各执一词。超大规模运营商不喜欢谈论电力或水资源消耗等问题,这可能对问题的解决没有任何帮助。

为了解决这个问题,施耐德提出了他们认为数据中心运营商应该跟踪的28项指标。这些指标包括总耗电量、PUE、可再生能源总消耗量、总耗水量、用水效率等常见因素。不过,该清单还建议跟踪其他因素,如可再生能源因素、能源再利用、服务利用率,甚至噪音和土地使用。

Bunger承认,试图跟踪所有28项因素可能会让许多设施望而生畏,但他建议数据中心运营商从6项因素开始,然后再逐项跟踪。

责编: 武守哲
来源:爱集微 #HPC# #能耗# #热量#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...