芯片采购,IC采购,芯片采购平台
芯片
每日新闻头条
炎热高温:OCP如何应对下一代数据中心的散热设计挑战
(2024年6月29日更新)

随着数据密集型应用程序的增加,大型数据中心的工作负荷越来越重。数据中心的网络流量显著增加,促使架构师找到新的方法来实现更高的数据速度和吞吐量。

芯片采购网专注于整合国内外授权IC代理商现货资源,芯片库存实时查询,行业价格合理,采购方便IC芯片,国内专业芯片采购平台

目前, 最先进的网络适配器(NIC) 达到每端口200 G 速度。然而,为了满足数据中心日益增长的需求,该行业正在使用400 G NIC 但前提是相关的支持技术需要同时进步,这并不容易。Molex(莫仕)深入探讨了这一变化带来的散热挑战,以及我们合作工作组解决这些问题的独特方法。

400G运行散热挑战

下一代数据中心将过渡到400G 因此,网络适配器面临着各种散热问题。

我们面临的第一个挑战是,更高的数据速率会消耗更多的功率。通过广泛的研究、测试和模拟,我们发现数据速率和热产生之间的关系大致是线性的,其中数据速率的两倍将使系统的热量增加两倍以上。结论是什么?也就是说,网络适配器的速度是200 G 转变成400 G之后,系统的热量大幅增加。

第二个挑战是需要支持400 G NIC 基础设施。直接源电缆直接连接(DAC) 的200 G NIC 不同,有时400 G NIC大功率有源光缆可能需要使用(AOC)支持高数据速率。这些大功率AOC 功耗可高达8W,将自身热量导入系统,再加上高速运输数据,使温度不断升高。

质疑基础设施

这些迫在眉睫的散热挑战,让我们对当下感兴趣NIC 怀疑环境基础设施中某些部件的可行性。我们怀疑英伟达(NVIDIA) 和Meta 两家公司合作,深入研究这个问题。

一项研究的重点是外观尺寸。具体来说,我们研究了它的使用OCP NIC 3.0 行业标准小型光纤连接头(small form factor,SFF) 产品的可行性取决于它是否与之前提出的产品相匹配TSFF(tall SFF)。众所周知,TSFF 它可以提供更多的空间,从而实现更好的空间I/O 散热解决方案。在理想情况下,系统架构师可以在可能的情况下继续使用SFF。真正的问题是,SFF 是否能为400 G NIC 提供可行的解决方案?还是我们需要转而转而转?TSFF 行业标准是什么?很难直接回答这个问题,因为几个变量可能会影响结论。因此,我们的研究考虑了许多可能对散热性能产生重大影响的因素,包括以下几个方面。

● 外形尺寸:TSFF 对比SFF。

● NIC ASIC 功率限制( 仅限使用DAC 电缆)。

● 模块类型:QSFP-DD Type 1 对比Type 2 A。

● 监测位置点:底盘后部上方的平均温度和散热器

底座温度和前端温度。

● 测试装置类型︰有/ 没有测试装置。

● 冷信道比较热信道。

设置和假设模拟试验

每个摄氏度温度的变化都会影响结论。由于可行性,有必要确保模拟试验反映了现实和合理的使用。

对此,我们的模拟试验同时使用TSFF 和SFF 两种形状尺寸OCP NIC 3.0 网络适配器建立模型。英伟达慷慨地为研究提供了模拟试验ASIC 散热模型的原型设计ConnectX-6 DX。假设功率上限为23,以进行模拟试验 W,并根据配备标准铝散热器的装置建立模型。

对于QSFP-DD 正常功耗为10的类型模块.2 W 多信道散热模型。ASIC 原型设计相似,我们选择QSFP-DD 该模型配备了标准的铝散热器,以最大化覆盖的加热表面积,但不使用任何先进的冷却技术或材料,以了解上述变量之间的相对影响。

对于模拟试验的环境,我们同时测试了热信道和冷信道。热信道的环境温度为55°C,气流速度范围为200 至1 000 LFM( 每分钟线性英尺),气流方向从后到前。所有这些都是一致的OCP 3.0 技术规范。另一种不同的环境是冷信道,环境温度为35°C,气流速度范围为200 到600 LFM,从前到后的气流方向。,我们的模拟实验使用英伟达OCP NIC 3.0 标准化的测试装置包括安装在测试箱中的两个相同的网络适配器。

图1 模拟测试中使用的测试装置和模型设置

研究结果:外观尺寸的影响

通过模拟试验结果,我们了解了几个边界条件和变量如何对散热性能产生非零影响( 即超过几摄氏度)。

在调查中,第一个值得注意的结果是外观尺寸正确QSFP-DD 模型的散热性能有重要影响,我们发现TSFF 散热性能明显优于SFF,特别是当气流速度较低时。在这种情况下,散热性能提高了多达6 C ° 。尽管结果并不令人惊讶,但6°C 改进真的很突出。

同样,我们的研究结果表明,它被用于热信道应用TSFF 尺寸时,ASIC 原型设计的散热性能提高了10°C还有,关于NIC ASIC原型设计的功率限制参数( 无源DAC 在热信道条件下使用)SFF相比,采用TSFF 模块功率限制增加约2.5 W。

图2 我们在模拟试验中发现TSFF散热性能明显优于SFF

调研结果︰其必须考虑其它变量

除了外观尺寸,我们的研究还深入了解模块类型和监测位置对散热结果的影响。在比较两个行业标准模块时,我们发现QSFP-DD Type Ecliptek代理2 A 模块具有优异的散热性能,提高了约4个 C ° 。性能改进的主要原因是Type 2A 模块本身的前端有一个外部集成散热器。同样,结果也不令人惊讶,但非常突出。

最后,我们发现不同的监测位置点( 也就是模块上的探测点) 两者之间存在温度偏差。例如,模拟试验表明,散热器底座的监测温度低于前端的监测温度 C ° 。,在量化NIC 监测位置点显然是模块热性能时不可忽视的因素。

图3 监测位置点对散热结果有重大影响

调研结论

我们的研究深入了解了几个特定变量和边界条件对散热性能的影响,但结果并不是主要结论。更重要的是,该研究表明,该行业迫切需要就这些变量和边界条件达成共识。

试验结果以模块类型和监测位置点等变量为例, 模块类型会对散热性能产生重大影响( ? 4°C ),这个发现带来了一个问题:除了排除SFF 尺寸在400G NIC 除了可用性,能否保留?SFF 尺寸但改用Type 2 A QSFP-DD 模块呢?到目前为止,该行业还没有达成共识。如要对SFF 要得出真正的结论,首先要定义并在行业内达成共识。

同样,该行业也没有就监测位置点达成协议。研究表明,监测散热性能的位置点会对模拟试验结果产生重大影响,差距甚至高达5 C ° 。如果我们不能就监测位置点达成共识,那么所有研究数据之间就会缺乏一致性,这将导致无法真正比较测试结果。这里再次强调,OCP 整个行业向4000迈进G NIC 要发展,首先要达成共识。

呼吁采取行动

如何达成关键的行业共识?我们认为模块,I/O、NIC、系统和数据中心需要参与更多的专业领域。这种合作将有所帮助OCP 更好地协调可实现的目标,确定最合适的环境进行这些可行性研究。此外,到目前为止,研究所的范围还不全面,我们还必须考虑其他变量,包括使用QSFP-DD 有源电缆(AEC) 预计其散热量低于可行性AOC。

若行业发现SFF 无法适用于AOC,下一步可以考虑使用AEC。另外,如果采用开发TSFF 尺寸网络适配器需要扩展研究内容,涵盖八个集成散热器SFF 可插拔模块(OSFP-RHS) 端口的可行性。

实现散热设计共识对行业内的多方合作至关重要OCP 它将发挥关键作用。Molex 莫仕很荣幸能和Meta 与英伟达合作,对下一代相关解决方案进行实验研究。我们三方合作设计测试方案,仔细模拟和量化每个定义的变量的影响,然后共同分析结果,并在数据中心寻求新的性能水平。

(本文来源《IC2022年3月,代理杂志

芯片采购网|IC采购|IC代理商 - 国内专业的芯片采购平台
芯片采购网专注整合国内外授权IC代理商的现货资源,轻松采购IC芯片,是国内专业的芯片采购平台