
比利时微电子研究中心提出多步骤冷却方案。
打开AMD或最先进的人工智能(AI)产品封装,你会发现相似的内部布局,其图形处理单元(GPU)的两侧都是高带宽内存(HBM),这是当前最先进的存储芯片。这些动态随机存取存储器(DRAM)芯片位于尽可能靠近其服务的计算芯片的位置,目的是突破人工智能计算的最大瓶颈,即每秒将数十亿比特数据从内存传输至逻辑芯片所需的能耗和延迟。但如果将HBM堆叠在GPU上方,能否实现计算和存储的更紧密融合?

比利时微电子研究中心近期通过先进的热仿真技术对此场景进行了探索,并于2025年12月在IEEE国际电子器件会议(IEDM)上发布了结果,但情况略显严峻。3D堆叠会使GPU内部温度翻倍,导致其无法正常工作。但比利时微电子研究中心项目总监詹姆斯·迈尔斯(James Myers)领导的团队并未止步于此。他们找到了多项工程优化方案,最终有望将芯片堆叠所带来的温差降至几乎为零。
比利时微电子研究中心首先对当前常见的由GPU和4个HBM芯片构成的2.5D封装进行了热仿真。在此配置中,GPU与4个HBM芯片一起被放置在称为中介层的基板上,且彼此之间的距离极近,目的是降低延迟。两类芯片由嵌入中介层表面的数千个微米级铜互连连接。该配置下,模型GPU的功耗为414瓦,峰值温度接近70℃,属于处理器的典型工作温度;内存芯片额外消耗约40瓦,发热量略低于GPU。新型人工智能数据中心中普遍采用的液冷方式将热量导出了封装顶部。

“虽然这种方案目前得到了应用,但针对未来的扩展性不佳,尤其是两侧被内存占据,限制了未来封装内GPU到中央处理器(CPU)连接的可能性。”比利时微电子研究中心高级研究员陈宇凯(Yukai Chen,音)在IEEE国际电子元件会议(IEDM)上向工程师们指出。他表示,相较之下,“3D堆叠方案能实现更高带宽、更低延迟……最重要的改进之处在于缩减了封装的占用空间。”
遗憾的是,陈宇凯及其同事发现,最直接的堆叠方式(简单地将HBM芯片放置在GPU上方并用空白硅填充中心间隙)会阻断GPU的常规散热路径。这会导致处理器的温度飙升至140℃,远超典型GPU 80℃的温度上限。
比利时微电子研究中心团队尝试了多项技术和系统优化方案来降低温度。他们首先尝试了去除一层目前多余的硅。要理解这样做的原因,需要先了解HBM的本质结构。
这种内存由最多12层高密度DRAM裸片堆叠而成。每层裸片削薄至数十微米厚,并贯穿有垂直的互联通道。这些削薄后的裸片通过微型焊球逐层堆叠连接,整个内存堆叠体垂直连接在另一片称为基底裸片的硅片上。基底裸片是一种逻辑芯片,用于数据多路复用,换句话说,就是将数据打包到能够跨越毫米级间距、连接至GPU的有限线路中。
但现在HBM堆叠在GPU上方,因此没有必要采用这种数据泵机制。无论芯片侧边能排布多少条互连线,数据都能直接流入处理器。迈尔斯指出,这一变化意味着需将内存控制电路从基底裸片转移至GPU,从而改变处理器的布局规划。但他认为应有足够的空间,因为GPU不再需要用于多路解码传入数据的电路。
虽然剔除内存中的这一中间层仅使温度降低不到4℃,但这种方法能大幅提升内存与处理器间的带宽,这对团队尝试的降低GPU运行速度的优化措施至关重要。
这项措施看似与提升人工智能计算效能的初衷相悖,但在这种情境下实际上是一种优势。业界认为大语言模型的发展“受限于内存”,这意味着内存带宽是制约其速度的主要因素。迈尔斯团队估算,以3D方式将HBM堆叠在GPU上方可使带宽提升4倍。凭借这种性能余量,即便将GPU的时钟频率降低50%,仍能获得性能收益,同时还能使整体温度下降超过20℃。迈尔斯指出,在实际应用中,处理器不需要如此大幅降频,如果将时钟频率仅降低30%,GPU温度仅会上升1.7℃。

另一项可显著降温的措施是提升HBM堆叠体及其周围区域的导热性能,包括将4组堆叠结构整合为2组更宽的结构,从而消除热量滞留区域;削薄堆叠的顶层裸片(该层通常较厚);以及用空白硅填充HBM周围的更多空隙以增强导热。
采用上述所有优化措施后,堆叠芯片的工作温度降至约88℃。最后一项优化措施则可使其温度下降至近70℃。通常情况下,芯片约95%的热量都是从封装顶部导出的,此方案靠水带走热量。如果在封装底部增设类似的冷却措施,堆叠芯片温度最终还可以再降低17℃。
迈尔斯表示,尽管IEDM大会上展示的研究表明HBM-on-GPU有技术可行性,但不一定是正确的方向。“我们正在模拟其他系统配置,帮助我们更有信心地判断这是否是最佳选择。”他表示,“在HBM上方叠加GPU的方案引发了业界的部分关注。”因为这种布局使GPU更接近冷却系统。但这种设计可能更复杂,因为GPU的供电和数据传输需垂直穿过HBM才能抵达。
文章来源于 悦智网 ,作者 Samuel K. Moore
射频|相控阵|光电子测试测量研讨会-AI+测试
大财配资提示:文章来自网络,不代表本站观点。