揭開輝達Blackwell GPU設計引發業界關注的原因,深入探討其所面臨的挑戰。

Nvidia Blackwell GPU 面臨的技術挑戰

過熱問題

  • 在高密度伺服器機架中,當安裝72個處理器時會出現嚴重過熱現象
  • 每個機架的功耗高達120kW,產生大量熱量
  • 過熱問題導致GPU性能下降,並有可能損壞硬體組件

封裝技術挑戰

  • 使用台積電的CoWoS-L封裝技術來連接兩個晶片
  • 晶片之間的熱膨脹特性不匹配,導致系統變形和故障
  • 為解決此問題,Nvidia不得不修改GPU矽晶的頂層金屬層和凸塊結構

時程延遲影響

  • 由於設計缺陷,量產時程被迫延後至2024年10月底
  • 預計2025年1月底才能開始出貨
  • 延遲影響Google、Meta和Microsoft等主要客戶的部署計畫

商業影響

  • 每台完整伺服器機架售價超過300萬美元
  • Nvidia計劃銷售6-7萬台完整伺服器
  • 任何進一步延遲都可能對公司造成巨大財務影響

Nvidia 如何處理 Blackwell GPU 的過熱問題

Nvidia 應對 Blackwell GPU 過熱的解決方案

伺服器機架重新設計

  • 與供應商合作進行多次機架設計修改
  • 針對72個處理器同時運作的散熱需求進行優化
  • 改善機架內部的熱量分散和散熱效率

封裝技術改進

  • 修改GPU矽晶片的頂層金屬層結構
  • 調整凸塊(bump)結構以提高生產可靠性
  • 優化LSI橋接器的精確定位,以確保10 TB/s的數據傳輸速度

散熱系統升級

  • 重新評估120kW功耗下的散熱需求
  • 開發新的散熱解決方案以防止組件損壞
  • 與主要雲服務供應商合作進行標準化改進

效能優化措施

  • 調整處理器運行參數以平衡性能和發熱
  • 實施更嚴格的溫度監控機制
  • 開發智能功耗管理系統以動態調節性能

Nvidia 是否有其他解決方案來減少 Blackwell GPU 的熱量

Blackwell GPU 散熱解決方案分析

目前主要冷卻方案

  • 採用液冷技術作為主要散熱方案,預計在2024年底液冷滲透率將達到10%
  • 針對不同型號採用混合冷卻方式:
    • NVL36架構使用空氣和液冷混合冷卻
    • NVL72則主要採用液冷系統

液冷系統組件

  • 冷卻板(Cold Plates)
  • 冷卻液分配單元(CDU)
  • 分流管(Manifolds)
  • 快速接頭(QDs)
  • 後門熱交換器(RDHx)

合作夥伴解決方案

  • CoolIT Systems提供:
    • AHx240和AHx180液冷系統
    • OMNI冷卻板配備Split-Flow技術
    • 專為GB200 Grace Blackwell超級晶片優化
  • Supermicro開發:
    • 資料中心級液冷解決方案
    • 支援最高45°C溫水冷卻
    • 可處理單機架100kW以上發熱量

目前面臨挑戰

  • 72個處理器的伺服器系統出現過熱問題
  • 每機架功耗高達120kW
  • NVIDIA正在與供應商合作進行多次設計修改以解決過熱問題

Nvidia 的客戶對 Blackwell GPU 的延遲有什麼反應

主要客戶反應

Meta、Google、Microsoft等主要客戶對Blackwell GPU的延遲表現出明顯的擔憂,主要體現在以下幾個方面:

交付時程影響

  • 客戶擔心沒有足夠時間籌備和啟動新的資料中心
  • 新產品研發計劃和發布時程受到影響
  • 原定第二季發貨的計劃已延後至明年1月底

替代方案考慮

  • 有雲端運算公司高層表示,正考慮購買更多當前一代的Hopper晶片作為替代方案
  • 客戶需要重新評估其AI模型訓練的部署計劃

技術隱憂

  • 在72個處理器的服務器配置中出現嚴重過熱問題
  • 每個機架功耗高達120千瓦的情況下,存在硬體損壞風險
  • 性能受限制,可能影響其最強大AI模型的訓練效果

市場影響

  • Nvidia股價因此消息受到影響,上週五下跌3.26%
  • 全球近90%的AI晶片市場仍由Nvidia控制,客戶仍在積極爭取GB200系統

是否有其他技術來處理 AI 晶片過熱問題

散熱技術概述

散熱技術主要可分為被動式和主動式兩大類:

被動式散熱

  • 輻射冷卻
  • 熱傳導
  • 熱對流
  • 散熱片(Heat Sink)
  • 熱管(Heat Pipe)

主動式散熱

  • 風扇冷卻
  • 液冷系統
  • 混合式散熱

創新散熱解決方案

硬體設計

  • 中央散熱器設計:透過中央散熱板集中管理系統熱量
  • 三明治結構:採用銅鋁夾層設計增加散熱效率
  • 液態金屬散熱:使用導熱性極佳的液態金屬作為散熱介質

軟體控制

  • 動態主動式溫度管理(PDTM):根據溫度預測提前控制系統溫度
  • 自適應強化學習:即時調整節流比例優化散熱效果
  • 線上熱模擬:在開發早期階段分析散熱情況

散熱效果優化

熱設計驗證

  • 使用熱模擬軟體進行分析
  • 紅外熱影像系統檢測
  • 熱設計功能測試

效益

  • 提升系統性能
  • 延長設備壽命
  • 提高可靠性
  • 降低故障風險

超微伺服器液冷特色

核心優勢

  • 支援高達250kW機架容量,可容納72個NVIDIA Blackwell GPU和32個NVIDIA Grace CPU
  • 採用自主研發的冷卻分配單元(CDU)和客製化冷板設計
  • 從概念驗證到全面部署的一站式服務,提供完整液冷生態系統

創新設計

  • 採用先進的機架內或機架間冷卻分配單元
  • 為NVIDIA GB200 NVL72平台開發專用1U冷板設計
  • 支援最高113°F (45°C)的暖水冷卻技術

效能提升

  • 可將數據中心冷卻用電減少高達40%
  • 自2024年6月以來已出貨超過2000個液冷機架
  • 將部署時間從數月縮短至數週

管理功能

  • 整合SuperCloud Composer軟體進行全方位管理
  • 提供液冷諮詢模組(LCCM)優化運營成本
  • 即時監控壓力、濕度、泵閥狀態等關鍵資訊

未來展望

  • 預計到2026年,液冷數據中心將從目前的1%增長到30%
  • 持續開發更高效能和更環保的冷卻解決方案
  • 專注於支援下一代AI運算需求

Supermicro的液冷系統在實際應用中有哪些成功案例

Supermicro液冷系統應用實績

大規模AI工廠部署

  • 成功部署超過100,000個NVIDIA GPU的液冷解決方案
  • 自2024年6月以來已出貨超過2000個液冷機架
  • 支援每機架高達250kW的散熱能力

效能提升案例

  • 冷卻基礎設施用電減少89%
  • 整體數據中心用電降低40%
  • 噪音水平降低55%
  • PUE值達到低於1.1的優異表現

空間優化成效

  • 節省80%的空間需求
  • 免除傳統CRAC/CRAH空調設備
  • 每個48U機架可容納64個1000W NVIDIA Blackwell GPU
  • 支援16個500W CPU同時運作

創新應用

  • 支援最高45°C的暖水冷卻
  • 廢熱可再利用於區域供暖和溫室
  • 透過SuperCloud Composer軟體實現即時監控和優化
  • 部署時間從數月縮短至數週
技術整合優勢

全方位解決方案

  • 提供從概念驗證到全面部署的一站式服務
  • 整合自主研發的冷卻分配單元
  • 客製化冷板設計
  • 完整的管理軟體支援

Supermicro的液冷解決方案在能效比上如何優於其他解決方案

Supermicro液冷系統效能優勢

節能效果

  • 相較傳統風冷系統可降低冷卻用電高達40%
  • 整體數據中心PUE值可達到1.1以下
  • 冷卻系統本身耗電僅占總功耗的3%,遠低於風冷產品的15%

散熱效率

  • 支援每機架高達250kW的散熱能力
  • 可支援45°C高溫供液,實現全年自然冷卻
  • 運算密度較空氣冷卻提升一倍
技術創新特點

系統整合

  • 自主研發冷卻分配單元(CDU)
  • 客製化冷板設計
  • 完整的管理軟體支援

運行表現

  • 運作噪音僅約30dB,適合辦公環境
  • N+1冗餘泵送系統確保高可用性
  • 部署時間從數月縮短至數週
實際應用成效

大規模部署

  • 已成功部署超過100,000個NVIDIA GPU的液冷方案
  • 自2024年6月以來已出貨超過2000個液冷機架
  • 支援最高72個NVIDIA Blackwell GPU和32個NVIDIA Grace CPU