揭開輝達Blackwell GPU設計引發業界關注的原因,深入探討其所面臨的挑戰。
Nvidia Blackwell GPU 面臨的技術挑戰
過熱問題
- 在高密度伺服器機架中,當安裝72個處理器時會出現嚴重過熱現象
- 每個機架的功耗高達120kW,產生大量熱量
- 過熱問題導致GPU性能下降,並有可能損壞硬體組件
封裝技術挑戰
- 使用台積電的CoWoS-L封裝技術來連接兩個晶片
- 晶片之間的熱膨脹特性不匹配,導致系統變形和故障
- 為解決此問題,Nvidia不得不修改GPU矽晶的頂層金屬層和凸塊結構
時程延遲影響
- 由於設計缺陷,量產時程被迫延後至2024年10月底
- 預計2025年1月底才能開始出貨
- 延遲影響Google、Meta和Microsoft等主要客戶的部署計畫
商業影響
- 每台完整伺服器機架售價超過300萬美元
- Nvidia計劃銷售6-7萬台完整伺服器
- 任何進一步延遲都可能對公司造成巨大財務影響
Nvidia 如何處理 Blackwell GPU 的過熱問題
Nvidia 應對 Blackwell GPU 過熱的解決方案
伺服器機架重新設計
- 與供應商合作進行多次機架設計修改
- 針對72個處理器同時運作的散熱需求進行優化
- 改善機架內部的熱量分散和散熱效率
封裝技術改進
- 修改GPU矽晶片的頂層金屬層結構
- 調整凸塊(bump)結構以提高生產可靠性
- 優化LSI橋接器的精確定位,以確保10 TB/s的數據傳輸速度
散熱系統升級
- 重新評估120kW功耗下的散熱需求
- 開發新的散熱解決方案以防止組件損壞
- 與主要雲服務供應商合作進行標準化改進
效能優化措施
- 調整處理器運行參數以平衡性能和發熱
- 實施更嚴格的溫度監控機制
- 開發智能功耗管理系統以動態調節性能
Nvidia 是否有其他解決方案來減少 Blackwell GPU 的熱量
Blackwell GPU 散熱解決方案分析
目前主要冷卻方案
- 採用液冷技術作為主要散熱方案,預計在2024年底液冷滲透率將達到10%
- 針對不同型號採用混合冷卻方式:
- NVL36架構使用空氣和液冷混合冷卻
- NVL72則主要採用液冷系統
液冷系統組件
- 冷卻板(Cold Plates)
- 冷卻液分配單元(CDU)
- 分流管(Manifolds)
- 快速接頭(QDs)
- 後門熱交換器(RDHx)
合作夥伴解決方案
- CoolIT Systems提供:
- AHx240和AHx180液冷系統
- OMNI冷卻板配備Split-Flow技術
- 專為GB200 Grace Blackwell超級晶片優化
- Supermicro開發:
- 資料中心級液冷解決方案
- 支援最高45°C溫水冷卻
- 可處理單機架100kW以上發熱量
目前面臨挑戰
- 72個處理器的伺服器系統出現過熱問題
- 每機架功耗高達120kW
- NVIDIA正在與供應商合作進行多次設計修改以解決過熱問題
Nvidia 的客戶對 Blackwell GPU 的延遲有什麼反應
主要客戶反應
Meta、Google、Microsoft等主要客戶對Blackwell GPU的延遲表現出明顯的擔憂,主要體現在以下幾個方面:
交付時程影響
- 客戶擔心沒有足夠時間籌備和啟動新的資料中心
- 新產品研發計劃和發布時程受到影響
- 原定第二季發貨的計劃已延後至明年1月底
替代方案考慮
- 有雲端運算公司高層表示,正考慮購買更多當前一代的Hopper晶片作為替代方案
- 客戶需要重新評估其AI模型訓練的部署計劃
技術隱憂
- 在72個處理器的服務器配置中出現嚴重過熱問題
- 每個機架功耗高達120千瓦的情況下,存在硬體損壞風險
- 性能受限制,可能影響其最強大AI模型的訓練效果
市場影響
- Nvidia股價因此消息受到影響,上週五下跌3.26%
- 全球近90%的AI晶片市場仍由Nvidia控制,客戶仍在積極爭取GB200系統
是否有其他技術來處理 AI 晶片過熱問題
散熱技術概述
散熱技術主要可分為被動式和主動式兩大類:
被動式散熱
- 輻射冷卻
- 熱傳導
- 熱對流
- 散熱片(Heat Sink)
- 熱管(Heat Pipe)
主動式散熱
- 風扇冷卻
- 液冷系統
- 混合式散熱
創新散熱解決方案
硬體設計
- 中央散熱器設計:透過中央散熱板集中管理系統熱量
- 三明治結構:採用銅鋁夾層設計增加散熱效率
- 液態金屬散熱:使用導熱性極佳的液態金屬作為散熱介質
軟體控制
- 動態主動式溫度管理(PDTM):根據溫度預測提前控制系統溫度
- 自適應強化學習:即時調整節流比例優化散熱效果
- 線上熱模擬:在開發早期階段分析散熱情況
散熱效果優化
熱設計驗證
- 使用熱模擬軟體進行分析
- 紅外熱影像系統檢測
- 熱設計功能測試
效益
- 提升系統性能
- 延長設備壽命
- 提高可靠性
- 降低故障風險
超微伺服器液冷特色
核心優勢
- 支援高達250kW機架容量,可容納72個NVIDIA Blackwell GPU和32個NVIDIA Grace CPU
- 採用自主研發的冷卻分配單元(CDU)和客製化冷板設計
- 從概念驗證到全面部署的一站式服務,提供完整液冷生態系統
創新設計
- 採用先進的機架內或機架間冷卻分配單元
- 為NVIDIA GB200 NVL72平台開發專用1U冷板設計
- 支援最高113°F (45°C)的暖水冷卻技術
效能提升
- 可將數據中心冷卻用電減少高達40%
- 自2024年6月以來已出貨超過2000個液冷機架
- 將部署時間從數月縮短至數週
管理功能
- 整合SuperCloud Composer軟體進行全方位管理
- 提供液冷諮詢模組(LCCM)優化運營成本
- 即時監控壓力、濕度、泵閥狀態等關鍵資訊
未來展望
- 預計到2026年,液冷數據中心將從目前的1%增長到30%
- 持續開發更高效能和更環保的冷卻解決方案
- 專注於支援下一代AI運算需求
Supermicro的液冷系統在實際應用中有哪些成功案例
Supermicro液冷系統應用實績
大規模AI工廠部署
- 成功部署超過100,000個NVIDIA GPU的液冷解決方案
- 自2024年6月以來已出貨超過2000個液冷機架
- 支援每機架高達250kW的散熱能力
效能提升案例
- 冷卻基礎設施用電減少89%
- 整體數據中心用電降低40%
- 噪音水平降低55%
- PUE值達到低於1.1的優異表現
空間優化成效
- 節省80%的空間需求
- 免除傳統CRAC/CRAH空調設備
- 每個48U機架可容納64個1000W NVIDIA Blackwell GPU
- 支援16個500W CPU同時運作
創新應用
- 支援最高45°C的暖水冷卻
- 廢熱可再利用於區域供暖和溫室
- 透過SuperCloud Composer軟體實現即時監控和優化
- 部署時間從數月縮短至數週
技術整合優勢
全方位解決方案
- 提供從概念驗證到全面部署的一站式服務
- 整合自主研發的冷卻分配單元
- 客製化冷板設計
- 完整的管理軟體支援
Supermicro的液冷解決方案在能效比上如何優於其他解決方案
Supermicro液冷系統效能優勢
節能效果
- 相較傳統風冷系統可降低冷卻用電高達40%
- 整體數據中心PUE值可達到1.1以下
- 冷卻系統本身耗電僅占總功耗的3%,遠低於風冷產品的15%
散熱效率
- 支援每機架高達250kW的散熱能力
- 可支援45°C高溫供液,實現全年自然冷卻
- 運算密度較空氣冷卻提升一倍
技術創新特點
系統整合
- 自主研發冷卻分配單元(CDU)
- 客製化冷板設計
- 完整的管理軟體支援
運行表現
- 運作噪音僅約30dB,適合辦公環境
- N+1冗餘泵送系統確保高可用性
- 部署時間從數月縮短至數週
實際應用成效
大規模部署
- 已成功部署超過100,000個NVIDIA GPU的液冷方案
- 自2024年6月以來已出貨超過2000個液冷機架
- 支援最高72個NVIDIA Blackwell GPU和32個NVIDIA Grace CPU