綠色微晶片嵌入藍色印刷電路板

NPU 將成為 AI 晶片供應商的重要戰場。

主要 PC 市場中的玩家們正在爭奪 AI PC 定義的主導權。這場戰爭也延伸到了微軟和其他 OEM 廠商如何解讀這一定義。事實上,一台 AI PC 需要能夠在本地運行 AI 工作負載,無論是使用 CPU、GPU 還是神經處理單元(NPU)。微軟已經引入了 Copilot 按鍵,作為其計劃的一部分,結合 GPU、CPU 和 NPU 以及基於雲端的功能,以實現 Windows AI 體驗。

更大的現實是,AI 開發者和整個 PC 行業無法永遠依賴雲端運行 AI。更重要的是,本地 AI 計算對於可持續增長是必要的。雖然並非所有工作負載都相同,但 NPU 已成為許多新一代 AI 工作負載的新興熱門目標。

什麼是 NPU?

從本質上講,NPU 是一種專為 AI 工作負載加速而設計的專用加速器。這意味著它與 CPU 或 GPU 基本不同,因為它不運行操作系統或處理圖形,但在這些工作負載使用神經網絡加速時,它可以輕鬆協助。神經網絡嚴重依賴矩陣乘法任務,這意味著大多數 NPU 設計都能以極低功耗以大規模並行方式進行矩陣乘法。

GPU 也可以做到這一點,這也是它們在當今雲端神經網絡任務中非常流行的原因之一。然而,GPU 在完成這項任務時可能非常耗電,而 NPU 已經證明自己在功耗方面更為高效。簡而言之,NPU 能夠快速、高效地執行選定的 AI 任務,並適用於更持久的工作負載。

NPU 的演變

早期的一些 NPU 建設努力來自於神經形態計算領域,許多公司嘗試基於人腦和神經系統的架構構建處理器。然而,大多數這些努力最終未能成功,許多公司因此退出。其他努力則源於數字信號處理器(DSP)的演變,這些處理器最初是為了將聲音等模擬信號轉換為數字信號而創建的。包括賽靈思(現為 AMD 一部分)和高通在內的公司都採用了這一方法,將部分或全部 DSP 重新用作 AI 引擎。諷刺的是,高通在 2013 年就有一款名為 Zeroth 的 NPU,這款產品誕生得太早了。我在2016 年寫過關於其從專用硬件轉向軟件的轉變

DSP 的一個優勢是其傳統上具有高度可編程性,同時功耗極低。將這兩個優勢與矩陣乘法相結合,使得許多公司最終選擇了 NPU。我在早期與一家電子原型設計公司合作時,學到了很多關於德州儀器(TI)DSP 的知識,那是在 2000 年代中期。過去,賽靈思稱其 AI 加速器為 DPU,而英特爾則稱其為視覺處理單元,這是來自其收購低功耗 AI 加速器製造商 Movidius 的遺產。這些都有一個共同點,即它們都來自於設計來分析模擬信號(如聲音或圖像)並快速且以極低功耗處理這些信號的處理器。

高通的 NPU

至於高通,我親眼目睹了其從 Hexagon DSP 到 Hexagon NPU 的轉變,在此期間,公司不斷在每一代產品中投入增量改進。現在,高通的 NPU 已經強大到可以宣稱擁有 45 TOPS 的 AI 性能。事實上,早在 2017 年,高通就已經在談論 Hexagon DSP 內的 AI 性能,並且將其與 GPU 結合用於 AI 工作負載。雖然當年搭載的 Snapdragon 835 SoC 內的 Hexagon 682 並未宣稱任何性能,但 2018 年的 Snapdragon 845 包括了一個能夠提供 3 TOPS 的 Hexagon 685,這要歸功於一項名為 HVX 的技術。到 2019 年高通將 Hexagon 698 放入 Snapdragon 865 時,這個組件已不再被稱為 DSP,而是第五代“AI 引擎”,這意味著當前的 Snapdragon 8 Gen 3 和 Snapdragon X Elite 是高通的第九代 AI 引擎。

AI PC NPU 市場的其他玩家

並非所有的 NPU 都一樣。事實上,我們仍然無法完全了解每個人的 NPU 架構和運行速度,這讓我們無法完全比較它們。儘管如此,英特爾已經非常公開地談論了其代號為 Meteor Lake 的 Intel Core Ultra 型號中的 NPU。目前,蘋果的 M3 神經引擎提供 18 TOPS 的 AI 性能,而英特爾的 NPU 有 11 TOPS,AMD 的 Ryzen 8040(即 Hawk Point)中的 XDNA NPU 則有 16 TOPS。這些數字與高通的 Snapdragon X Elite 相比都顯得很低,後者僅 NPU 的 TOPS 就達到了 45,而整個系統的 TOPS 為 75。事實上,Meteor Lake 的整個系統 TOPS 為 34,而 Ryzen 8040 則為 39——這兩者都低於高通僅 NPU 的性能。雖然我預計英特爾和 AMD 會初步淡化 NPU 的角色,而高通則會強調其重要性,但看來這一市場將在今年年底到明年初變得更加有趣。

將應用程序從雲端轉移到 NPU

儘管 CPU 和 GPU 在 PC 中的日常使用中仍然非常重要,但 NPU 已成為行業內許多人關注的焦點,成為差異化的一個領域。一個未解的問題是 NPU 是否足夠重要以至於值得成為技術焦點,如果是,多少性能才足以提供良好的體驗?總體來看,我認為 NPU 及其 TOPS 性能已經成為 PC 部門中的一個主要戰場。如果考慮到有多少應用程序可能同時針對 NPU 並可能因性能不足而阻塞,這一點尤其重要。

鑑於 AI PC 中對 NPU 的高度關注,必須有應用程序利用該 NPU 來證明其存在的合理性。今天,大多數 AI應用程序都在雲端運行,因為那裡有大部分的 AI 計算能力。隨著更多這些應用程序從雲端轉向混合模型,對本地 NPU 的依賴將增加,以減少雲端的 AI 功能。此外,某些需要更高安全級別的應用程序將完全依賴本地計算,因為 IT 部門可能不允許數據離開本地設備。諷刺的是,我認為其中一個關鍵應用領域將是安全性,因為安全性傳統上是企業系統中最大的資源消耗者之一。

隨著時間的推移,更多的大型語言模型(LLM)和其他模型將以量化方式進行,以使它們在本地設備上的佔用空間更小,同時提高準確性。這將促使更多在設備上的 AI 擁有更好的本地數據上下文理解,並且以更低的延遲運行。此外,雖然一些 AI 應用最初將部署為混合應用,但仍有一些 IT 組織希望首先在設備上部署;這些應用的早期版本可能不會達到最佳優化,可能需要更多計算能力,從而推動對更高 TOPS 的 AI 晶片需求。

增長動力

然而,NPU 主導地位和重要性的競爭才剛剛開始。高通的 Snapdragon X Elite 預計將在今年年中推出時成為 NPU TOPS 的領導者,但它並不孤單。AMD 已經承諾在明年初推出的下一代 Strix Point Ryzen 處理器中提供 40 TOPS 的 NPU 性能,而在最近的 Vision 2024 會議上,英特爾聲稱其計劃在 2024 年第四季度推出的 Lunar Lake 晶片將達到 100 TOPS 的平台級 AI 性能。(回顧一下,高通的 Snapdragon X Elite 宣稱其 GPU、CPU 和 NPU 的綜合 TOPS 為 75。)雖然這並非官方消息,但業界普遍認為微軟要求其矽晶片供應商合作夥伴提供至少 40 TOPS 的 NPU AI 性能,以本地運行 Copilot。

需要注意的一點是,大多數公司顯然不會根據產品級別來調整其 NPU 性能;相反,各平台的 NPU 性能是相同的。這意味著開發者可以針對每個供應商的單一 NPU 進行開發,這對開發者來說是個好消息,因為優化 NPU 仍然是一項艱鉅的任務。幸運的是,有低階 API 如 DirectML 和包括 ONNX 在內的框架,希望可以減少開發者的負擔,使他們不必自行針對每種類型的 NPU 進行開發。儘管如此,我相信每個晶片供應商也會有自己的 API 和 SDK 集,可以幫助開發者更好地利用其 NPU 的性能和功耗優勢。

總結

NPU 正迅速成為尋求解決雲端 AI 計算成本和延遲問題的行業新焦點。雖然一些公司已經擁有高性能的 NPU,但 OEM 廠商使用至少 40 TOPS 的 NPU 的迫切需求非常明顯。將會有一個加速向本地 AI 轉移的過程,這可能會從混合應用和模型開始,並最終轉向主要依賴本地計算。這意味著在早期,一些平台的 NPU 重要性可能會較低,但擁有較低性能的 NPU 也可能會導致無法提供最佳的 AI PC 體驗。

關於完整的 AI PC 願景仍有很多未知數,特別是考慮到涉及的供應商眾多,但我聽說很多問題將在微軟五月底的 Build 大會上得到澄清。儘管如此,我相信 AI PC 的戰爭很可能會拖延到 2025 年,隨著更多晶片供應商和 OEM 採用更快、更強大的 NPU。