AI PC 戰爭的核心：NPU

NPU 將成為 AI 晶片供應商的重要戰場。

主要 PC 市場中的玩家們正在爭奪 AI PC 定義的主導權。這場戰爭也延伸到了微軟和其他 OEM 廠商如何解讀這一定義。事實上，一台 AI PC 需要能夠在本地運行 AI 工作負載，無論是使用 CPU、GPU 還是神經處理單元（NPU）。微軟已經引入了 Copilot 按鍵，作為其計劃的一部分，結合 GPU、CPU 和 NPU 以及基於雲端的功能，以實現 Windows AI 體驗。

更大的現實是，AI 開發者和整個 PC 行業無法永遠依賴雲端運行 AI。更重要的是，本地 AI 計算對於可持續增長是必要的。雖然並非所有工作負載都相同，但 NPU 已成為許多新一代 AI 工作負載的新興熱門目標。

什麼是 NPU？

從本質上講，NPU 是一種專為 AI 工作負載加速而設計的專用加速器。這意味著它與 CPU 或 GPU 基本不同，因為它不運行操作系統或處理圖形，但在這些工作負載使用神經網絡加速時，它可以輕鬆協助。神經網絡嚴重依賴矩陣乘法任務，這意味著大多數 NPU 設計都能以極低功耗以大規模並行方式進行矩陣乘法。

GPU 也可以做到這一點，這也是它們在當今雲端神經網絡任務中非常流行的原因之一。然而，GPU 在完成這項任務時可能非常耗電，而 NPU 已經證明自己在功耗方面更為高效。簡而言之，NPU 能夠快速、高效地執行選定的 AI 任務，並適用於更持久的工作負載。

NPU 的演變

早期的一些 NPU 建設努力來自於神經形態計算領域，許多公司嘗試基於人腦和神經系統的架構構建處理器。然而，大多數這些努力最終未能成功，許多公司因此退出。其他努力則源於數字信號處理器（DSP）的演變，這些處理器最初是為了將聲音等模擬信號轉換為數字信號而創建的。包括賽靈思（現為 AMD 一部分）和高通在內的公司都採用了這一方法，將部分或全部 DSP 重新用作 AI 引擎。諷刺的是，高通在 2013 年就有一款名為 Zeroth 的 NPU，這款產品誕生得太早了。我在2016 年寫過關於其從專用硬件轉向軟件的轉變。

DSP 的一個優勢是其傳統上具有高度可編程性，同時功耗極低。將這兩個優勢與矩陣乘法相結合，使得許多公司最終選擇了 NPU。我在早期與一家電子原型設計公司合作時，學到了很多關於德州儀器（TI）DSP 的知識，那是在 2000 年代中期。過去，賽靈思稱其 AI 加速器為 DPU，而英特爾則稱其為視覺處理單元，這是來自其收購低功耗 AI 加速器製造商 Movidius 的遺產。這些都有一個共同點，即它們都來自於設計來分析模擬信號（如聲音或圖像）並快速且以極低功耗處理這些信號的處理器。

高通的 NPU

至於高通，我親眼目睹了其從 Hexagon DSP 到 Hexagon NPU 的轉變，在此期間，公司不斷在每一代產品中投入增量改進。現在，高通的 NPU 已經強大到可以宣稱擁有 45 TOPS 的 AI 性能。事實上，早在 2017 年，高通就已經在談論 Hexagon DSP 內的 AI 性能，並且將其與 GPU 結合用於 AI 工作負載。雖然當年搭載的 Snapdragon 835 SoC 內的 Hexagon 682 並未宣稱任何性能，但 2018 年的 Snapdragon 845 包括了一個能夠提供 3 TOPS 的 Hexagon 685，這要歸功於一項名為 HVX 的技術。到 2019 年高通將 Hexagon 698 放入 Snapdragon 865 時，這個組件已不再被稱為 DSP，而是第五代“AI 引擎”，這意味著當前的 Snapdragon 8 Gen 3 和 Snapdragon X Elite 是高通的第九代 AI 引擎。

AI PC NPU 市場的其他玩家

並非所有的 NPU 都一樣。事實上，我們仍然無法完全了解每個人的 NPU 架構和運行速度，這讓我們無法完全比較它們。儘管如此，英特爾已經非常公開地談論了其代號為 Meteor Lake 的 Intel Core Ultra 型號中的 NPU。目前，蘋果的 M3 神經引擎提供 18 TOPS 的 AI 性能，而英特爾的 NPU 有 11 TOPS，AMD 的 Ryzen 8040（即 Hawk Point）中的 XDNA NPU 則有 16 TOPS。這些數字與高通的 Snapdragon X Elite 相比都顯得很低，後者僅 NPU 的 TOPS 就達到了 45，而整個系統的 TOPS 為 75。事實上，Meteor Lake 的整個系統 TOPS 為 34，而 Ryzen 8040 則為 39——這兩者都低於高通僅 NPU 的性能。雖然我預計英特爾和 AMD 會初步淡化 NPU 的角色，而高通則會強調其重要性，但看來這一市場將在今年年底到明年初變得更加有趣。

將應用程序從雲端轉移到 NPU

儘管 CPU 和 GPU 在 PC 中的日常使用中仍然非常重要，但 NPU 已成為行業內許多人關注的焦點，成為差異化的一個領域。一個未解的問題是 NPU 是否足夠重要以至於值得成為技術焦點，如果是，多少性能才足以提供良好的體驗？總體來看，我認為 NPU 及其 TOPS 性能已經成為 PC 部門中的一個主要戰場。如果考慮到有多少應用程序可能同時針對 NPU 並可能因性能不足而阻塞，這一點尤其重要。

鑑於 AI PC 中對 NPU 的高度關注，必須有應用程序利用該 NPU 來證明其存在的合理性。今天，大多數 AI應用程序都在雲端運行，因為那裡有大部分的 AI 計算能力。隨著更多這些應用程序從雲端轉向混合模型，對本地 NPU 的依賴將增加，以減少雲端的 AI 功能。此外，某些需要更高安全級別的應用程序將完全依賴本地計算，因為 IT 部門可能不允許數據離開本地設備。諷刺的是，我認為其中一個關鍵應用領域將是安全性，因為安全性傳統上是企業系統中最大的資源消耗者之一。

隨著時間的推移，更多的大型語言模型（LLM）和其他模型將以量化方式進行，以使它們在本地設備上的佔用空間更小，同時提高準確性。這將促使更多在設備上的 AI 擁有更好的本地數據上下文理解，並且以更低的延遲運行。此外，雖然一些 AI 應用最初將部署為混合應用，但仍有一些 IT 組織希望首先在設備上部署；這些應用的早期版本可能不會達到最佳優化，可能需要更多計算能力，從而推動對更高 TOPS 的 AI 晶片需求。

增長動力

然而，NPU 主導地位和重要性的競爭才剛剛開始。高通的 Snapdragon X Elite 預計將在今年年中推出時成為 NPU TOPS 的領導者，但它並不孤單。AMD 已經承諾在明年初推出的下一代 Strix Point Ryzen 處理器中提供 40 TOPS 的 NPU 性能，而在最近的 Vision 2024 會議上，英特爾聲稱其計劃在 2024 年第四季度推出的 Lunar Lake 晶片將達到 100 TOPS 的平台級 AI 性能。（回顧一下，高通的 Snapdragon X Elite 宣稱其 GPU、CPU 和 NPU 的綜合 TOPS 為 75。）雖然這並非官方消息，但業界普遍認為微軟要求其矽晶片供應商合作夥伴提供至少 40 TOPS 的 NPU AI 性能，以本地運行 Copilot。

需要注意的一點是，大多數公司顯然不會根據產品級別來調整其 NPU 性能；相反，各平台的 NPU 性能是相同的。這意味著開發者可以針對每個供應商的單一 NPU 進行開發，這對開發者來說是個好消息，因為優化 NPU 仍然是一項艱鉅的任務。幸運的是，有低階 API 如 DirectML 和包括 ONNX 在內的框架，希望可以減少開發者的負擔，使他們不必自行針對每種類型的 NPU 進行開發。儘管如此，我相信每個晶片供應商也會有自己的 API 和 SDK 集，可以幫助開發者更好地利用其 NPU 的性能和功耗優勢。

總結

NPU 正迅速成為尋求解決雲端 AI 計算成本和延遲問題的行業新焦點。雖然一些公司已經擁有高性能的 NPU，但 OEM 廠商使用至少 40 TOPS 的 NPU 的迫切需求非常明顯。將會有一個加速向本地 AI 轉移的過程，這可能會從混合應用和模型開始，並最終轉向主要依賴本地計算。這意味著在早期，一些平台的 NPU 重要性可能會較低，但擁有較低性能的 NPU 也可能會導致無法提供最佳的 AI PC 體驗。

關於完整的 AI PC 願景仍有很多未知數，特別是考慮到涉及的供應商眾多，但我聽說很多問題將在微軟五月底的 Build 大會上得到澄清。儘管如此，我相信 AI PC 的戰爭很可能會拖延到 2025 年，隨著更多晶片供應商和 OEM 採用更快、更強大的 NPU。