高通驅動增強終端側生成式AI體驗的技術：多模態生成式AI

利用生成式AI模型中的更多模態實現跨用例的情境化和定製化

改善情境化和定製化一直是用戶體驗的長期需求。例如，消費者希望終端能夠自動利用來自智能手機數據和感測器的情境資訊和自定義偏好，讓體驗更直觀和無縫，比如基於當前位置、時刻和食物選擇偏好推薦餐廳用餐，創造愉悅體驗。

儘管生成式AI已展現出新興的和變革性的能力，但其仍有很大改進空間。類似多模態生成式AI等這樣的技術可應對生成式AI更加情境化和定製化的體驗趨勢。

多模態AI模型能夠更好地理解世界

大語言模型(LLM)為純文本訓練模型帶來了驚艷的能力。如果模型能夠支持包含更多知識的不同資訊形式，能帶來怎樣的提升呢？

人類能夠通過語言和閱讀文字學到很多東西，但也需要通過各種感官和互動形成對世界的理解：

● 我們的眼睛讓我們能夠看到球在傾斜地面上滾動的場景，以及當球滾到沙發後面會如何消失。

● 我們的耳朵可以識別語音中的情緒或警報聲來源的方向。

● 我們與世界的接觸和互動讓我們知道如何用手握住泡沫塑料咖啡杯，以及如何在走路時避免摔倒。

類似的例子不勝枚舉。

儘管語言可以描述幾乎所有這些事情，但它可能不如其他模態做得那麼好或那麼高效。

正如人類需要利用各種感官學習，生成式AI除了利用文本之外還可以使用更多其他模態學習：這正是多模態生成式AI模型的作用所在。

多模態生成式AI模型可基於一系列模態進行訓練，包括文本、圖像、語音、音頻、影片、3D、激光雷達(LIDAR)、射頻(RF)、以及幾乎任何感測器數據。

通過利用所有這些感測器，融合數據，並更全面地理解世界，多模態生成式AI模型可以提供更佳答案。AI研究人員已經做到了這一點，他們利用不同模態的一系列數據在雲端訓練多模態大模型(LMM)，讓模型更「智能」。OpenAI GPT-4V和Google Gemini就是這類LMM。

這能給用戶帶來什麼？舉例來說，LMM可以充當通用助手，接收任何模態的輸入，為更廣泛的問題類型提供大幅改進的答案。比如基於複雜的停車標誌回答用戶可否停車，或基於振動噪音回答用戶該如何修理洗碗機故障。

下一步，部署LMM進行推理：儘管生成式AI推理可在雲端運行，但在邊緣終端側運行有著諸多好處，比如隱私、可靠性、成本效益和即時性。

例如，感測器和相應的感測器數據來源於邊緣終端，因此在終端側處理和保存數據更具成本效益和可擴展性。

終端側LLM現在具備視覺理解能力

高通AI研究近期Demo了全球首個在Android手機上運行的多模態LLM。我們展示了一個超過70億參數的大語言和視覺助理大模型(LLaVA)，其可接受包括文本和圖像在內的多種類型的數據輸入，並生成關於圖像的多輪對話。通過全棧AI優化，LLaVA能夠在搭載第三代驍龍8移動平台的參考設計上以即時響應的速度在終端側生成token。

具有語言理解和視覺理解能力的LMM能夠賦能諸多用例，例如識別和討論複雜的視覺圖案、物體和場景。

例如，視覺AI助手可以幫助視力障礙者更好地理解周圍環境並與之互動，從而提高生活質量。