Gemma 3n 手機上的AI

Google 在 5 月 20 日在其開發者部落格中發表了全新開放模型 Gemma 3n 的預覽版,這是一款專為手機、平板和筆電等裝置打造的高效能 AI 模型,旨在推動「行動優先」的 AI 發展。
根據部落格內容,Gemma 3n有幾個重點:

1. 行動裝置上的高效能 AI

Gemma 3n 採用與 Gemini Nano 相同的架構,支援在僅有 2GB 或 3GB RAM 的裝置上運行,提供與 2B 或 4B 模型相當的效能。

2. 多模態理解能力

Gemma 3n 支援文字、影像和音訊的多模態輸入,能夠進行語音辨識、翻譯,以及更深入的視訊理解,並可處理交錯的多模態輸入。

3. 靈活的模型架構

透過 MatFormer 訓練方法,Gemma 3n 的 4B 模型內建一個 2B 子模型,允許開發者根據需求在效能與品質之間動態調整。

4. 隱私優先與離線運作

Gemma 3n 支援在本地裝置上運行,強調用戶隱私,並能在無網路連線的情況下穩定運作。

5. 多語言支援

在多語言基準測試中,Gemma 3n 在日語、德語、韓語、西班牙語和法語等語言上展現出色的表現。

筆者還沒使用過,整理Hacker News上的討論重點給大家參考:

社群討論觀點整理

1. 在手機上運行的可行性與效能

用戶反映模型在不同裝置上的效能差異顯著。 例如,在 Pixel 4a 上處理一張圖片需時超過 10 分鐘,而在較新的 Galaxy Z Fold 4 上,效能有明顯提升。

2. GPU 加速的重要性

將運算從 CPU 切換至 GPU 可顯著提升效能,縮短回應時間並加快生成速度。

3. 模型大小與記憶體使用

透過逐層嵌入技術,模型能以較少的記憶體運行,適用於資源有限的裝置

4. 模型的準確性與實用性

雖然模型在某些任務中表現良好,但用戶指出其在處理複雜查詢時的限制,需進一步優化。

5. 開源與社群支持

模型的開源性促進社群實驗,並有望整合至各種應用中。

筆者看法:

手機跑邊緣AI的日子不遠了~大家覺得還多久哩?

發佈留言