
Google 在 5 月 20 日在其開發者部落格中發表了全新開放模型 Gemma 3n 的預覽版,這是一款專為手機、平板和筆電等裝置打造的高效能 AI 模型,旨在推動「行動優先」的 AI 發展。
根據部落格內容,Gemma 3n有幾個重點:
1. 行動裝置上的高效能 AI
Gemma 3n 採用與 Gemini Nano 相同的架構,支援在僅有 2GB 或 3GB RAM 的裝置上運行,提供與 2B 或 4B 模型相當的效能。
2. 多模態理解能力
Gemma 3n 支援文字、影像和音訊的多模態輸入,能夠進行語音辨識、翻譯,以及更深入的視訊理解,並可處理交錯的多模態輸入。
3. 靈活的模型架構
透過 MatFormer 訓練方法,Gemma 3n 的 4B 模型內建一個 2B 子模型,允許開發者根據需求在效能與品質之間動態調整。
4. 隱私優先與離線運作
Gemma 3n 支援在本地裝置上運行,強調用戶隱私,並能在無網路連線的情況下穩定運作。
5. 多語言支援
在多語言基準測試中,Gemma 3n 在日語、德語、韓語、西班牙語和法語等語言上展現出色的表現。
筆者還沒使用過,整理Hacker News上的討論重點給大家參考:
社群討論觀點整理
1. 在手機上運行的可行性與效能
用戶反映模型在不同裝置上的效能差異顯著。 例如,在 Pixel 4a 上處理一張圖片需時超過 10 分鐘,而在較新的 Galaxy Z Fold 4 上,效能有明顯提升。
2. GPU 加速的重要性
將運算從 CPU 切換至 GPU 可顯著提升效能,縮短回應時間並加快生成速度。
3. 模型大小與記憶體使用
透過逐層嵌入技術,模型能以較少的記憶體運行,適用於資源有限的裝置
4. 模型的準確性與實用性
雖然模型在某些任務中表現良好,但用戶指出其在處理複雜查詢時的限制,需進一步優化。
5. 開源與社群支持
模型的開源性促進社群實驗,並有望整合至各種應用中。
筆者看法:
手機跑邊緣AI的日子不遠了~大家覺得還多久哩?