DeepMind 揭祕 Gemma 4 開放模型,多模態能力搭 Apache 2.0 授權易採用
Gemma 是 Google 旗下一系列輕量級開放模型(open model),已經來到第四代 Gemma 4,採用與 Gemini 模型同樣的研究和技術開發而成,而 Gemma 模型總下載量已突破 5 億次。
Google DeepMind 開發者體驗負責人 Omar Sanseviero 日前解析 Gemma 4 指出,Gemma 4 擁有多模態能力,能夠理解文字、圖片、影片及音訊,例如可在圖片指出物件位置、進行物件偵測等,支援超過 140 種語言,甚至能結合多語言和多模態的能力。
推理是模型擁有複雜思考的能力,例如解決困難問題或進行多步驟推理。Gemma 4 將推理納入訓練核心,因此性能更強大。同時它能高效使用 token,不需要生成過多 token 就能得到正確答案。對開發者而言相當重要,代表更低的功耗、更低的成本。
Gemma 4 還有一項重大變化在於授權,從 Google 原本的自訂授權方式改為 Apache 2.0 授權,是一種常見的開源軟體授權條款,降低門檻使開發者更容易採用。
Google 為 Gemma 4 推出 E2B(Effective 2B)、E4B(Effective 4B)、26B A4、31B 四種多功能版本。其中,E2B 和 E4B 擁有針對手機或邊緣運算設備最佳化的架構。26B A4 支援混合專家(Mixture of Experts)架構,雖然這版模型有 260 億參數,每次只有 40 億參數會被啟動或觸發,能讓模型在地端執行既快速又高效。
搭配一款名為 Google AI Edge Gallery 的 App(目前上架 Google Play 和 App Store),Omar Sanseviero 示範由 Gemma 4 驅動的應用,例如產生可運算數學方程式的計算機、辨識照片中的景色為何處,Gemma 4 能在離線環境處理這些請求,至於像是查詢天氣資訊等應用,可透過 API 呼叫相關服務來處理。
Omar Sanseviero 強調使用 Gemma 4 不需要最新、最強大或最昂貴的設備,它適用於手機等行動裝置或進行邊緣運算的設備。他分享有研究人員使用舊版 Gemma,實際運用在偵測森林中瀕臨絕種動物是否存在,這樣的環境模型不需要連網也能運作。
Omar Sanseviero 說明,開發者如果想使用最新功能、最強模型,可以選擇 Gemini 模型。然而想在模型某些設定上有更多控制、更大彈性、或者支援離線使用 Gemma 開放模型將是首選。
(首圖來源:Google Blog)