趁ChatGPT當機？Google推Gemini 2一次看

ChatGPT全球大當機，讓許多愛用AI的人哀嚎不已。一些網友也發現，或許可轉用最強敵手Google才剛推出的新模型Gemini 2.0。大師吳恩達曾預言，AI 代理（Agent）將是下一波大趨勢。Google在本週宣布旗艦模型Gemini進入第二代，更新上的最大重點，便是今年下半年的熱門詞彙Agent。Google執行長皮蔡表示，Gemini 2.0將開啟全新的「代理時代」（Agentic era），不只能夠理解多變的世界，還能夠主動執行任務，像個真正的助手那樣為你完成工作。Gemini 2.0 如何使用？官網在哪？也在此文詳解。

「過去一年裡，我們投入於開發更具有代理能力的模型，⋯⋯更理解周遭世界、提前多個步驟思考，在人的監督下採取行動，」Google執行長皮蔡（Sundar Pichai）介紹Gemini 2.0之前，如此描述推進模型的背後願景。

從聊天、對話，一路進化到提升生產力，這次Gemini的更新，Google的主線則是AI Agent，希望能夠離AI Agent幫助人類的理想更近一步。

Google在今年5月的I/O大會上介紹Project Astra，這次（12月）推出Gemini 2.0強推Agent能力，便是先前鋪墊累積出的成果。取自Google YouTube。

Gemini 2.0的最大重點，就是AI Agent

「Gemini 2.0的效能更為強大，」Google DeepMind 產品管理總經理多西（Tulsee Doshi）如此開場。或許是因為所有基礎模型的發佈會上，都會聽到對於模型表現的種種宣稱，多西很快將重點拉回最重要的AI Agent上。

雖然AI Agent喊聲震天，但很多應用仍在概念驗證階段，Gemini 2.0試圖挑戰這個現狀。

從被動提供協助，到自主採取行動，這是AI助手（assistant）與AI代理（agent）的最大差異，但兩者之間的鴻溝並不容易跨越，想要符合AI Agent的定義，要有辦法制定計畫、具備記憶力，又可以調用工具，並且能夠感知環境，發展成產品還有回覆速度和運算成本等挑戰。

AI Agent堪稱今年下半年最常出現在科技相關發表會的重要趨勢。曾子軒攝。

可整合Google搜尋是加分

多西強調，Gemini 2.0專為代理時代打造，在推理能力上有所提升，有辦法處理更複雜的任務，也加進工具使用的能力，例如整合Google搜尋、執行程式碼；此外，在理解環境上，作為原生的多模態模型，可以產出文字、聲音與圖像，且將更多編輯與控制權交給開發者。

同時，Google也持續推進對長文本的追逐，還有降低模型回覆的延遲、處理複雜指令並提升規劃能力等。值得注意的是，Gemini 2.0還支援影像串流、即時音訊，將有機會顛覆更多現有商業場景，尤其是涉及客戶服務的領域。

作為底層模型，想要發揮其功力，關鍵還是把Gemini 2.0部署到Google的產品之中，Google將會從本週開始，在Google的生成式AI搜尋功能AI概覽（AI Overview）中測試Gemini 2.0，藉此應對更複雜的搜尋意圖。

「如果說Gemini 1.0的重點是組織與理解資訊，那麼Gemini 2.0的重點就是讓這些資訊變得更加有用。」皮蔡對AI的想法始終沒變，他沒有淌入AGI到來與否的渾水，把目光放在如何讓AI幫上忙，而開發者和消費者正在等待他的話語兌現。

Agent 用在哪？Google 也攻網路瀏覽、程式開發

面向開發者與消費者的Gemini，背後有基礎研究團隊努力向前。以研究型專案Project Astra（星辰計畫）來說，Google試圖讓人看見他們是如何將抽象的AI能力，轉化為生活中的應用。

「Astra的核心原則就是讓Agent有了眼睛、耳朵和聲音後，能夠『看見』這個世界。」參與Project Astra的Google DeepMind 產品群經理徐碧波分享。

這次Google展示與Claude電腦使用（computer use）功能相似、能夠瀏覽網路的Project Mariner（航行者計畫），因為能夠閱讀網頁上的文字、圖片等資訊，因此更容易根據使用者指示完成工作。

Google同時還嘗試了陪伴人們玩遊戲的AI Agent，以及程式開發協作工具Jules。

因為Agent的多模態理解能力提升，可以看懂玩家的遊玩畫面，因此可以陪伴玩家，甚至提供策略建議。

Google原先就有程式碼撰寫助手Gemini Code Assistant，本次則進一步更新。取自Google官網。

就類似GitHub Copilot的Jules來說，已經與GitHub整合，因此開發者能夠在軟體開發過程中與之協作。舉例而言，工程師辨識出某個專案裡的待解的大量問題，或者有不少程式碼需要修整，這時就可以派出Jules自主訂定計畫，修正並處理這些程式碼，平常人類能夠監控進度，最後Jules提交成果後再審查程式碼。

支援Gemini，Google也推第六代TPU

為了支援Gemini 2.0的訓練與運算，Google也正式推出第六代TPU Trillium。Google表示，Trillium在訓練效能、推理吞吐量和能源效率方面都有提升，Gemini 2.0便是以Trillium訓練而成。

「Agent的確是個流行語，但我認為大家都意識到我們有大型語言模型，現在每個人都在試圖找出它能為用戶做些什麼，」徐碧波表示，現在LLM能夠藉著加強的推理能力採取行動，也串接外部工具，Google以網頁擴充功能亮相的Project Mariner，就是嘗試讓LLM幫上人們的方向之一。

當眾人都在探索Agent的落地應用，坐擁多元產品與大量用戶的Google從先天就有優勢。不過，從研究沈澱為產品功能需要時間，而Gemini尚且不是市場中最亮的一顆星，在這場極限生存戰中，Google還會往哪些方向邁進？所有人都睜大雙眼，看這位科技巨人，如何迎接新創和其他巨頭們的兇狠襲擊。

Gemini 2.0哪裡可以用？

若想體驗Gemini 2.0，即日起（12/12）開發者已經可以透過企業生成式平台Vertex AI、測試環境Google AI Studio：https://aistudio.google.com/

取用測試版（Gemini 2.0 Flash Experimental）。

讓開發者測試不同模型與指令的Google AI Studio上，已經有Gemini 2.0 Flash測試版可以選擇。取自Google AI Studio對話頁面

一般使用者則能夠在Google的對話式AI服務Gemini（與模型同名）：https://gemini.google.com/

選擇Gemini 2.0使用。只要打開對話頁面，點開左上角模型版本的下拉式選單，就能找到上面寫著「最新實驗版本」的Gemini 2.0。

面向消費者的Gemini除了預設的Gemini 1.5 Flash，也能見到測試中的Gemini 2.0 Flash。取自Gemini對話頁面

更多精采報導，歡迎加入《遠見》 Line官方帳號！

請更新您的瀏覽器

理財

遠見雜誌

Gemini 2.0的最大重點，就是AI Agent

可整合Google搜尋是加分

Agent 用在哪？Google 也攻網路瀏覽、程式開發

支援Gemini，Google也推第六代TPU

Gemini 2.0哪裡可以用？