ChatGPT全球大當機,讓許多愛用AI的人哀嚎不已。一些網友也發現,或許可轉用最強敵手Google才剛推出的新模型Gemini 2.0。大師吳恩達曾預言,AI 代理(Agent)將是下一波大趨勢。Google在本週宣布旗艦模型Gemini進入第二代,更新上的最大重點,便是今年下半年的熱門詞彙Agent。Google執行長皮蔡表示,Gemini 2.0將開啟全新的「代理時代」(Agentic era),不只能夠理解多變的世界,還能夠主動執行任務,像個真正的助手那樣為你完成工作。Gemini 2.0 如何使用?官網在哪?也在此文詳解。
「過去一年裡,我們投入於開發更具有代理能力的模型,⋯⋯更理解周遭世界、提前多個步驟思考,在人的監督下採取行動,」Google執行長皮蔡(Sundar Pichai)介紹Gemini 2.0之前,如此描述推進模型的背後願景。
從聊天、對話,一路進化到提升生產力,這次Gemini的更新,Google的主線則是AI Agent,希望能夠離AI Agent幫助人類的理想更近一步。
Google在今年5月的I/O大會上介紹Project Astra,這次(12月)推出Gemini 2.0強推Agent能力,便是先前鋪墊累積出的成果。取自Google YouTube。
Gemini 2.0的最大重點,就是AI Agent
「Gemini 2.0的效能更為強大,」Google DeepMind 產品管理總經理多西(Tulsee Doshi)如此開場。或許是因為所有基礎模型的發佈會上,都會聽到對於模型表現的種種宣稱,多西很快將重點拉回最重要的AI Agent上。
雖然AI Agent喊聲震天,但很多應用仍在概念驗證階段,Gemini 2.0試圖挑戰這個現狀。
從被動提供協助,到自主採取行動,這是AI助手(assistant)與AI代理(agent)的最大差異,但兩者之間的鴻溝並不容易跨越,想要符合AI Agent的定義,要有辦法制定計畫、具備記憶力,又可以調用工具,並且能夠感知環境,發展成產品還有回覆速度和運算成本等挑戰。
AI Agent堪稱今年下半年最常出現在科技相關發表會的重要趨勢。曾子軒攝。
可整合Google搜尋是加分
多西強調,Gemini 2.0專為代理時代打造,在推理能力上有所提升,有辦法處理更複雜的任務,也加進工具使用的能力,例如整合Google搜尋、執行程式碼;此外,在理解環境上,作為原生的多模態模型,可以產出文字、聲音與圖像,且將更多編輯與控制權交給開發者。
同時,Google也持續推進對長文本的追逐,還有降低模型回覆的延遲、處理複雜指令並提升規劃能力等。值得注意的是,Gemini 2.0還支援影像串流、即時音訊,將有機會顛覆更多現有商業場景,尤其是涉及客戶服務的領域。
作為底層模型,想要發揮其功力,關鍵還是把Gemini 2.0部署到Google的產品之中,Google將會從本週開始,在Google的生成式AI搜尋功能AI概覽(AI Overview)中測試Gemini 2.0,藉此應對更複雜的搜尋意圖。
「如果說Gemini 1.0的重點是組織與理解資訊,那麼Gemini 2.0的重點就是讓這些資訊變得更加有用。」皮蔡對AI的想法始終沒變,他沒有淌入AGI到來與否的渾水,把目光放在如何讓AI幫上忙,而開發者和消費者正在等待他的話語兌現。
Agent 用在哪?Google 也攻網路瀏覽、程式開發
面向開發者與消費者的Gemini,背後有基礎研究團隊努力向前。以研究型專案Project Astra(星辰計畫)來說,Google試圖讓人看見他們是如何將抽象的AI能力,轉化為生活中的應用。
「Astra的核心原則就是讓Agent有了眼睛、耳朵和聲音後,能夠『看見』這個世界。」參與Project Astra的Google DeepMind 產品群經理徐碧波分享。
這次Google展示與Claude電腦使用(computer use)功能相似、能夠瀏覽網路的Project Mariner(航行者計畫),因為能夠閱讀網頁上的文字、圖片等資訊,因此更容易根據使用者指示完成工作。
Google同時還嘗試了陪伴人們玩遊戲的AI Agent,以及程式開發協作工具Jules。
因為Agent的多模態理解能力提升,可以看懂玩家的遊玩畫面,因此可以陪伴玩家,甚至提供策略建議。
Google原先就有程式碼撰寫助手Gemini Code Assistant,本次則進一步更新。取自Google官網。
就類似GitHub Copilot的Jules來說,已經與GitHub整合,因此開發者能夠在軟體開發過程中與之協作。舉例而言,工程師辨識出某個專案裡的待解的大量問題,或者有不少程式碼需要修整,這時就可以派出Jules自主訂定計畫,修正並處理這些程式碼,平常人類能夠監控進度,最後Jules提交成果後再審查程式碼。
支援Gemini,Google也推第六代TPU
為了支援Gemini 2.0的訓練與運算,Google也正式推出第六代TPU Trillium。Google表示,Trillium在訓練效能、推理吞吐量和能源效率方面都有提升,Gemini 2.0便是以Trillium訓練而成。
「Agent的確是個流行語,但我認為大家都意識到我們有大型語言模型,現在每個人都在試圖找出它能為用戶做些什麼,」徐碧波表示,現在LLM能夠藉著加強的推理能力採取行動,也串接外部工具,Google以網頁擴充功能亮相的Project Mariner,就是嘗試讓LLM幫上人們的方向之一。
當眾人都在探索Agent的落地應用,坐擁多元產品與大量用戶的Google從先天就有優勢。不過,從研究沈澱為產品功能需要時間,而Gemini尚且不是市場中最亮的一顆星,在這場極限生存戰中,Google還會往哪些方向邁進?所有人都睜大雙眼,看這位科技巨人,如何迎接新創和其他巨頭們的兇狠襲擊。
Gemini 2.0哪裡可以用?
若想體驗Gemini 2.0,即日起(12/12)開發者已經可以透過企業生成式平台Vertex AI、測試環境Google AI Studio:https://aistudio.google.com/
取用測試版(Gemini 2.0 Flash Experimental)。
讓開發者測試不同模型與指令的Google AI Studio上,已經有Gemini 2.0 Flash測試版可以選擇。取自Google AI Studio對話頁面
一般使用者則能夠在Google的對話式AI服務Gemini(與模型同名):https://gemini.google.com/
選擇Gemini 2.0使用。只要打開對話頁面,點開左上角模型版本的下拉式選單,就能找到上面寫著「最新實驗版本」的Gemini 2.0。
面向消費者的Gemini除了預設的Gemini 1.5 Flash,也能見到測試中的Gemini 2.0 Flash。取自Gemini對話頁面
延伸閱讀:
留言 0