邁向 Gemini 2.0!Gemini 2.0 Flash 新模型登場,為 AI 代理設計
2023 年 12 月 6 日 Google 推出 Gemini 模型,並期望超越競爭對手 OpenAI 及當時主力產品 GPT-4。一年過後,Google 宣布邁向「Gemini 2.0」,向能夠獨立完成複雜任務的 AI 代理(Agent)邁進。
全新 Gemini 2.0 Flash 做為實驗模型,開放給所有 Gemini 用戶。它建立在 Gemini 1.5 Flash 基礎上,速度為 2 倍。除接受多模態輸入外,它支援多模態輸出,例如原生生成圖像與文字混合、可操控的文字轉語音(text-to-speech)多語言音訊;它還能原生呼叫 Google 搜尋、執行程式碼及第三方用戶定義函數等工具。Gemini 2.0 Flash 現在透過 Google AI Studio 和 Vertex AI 中的 Gemini API 開放給開發者。
Gemini 2.0 Flash 計劃先融入聊天機器人 Gemini 和 Google 搜尋當中。Gemini 模型產品負責人 Tulsee Doshi 認為,Gemini 新功能可使能夠思考、記憶、計劃甚至代表你採取行動的 AI 代理成為可能。
Google 推出一項名為「深度研究」(Deep Research)新功能,使用高階推理和長篇脈絡功能充當研究助理,探索複雜的主題、代替你撰寫報告,即日起在 Gemini Advanced 可使用。
Google 也將 Gemini 2.0 高階推理功能導入AI 總覽(AI Overviews),解決更複雜的提問,包括數學方程式、多模態查詢以及編寫程式碼等,本週開始進行少部分測試,預計明年初擴大推出。同時明年繼續把 AI 總覽引進更多國家、支援更多語言。
AI 代理的實際應用可幫助人們完成任務,是令人期待的研究領域,Google 計劃透過一系列原型產品探索此一領域,包括 Project Astra、Project Mariner 及 Jules 等。
值得一提的是,Google 專為 AI 打造的加速器 TPU(Tensor Processing Unit)為 Gemini 2.0 訓練和推理提供 100% 支援,現在第六代 TPU Trillium 正式提供 Google Cloud 客戶使用。
這一年來,Google 推動 Gemini 1.0 和 Gemini 1.5 系列模型,在多模態和內容脈絡取得重要進展,能夠理解文字、圖片、影片、音訊及程式碼中的訊息,進而處理更多資訊。緊接著 AI 代理將成下一波趨勢,Google 提出 Gemini 2.0 因應未來需求。
Gemini 2.0, Google’s newest flagship AI, can generate text, images, and speech
Google Gemini 2.0: Could this be the beginning of truly autonomous AI?
(首圖來源:Google Blog)