每一次的技術變革,都是推進科學探索、加速人類成長與改善生活的機會。Google暨Alphabet執行長Sundar Pichai相信Google現在目睹AI帶來的轉變,將會是Google一生中最深遠的變革,遠大於之前行動裝置或網路所帶來的轉變。AI有潛力為世界上的每一個人創造各種機會,從平凡到不凡。它將會大舉推進創新和經濟的進步,並以前所未有的規模驅動知識、學習、創造與生產力。而讓Sundar Pichai感到興奮的,是有機會讓AI為世界上的每個人帶來幫助。
Google展開以AI為優先的旅程已經將近第八個年頭,但是進程的速度才正要加快:數以百萬計的人每天都在Google的各種產品裡使用生成式AI,做到一年前做不到的事情,無論是替更複雜的問題尋找答案,或是用新的工具來協作和創造。與此同時,開發人員也正在使用Google的模型和基礎架構來打造新的生成式AI應用程式,而世界各地的新創和企業也透過Google的AI工具持續成長。
這樣的動能令人驚豔,但是,Google其實才正要開始探索這段旅程的各種可能性。
Google正以大膽且負責任的方式展開這項任務。這表示Google要有野心去研究,同時追求能力,可以為人類和Google的社會帶來極大益處,同時建立保障措施,並且與政府和專家合作,來應對隨著AI能力提高所帶來的風險。在AI原則的指導下,Google會繼續投資最好的工具、基礎模型和基礎設施,並將應用到Google和別人的產品。
現在,Google邁出下一步、繼續和Gemini的旅程;這是Google目前為止最強大、最通用的模型,在很多領先的基準測試裡都展現最先進的性能。Google的第一個版本、Gemini 1.0,有依照不同模型的大小進行最佳化:Ultra、Pro和Nano。這些是Gemini時代的第一批模型,也是Google第一次實現今年稍早成立Google DeepMind的願景。這些模型的新時代,是Google公司在科學和工程上最大的努力。Sundar Pichai真的對未來感到興奮,也期待Gemini會為世界各地的人們帶來的機會。
Gemini示範影片
Google Demind執行長Demis Hassabis,代表Gemini開發團隊分享
就跟Sundar Pichai很多鑽研AI的同事一樣,AI也一直都是Sundar Pichai工作的重心。從Sundar Pichai青少年的時候替電腦遊戲設計AI程式開始,一直到Sundar Pichai成為神經科學的研究者,在不斷地探討人類大腦運作的過程中,Sundar Pichai始終相信,如果能打造出更聰明的機器、並且加以善用,Google可以造福人類的方式,將會難以想像。
Google在Google DeepMind持續致力以負責任的方式,透過人工智慧AI為世界賦能。長久以來,Google的願景是根據人類理解世界、與世界互動的方式,建立新一代的AI模型,讓AI不再只是一個聰明的軟體,而是像專業的合作夥伴或是助手,變得更加實用、而且符合直覺。
如今,Google推出Google目前最強大、通用性最高的模型Gemini,也讓Google離這個願景更近了一步。Gemini是Google跨部門大型合作的成果,包括Google Research團隊的成員也參與其中。從一開始,Google就把Gemini設計為多模態的模式,讓Gemini能夠通用化,並流暢地理解、操作和結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊。Gemini也是Google至今推出最有彈性的模型,從資料中心到行動裝置的各種平台上,都能高效運行。而開發人員和企業客戶在使用AI構建和拓展業務的時候,Gemini的先進功能可以為他們帶來極大的幫助。
Google已經針對Gemini 1.0版本的模型進行了最佳化,並推出共三種不同的規模:Gemini Ultra:規模最大、功能最強大的模型,專為高度複雜的任務而設計。Gemini Pro:最適合擴展、橫跨各種類型的任務。Gemini Nano:處理裝置上的任務最有效率的模型。
最先進的性能
Google不斷對Gemini模型進行嚴格的測試,評估Gemini在處理各種任務上的表現。從理解自然圖像、音訊和視訊,到數學推理;Google發現Gemini Ultra在大型語言模型(LLM) 研究和開發中廣泛採用的32個學術基準測試中,有30個取得了超越了當前的最先進基準的效能。
Google透過32個在研究和開發大型語言模型(LLM)的時候會採用的學術基準,去測試Gemini Ultra從理解自然圖像、音訊和視訊到數學推理的表現,而從其中30個測試基準得到的結果,都超越目前最先進的模型。
在MMLU(大規模多任務語言理解;Massive Multitask Language Understanding)的測試裡,結合了包括數學、物理、歷史、法律、醫學和倫理學等57個主題,去測試模型對世界的理解還有解決問題的能力;而Gemini Ultra以90.04%的高得分,成為第一個在MMLU測試裡超越人類專家的模型。
Google新的MMLU衡量方法,讓Gemini能夠利用它的推理能力在回答難題前更仔細地思考,相比僅使用第一印象的評估方式有顯著進化。
Google採用MMLU當作基準測試的方法,讓Gemini能夠利用它的推理能力在回答難題前更仔細地思考,比起Gemini第一時間的反應有顯著的進步。
▲Gemini在文字和程式碼等多個測試面向中,超越了先進性能的基準。
新的MMMU基準測試包括了多模態的任務,跨越不同的領域,要完成的話需要刻意的去推理,而Gemini Ultra也在MMMU的基準測試裡得到59.4%的領先分數。
光學字元識別(Object Character Recognition, CR)系統,會協助模型從影像擷取出文字訊息,再近一步處理;但是在Google的圖像基準測試裡,Gemini Ultra在沒有使用OCR的情況下,還超越了先前的最先進模型。這些基準測試,突顯出Gemini原生多模態的特性,也初步展現了Gemini具備更複雜的推理能力。
▲Gemini在多項多模態基準測試中,展現出超越先進基準的性能。
新一代功能
到目前為止,打造多模態模型的標準方法,是針對不同的模態去訓練個別的元件,再把元件組合在一起,大致模擬出一部分的多模態功能。這些模型在執行某些任務的時候會表現很好,例如描述圖像,但在處理比較概念性或是比較複雜的推理時,就會比較有困難。
Google把Gemini設計成原生就是多模態的模型,一開始就在不同的模態上進行預先的訓練。接著,Google透過額外的多模態資料進行微調,進一步提升效能。這樣可以幫助Gemini從一開始就能順暢地理解和推理各種輸入的資訊,效能遠比現有的多模態模型來得好,並幾乎在所有的領域都展現出最先進的能力。
成熟的推理能力
Gemini 1.0成熟的多模態推理能力,有助於理解複雜的書面和視覺訊息,也因此使得Gemini具備了獨特的技能,可以從大量資料中整理出難以理解的知識。Gemini在閱讀、篩選和理解資訊方面的能力相當令人驚豔,能夠從數十萬份文件中擷取出觀點,能夠更快速地幫助許多領域帶來新的突破,從科學到金融都是。
理解文字、圖像、音訊等更多資訊
Gemini 1.0所受的訓練,是同時識別和理解文字、圖像和音訊等資訊,所以能進一步的理解更細微的資訊,並回答涉及複雜主題的問題。這也讓Gemini在解釋、推理像是數學和物理這樣複雜的問題上,表現特別出色。
進階的程式設計能力
Google第一個版本的Gemini能夠理解、解釋世界上最常用的程式語言,像是Python、Java、C++和Go,並且生成高品質的程式碼。能夠跨語言工作、解讀複雜資訊的能力,更讓Gemini成為世界數一數二的程式設計基礎模型。Gemini Ultra在幾個程式設計的基準測試中表現出色,包括程式設計業界衡量成效標準的HumanEval測試,以及Google自己的截留(held-out)驗證資料集,用的是程式設計者自己生成的來源,而不是來自網路的資訊。Gemini也可以當作引擎,來驅動更進階的程式生成系統。兩年前,Google推出了AlphaCode,是第一個在程式設計競賽當中能夠達到有競爭實力的AI程式碼生成系統。
透過一個專門版本的Gemini,Google建立了更進階的程式碼生成系統AlphaCode 2。這個系統除了擅長程式設計,還能處理和數學與理論電腦科學相關、複雜的競技程式設計的問題。
當與AlphaCode在相同的平台上進行評估時,AlphaCode 2展現出大幅度的進步,解決的問題數量幾乎是兩倍。Google評估AlphaCode 2的表現超過85%的參賽者,相較於AlphaCode只贏過50%左右的參賽者,有所提升。而且,如果程式設計師和AlphaCode 2協作,協助定義程式碼需要遵循的特定屬性時,表現甚至更好。
Google迫不及待看到程式設計師更多去使用性能強大的AI模型作為協作工具,讓這些模型幫助他們解讀問題、提出程式設計,並且在實作上進行協助,可以更快地發表應用程式、設計出更好的服務。
更可靠、更具可擴充性和更高效
Google透過AI最佳化的基礎架構,有規模的去訓練Gemini 1.0,而這個架構使用的是Google自行設計的Tensor Processing Unit(TPU)v4及v5e;而Google也把Gemini設計成最可靠、擴充能力最強的模型,同時把服務的效率提到最高。
和先前性能較低的小型模型相比,Gemini在TPU上執行的速度甚至高出許多。TPU是Google專門打造的AI加速器,運用在Google搜尋、YouTube、Gmail、Google地圖、Google Play和Android等採用AI技術的產品當中,服務數十億名使用者;此外,Gemini也讓全球許多企業能以經濟實惠的方式大規模的訓練AI模型。
今天,Google也宣布推出Cloud TPU v5p,這是Google到目前為止性能最佳、效率最高、擴充性最強的TPU系統,專為訓練頂尖AI模型所設計。新一代的TPU可以加快Gemini的發展,幫助開發人員和企業客戶更快的訓練大規模的生成式AI模型,因此能更早推出全新的產品和功能給客戶。
▲Google資料中心的一排Cloud TPU v5p AI加速器超級電腦。
安全建構,責任至上
Google致力以大膽且負責任的態度,推動先進的AI技術。在建構Gemini的過程中,除了遵循Google AI準則和Google針對各項產品嚴謹的安全政策,Google也考量到了Gemini多模態的能力,新增了相應防護措施,並在開發作業的每一個階段,考量潛在的風險,同時盡可能去測試、降低風險。
在截至目前Google所有的AI模型中,Gemini在偏誤、資料毒性(toxicity)等方面,都接受了最全面的安全性評估。在網路攻擊、說服能力和自主性等可能存在風險的領域,Google都進行了最新的研究,也運用Google Research團隊領先業界的對抗測試技巧,在部署Gemini前就率先找出關鍵的安全問題。
為了辨識出內部測試方法的盲點,Google也和許多不同背景的外部專家及夥伴合作,運用各式各樣的問題對模型進行壓力測試。
為了診斷模型的內容安全性,並確保輸出的內容符合Google的政策,Google在Gemini的各個訓練階段使用了不同的基準測試,包括真實有害指令提示(Real Toxicity Prompts),是由Allen Institute of AI的專家開發,從網路上集合了有害程度不一的10萬個指令提示。有關於這項工作的更多細節,Google將在未來逐步分享。
為限制AI造成的危害,Google打造專用的安全分類機制,可用來辨識、標籤及篩選內容,像是有關暴力或是負面刻板印象的內容。另外,搭配健全的篩選機制,Google能夠透過這種分層處理的方式,確保Gemini對每個人來說都更具安全性與包容性。而Google也會持續解決Google所知模型既有的挑戰,包括事實性、錨定、歸因和實證等領域。
在開發、部署AI模型的路上,堅持負責任並維護安全性,永遠都會是Google的核心要務。這樣長期的承諾需要同心協力,所以Google和業界及整個生態體系合作,希望能定義出有關安全方面的基準與最佳做法,並且和機構一起建立安全基準,包括MLCommons、Frontier Model Forum和他們設立的AI Safety Fund基金,還有Google的AI安全架構Secure AI Framework(SAIF)。Google設計SAIF的宗旨,就是希望能夠幫助公私部門降低AI系統的安全風險。同時,Google未來繼續開發Gemini的過程中,也會持續和全球的研究人員、政府及公民團體保持合作。
讓更多人能夠使用Gemini
Gemini 1.0將在Google的眾多產品與平台推出:
Gemini Pro導入Google產品
Google將在Google產品中導入Gemini,讓數十億人都能使用。
從今天起,Bard將使用專門調整的Gemini Pro模型,帶來更進階的邏輯推理、規劃與理解等能力。這將是Bard自推出以來,最大幅度的升級更新。
採用Gemini Pro模型的Bard將先以英文版本在超過170多個國家和地區提供使用,並預計在不久後開放其他模態應用,並持續拓展對於不同語言與地區的支援。
另外,Google也將把Gemini帶到Pixel裝置上。Pixel 8 Pro是第一款能夠運行Gemini Nano的智慧型手機,並透過Gemini支援全新功能,像是在錄音工具中提供摘要服務,以及Gboard中的智慧回覆。其中,Gboard智慧回覆將可以率先在WhatsApp使用,並將在明年持續拓展至更多即時通訊應用程式。
接下來幾個月,Gemini將整合至Google的更多核心產品與服務中,包括Google搜尋、廣告、Chrome瀏覽器以及Duet AI。
Google也開始嘗試在Google搜尋裡測試使用Gemini,可以讓Google生成式搜尋體驗(Search Generative Experience)的速度更快,在美國英文介面上的延遲會降低40%,品質也會提高。
用Gemini進行開發
從今年12/13開始,開發人員和企業客戶將可以透過Google AI Studio或Google Cloud Vertex AI中的Gemini API使用Gemini Pro。Google AI Studio是免付費的網頁型開發者工具,只要使用API金鑰,就能快速建立原型並發布應用程式。到了需要全代管AI平台的時候,則可以選擇使用Vertex AI對Gemini進行自訂設定,可以全權掌控資料,同時利用Google Cloud提供的額外功能,來維護企業的安全、保全、隱私、資料管理,並且符合規定。Android開發人員也可以透過AICore,在建構作業中運用Gemini Nano。以處理裝置端的任務而言,Gemini Nano是Google目前最有效率的模型,而AICore是適用於Android 14的最新系統功能,會率先在Pixel 8 Pro上推出。歡迎登記使用AICore的提前預覽版。
Gemini Ultra即將推出
在Gemini Ultra方面,Google目前仍在執行全方位的信任和安全檢查,例如透過Google信任的外部團隊進行攻擊演練,並透過專門調整的機制與人工回饋的強化式學習(Reinforcement Learning From Human Feedback, Lhf),在正式發布之前持續改良模型。
在調整的過程中,Google會開放特定客戶、開發人員、合作夥伴及安全專家使用Gemini Ultra,透過這樣的早期實驗收集意見回饋,然後在明年年初讓更多開發人員及企業客戶使用。明年年初,Google也會推出Bard Advanced,這是一個全新且最為先進的AI體驗,讓你能夠體驗Google最好的模型和效能,屆時就會是Gemini Ultra。
開啟Gemini世代:解鎖未來創新
在AI發展的進程中,Gemini是重大的里程碑;在Google持續快速創新、以負責任的方式提升模型效能的同時,Gemini為Google在AI的進程開啟了全新的時代。
Google在Gemini上面已經有長足的進步,同時也努力讓未來的版本能有更好的能力,包括提升規劃與記憶的功能,並且擴大模型參考的資訊範圍,提供更好的回應。
在負責任的AI幫助下,世界會有許多美好的可能,讓Google感到很興奮:這樣創新的未來會激發創意、拓展知識、促進科學進步,還能改變全球數十億人的生活和工作。
文章轉載自Google台灣部落格
延伸閱讀:
Apple推出搭載A17 Pro晶片、動作按鈕、USB-C的鈦金屬iPhone 15 Pro|15 Pro Max
Google Pixel 8 Pro搭載Gemini Nano模型成為首款內建AI的智慧型手機
野外露營車遊最佳供電夥伴 PHILIPS 600W儲能行動電源開箱動手玩
蘋果推出首批碳中和產品Apple Watch Series 9智慧型手錶