請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Google紀懷新:AI從被動變主動,超越搜尋和推薦

遠見雜誌

更新於 2025年06月10日09:52 • 發布於 2025年06月10日03:02 • 曾子軒

上篇。人工智慧(AI)的進步,帶動人機互動發生改變。原先分散、專用的模型逐漸彙整成單一模型,處理的輸入與輸出也從數值和文字,轉向聽力、視覺等多模態,AI已經看見人眼所見的世界。Google DeepMind研究副總裁紀懷新認為,人跟AI以後的介面、信任和透明度的問題,會和人際之間的互動愈來愈接近。

模型從分工到匯整,才能應對複雜環境

問:以前各個模型可以分別處理任務,模組化的分工明確,且容易解釋、方便控制。轉變成單一模型有哪些好處?

答:因為在不同情境下,有著不同應用。在工廠裡,若要重複把水瓶扶正,而且每個水瓶傾斜角度相同,這就不需要通用(general)模型處理問題。但如果要機器人在101的餐廳裡負責清潔,原先專用的模型很難達成。

你不可能把瓶子丟到垃圾桶一種程式、放在地上一種程式,如果水瓶是空的,又要另一種程式。你的確可以控制它、解釋它,但若真的要這樣處理,一定沒完沒了。

為什麽這麼多年過去,還沒辦法做好清潔環境的機器人?原因就是環境太過複雜,情境變動太大。

所以這個問題的根本在於,倘若環境可控,你當然可以分而治之,確保執行專門任務的模型維持穩健(robust)。但如果環境不可控,模型就要能適應不同環境

為什麼通用人工智慧能夠用通用稱呼?因為它能應對不同情境,進入新環境以後能夠辨識情況,並且在其中做出應對,這就是通用人工智慧的開始。

免費訂閱【科技趨勢報】👉專業主編導讀3篇文章,瞭解最新科技動態!

AGI要像人一樣聰明,就要結合系統一和系統二

問:不管是物理世界還是數位世界,包含資訊檢索(information retrieval)、機器人在內,聽起來AI逐漸幫人類完成更多系統二的任務?

答:我想延伸你這個問題,如果我們真的達到通用人工智慧的能力,機器人就像人一樣,它同時擁有系統一和系統二,要它替你讀文章以後摘要可以,撿垃圾也可以。我們現在致力於發展AI,就是希望能夠讓它不管是在虛擬世界裡面,還是物理世界裡面,都能擁有並結合系統一和系統二的能力。

台灣有很多長照問題,過幾年以後,如果有全能的機器人,它同時需要兩種系統。陪伴老人走路、幫助起居,帶路的時候知道路上有車子,也能判斷什麼時候要過馬路。

在虛擬世界裡面也一樣,我請它推薦高爾夫俱樂部,它應該有能力研究俱樂部有哪些特性,並且解釋給我聽,這是系統二的分析能力。我還希望它能看著我打高爾夫,告訴我哪裡沒做好,以後都有可能成真。

至於以後人跟機器人、人跟AI互動時,要把多少系統一或者系統二的任務交給機器人?這是人類應該討論,並擁有控制權的事情。

理解世界以後,AI助理往個人化邁進

問:您團隊平時在做的任務之一,在於改善搜尋與推薦系統底層的神經網絡和排序列表,讓結果的關聯性更高(relevant)。您提到讓基礎模型更加理解世界的努力,要如何回頭挹注到這些工作中?通用助理的目標函數同樣鎖定關聯性,還是提供更符合情境的結果?

答:我現在心裡一直在想的事情是,當我們擁有通用助理的時候,它到底要多個人化(personalized)。

我剛從美國回來台灣,個人化的助理應該知道我的喜好,但它不懂台灣。Google的通用助理也是一樣,它應該要知道這裡的脈絡,建議我去哪裡玩、到哪裡吃飯,這就是我們現在正在做的研究。未來搜尋和推薦,也會往這個方向演進,我們現在只是局限在搜尋和推薦裡,以後要達到真正的私人助理。

現在的手機介面裡,有許多不同應用程式,我要學會如何使用、掌握不同技能,才能感受到自己擁有私人助理,對年輕人來說,或許輕而易舉,但還是有些情境裡的問題並不容易。

再往前走,我認為可能有些事情不再需要應用程式,只要按個按鍵,就能直接對話。不用再搜尋「青年公園附近的高爾夫練習場有沒有停車場」,我現在要打很多字、自己整理這些資訊,以後的助理可以直接回答

把模型變小能放進裝置、加強語音回答速度、分配雲端與地端算力⋯⋯,Google在各項研究領域的努力,讓通用助理成為可能。曾子軒攝

把模型變小能放進裝置、加強語音回答速度、分配雲端與地端算力⋯⋯,Google在各項研究領域的努力,讓通用助理成為可能。曾子軒攝

通用助理從被動轉為主動,替人類解決問題

問:先前恰好跟人聊過這個題目,跟單純把介面從文字與列表換成聲音比較,聽起來差別在於個人化嗎?還有哪些挑戰?

答:對,但不只是這樣。

我向個人化的助理說想練習打高爾夫球,它會推薦青年公園給我,並感知到我正在開車,因此告訴我附近的停車情況。如果我沒有在開車,它也會建議我可以搭Uber過去。它不再是被動(reactively)回應我的詢問,而是主動(proactively)幫助你。

我現在要去Google地圖搜尋停車場,然後看有沒有人幫忙上傳每個停車場的收費標準照片,自己再來比較。希望以後私人助理只要收到問題,就能幫忙做完所有研究。

以目標函數來說,它不只是要更能了解你現在的情境,還要想出很多辦法解決你遇到的問題。它不是被動而是主動,知道怎麼結合不同資訊以便解決問題,這是它的智慧能力所在。

現在你找高爾夫球場,都是要自己去搜尋、自己挑選結果、自己解決問題,接下來要讓它直接幫你解決問題,這也是Agent(代理)的概念所在。

若說挑戰,難在它要學會使用不同工具解決問題。我希望以後的Agent可以自己到Google地圖上找停車場、自己讀照片、尋找收費標準,再把這些資訊彙整給我,就像一個真正的私人助理做的事情。

我們現在距離這件事情已經很近了。以前我會覺得,這聽起來很像天方夜譚,即便是一年前,也還覺得很吃力。現在覺得,三到五年內就會成真。是啊,為什麼不會呢?

所以,我們整個產業都會遇上衝擊。手機的介面留在應用程式的階段嗎?我們的眼鏡會多普及?如果有人不願意戴眼鏡怎麼辦?是有智慧的耳機,還是其他穿戴的裝置?手錶是否會繼續演進?這都是還沒解答的問題。

AI理解世界的下一步,要理解人與世界的關聯

問:當下還沒辦法實現通用助理,還有哪些挑戰尚未克服?

答:我認為最難的、至今我花很多時間研究的,還是在個人化。

為什麽我們叫私人助理?我舉個例子,公司剛好有一位助理懷孕休假,要請人代理一陣子,就花了兩到三週訓練這位新的助理。一個人需要花這樣的時間,訓練另一個人來做私人助理的工作,個人化的議題跟難度就在這個地方。再以伴侶之間為例,對方知道你的喜好,他們也很了解你,但剛認識的時候也需要時間磨合,才有這些認識。

我們在做的個人化,可以這樣描述:要先讓AI能了解這個世界、融入到世界裡面,這只是一部分而已。下一個階段,就是在融入世界以後,了解你和世界之間的關聯(connection)。之前有點像是,人一直使用機器,藉著機器跟世界互動。再往前走,變成機器跟著你,幫你觀察所環境、在旁輔助你。他不是很一般普遍(generic)的東西,而是很個人化的。

我們手機裡下載很多應用程式,我拿你的手機來用,有很多地方不方便,你用哪些易用程式、放在哪邊,都是你個人化的方法。以後個人化以後的模型,能知道你的喜好、了解你的脈絡,甚至還會不斷感知你的環境,知道你在101、外面在下雨。

人跟AI的關係,和人際關係愈來愈像

問:Gemini可以讀兩百萬個符元(token),現在把Gmail、YouTube觀看紀錄全部餵進Gemini就能實現嗎?

答:個人化有好幾個層次。第一是要先有資訊存在,有沒有可以讓你個人化的東西。有了資訊以後,第二個是要知道怎麼使用。再往下,第三個還有信任的問題。你要怎麼維持跟伴侶之間的關係?你願意讓對方看你所有的電子信、所有照片嗎?這是信任的問題。彼此之間的互動界線要如何維持,就像你跟助理、跟伴侶之間維繫關係一樣複雜。

以後的私人助理很不一樣,更接近人與人之間的互動,人跟AI以後的介面、信任和透明度的問題,會和人際之間的互動愈來愈接近。從輸入、輸出去看這些問題,是從大數據的角度思考,我想指出另一條道路,也是因為這樣,我們才會用心理學的方法思考應該如何研究,我認為,這是最有遠見的視角。

後記:AI理解世界、連結虛實,步步接近人類

在今年的Google I/O上,Google執行長皮蔡(Sundar Pichai)介紹一系列產品的AI革新。背後貫穿的軸線,是智慧(intelligence)、代理(agent)和個人化(personlization)三件大事。

模型的智慧提升,讓代理的實現成為可能。再加上原先的通路如地圖、搜尋和YouTube,服務使用者過程中累積的偏好和脈絡,讓Google有辦法更理解消費者,也是Google力壓競爭對手的本錢。

今年的Google I/O上,Google執行長皮蔡(Sundar Pichai)介紹一系列產品的AI革新。曾子軒攝

今年的Google I/O上,Google執行長皮蔡(Sundar Pichai)介紹一系列產品的AI革新。曾子軒攝

在Google DeepMind裡服務的紀懷新,則是從科學研究角度,分享他對於人機互動典範轉移的想法。因為Sequence to Sequence、Transformer等技術推進,讓AI進化到有辦法和人類來回互動,帶動ChatGPT、Claude等對話式AI服務浮出水面。

改變過程中,人類與機器的互動,從行為、形式到介面,都在發生變化。

用戶從花心思想關鍵字,到不動腦日常談話

過程中,人類將更多主動權交給AI。

行為上,使用者從費盡心思發想關鍵字,轉變到不用太動腦的日常談話,需要深入思考的任務改由AI負責。形式上,資訊也從搜尋列表,轉變成讓人閱讀的段落,從傳統搜尋到AI Overview再到AI Mode就是不斷往摘要形式、替使用者統整結果的方向進行。介面上,在原先筆電、手機螢幕以外,開始有更多類型的資訊載體出現,不管是失敗的AI Pin,還是讓人能戴得長遠的手錶,又或者是發展歷史悠久的耳機,以及近兩年捲土重來的眼鏡,都有著豐富想像空間。

人工智慧的進步,帶動人機互動發生改變,又回過頭來推進底層AI模型的進步。原先分散、專用的模型逐漸彙整成單一模型,處理的輸入與輸出也從數值和文字,轉向聽力、視覺等多模態,AI已經看見人眼所見的世界。

再從多模態往下推進,擴張模型可以掌握的資訊,延伸的範疇如地點、時間、偏好和意圖,還有尺度如空間、因果和時間,模型不滿足於看見,更要理解世界的運作法則。

回歸到Google業務,理解脈絡的下一步,就是皮蔡所說的個人化。因為懂得使用者的核心需求,AI將不滿足於理解情境,更要結合散落於世界的資訊,替使用者解決問題。

模型將進化為Agent,先是理解並融入世界,從扮演虛擬與現實世界的介面開始,穿梭其間。再下一步,AI就要了解人類跟世界如何建立起連結,從被動變成主動,超越過往搜尋和推薦所做。

但歸根結底,仍是替使用者組織資訊,只是規模和野心更為宏大。

「在Google 內部,搜尋、廣告、YouTube,包括搜尋和推薦,⋯⋯都是由單一類型的神經網路實現的,⋯⋯你們正在實現一個排序函數。所以,使用者探索的基礎,就是使用列表作為通用的使用者介面。」這是去年在工作坊演講中,紀懷新向資訊領域的碩士、博士們分享的小祕密。

然而,從最底層的排序函數開始,一切都即將迎來巨大改變,AI將徹底重塑人機互動,帶來典範轉移。而改變,只是剛開始。

更多精采報導,歡迎加入《遠見》 Line官方帳號!

延伸閱讀:

查看原始文章

更多理財相關文章

01

輝達暴跌近5.5% 市值一夕蒸發2590億美元

anue鉅亨網
02

證交所再出手!5檔股票遭處置 IC載板大廠也入列

EBC 東森新聞
03

〈美股早盤〉AI疑慮與PPI偏強拖累 主要指數開低

anue鉅亨網
04

養出「理財有道」的孩子,這些父母從小教這4件事

商周.com
05

台積大客戶換人!輝達超車蘋果 最燒錢「美國廠」大賺161億原因找到了

工商時報
06

砸20億狂掃23棟透天! 大墩路地王現身「拼千坪大都更」

ETtoday新聞雲
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...