請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

生成式AI開啟人機互動典範轉移!Google DeepMind研究副總裁紀懷新解析

遠見雜誌

更新於 2025年06月10日03:01 • 發布於 2025年06月06日11:46 • 曾子軒

無論是推薦系統或搜尋引擎,Google藉著連結、排序和發現,組織世上資訊為人所用。進入生成式AI時代,人機互動從行為、形式到介面,都出現劇變,Google DeepMind研究副總裁紀懷新表示,整個產業正面臨巨大變革。他看見哪些改變?這場典範轉移會如何展開?

「整個價值3000億至5000億美元的網路市場,其秩序和結構,都是由排序函數決定的。⋯⋯我相信它即將經歷一次巨大的變革。」

說出這句話的,是Google DeepMind研究副總裁紀懷新(Ed Chi)。他所在的團隊,致力於改善Google包含搜尋和推薦在內的排序函數,每年能貢獻高達90億美元營收。

去年,他在學術界頂尖會議「大規模影片推薦系統」(Large-Scale Video Recommender Systems)的工作坊演講中,向聽眾大膽宣稱,Google所在的整個產業,將從營收最核心的排序函數開始發生劇變。

包含底層的基礎模型演進方向,以及消費者直接感受到的人機互動介面與形式,機器正在從理解世界開始,進一步捕捉世界與人類的關聯。《遠見》專訪紀懷新,聽這位傑出科學家分享他所瞥見的世界。

以下是《遠見》專訪紀懷新的精華摘要,分成上下兩篇呈現:

註:採訪時中英夾雜,下方皆用中文呈現,並適度加上原文幫助理解。

傳統搜尋退位,AI接手更多系統二任務

問:Google替世人組織資訊的願景得以實現,主要建立在排序和搜尋函數上。在今年的Google I/O上,我們看到Project Astra落地成為現實,隨著它愈發成熟,將會如何改變搜尋和推薦?

答:這個問題的深度,在於Google所處的整個產業正在改變。

從搜尋到對話式的服務,我們可以看到機器與人之間的互動已經發生變化。

從心理學的角度來看,人們在尋找資訊時,共有兩種系統在運作。第一個是系統一,你看到事情當下,馬上就知道這是正確的答案,一些推薦系統就是這樣,像是YouTube的Shorts,思考參與的非常少。

不過,在搜尋裡,也偶爾會有系統一。比如我今天來101,在Google地圖上查前往101的路線,大部分人是去購物中心,它給的路線是往左邊走,我一看就知道不對,知道應該要去101辦公大樓,這就是系統一的快速思考。

得到正確答案以後,你仔細看著路線,認為走那條路比較近、比較正確,這是系統二。所以,人在找資訊的時候,快速辨識跟慢速思考,其實會有混合的系統(mixed system)。

在機器與人之間互動的研究領域可以看到,以前,人們要做更多系統二的處理。你要思考怎麼寫搜尋關鍵字,花時間理解搜尋結果中的每個網頁,能否回答自己的問題,又能否真正滿足你真正的搜尋意圖,這些都要深入思考。

現在往前走,機器跟人之間的工作分配已經發生改變。包含AI Overview和AI Mode,都會幫你做好分析與摘要,以對話式的搜尋完成。除非使用者需要非常細節的資訊,才會採用傳統搜尋。

所以,這兩種系統未來會怎樣結合?Google搜尋引擎會怎樣演化?我認為現在仍在探索階段,尚未出現定論,大概要這兩到三年,才會有明確方向。

從列表轉成摘要,人機互動形式和介面都改變

問:現有搜尋結果是以列表(list)呈現,它的好處是很有效率,可以一目了然的掌握資訊,還能按照關聯性、日期等因素排序。轉變成摘要以後是否缺乏效率?列表是否會就此消失?

答:列表的好處在於,它已經把結構(structure)顯示在你的面前。為什麼我們看簡報時很喜歡列點?因為它更容易替你將概念歸納成一個又一個句子。對照之下,對話通常以段落的形式顯示,使用者處理資訊時,需要閱讀,而閱讀是很費力的。

我們現在之所以使用列表,還有對話時以段落呈現,最根本的原因在於,我們與機器的互動介面(interface)還是以螢幕為主。我現在跟你聊天,你要花力氣處理斷句,這是人類處理訊息的能力(capabilities)。

以後的介面如果超過螢幕,比如說耳機、眼鏡,甚至是螢幕加上耳機,有可能改用語音傳遞資訊,介面和形式同樣都會發生改變,這是這個問題的有趣之處。

(紀懷新拿出Google今年在I/O上發表的Android XR眼鏡)你可以看到它有耳機,還有輔助螢幕,現在資訊是以類似字幕的方式呈現。未來如果使用者在購物,應該怎麼推薦商品給使用者?地圖要顯示哪些資訊?我個人認為,螢幕介面絕對不會消失,但不管是介面的長相,還是呈現資訊的方式,都還正在探索。我個人認為可能會有混合形態出現。

AI Overview會先提供一個答案(one answer),底下則會呈現列表,至於AI Mode,就更接近對話式的體驗。我們現在已經在探索不同的介面、不同的人機互動,應該如何把資訊顯示在使用者面前。

現在沒有人知道往前走會什麼樣子,我們的產業動盪很大,原因就在這個地方。

紀懷新拿出Google今年在I/O上發表的Android XR眼鏡,解釋介面改變以後,資訊呈現形式也會發生變化。蘇義傑攝

紀懷新拿出Google今年在I/O上發表的Android XR眼鏡,解釋介面改變以後,資訊呈現形式也會發生變化。蘇義傑攝

掌握脈絡、理解情境,AI要穿越數位與物理世界

問:我們剛剛談了介面,接著想討論資訊的輸入與輸出。模型的多模態能力提升後,眼鏡、手機可以感知到更多環境資訊,這會帶來哪些改變?脈絡(context)的重要性為何?

答:脈絡非常重要。以我們在101為例,「請協助我找餐廳,」這項指令聽起來非常明確,但事實上不然。你要吃早餐還是午餐?現在吃還是週末吃?跟誰一起吃?

如果使用傳統介面,你要如何透過搜尋完成這個任務?但如果未來出現通用助理(universal assistant),像是Project Astra這樣的模式,它可以透過對話了解你的需求以及背景脈絡。

在對話以外,如果你戴上Android XR眼鏡,它應該能看見你的周遭環境,知道你人就在101,直接推薦大樓裡的餐廳,這叫做情境感知(situational awareness)。

Project Astra 前身的名字,就叫做情境互動代理(situated interactive agents,SIA)。「situated」這個英文字,意思就是物理情境(physical situation),或者說它有實體(embodiment),不只是虛擬世界,而是進入真實世界裡面。

為什麽要這樣?這和機器人尚未普及也有關係,機器人要做到虛擬與實體結合非常困難。

開發Project Astra,它有相機、它有螢幕,可以把虛擬世界裡面的訊息傳送給你,也可以聽到外面的聲音,這個就叫做感知情境。它就是虛擬跟真實之間的的介面,把虛擬世界和真實世界結合在一起。

基礎模型像小孩,逐漸長大成人

問:以搜尋來說,系統可以考慮使用者輸入的關鍵字,未來轉變成通用助理以後,多模態意味著巨量的輸入,系統要如何決定應該考慮哪些因素?

答:這個問題是用資料探勘的輸入、輸出去想,但現在要用不同思惟思考。

如果這些大模型是人,你會怎麼教導它哪些東西需要考慮、哪些不用?以飯店當例子,有客人問櫃檯人員推薦哪些餐廳,如果你是飯店經理,會觀察他怎麼跟客人交流,接著給他評價,大模型也要經過這樣子的訓練。

我們教大型語言模型的方法,跟教人的方法有些相似,這個地方做得對、那個地方做錯,而不是用輸入、輸出的方式來思考。

為什麽?因為大型語言模型已經具備基本知識,你在教它的時候,有點像在教小孩子怎麽樣應對,也像在教人設社交。人在社交的時候會用問答,也會自己去猜。

如果客人提供新資訊,跟你說他想找週末與母親吃飯的餐廳,你就應該調整回答內容。到底要考慮、排除哪些資訊?這也是技能的一種,要學到面對不同脈絡時如何應對,Google搜尋現在不見得能夠做到這件事。

以前推薦時,會利用資料探勘、大數據的方式完成,未來則是要讓語言模型有辦法應對不同脈絡,迎合使用者的口味,關鍵在於理解脈絡後,再近一步做到個人化。

AI從看見世界,轉向理解世界

問:從理解脈絡往下延伸,可以看到基礎模型正在理解世界,包含語言、視覺、聽覺與行動,這樣是否足夠?還是需要理解物理法則、因果關係和時間性,才能稱得上是真正的理解?

答:模型的理解能力一直在加強。

我們在全世界居於領先地位,例如,對空間的理解也在提升,但還沒有達到我的期望。我們不只希望做到世界最好,還要達到通用人工智慧(artificial general intelligence,AGI)的水準,比如理解物理世界。

我把水放在這,它有可能會倒下去嗎?這種預測問題也是對物理世界的了解。我們在討論機器人的時候,它也要了解手臂需要出多少力去夾,而不會將水瓶夾破。這看起來很容易,但如果寶特瓶太薄,機器手臂就會夾破。它要知道這是什麼,需要出多少力,要用哪些角度才拿得起來。

光是這樣,它就要有對空間的理解,還要知道應該如何計畫與執行,像你剛剛差點打翻咖啡,機器人也要知道,若碰倒水瓶以後應該怎麼扶正。如果是人類撞倒水瓶,根本不用思考就知道倒了,但是機器人要怎麼捕捉到這件事情?這都是要克服的挑戰。

以前會分成很多支程式,辨識它是什麼、捕捉它的傾斜角度、計算怎麼將它扶正、確保扶正以後能夠平衡,中間還要規劃好幾個動作,這些都是系統二的處理,經過思考決定怎麼將水瓶扶好,現在我們給它單一指令就能夠完成。

這件事有意思的地方在於,以前機器人的能力還沒匯整(converge)到單一模型的時候,每個功能都是分開執行。現在,我們從以前分而治之(divide and conquer)轉變到現在組合(compose)、匯整在一起。

機器人的手臂怎麼動、視覺怎麼看,全部都整合在同一個模組裡。只要下一個指令,機器人就可以直接把水瓶扶起來。

(文章未完,請見下篇:Google紀懷新:AI從被動變主動,超越搜尋和推薦

更多精采報導,歡迎加入《遠見》 Line官方帳號!

延伸閱讀:

查看原始文章

更多理財相關文章

01

財神把月老按在地板摩擦!台南男脫單前每天買1股台積電 611天驚人損益曝光

鏡週刊
02

2025營收41億掉至5億! 高雄豪宅王:從業35年最寒冬

ETtoday新聞雲
03

信驊股價衝萬元 從工程師到BMC晶片龍頭 揭秘最低調股王董座林鴻明身價

鏡報
04

中鋼47年來首見虧損 擬每股配0.15元股息創新低

中央通訊社
05

最新財產申報!「這些官員」持台積電、0050

NOWNEWS今日新聞
06

輝達端超強財報,為何股價冷清清?專家揭晶片不再是主角:市場在看這類股

風傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...