Google紀懷新：AI從被動變主動，超越搜尋和推薦

承上篇。人工智慧（AI）的進步，帶動人機互動發生改變。原先分散、專用的模型逐漸彙整成單一模型，處理的輸入與輸出也從數值和文字，轉向聽力、視覺等多模態，AI已經看見人眼所見的世界。Google DeepMind研究副總裁紀懷新認為，人跟AI以後的介面、信任和透明度的問題，會和人際之間的互動愈來愈接近。

模型從分工到匯整，才能應對複雜環境

問：以前各個模型可以分別處理任務，模組化的分工明確，且容易解釋、方便控制。轉變成單一模型有哪些好處？

答：因為在不同情境下，有著不同應用。在工廠裡，若要重複把水瓶扶正，而且每個水瓶傾斜角度相同，這就不需要通用（general）模型處理問題。但如果要機器人在101的餐廳裡負責清潔，原先專用的模型很難達成。

你不可能把瓶子丟到垃圾桶一種程式、放在地上一種程式，如果水瓶是空的，又要另一種程式。你的確可以控制它、解釋它，但若真的要這樣處理，一定沒完沒了。

為什麽這麼多年過去，還沒辦法做好清潔環境的機器人？原因就是環境太過複雜，情境變動太大。

所以這個問題的根本在於，倘若環境可控，你當然可以分而治之，確保執行專門任務的模型維持穩健（robust）。但如果環境不可控，模型就要能適應不同環境。

為什麼通用人工智慧能夠用通用稱呼？因為它能應對不同情境，進入新環境以後能夠辨識情況，並且在其中做出應對，這就是通用人工智慧的開始。

免費訂閱【科技趨勢報】👉專業主編導讀3篇文章，瞭解最新科技動態！

AGI要像人一樣聰明，就要結合系統一和系統二

問：不管是物理世界還是數位世界，包含資訊檢索（information retrieval）、機器人在內，聽起來AI逐漸幫人類完成更多系統二的任務？

答：我想延伸你這個問題，如果我們真的達到通用人工智慧的能力，機器人就像人一樣，它同時擁有系統一和系統二，要它替你讀文章以後摘要可以，撿垃圾也可以。我們現在致力於發展AI，就是希望能夠讓它不管是在虛擬世界裡面，還是物理世界裡面，都能擁有並結合系統一和系統二的能力。

台灣有很多長照問題，過幾年以後，如果有全能的機器人，它同時需要兩種系統。陪伴老人走路、幫助起居，帶路的時候知道路上有車子，也能判斷什麼時候要過馬路。

在虛擬世界裡面也一樣，我請它推薦高爾夫俱樂部，它應該有能力研究俱樂部有哪些特性，並且解釋給我聽，這是系統二的分析能力。我還希望它能看著我打高爾夫，告訴我哪裡沒做好，以後都有可能成真。

至於以後人跟機器人、人跟AI互動時，要把多少系統一或者系統二的任務交給機器人？這是人類應該討論，並擁有控制權的事情。

理解世界以後，AI助理往個人化邁進

問：您團隊平時在做的任務之一，在於改善搜尋與推薦系統底層的神經網絡和排序列表，讓結果的關聯性更高（relevant）。您提到讓基礎模型更加理解世界的努力，要如何回頭挹注到這些工作中？通用助理的目標函數同樣鎖定關聯性，還是提供更符合情境的結果？

答：我現在心裡一直在想的事情是，當我們擁有通用助理的時候，它到底要多個人化（personalized）。

我剛從美國回來台灣，個人化的助理應該知道我的喜好，但它不懂台灣。Google的通用助理也是一樣，它應該要知道這裡的脈絡，建議我去哪裡玩、到哪裡吃飯，這就是我們現在正在做的研究。未來搜尋和推薦，也會往這個方向演進，我們現在只是局限在搜尋和推薦裡，以後要達到真正的私人助理。

現在的手機介面裡，有許多不同應用程式，我要學會如何使用、掌握不同技能，才能感受到自己擁有私人助理，對年輕人來說，或許輕而易舉，但還是有些情境裡的問題並不容易。

再往前走，我認為可能有些事情不再需要應用程式，只要按個按鍵，就能直接對話。不用再搜尋「青年公園附近的高爾夫練習場有沒有停車場」，我現在要打很多字、自己整理這些資訊，以後的助理可以直接回答。

把模型變小能放進裝置、加強語音回答速度、分配雲端與地端算力⋯⋯，Google在各項研究領域的努力，讓通用助理成為可能。曾子軒攝

通用助理從被動轉為主動，替人類解決問題

問：先前恰好跟人聊過這個題目，跟單純把介面從文字與列表換成聲音比較，聽起來差別在於個人化嗎？還有哪些挑戰？

答：對，但不只是這樣。

我向個人化的助理說想練習打高爾夫球，它會推薦青年公園給我，並感知到我正在開車，因此告訴我附近的停車情況。如果我沒有在開車，它也會建議我可以搭Uber過去。它不再是被動（reactively）回應我的詢問，而是主動（proactively）幫助你。

我現在要去Google地圖搜尋停車場，然後看有沒有人幫忙上傳每個停車場的收費標準照片，自己再來比較。希望以後私人助理只要收到問題，就能幫忙做完所有研究。

以目標函數來說，它不只是要更能了解你現在的情境，還要想出很多辦法解決你遇到的問題。它不是被動而是主動，知道怎麼結合不同資訊以便解決問題，這是它的智慧能力所在。

現在你找高爾夫球場，都是要自己去搜尋、自己挑選結果、自己解決問題，接下來要讓它直接幫你解決問題，這也是Agent（代理）的概念所在。

若說挑戰，難在它要學會使用不同工具解決問題。我希望以後的Agent可以自己到Google地圖上找停車場、自己讀照片、尋找收費標準，再把這些資訊彙整給我，就像一個真正的私人助理做的事情。

我們現在距離這件事情已經很近了。以前我會覺得，這聽起來很像天方夜譚，即便是一年前，也還覺得很吃力。現在覺得，三到五年內就會成真。是啊，為什麼不會呢？

所以，我們整個產業都會遇上衝擊。手機的介面留在應用程式的階段嗎？我們的眼鏡會多普及？如果有人不願意戴眼鏡怎麼辦？是有智慧的耳機，還是其他穿戴的裝置？手錶是否會繼續演進？這都是還沒解答的問題。

AI理解世界的下一步，要理解人與世界的關聯

問：當下還沒辦法實現通用助理，還有哪些挑戰尚未克服？

答：我認為最難的、至今我花很多時間研究的，還是在個人化。

為什麽我們叫私人助理？我舉個例子，公司剛好有一位助理懷孕休假，要請人代理一陣子，就花了兩到三週訓練這位新的助理。一個人需要花這樣的時間，訓練另一個人來做私人助理的工作，個人化的議題跟難度就在這個地方。再以伴侶之間為例，對方知道你的喜好，他們也很了解你，但剛認識的時候也需要時間磨合，才有這些認識。

我們在做的個人化，可以這樣描述：要先讓AI能了解這個世界、融入到世界裡面，這只是一部分而已。下一個階段，就是在融入世界以後，了解你和世界之間的關聯（connection）。之前有點像是，人一直使用機器，藉著機器跟世界互動。再往前走，變成機器跟著你，幫你觀察所環境、在旁輔助你。他不是很一般普遍（generic）的東西，而是很個人化的。

我們手機裡下載很多應用程式，我拿你的手機來用，有很多地方不方便，你用哪些易用程式、放在哪邊，都是你個人化的方法。以後個人化以後的模型，能知道你的喜好、了解你的脈絡，甚至還會不斷感知你的環境，知道你在101、外面在下雨。

人跟AI的關係，和人際關係愈來愈像

問：Gemini可以讀兩百萬個符元（token），現在把Gmail、YouTube觀看紀錄全部餵進Gemini就能實現嗎？

答：個人化有好幾個層次。第一是要先有資訊存在，有沒有可以讓你個人化的東西。有了資訊以後，第二個是要知道怎麼使用。再往下，第三個還有信任的問題。你要怎麼維持跟伴侶之間的關係？你願意讓對方看你所有的電子信、所有照片嗎？這是信任的問題。彼此之間的互動界線要如何維持，就像你跟助理、跟伴侶之間維繫關係一樣複雜。

以後的私人助理很不一樣，更接近人與人之間的互動，人跟AI以後的介面、信任和透明度的問題，會和人際之間的互動愈來愈接近。從輸入、輸出去看這些問題，是從大數據的角度思考，我想指出另一條道路，也是因為這樣，我們才會用心理學的方法思考應該如何研究，我認為，這是最有遠見的視角。

後記：AI理解世界、連結虛實，步步接近人類

在今年的Google I/O上，Google執行長皮蔡（Sundar Pichai）介紹一系列產品的AI革新。背後貫穿的軸線，是智慧（intelligence）、代理（agent）和個人化（personlization）三件大事。

模型的智慧提升，讓代理的實現成為可能。再加上原先的通路如地圖、搜尋和YouTube，服務使用者過程中累積的偏好和脈絡，讓Google有辦法更理解消費者，也是Google力壓競爭對手的本錢。

今年的Google I/O上，Google執行長皮蔡（Sundar Pichai）介紹一系列產品的AI革新。曾子軒攝

在Google DeepMind裡服務的紀懷新，則是從科學研究角度，分享他對於人機互動典範轉移的想法。因為Sequence to Sequence、Transformer等技術推進，讓AI進化到有辦法和人類來回互動，帶動ChatGPT、Claude等對話式AI服務浮出水面。

改變過程中，人類與機器的互動，從行為、形式到介面，都在發生變化。

用戶從花心思想關鍵字，到不動腦日常談話

過程中，人類將更多主動權交給AI。

行為上，使用者從費盡心思發想關鍵字，轉變到不用太動腦的日常談話，需要深入思考的任務改由AI負責。形式上，資訊也從搜尋列表，轉變成讓人閱讀的段落，從傳統搜尋到AI Overview再到AI Mode就是不斷往摘要形式、替使用者統整結果的方向進行。介面上，在原先筆電、手機螢幕以外，開始有更多類型的資訊載體出現，不管是失敗的AI Pin，還是讓人能戴得長遠的手錶，又或者是發展歷史悠久的耳機，以及近兩年捲土重來的眼鏡，都有著豐富想像空間。

人工智慧的進步，帶動人機互動發生改變，又回過頭來推進底層AI模型的進步。原先分散、專用的模型逐漸彙整成單一模型，處理的輸入與輸出也從數值和文字，轉向聽力、視覺等多模態，AI已經看見人眼所見的世界。

再從多模態往下推進，擴張模型可以掌握的資訊，延伸的範疇如地點、時間、偏好和意圖，還有尺度如空間、因果和時間，模型不滿足於看見，更要理解世界的運作法則。

回歸到Google業務，理解脈絡的下一步，就是皮蔡所說的個人化。因為懂得使用者的核心需求，AI將不滿足於理解情境，更要結合散落於世界的資訊，替使用者解決問題。

模型將進化為Agent，先是理解並融入世界，從扮演虛擬與現實世界的介面開始，穿梭其間。再下一步，AI就要了解人類跟世界如何建立起連結，從被動變成主動，超越過往搜尋和推薦所做。

但歸根結底，仍是替使用者組織資訊，只是規模和野心更為宏大。

「在Google 內部，搜尋、廣告、YouTube，包括搜尋和推薦，⋯⋯都是由單一類型的神經網路實現的，⋯⋯你們正在實現一個排序函數。所以，使用者探索的基礎，就是使用列表作為通用的使用者介面。」這是去年在工作坊演講中，紀懷新向資訊領域的碩士、博士們分享的小祕密。

然而，從最底層的排序函數開始，一切都即將迎來巨大改變，AI將徹底重塑人機互動，帶來典範轉移。而改變，只是剛開始。

更多精采報導，歡迎加入《遠見》 Line官方帳號！

請更新您的瀏覽器

理財

遠見雜誌

模型從分工到匯整，才能應對複雜環境

AGI要像人一樣聰明，就要結合系統一和系統二

理解世界以後，AI助理往個人化邁進

通用助理從被動轉為主動，替人類解決問題

AI理解世界的下一步，要理解人與世界的關聯

人跟AI的關係，和人際關係愈來愈像

後記：AI理解世界、連結虛實，步步接近人類

用戶從花心思想關鍵字，到不動腦日常談話

更多理財相關文章

輝達暴跌近5.5% 市值一夕蒸發2590億美元

證交所再出手！5檔股票遭處置 IC載板大廠也入列

〈美股早盤〉AI疑慮與PPI偏強拖累主要指數開低

養出「理財有道」的孩子，這些父母從小教這4件事

台積大客戶換人！輝達超車蘋果最燒錢「美國廠」大賺161億原因找到了

砸20億狂掃23棟透天！　大墩路地王現身「拼千坪大都更」

請更新您的瀏覽器啟用Javascript

Google紀懷新：AI從被動變主動，超越搜尋和推薦

遠見雜誌

模型從分工到匯整，才能應對複雜環境

AGI要像人一樣聰明，就要結合系統一和系統二

理解世界以後，AI助理往個人化邁進

通用助理從被動轉為主動，替人類解決問題

AI理解世界的下一步，要理解人與世界的關聯

人跟AI的關係，和人際關係愈來愈像

後記：AI理解世界、連結虛實，步步接近人類

用戶從花心思想關鍵字，到不動腦日常談話

更多理財相關文章

輝達暴跌近5.5% 市值一夕蒸發2590億美元

證交所再出手！5檔股票遭處置 IC載板大廠也入列

〈美股早盤〉AI疑慮與PPI偏強拖累 主要指數開低

養出「理財有道」的孩子，這些父母從小教這4件事

台積大客戶換人！輝達超車蘋果 最燒錢「美國廠」大賺161億原因找到了

砸20億狂掃23棟透天！ 大墩路地王現身「拼千坪大都更」

請更新您的瀏覽器

〈美股早盤〉AI疑慮與PPI偏強拖累主要指數開低

台積大客戶換人！輝達超車蘋果最燒錢「美國廠」大賺161億原因找到了

砸20億狂掃23棟透天！　大墩路地王現身「拼千坪大都更」