生活

未來城市:AI生產垃圾內容 搜尋引擎愈搜愈伏

明報
更新於 06月22日17:37 • 發布於 06月22日20:30
Google今年在美國啟用的AI搜索功能「AI Overview」出現人工智能幻覺,生成錯誤資訊,其中一列是建議用家在薄餅醬汁裏添加無毒膠水,讓芝士黏附簿餅上。(網上圖片,X用戶Peter Yang)
網頁搜尋時間和裝置類型等會造成搜尋結果差異。Google另設個人化功能,根據用戶的網絡活動量身訂做搜尋結果,但近年生成式AI產生的垃圾內容也影響搜尋質素。(Google網上截圖)
黃錦輝(網上圖片)
廣告(請繼續閱讀本文)
毛向輝(受訪者提供)

【明報專訊】近日內地網上廣傳一篇名為〈中文互聯網正在加速崩塌〉的文章,文章作者指出搜尋引擎的搜尋結果數量大減。原來不止是中文互聯網,而是全世界網絡搜尋結果質素下降。2008年諾貝爾經濟學獎得主Paul Krugman上月在社交平台X評論Google和其他搜尋引擎退化,令他做研究蒐集資料更困難,更批評「人工智能比無用更差(AI is worse than useless)」。我們日常依賴作資料蒐集的搜尋引擎到底發生什麼事?搜尋結果變差與人工智能發展又有何關係?

搜尋「李嘉誠」

廣告(請繼續閱讀本文)

記者首先按〈中文互聯網正在加速崩塌〉作者的測試做法,使用個人電腦不限語言和時間搜索本港著名企業家「李嘉誠」,在0.23秒內獲得約405萬個搜尋結果,首3位分別是維基百科、百度百科和長江和記實業有限公司官網的介紹,再往下便是含有「李嘉誠」這關鍵詞的各樣內容,包括香港都會大學李嘉誠專業進修學院和佛教李嘉誠安老院等網站。

記者把搜索範圍縮窄到2000年至2022年間,在0.33秒內生出約248萬搜尋結果,數量減約半,今次搜尋結果首3位是李於1986年獲頒香港大學名譽法學博士學位的簡歷、長江和記實業有限公司官網簡介和李嘉誠基金會網頁。搜尋結果雖與鍵入內容相關,但日期欠準確,記者未點擊香港大學的網頁前,該詞條下的內容是「2020年10月7日—香港大學謹向李嘉誠先生頒授名譽法學博士學位……」,乍看之下會以為李嘉誠的法學博士學位在2020取得。若在搜索時間範圍內按年搜尋,2000年關於「李嘉誠」的搜索只有約229項結果,首位來自祥益地產網站一篇標題為〈李嘉誠,名副其實,香港就是李家的城。他是我們的上帝〉的文章;2001年則有362項搜尋結果,首位是香港都會大學中國人文學科基礎課程資訊。這似乎反映年份愈久遠,能找到貼合目標內容的資訊愈少。

記者以同樣方法在Microsoft Bing搜索「李嘉誠」,共得1230萬則搜尋結果,首3位是維基百科和百度百科對他的介紹,還有串流平台YouTube上標題寫有李嘉誠卻介紹「鐵板神算」董慕節的影片,再將搜索範圍縮窄到2000年至2022年間,搜尋結果首3位換成《香港01》和《今周刊》整理李嘉誠生平的文章。

廣告(請繼續閱讀本文)

技術沒問題 重點是營商手段

選委界立法會議員黃錦輝是香港中文大學工程學院副院長,專門研究人工智能,他於1998年與幾名學生和研究助理成立慧科訊業,推出中文報章資料庫WiseNews,方便記者不用到圖書館翻看膠片。WiseNews可以輸入關鍵詞搜索。隨時代更迭,搜尋引擎可找到各樣資訊包括新聞,對於搜尋引擎的搜尋質素變差,黃錦輝說:「這個問題是一個營商手段,數據庫本身那個技術沒問題,問題是你擺放什麼資訊上去(互聯網)。」他所說的營商手段是指「搜尋引擎最佳化」(Search Engine Optimization,SEO),他解釋SEO是將熱門關鍵詞加入發布內容,令搜尋引擎用戶更易尋找,「簡單的搜尋引擎是建基於關鍵詞,它出現的頻率決定它是否熱門內容,但關鍵詞出現的頻率這並不代表整篇文章內容的意思。」譬如說「Apple」一詞套用在美國語境,搜尋結果可以是出售科技產品的蘋果公司,也可以是一個農場。黃錦輝說一個詞可以生出多種歧義,又例如英文單詞「bank」既可解作銀行,亦可解作堤岸。

黃錦輝說他們用搜尋引擎做研究的其中兩個指標是準確度和覆蓋率,準確度即搜尋引擎演算法理解到用戶的查詢並分析到語義(semantic),覆蓋率則是搜尋引擎蒐集到多少有用信息。不過生成式人工智能生產的內容包含很多關鍵詞,卻未必符合用戶搜尋目的,甚至是垃圾內容,令搜尋結果質素下降。理論上,Google會一直監測搜尋引擎的表現,但AI生成的內容愈來愈多,伺服器要處理的數據增加,「這些信息愈多的時候,每天要做的分析量又加大了」,搜尋速度也會變慢,黃錦輝說其中一項解決方法是增加伺服器,或者買多幾塊邏輯晶片處理,這就好比一間圖書館,藏書太多要添置書櫃。

人工智能幻覺 出錯難發現

從事研究開發的Here.news首席架構設計師、哈佛大學伯克曼網際網路與社會研究中心研究員毛向輝(Isaac Mao)與黃錦輝均指出「人工智能幻覺」(AI hallucination,又稱人工幻覺)的現象,即大型語言模型(Large Language Model,LLM),如生成式AI聊天機器人或電腦視覺工具,虛構不存在或人類無法輕易察覺的錯誤資訊,生成廢話或完全不準確的輸出(output)。毛向輝直言人工智能幻覺的問題很麻煩,因為以前「所有人都十分相信搜尋引擎的搜尋結果」。毛以Google為例,Google約20年前使用「PageRank」(網頁排名)的演算法來為搜尋結果排名,主要以網頁之間的超連結數目和品質來分析網站的重要度,亦即網站被愈多其他高品質、權威性的網站所連結,其搜尋排名愈高,引致不少人利用此方式來「作弊」,使一些舊網頁的排名靠前,最終Google不再開放PageRank資料予公眾。

AI「作弊」勝過人類

但比起人類作弊,AI作弊的速度更快,更有效率,毛向輝留意到過去一年網絡的AI生成內容增近5倍,「淹沒網絡」,這增加Google為網站建立索引(index)的難度,即將網站收錄到搜尋引擎內,以及分辨人類和AI創作的內容愈來愈難。他續說,人工智能發展很快,它們不但可以生成文字內容,還可以生成圖像和錄音,「AI懂得如何將其生成內容最佳化,以在Google搜尋頁面有較高排名的顯示」。毛說當Google今年在美國開放AI搜尋功能「AI Overview」,其搜尋結果質素更糟糕。譬如他搜尋「什麼食物適合一個家庭在夏天吃」主題的關鍵詞,搜尋結果可能是一堆不相干的網站,他說這可能與AI訓練的數據出錯有關,但無疑是「double jeopardy(雙重危險)」,既誤導用戶,也減低搜尋引擎的可信度。毛笑稱Google本應是過濾AI生成錯誤內容的「警察」,現在卻成了其中一分子。記者就搜尋結果質素問題以電郵向Google查詢,截稿前未獲回覆。

中文互聯網質素下降尤嚴重

毛向輝認為搜尋結果質素下降的問題在中文互聯網世界更嚴重。他說英文互聯網世界有存檔(archive),可讓用戶翻閱和建立網頁存檔,減少高質網站內容的流失,例如美國的互聯網檔案館(Internet Archive)設有「Wayback machine」和「Archive-It」功能,Google則有Google Cache,以防一些網站突然無法使用,不過Google也有刪除cache(快取記憶體)的習慣。至於中文互聯網,毛則說內容創作者嘗試營銷,多於保持內容質素來確保內容有長期保存的價值,而且商家本身就會自我審查,例如百度會移除敏感或負面內容。要為網站資料存檔,顯然需要空間和網絡流量,便須投放更多資源。譬如上文提到的Wayback machine,毛向輝稱它每年約需4000萬美元來營運。但商業公司一般以利潤先行,會趨向保留吸引人眼球的內容,而非網站資料紀錄,毛向輝說現時的網站內容更聚焦具吸引力和「快餐」類型,甚少人會願意為網站歷史存檔而創建資料庫。

伺服器離線 避免AI取用內容

那麼生成式AI的發展,除了衍生無用資訊,還會導致什麼問題影響搜尋引擎的搜尋結果?《紐約時報》去年控告OpenAI與微軟(Microsoft)非法使用其報章來訓練和開發ChatGPT與Copilot(前稱Bing Chat),侵犯知識產權。毛向輝說AI取用其他網站資料來訓練固然沒得到當事人許可,但他認為這問題仍需斟酌,「AI的訓練有點像人類閱讀書本或資料後,自動衍生內容概要一樣。難以直接說AI是在違反法律」。另一方面,毛關注的是人類創作內容正在「萎縮(減少)」,假如人類不再自行創作,那麼AI也不能基於其創作來生成內容。

那麼人們會為了不讓AI「侵權」而刪除過往的創作內容和建立的網站嗎?黃錦輝直言這是其中一個可能,但用戶可將電腦伺服器切換成離線狀態,用私有雲(雲端主機),避免AI取用其數據。因應AI發展,知識產權署表示會檢視現行的《版權條例》,黃錦輝說未經擁有者同意,將其創作內容用作訓練AI是侵犯版權,而知識產權署正正要提醒市民使用AI時注意數據使用的合法性。至於AI生成內容是否原創內容,其內容擁有權誰屬,黃錦輝說現時普遍認為用家是AI生成內容的創作者,但這仍有待知識產權署定義。他又認為現時不少商業人士「美化(AI)這個還未算成熟的技術,這個科技推得過分熱,其實背後還有很多可以改良的地方」。

【網絡搜尋篇】

文˙ 姚超雯

{ 圖 } 受訪者提供、網上圖片

{ 美術 } 朱勁培

{ 編輯 } 王翠麗

fb﹕http://www.facebook.com/SundayMingpao

查看原始文章

更多 生活 相關文章

香港美食:【台灣過江龍!段純貞牛肉麵專門店登陸黃竹坑!招牌紅燒腱心牛肉麵+必試滷水拼盤+濃湯燉雞麵】-段純貞
香港人遊香港
2024年11款豆漿機:磨豆漿好簡單!
iGood 愛好物
灣仔日料新標 半開放式親歷大師級菜式
852 FoodVoyage
尖沙咀美食:【米芝蓮星級餐廳推兩小時任食!大大隻!日本珍寶生蠔+A5鹿兒島和牛】- Amelia Hong Kong
香港人遊香港
【LINE你睇】內地麥當勞仿真雞翼髮夾 網民「很想要」非賣品渴市
LINE TODAY
《神偷奶爸4》小小兵Minions 佔領拉斯維加斯最大球體
趣你的News
別等退休才清理東西!「老前」開始斷捨離,把多一點錢留下來、給老後的自己
幸福熟齡(台灣)
一個人的老後,也能樂觀、優雅又充實!享受孤獨的9件事,讓第二人生浪漫有情趣
幸福熟齡(台灣)
【LINE你睇】Oreo巧用日本金繼工藝 推出「奶油膠水」修復碎餅
LINE TODAY
【花錢】中學女兒約同學暑假去日本旅行 母因一事很憤怒 網建議要狠心
MamiDaily
拿恐怖罐頭餵大貓兒! 大膽男子「手拿筷子」嚇跑一堆老虎
Styletc TW
你敢不吃藥? 阿金「見一旁好兄弟被教訓」…下秒乖乖吞
Styletc TW
【LINE你睇】最迷你的花瓶 僅 1.5 毫米高的日本水窪花瓶
LINE TODAY
最熱還沒到!疲倦、上火、沒精神…中醫師推薦「這些食物」消暑養生,4對策防禦夏季熱傷害
幸福熟齡(台灣)
黃竹坑美食|健康文青Cafe「Meet Met Met」進駐黃竹坑!低卡低碳椰菜花飯/韓國大熱焦糖芝士牛角酥窩夫
am730
【產檢】懷孕16周產檢發現胎兒沒有大拇指 家人要求終止懷孕 孕婦兩難:不想剝奪小生命
MamiDaily
烘焙新旋風顛覆牛角包 玩創扁牛角酥 脆味夾心拉絲
明報
【兒童增高】一年高20cm 小六男生身高突破1米9 爸爸公開2大長高秘訣 普通人也能做到?
MamiDaily
網上熱話|網上流傳港鐵奇人異事!沙田站驚見男生搬梳化入閘 網民:創意無極限
am730
那個,可以借一隻手來用用嗎? 笨喵喝水「找人類幫忙」
Styletc TW
壽司郎7月限定感謝祭 濃厚海膽拌麵回歸/$17大盛三文魚子海苔包
am730
身為父母,不把期望放子女身上!古碧玲在植物身上學3個智慧:生命需醞釀,我負責生養,不負責雕塑他
幸福熟齡(台灣)
日本男大生為了看女生裸體,戴假髮穿女裝澡堂偷窺,被捕直接承認!
日本集合
以前忙工作養家,老了和兒子變疏遠,他婚後難得碰面也講不到幾句話!孩子和我,怎麼距離越來越遠?
幸福熟齡(台灣)
大黃金撿到醜小鴨! 飼主養大出現驚人結局
Styletc TW
酒店頂樓暢泳歎下午茶
明報
50後一路玩到掛,破產上天堂!做到這7件事,讓第二人生不窮、不病、不無聊
幸福熟齡(台灣)
她不煮飯、洗衣、整理房間,孩子房子車子也都我養!寵妻魔人棄24年婚姻:我就是太呵護,才造成老婆懶惰跟無能
幸福熟齡(台灣)
國際旅遊指南《Lonely Planet》 撤出中國市場 網民慨嘆「時代的眼淚」 林輝:真正以旅行者福祉為依歸的旅遊書
虛詞.無形
🌅尖沙咀海景Cafe 嘆住日落品嚐零負擔低糖蛋糕🍰
852 FoodVoyage
影/也是「家人」!百元入手寵物魚疑長腫瘤 她花2100元醫治:有感情了
中天新聞網
兩人成團 人均$1200起 親海staycation浮潛賞珊瑚
明報
吉野家早餐下午茶$20起|著數情報
明報
班戟漢堡 鬆軟鹹甜齊集一包
明報
著數優惠|BreadTalk及ToastBox感謝活動 指定店鋪軟包、蛋撻買一送一/半價換購咖啡或咖椰醬
am730
暑假帶孩子一起瘋玩!全台「七大親子景點」推薦♡可愛動物農場、百果山樂園、海洋公園等你來
親子集合Tagmum