請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

AI 公司用網路爬蟲挖資料餵養 LLM,使「被挖」媒體醞釀不對等抗爭

科技新報

更新於 2023年12月22日09:53 • 發布於 2023年12月22日08:30

越來越多的公司正試圖避免自己家的資料被網路爬蟲抓取和保存,以前是像 Google 這樣的大型搜尋引擎爬蟲,現在則是 AI 資料庫的爬蟲。包括彭博、紐約時報等大型媒體,正在阻止 OpenAI 與其他相關 AI 資料庫的網路爬蟲訪問他們的網站,以保護他們的內容不會被用來餵養人工智慧技術的語言模型。

這可能是一場完全不平等的抗爭。

訓練 LLM 用的爬蟲、與搜尋引擎爬蟲的本質是不同的,搜尋引擎的爬蟲本質上會為內容網站帶來流量、雖然在競爭與搜尋引擎的規則下,透過流量獲得收益越來越困難,但這至少還是屬於有互利的模式,不過 OpenAI 爬取網路內容則單純用來訓練並內化為自己的知識,這點讓彼此之間的地位處於完全性不對等。

▲ Similarweb 數據,Open AI 網站 10 月達 17 億訪客量,同月亞馬遜訪客量為 24 億。(Source:SimilarWeb

前些時間,OpenAI 公布了自己的網路爬蟲 GPTBot,並聲稱只要你在 robots.txt 註明清楚,就可以阻止 GPTBot 瀏覽網站。這是一個古老的做法,Google 搜尋引擎的爬蟲也遵循類似的原則,網站可以透過 robots.txt 告訴爬蟲忽略他們。包括亞馬遜、Tumblr、Pinterest、Vimeo、People、New Yorker 等,還包括康泰納仕、赫斯特等媒體集團的網站也都採取了這個做法。9 月底 Insider 曾從調研 Originality.ai 再次獲得新的數據。它顯示,在大約三週的時間裡,封鎖 GPTbot 的前 1,000 大網站,從一開始 70 個網站變成 250 多個網站,超過四分之一封鎖了 GPTBot 的瀏覽。

但靠 robots.txt 阻止真的有用嗎?有不少公司透過合作、或是被其他人無斷轉載的模式,導致自己的內容在網路上擴散與傳播,許多人甚至在閱讀的時候不知道這篇文章原始來自於何處,在這種現有的網路發展下,即使自己的網站阻止了 OpenAI 的爬蟲,也不等於能阻止自己的資訊被竊取。

餵養獨特且準確的資訊加上流暢的文筆,對於像 GPT-4 這樣的生成式人工智慧模型的性能至關重要,GPT-4 透過記錄大量文本資料以巧妙地回答用戶問題。這些模型訓練時所用的大部分資訊都是從網際網路上獲取的──儘管其中大部分受版權保護,媒體或出版商對這種做法越來越牴觸、也開始有了幾起類似的訴訟,而也有政府與立法機構開始關注這個問題。

媒體一直難以防止生成式 AI 工具的爬蟲繞過他們的付費牆、並爬取他們的內容來訓練他們的語言模型。盡管內容生產者可以透過 robots.txt 的註記阻止 OpenAI 的爬蟲,但這並不讓人相信足以保護他們的智慧財產權。

媒體的拒絕根本應付接不暇

DIGIday 引述衛報媒體集團的公共政策總監馬特·羅格森的說法,表示這是一個長期問題,沒有短期解決方案。他認為不願讓 AI 爬蟲獲取內容,表明內容營運商正在收回更多控制權,並開始要求對出於不同目爬取網站內容的人進行更多阻擋手段。Google 和 Bing的搜尋結果對媒體至關重要──但這些爬蟲也能用於訓練這些科技公司的LLM和AI聊天機器人。

Google 和微軟的網路爬蟲不但使用在他們的搜尋引擎中,同時也用於訓練他們的 LLM 與機器人,這些爬蟲對於產權內容出現在 Google 和 Bing 的搜尋結果很重要。Google 發表了一個 Google Extended 的新工具,讓網站可以選擇自己要不要被使用於 Google 的 LLM 與 Bard 的資料。微軟則是需要在網頁上加入一段程式碼,讓網站所有者能選擇「只給標題、摘要、網址」或者是「完全不給資料」,如果沒有加上程式碼就代表全部的授權。

另外也有一個台灣比較不熟悉的 CCBot,這是 Common Crawl 用於抓取網頁的網路爬蟲。總部位於歐洲的 Common Crawl 花費多年時間從網路上抓取了大量資料──其中也包括受版權保護的內容,他們專門提供這些資料給大公司的 LLM 訓練(例如 Meta 的 Llama 就有使用這些資料),而根據Originality.ai 的資料,截至 9 月下旬,全球前 1,000 大網站有近 14% 封鎖了 CCBot。

但事實上 CCBot 的活躍時間可能比 ChatGPT 還長,不過封鎖 ChatGPT 的人卻遠比 CCBot 的人還多,一旦越來越多公司開始布局語言模型的資料,要網站一個個自主告知爬蟲不能使用的狀況、就像「你如果不拒絕我,就代表你同意我使用你的版權」,這種完全忽視版權法的概念是可笑的,但目前卻沒有任何方式可以阻止這件事情──即使你靠立法阻止了大公司,你也不能避免躲在暗處偷偷挖取的 AI 爬蟲。

有媒體認為抵抗是杯水車薪

其實媒體也知道網路爬蟲很難全面防堵,所以媒體阻擋網路爬蟲並非單純阻止 LLM 使用他們的資料,而是打算靠防堵爬蟲成為往後與這些大公司談判的籌碼。既然 LLM 需要大量的資料,那往後媒體可以藉由像掛 Google 廣告那樣,藉由這些資料授權獲取費用。像紐約時報現在就更新了自己的網站服務條款,直接說明禁止使用該網站的內容做機械學習或是 AI 的訓練,藉此能在往後採取法律行動。

既然 LLM 往後可能藉由開放 API 獲益,那讓提供資料者分潤似乎也理所當然,但「提供資料」不像是流量那樣有很多資料能佐證,以 AI 資料庫的狀況而言,要舉證他們是否有使用單一媒體的資料就有一定難度。

另一方面,也不是所有的媒體都覺得自己能有足夠的實力與大公司談判,DIGIDAY 採訪到一位匿名的媒體高層,認為他們公司的規模不足以阻擋 AI 公司的爬蟲行為,他也不確定阻擋爬蟲的行為是否會影響到他們使用 ChatGPT 與其相關的 AI 技術──換句話說,一旦他們對 AI 工具構成依賴,是否會遭到這些大型 AI 公司刻意停權?

雖然看來被「停權」這問題看來有些杞人憂天,但也表達了這些媒體公司在面臨大規模「入侵」時的無力感。就像這些網路公司也開始調整自己的使用者條款,好讓用戶在使用自己的服務所產生的資料也能被用於訓練 LLM,當用戶已經習慣於使用這些服務時,他們也只能被動接受這類條約,並安慰自己,反正自己的隱私與資料不如公眾人物重要。

(首圖來源:Unsplash

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

15 年前的 iPhone 4 意外翻紅 需求暴增近 10 倍原因曝

壹蘋新聞網
02

調查:蘋果2025市占全球第1 占比達20%

路透社
03

印度擬強制手機製造商提供原始碼

路透社
04

Grok涉生成不雅圖 英國對X平台進行調查

路透社
05

【張瑞雄專欄】當世界首富要你別存退休金

Knowing
06

為藥物裝上GPS!中醫大附醫首創αDAT-EV腦部外泌體平台,攜薑黃素突破血腦屏障,精準治療巴金森氏症

今周刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...