請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

維基百科25歲了!累計6,500萬條目、每月15億瀏覽,現在AI巨頭紛紛為「合法乾淨」資料上門

數位時代

更新於 17小時前 • 發布於 17小時前

維基百科近期迎來 25 週年。在經歷了四分之一世紀後,它如何從上線時只有100頁的小辭典,發展為人類史上最大的公開知識資料庫?

維基百科中所收錄的海量內容,是現在各家 AI 巨頭訓練 AI 所不可或缺的資料庫。也因此官方近期宣佈與微軟、亞馬遜、Meta、Mistral AI 和 Perplexity 達成企業合作。

這些企業可透過 Wikimedia Enterprise 將維基百科的大量知識整合至自家平台上。維基媒體基金會表示,過往的合作夥伴還包括 Google、Ecosia、Nomic、Pleias、ProRata 和 Reef Media 等公司。

為了慶祝 25 週年,維基百科特別製作了專屬網頁,介紹他們如何走過這趟旅程。官方也為志願編輯們拍攝了短片,向外界強調即使邁入 AI 時代,知識的累積仍然仰賴人類的付出。

官方也揭露了部分關鍵數據,讓外界得以了解維基百科的現況:

• 每月的瀏覽次數接近 150 億次。
• 收錄超過 6,500 萬篇條目,涵蓋 300 多種語言。
• 全球每月約有 25 萬名編輯者參與編輯。
• 每月由超過 15 億個不重複裝置存取。
• 平均每分鐘被編輯 324 次。
• 在全球造訪量排名前十的網站中,唯一由非營利組織營運的網站。

25年前創立

維基百科的誕生,並非一開始就打算顛覆知識世界。它的前身是 2000 年推出的 Nupedia,這是一個試圖以傳統學術方式打造的線上百科全書計畫,由企業家吉米・威爾斯(Jimmy Wales)與哲學家賴瑞・桑格(Larry Sanger)所主導。

威爾斯一開始將維基百科當作一場實驗,測試讓眾人共同參與、而非少數精英,能否建構出線上百科全書。

但最初這個概念難以實行,Nupedia 的每一篇文章都需通過多重同行評議,運作一年後完成的條目仍屈指可數。直到 2001 年,威爾斯引入由程式設計師沃德·坎寧安(Ward Cunningham)發明的 Wiki 系統:任何人都可以即時編輯頁面,不需要專業背景,也沒有複雜流程。

2001 年 1 月 15 日,維基百科作為一項實驗正式上線。威爾斯在空無一物的網站上輸入了「Hello World」,這便是維基百科上的第一筆編輯內容。值得一提的是,這一筆編輯在 2021 年以 NFT 的形式出售,賣得了 75 萬美元。

維基百科選擇了一條與以往作法截然不同的道路,不倚賴單一權威,而是相信群體能逐步逼近事實。維基百科在 20 週年網頁上也表示,直到現在這套作法在理論上仍被認為難以實行,然而這卻成為了它們成功的必要支柱。

25萬人共同編輯

在揭露與微軟、亞馬遜等公司締結合作時,維基百科便強調:「在 AI 時代,維基百科內由人類建立及維護的知識,比以往任何時候都更加珍貴。」這些經過編輯討論、協力編纂而成的條目,是 AI 訓練時極為優質的素材。

維基百科的編輯社群,可說是 Web 2.0 時代精神的體現:一個去中心化、由用戶主導,並以參與及協作為基石的知識網絡。來自不同背景、觀點及政治傾向的志願編輯,在完全透明的過程中辯論、交換看法,共同編纂條目,所有的更改與編輯紀錄也都公開透明。

維基百科強調,廣大的志願編輯是他們能夠成功的根本原因。

甚至維基官方也沒有特權。去年年中,維基百科曾一度想順應潮流,實驗性導入 AI 摘要功能,然而這個決策最終在編輯們的反對下撤回。儘管維基官方表示,他們仍然希望能用 AI 技術助力網站發展,但也保證會在編輯的參與下進行。

在慶祝 25 週年的網頁中,維基百科聲稱,之所以能成為網路上最值得信賴的網站之一,是因為這是一個任何人都能使用、編輯及分發的免費內容平台。而這些經由人力編寫、更新的知識,更是 AI 訓練的寶庫。

延伸閱讀:只要把提示詞「說兩次」,LLM效能就升級?Google研究曝「47勝0敗」高CP值解方

6,500萬結構化條目

對大型語言模型而言,維基百科代表著橫跨幾乎所有人類知識領域的「通用語料」,是長期累積且並非為了 SEO 或點擊率而生的純淨內容。在 AI 爬蟲四處覓食、高品質公開文本快速枯竭的當下,哪些資料屬於「合法且值得使用」,已成為發展核心。

從 AI 訓練的角度來看,維基百科條目具備清晰的段落結構,且條目間存在大量連結,這使其非常適合用於訓練 AI 的檢索與摘要能力,更是檢索增強生成(RAG)的最佳素材。

當前各家媒體開始封鎖 AI 爬蟲、網路論壇逐漸商業化,且 AI 生成內容充斥網路,維基百科始終秉持初衷,由人力編寫出有條不紊的知識網頁。其必須附帶來源、保證中立觀點的核心原則,能引導 AI 偏向陳述事實而非表達立場,並學習如何呈現可靠資訊。

簡言之,儘管維基百科是為人類查閱而生,它卻是 AI 訓練資料的「理想型態」。

儘管現在 AI 能快速生成文章、答案與圖像,但維基百科強調,許多人並未意識到,這些生成的內容背後,其實都是由人類記錄、激盪並整理出的知識精華。在 AI 時代,以人為基礎的維基百科反而扮演了更為關鍵的角色。

延伸閱讀:Google公布Gemini收費新制!拆分「思考型」與「Pro」額度,一表看懂方案差異

ChatGPT Translate實測|免費支援逾50種語言,比Google翻譯更好用嗎?誰是繁中王者?

資料來源:Wikimedia(1)Wikimedia(2)Wikimedia(3)

延伸閱讀

只要把提示詞「說兩次」,LLM效能就升級?Google研究曝「47勝0敗」高CP值解方
美光砸569億收購力積電銅鑼廠!黃崇仁:新竹P3廠將精進DRAM製程
不用苦練生圖咒語了!我用JSON復刻大師級設計風格,簡單3步驟一次看
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

快訊/川普關稅反噬來了?美股開盤4大指數全跌

三立新聞網
02

電信三雄1/21下午四點進行災防告警測試 若收到警報無須驚慌

太報
03

〈美股早盤〉格陵蘭爭議衝擊市場!股債匯齊挫 道指跌逾600點

anue鉅亨網
04

快訊/南亞科驚爆500億資本支出創天量 官方突發重訊:尚待董事會核定

三立新聞網
05

2025 年全球車主最愛車色排行出爐!鮮豔色市佔提升

自由電子報
06

電信三雄21日下午4時 全台災防告警訊息測試

中央通訊社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...