維基百科25歲了!累計6,500萬條目、每月15億瀏覽,現在AI巨頭紛紛為「合法乾淨」資料上門
維基百科近期迎來 25 週年。在經歷了四分之一世紀後,它如何從上線時只有100頁的小辭典,發展為人類史上最大的公開知識資料庫?
維基百科中所收錄的海量內容,是現在各家 AI 巨頭訓練 AI 所不可或缺的資料庫。也因此官方近期宣佈與微軟、亞馬遜、Meta、Mistral AI 和 Perplexity 達成企業合作。
這些企業可透過 Wikimedia Enterprise 將維基百科的大量知識整合至自家平台上。維基媒體基金會表示,過往的合作夥伴還包括 Google、Ecosia、Nomic、Pleias、ProRata 和 Reef Media 等公司。
為了慶祝 25 週年,維基百科特別製作了專屬網頁,介紹他們如何走過這趟旅程。官方也為志願編輯們拍攝了短片,向外界強調即使邁入 AI 時代,知識的累積仍然仰賴人類的付出。
官方也揭露了部分關鍵數據,讓外界得以了解維基百科的現況:
• 每月的瀏覽次數接近 150 億次。
• 收錄超過 6,500 萬篇條目,涵蓋 300 多種語言。
• 全球每月約有 25 萬名編輯者參與編輯。
• 每月由超過 15 億個不重複裝置存取。
• 平均每分鐘被編輯 324 次。
• 在全球造訪量排名前十的網站中,唯一由非營利組織營運的網站。
25年前創立
維基百科的誕生,並非一開始就打算顛覆知識世界。它的前身是 2000 年推出的 Nupedia,這是一個試圖以傳統學術方式打造的線上百科全書計畫,由企業家吉米・威爾斯(Jimmy Wales)與哲學家賴瑞・桑格(Larry Sanger)所主導。
但最初這個概念難以實行,Nupedia 的每一篇文章都需通過多重同行評議,運作一年後完成的條目仍屈指可數。直到 2001 年,威爾斯引入由程式設計師沃德·坎寧安(Ward Cunningham)發明的 Wiki 系統:任何人都可以即時編輯頁面,不需要專業背景,也沒有複雜流程。
2001 年 1 月 15 日,維基百科作為一項實驗正式上線。威爾斯在空無一物的網站上輸入了「Hello World」,這便是維基百科上的第一筆編輯內容。值得一提的是,這一筆編輯在 2021 年以 NFT 的形式出售,賣得了 75 萬美元。
維基百科選擇了一條與以往作法截然不同的道路,不倚賴單一權威,而是相信群體能逐步逼近事實。維基百科在 20 週年網頁上也表示,直到現在這套作法在理論上仍被認為難以實行,然而這卻成為了它們成功的必要支柱。
25萬人共同編輯
在揭露與微軟、亞馬遜等公司締結合作時,維基百科便強調:「在 AI 時代,維基百科內由人類建立及維護的知識,比以往任何時候都更加珍貴。」這些經過編輯討論、協力編纂而成的條目,是 AI 訓練時極為優質的素材。
維基百科的編輯社群,可說是 Web 2.0 時代精神的體現:一個去中心化、由用戶主導,並以參與及協作為基石的知識網絡。來自不同背景、觀點及政治傾向的志願編輯,在完全透明的過程中辯論、交換看法,共同編纂條目,所有的更改與編輯紀錄也都公開透明。
甚至維基官方也沒有特權。去年年中,維基百科曾一度想順應潮流,實驗性導入 AI 摘要功能,然而這個決策最終在編輯們的反對下撤回。儘管維基官方表示,他們仍然希望能用 AI 技術助力網站發展,但也保證會在編輯的參與下進行。
在慶祝 25 週年的網頁中,維基百科聲稱,之所以能成為網路上最值得信賴的網站之一,是因為這是一個任何人都能使用、編輯及分發的免費內容平台。而這些經由人力編寫、更新的知識,更是 AI 訓練的寶庫。
延伸閱讀:只要把提示詞「說兩次」,LLM效能就升級?Google研究曝「47勝0敗」高CP值解方
6,500萬結構化條目
對大型語言模型而言,維基百科代表著橫跨幾乎所有人類知識領域的「通用語料」,是長期累積且並非為了 SEO 或點擊率而生的純淨內容。在 AI 爬蟲四處覓食、高品質公開文本快速枯竭的當下,哪些資料屬於「合法且值得使用」,已成為發展核心。
從 AI 訓練的角度來看,維基百科條目具備清晰的段落結構,且條目間存在大量連結,這使其非常適合用於訓練 AI 的檢索與摘要能力,更是檢索增強生成(RAG)的最佳素材。
當前各家媒體開始封鎖 AI 爬蟲、網路論壇逐漸商業化,且 AI 生成內容充斥網路,維基百科始終秉持初衷,由人力編寫出有條不紊的知識網頁。其必須附帶來源、保證中立觀點的核心原則,能引導 AI 偏向陳述事實而非表達立場,並學習如何呈現可靠資訊。
簡言之,儘管維基百科是為人類查閱而生,它卻是 AI 訓練資料的「理想型態」。
儘管現在 AI 能快速生成文章、答案與圖像,但維基百科強調,許多人並未意識到,這些生成的內容背後,其實都是由人類記錄、激盪並整理出的知識精華。在 AI 時代,以人為基礎的維基百科反而扮演了更為關鍵的角色。
延伸閱讀:Google公布Gemini收費新制!拆分「思考型」與「Pro」額度,一表看懂方案差異
ChatGPT Translate實測|免費支援逾50種語言,比Google翻譯更好用嗎?誰是繁中王者?
資料來源:Wikimedia(1)、Wikimedia(2)、Wikimedia(3)
延伸閱讀
只要把提示詞「說兩次」,LLM效能就升級?Google研究曝「47勝0敗」高CP值解方
美光砸569億收購力積電銅鑼廠!黃崇仁:新竹P3廠將精進DRAM製程
不用苦練生圖咒語了!我用JSON復刻大師級設計風格,簡單3步驟一次看
「加入《數位時代》LINE好友,科技新聞不漏接」