請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

生活

無定向學堂:David Webb因病停運網頁 民間資料庫的願景與困境

明報

更新於 02月15日17:08 • 發布於 02月15日20:30
David Webb日前宣布將停運近30年歷史的Webb-site.com,該資料庫整理金融市場數據,便利很多研究人員、投資者與記者。(資料圖片)
David Webb日前宣布將停運近30年歷史的Webb-site.com,該資料庫整理金融市場數據,便利很多研究人員、投資者與記者。(資料圖片)
香港歷史存檔網站Gwulo存有珍貴歷史資料,用戶可上載香港舊照及評論,使資料庫更加豐富。(網頁截圖)
香港歷史存檔網站Gwulo存有珍貴歷史資料,用戶可上載香港舊照及評論,使資料庫更加豐富。(網頁截圖)

【明報專訊】著名獨立股評人David Webb日前預告,受自身癌症病情影響,由他建立的財經數據庫網頁Webb-site.com將有序結束。他在聲明中提及,花費逾1000萬元營運數據庫,亦發現靠義工運作並不可行,故只餘下停運的出路。除了Webb-site,香港不少有心人按各自興趣,構建非牟利、無資助的民間資料庫,為求珍貴數據得以公開。Webb-site面對的困境是否常見?為資料庫出心出力,所為何事?

【Webb-site】

「謎網五十」曾揭市場黑幕 營運近30年港大拒接收

Webb-site.com由獨立股評人David Webb於1998年創立,以簡潔的網頁設計,羅列大量與財經市場相關的資訊,例如上市公司董事公開資料、股票市場、公司登記處等資料。部分數據亦與民生相關,例如物價、電費趨勢和交通數據。他整理的資料,便利不少研究人員、投資者以及記者。

Webb-site的數據本來已是公開資料,把它們整理分類有何作用?茫茫數據海中,David Webb曾揭發市場黑幕,2017年於網站列出50間股權互有關連的公司,不建議股民持有。「謎網五十」引發市場震盪,更驅使證監會介入調查,不少股票停牌,足見其影響力。

近年David Webb健康狀况轉差,曾招募義務編輯,使網頁以類似「維基百科」的形式運作。惟日前他宣布網頁將逐步停運,指以往手動整理的數據資料,不可能全靠義工整理,而且始終要有人維持伺服器及軟件運作、仲裁糾紛。他透露在《港區國安法》生效後,曾建議將資料庫移交港大接收,但被大學高層否決。David Webb於聲明中總結:「這讓我別無選擇,幾乎沒時間了。」

【香港歷史存檔網站 Gwulo】

群衆參與構建 創辦人手動審視防垃圾信息

歷史存檔網站「Gwulo」創辦人貝大衛(David Bellis):「我從未見過David Webb,但我們的年齡、背景(相似),我們都懂得編程,在差不多時間創立資料庫。所以我明白它(Webb-site)即將結束,只希望原始數據可繼續讓人使用。」

Gwulo是許多歷史愛好者的寶庫,收錄舊香港照片、地方及人物資訊,更幫助不少人追溯家族歷史。與Webb-site不同的是,Gwulo更早開始由群眾參與構建資料庫,已登記用戶可上載歷史圖片和評論。創辦人貝大衛比喻,Gwulo像是一組龐大的拼圖,每個人輪流放上一塊,逐漸形成更清楚的圖像。不過,貝大衛仍有把關角色,如新用戶首個上載內容須經由他審批,以打擊垃圾信息(Spam)。垃圾信息一直令他很頭痛,即使應用「驗證你是人類」的工具亦未能杜絕,只能靠他手動審視內容,封鎖濫發用戶。

已返英居住的貝大衛說,至今每天仍會花一小時管理網頁,再花約半小時處理查詢電郵。有時網頁系統需要更新,他會用上數周,像一份全職工作般全力處理。被問到營運網頁算不算負擔很大,貝大衛認為即使是義務工作,人們始終是有所收穫才會投身其中。「有時幫助了人,也許解決了一個家庭的疑問,真的很有成就感,那是美好的一周。或許有時候,網站上有人爭吵不休,我就會想『為何我要做這些呢?』所以時好時壞,但好的時候比壞的時候多,這讓我能夠繼續前進。」

他知道許多人私下做不同主題研究,但從不與人分享,或只在朋友圈內交流;Gwulo則把這些資料公諸於世,希望大家一同受惠。貝大衛有時候發現新資料庫,或許是某位博士生的項目,他樂見這些成果,唯一缺點是,可能博士學位結束後兩三年,網站便停止運作,壽命不像Webb-site或Gwulo那樣長」。

雖然網際網路檔案館(Internet Archive)的Wayback Machine功能讓網民查閱已消失的網站,但貝大衛指網頁部分功能未必可以重用,亦不肯定互動地圖會否獲保存。大英圖書館一直為英國網頁存檔,並開放讓公眾查閱。他認為本地大學可仿效做法,發掘有趣的本地網頁並將內容存檔,相信比接手管理所花資源更少。

有想過Gwulo萬一停運要如何處理嗎?貝大衛答道:「我時不時會思考,然後覺得有點可怕,便不再想下去。」方案包括自行存檔整個網頁的截圖或原始數據,交予數個機構,至少這些珍貴資料的複本仍然存在。

【香港自殺報道資料庫】

自動搜尋程式助唯一編者 記錄自殺趨勢

香港自殺報道資料庫編者楊皓文:「如果(David Webb同樣情况)在我身上發生,其實資料庫都有機會停止,而且未必有人願意接手做,因為始終這個主題(自殺報道)不是很正面。」

另一個民間資料庫「香港自殺報道資料庫」取材自6間本地媒體的新聞報道,以儀表版、地圖等形式呈現由2019年至今獲報道的自殺數據。點進資料庫,大眾可一覽每天的自殺數字、最近30天、12個月的趨勢,以及個案的年齡組別、性別等背景資料。

傳媒報道本來已是面向大眾,為何需要再集中整理?「其實它(資料庫)的意義就是,讓人知道有個人在關注這件事。」楊皓文提起未有資料庫之前,大眾對自殺個案趨勢的判斷未必準確,「有時候覺得多了,其實看回數據並不是,連新聞報道也沒有多了」。資料庫便利記者與研究者,不少大學生聯絡楊皓文,希望借用數據完成研究。警方雖然掌握自殺個案數字,但不會對外公開,故自殺報道成為一種間接紀錄。楊皓文曾將資料庫與死因庭的數據作比較,約七成的自殺個案獲傳媒報道,「很穩定的七成,變相可以推算真正的個案數字是多少」。

被問到民間資料庫的重要性,楊皓文坦言自殺報道資料庫未必可以改變自殺個案走勢,但他秉持記錄者的身分,「純粹是我想找一些答案,做了出來,我想分享給大家看」。他固然希望為資料庫尋得資助,但明白有難度,始終資料庫不能直接改變社會,「我覺得(資助方)都看商業利益的,如果對他們的名聲或利益沒增長,也不會特地投放資源在你身上」。未來他計劃補充2019年前的自殺報道數據,繼續記錄更多報道。

【香港車禍傷亡資料庫】

向運輸署索原始數據 助改善街道設計

「街道變革」成員黃翹昊:「David Webb說8位數字(自2003年起投放逾1千萬港元建立及維持資料庫),我第一個看法就是『嘩,原來這麼多?』。不單是談金錢開支,他自己20多年來一直維持整個網站(運作),也做了很久。」

運輸署每年公開交通意外數據,列出該年份的意外宗數、按年齡及性別劃分的傷亡者數字等資料,市民可在運輸署網頁查閱。數據看來齊全,不過關注街道設計的民間團體「街道變革」認為有改善空間。街道變革成員嚴卓衡舉例,倫敦、紐約和東京的警察廳或運輸部門設有地圖資料庫,公眾可了解每一條街多常發生車禍,以便與政府部門溝通改善方法。香港則只有公開按區議會分區劃分的交通意外宗數,政府雖然會公布交通黑點,但嚴卓衡認為有更多值得分析之處,「可能一些不在交通黑點的地方,其實也有很多車禍,或者某一類型的車禍特別多,我們很想用不同的方式去看」。

街道變革希望更仔細分析車禍數據,卻發現像車禍發生時的天氣、道路濕滑情况、現場是否交通燈路口等資料不會公開。他們按公開資料守則向運輸署仔細查詢,最終順利取得大部分原始數據。過程不算有太多阻撓,不過嚴卓衡認為並非最好的做法,「政府不是以最主動的方式把這些資料給予公眾」。

憑藉運輸署每年提供的資料,街道變革2022年推出香港車禍傷亡資料庫,旨在利用互動地圖和儀表版,將香港車禍位置和相關數據可視化。任何人可瀏覽車禍地圖,尋找每一條街在指定日期範圍下發生過的車禍,閱覽個案詳情。團隊更利用熱區(Hotzone Analysis)方法,按車禍密度(每公里車禍事故次數)識別「行人車禍重災區」,同樣以地圖形式呈現。

資料庫有助街道變革的倡議工作,例如支持他們於2022年發表的《香港行人車禍傷亡報告》。嚴卓衡指,這些數據成功推動區議員一同參與倡議,繼而引起運輸署關注,最終促成於深水埗北河街設立30公里低速街區。

街道變革每年向運輸署索取資料,再由黃翹昊與另一位團隊成員以工餘時間整理,更新資料庫。受資源所限,他們難以進一步優化網頁使用體驗,或展示更多類別的資訊。由於他們使用的伺服器可承受的流量較少,有時用家點開太多資料,網頁便容易「死機」。「我們升級伺服器的大小,其實都是要錢的」,嚴卓衡無奈道:「現在經濟都不是特別好,就算一些本身很有心的基金,其實都未必再這麼歡迎與民間團體合作。」

黃翹昊參與構建資料庫,個人動機是希望推動開放數據(open data)。團隊現時義務運作資料庫,嚴卓衡希望拋磚引玉,「到最後這是政府的責任」。

文˙ 朱令筠

{ 圖 } 資料圖片、網上截圖

{ 美術 } 朱勁培

{ 編輯 } 梁曉菲

fb﹕http://www.facebook.com/SundayMingpao

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0