READr 記者李又如在今年 5 月參加位於德國的國際領袖學院(International Academy for Leaders, IAF)關於「新聞自由」的課程,此課程由諾曼基金會(Friedrich Naumann Foundation for Freedom, FNF)舉辦,並在課程後參訪了德國非營利媒體 CORRECTIV ,此篇為交流心得。
CORRECTIV 是德國的一家非營利媒體,以調查報導為主,同時也是國際事實查核組織聯盟(IFCN)的一員,我第一次注意到他們便是過去做 COVID-19 假訊息、和俄烏戰爭假訊息報導時用到 CORRECTIV 查核的資料。
這次因為諾曼基金會的活動來到德國,有機會和 CORRECTIV 交流。除了以正在進行的題目 Deepfake 為主題專訪了事實查核部門的記者馬里諾夫(Viktor Marinov)以外(報導已上線:以假亂真的 Deepfake 事件簿),也和資料記者東海瑟(Max Donheiser)有了深度交談的機會,我向她請教了 CORRECTIV 入圍全球資料新聞獎(The Sigma Awards)的氣候報導計畫(The Kilma Project)。
Klima 計畫最早是在 2019 年在外部資金的贊助下成立,比起報導,它更像是一個氣候變遷的報導社群,提供各式各樣的資源給環境記者。2022 年,Kilma 計畫以自 1990 年迄今的地下水資料為基礎,發佈了 3 篇資料新聞:
- 首次全國性的地下水分析:在乾旱年間,有一半的測站達到了過去 32 年的最低點
- 為水而戰:從法院判決書發現,過去 10 年,有 11 個德國地方政府關於水的訴訟案增加了
- 互動地下水地圖:讀者可以探索自己所在地區地下水的變化
在每一篇 CORRECTIV 的資料新聞裡,他們都會開放資料、並和 CORRECTIV.Lokal(該組織經營的地方記者網絡)超過千名記者分享調查結果,記者們也可以透過這些資料做出更深入的報導。
東海瑟跟我分享了這個計畫資料蒐集的過程、如何和政府打交道、如何讓合作的記者有意願也有能力使用資料,以及身為該組織目前唯一資料記者的工作心法和與同事的協作方法。
從各邦蒐集地下水資料 資料格式不一困難重重
作為報導最主要的資料集,東海瑟和團隊花了 6 個月的時間才將整個 32 年的德國地下水資料蒐集完畢。德國是聯邦制,由 16 個邦組成,每個邦有自己的資料蒐集方式,格式也大不相同,有的甚至連測量單位都不一樣,「在柏林,每件事都很容易,你可以點擊網頁上的按鈕下載 csv 資料。但其他的邦⋯⋯例如,我需要在網頁的地圖上點擊,它會彈出一個視窗,點擊之後又彈出另一個視窗。」她苦笑,而有的甚至沒有在網路上公開,他們需要直接和政府部門接洽才能獲得。
各邦的狀況又很不一樣,有的是政治問題、有的是技術問題。東海瑟分享道,「有一個邦,我們試圖要求資料,但他們最後沒有提供,因為對他們來說所有關於水資源的事情都非常敏感;而另個邦則說他們必須花費數個月的時間才能把資料集整理好提供給我們,所以拒絕提供。」
「但有趣的是,我們問了這個邦好幾次,對方都說不行;最後,我們找到了資訊部門,他們說沒問題啊!我們可以用 SQL 匯出資料給你們。」東海瑟笑道,「我學習到,我會盡可能地多使用專業術語,並提出非常技術性的問題,這樣公關部門就會說『我聽不懂,我會轉給資訊部門』,而通常資訊部門的人會很樂意協助,因為他們終於找到聽得懂他們在說什麼的人。」
「不過在找到合適的人協助之前,我們確實花了不少時間。在某些邦,我們甚至花了 3 個月才要到資料。」他說。
東海瑟也提到,這個議題過去當然有相關的報導和研究,但或許正是因為資料難以取得,沒有人真正進行過整體性的研究,這也正是他們的動機之一。
他提到,「當我們和研究人員交流時,他們往往專注於一小片土地——大概城市街區那麼大。他們會暸解所有的環境因素,包括土壤類型、地面材質等等,進行非常詳細的資料分析。大多數的邦也都有在進行地下水變化的研究,但參與的人往往很少,因為他們的人手也不足。」
但取得資料後,下一個挑戰才開始。「雖然我們擁有大量的資料,但另一方面,這些資料的品質實在不夠好。」東海瑟說,「我們有 32 年的資料,但其中一個計算方式是月平均數值,當月平均數值的缺值超過 5% 時,我們就無法使用這部分的資料。最終,我們在地圖上標記出 6700 個點,但實際上有超過 5 萬個點。」
「但 6700 個地下水位的資料能夠告訴我們什麼呢?」東海瑟提到,資料新聞不總是能直接從資料裡找到故事,「我們很難直接解釋它為什麼下降,或是說,我們做的其實只是為了深入研究跨出了第一步。」
這也是 CORRECTIV 最後採用地圖展示資料的原因。他提到,「造成每個地區有差異的原因非常大,除非我們專注於某個特定的案例,例如某間公司污染了水源、或直接影響到人們的地方性問題,否則人們總是會問:這到底對我有什麼影響?在這種情況下,地圖是很不錯的形式,你可以輸入你所在的位置,看看周圍的情況。」
開放資料成為「第一步」:與地方記者分工
不只讀者可以在地圖上看見所在地區的狀況,當地的記者也可以利用這些資料做更進一步的報導。30 多家媒體利用此份資料,目前已經有 51 篇相關報導,分別從各地方的歷史、產業、政治、經濟面向深入報導。
「我們主要和地方記者合作。以地下水的專案為例,簡單來說,我們有充足的時間進行資料調查,但我們並不報導局部和細微的事情,但我們提供資訊讓大家去做。例如,我們製作地圖,提到我們的一些發現,但地方記者可以深入地報導該地區正在發生的事。」東海瑟提到,「地方媒體都沒有資料記者。所以本質上來說,這不是競爭,而更像是一種夥伴關係。」
CORRECTIV 在開放資料時,會給 CORRECTIV.Lokal 地方記者社群一份「配方」,內容是關於這些資料的重要性、新聞點、資料各個欄位的意義、甚至是「例句」,讓記者理解可以怎麼在報導裡正確地引用這些資料。
東海瑟舉例,例如「按地區劃分的高溫警報」資料,他們會先解釋:
- A 欄,是 2011 年至 2021 年(11 年間)發布了多少次高溫警報
- B 欄,是發布這些高溫警報時,該地區的溫度
- 資料來源是哪裡
- 因為某某原因,X 月 X 日 G 地區的高溫警報資料進行了人工校正
再附上例句(以下是示範造句,並非真實資料):
- 柏林在 2021 年起的 11 年間發布了 142 次高溫警報,平均每年發出 13 次,比全國平均高出 4 成。
還會附上如果你想要進一步追蹤和報導時,可以參考哪些其他的資料集、朝哪些角度發想、詢問哪些機關、參與哪些研討會來獲得更多資訊。以上述的高溫資料為例,CORRECTIV 就建議他們可以找尋各地區高溫防範措施、高溫住院人數等資料。
「我們做了很多這樣的事。」東海瑟提到,在發佈「配方」之後的一週內,「我就不斷地在跟不同的人通電話,推銷這些資料,解釋這些資料的意義。我覺得,當你嘗試在解釋你如何計算這些資料、或背後的研究方法時,除了更透明,也可以建立讀者的信任,更在教育人們可以更好地理解資料。」
CORRECTIV.Lokal 有超過 1500 名記者,東海瑟指出,雖然不是所有人都很活躍,但除了參與報導以外,CORRECTIV 還提供各式各樣的小型研討會,例如 Excel 的使用或特定主題,或是提供參加大型研討會的經費,「這個網絡不僅僅是調查,還試圖建立起一個社群,並提供教育、和不同型態的支持網絡,給資源較少、或公司無法提供學習資源的地方記者。」
「不過(合作)這比較偏向文化問題。我知道不同的媒體編輯部裡,有些人真的很想要(跟外部)合作,但公司不允許。」東海瑟提到,尤其是私人公司,「他們會覺得為什麼我們要讓所有人都能免費獲得我們的資料?但我認為這反而會讓你的公司變得更好。」
「如果你開源分享了資料,有更多人會關注你的工作,如果資料有問題,有 10 倍的人會審視你的 Code、並提醒你,也有人會幫忙改進,你可以得到免費的反饋,而不需要雇用這麼多人。合作也意味著有更多一起工作的人。如果你跟其他資料記者合作,就會留下時間讓你做其他的事情。」雖然 CORRECTIV 是非營利組織,但東海瑟舉例,像《華盛頓郵報》近年就致力於開源(WP 分享為什麼要開源、WP 的 GitHub、WP 的工程部門分享)。
CORRECTIV 與資料記者的團隊合作
東海瑟是 CORRECTIV 目前唯一全職的資料記者,「所以我的工作方式必須非常靈活。」
他分享,對於較小的故事,他會幫忙同事寫簡單的爬蟲程式抓取資料,或協助他們找到關鍵的資料。但大多數時候,同事會帶著一個涉及資料的報導方向來找他,他則負責把想法化作實際可執行的方案,這就需要和同事密切合作收集資料、分析資料,他也會對視覺化資料提出建議——如果是互動式的資料,就是由他來做。
東海瑟說,設計團隊已經很擅長視覺敘事和圖表工具(他們經常使用 Datawrapper),他現在的角色幾乎僅限於前端網頁工程、或較進階的程式語言,例如他使用 Mapbox 和 React 建立了互動地下水地圖。他也提到自己參與以下兩個題目的資料庫建置:「以金錢抵銷刑事訴訟的案件錢都被捐到哪裡?」、「哪些公立診所不做墮胎手術?」,「通常我會帶著一個概念來到設計團隊,他們會開發它,並使用 Figma 提出具體建議,然後我會在技術上實現它。」東海瑟提到。
「身為一人團隊,我也會擔心如果我生病了怎麼辦?誰將對我的工作進行事實查核?」東海瑟提到,他很慶幸多年來,同事們都暸解他的工作方式,以及他能做的事情,「我很高興我沒有被視為『獨角獸』,而且大家都明白資料新聞不是神奇的魔術。」
「在合作上,資料新聞跟一般新聞沒有什麼不同。人和人之間任何形式的協作,都需要不同的溝通方式跟暸解彼此。困難的是不同水平的資料素養,但在不同領域,例如氣候領域、金融領域,人們的知識水平可能有很大的差異,總是需要一段調整期。」他說。
他會用不同的方式讓同事瞭解他的工作:對於沒有資料技能的人,他花了一些時間教他們怎麼使用資料透視表(又稱樞紐分析表)——也就是說,同事可以用簡單的方式驗算他用程式跑出來的資料。如果資料來自非機器可讀的形式(例如 PDF、紙本),他們就會進行多次的隨機檢查,加減數值看有沒有不合理的地方。
如果是跟有資料技能的人一起工作,「我學到最好的方式是從頭開始。如果我可以不使用同事撰寫的代碼,得到和他們相同的結論和數字,那就意味著計算上沒有錯誤。」
東海瑟也提供幾個小撇步:
- 使用 Jupyter Notebooks(Python 和 R 語言):有助於在程式碼旁邊提供註解
- 建立資料字典(Data Dictionaries):列出資料集中所有變量的列表,如何命名、以及它們的確切含義
- Makefile:能建立跨多個代碼、不同分析方式的自動化工作流程
短短一個多小時中,我們聊得非常開心,我提到這是因為我很少遇到跟我做一樣工作的人,我們也都同意,比起團隊,獨立做這些工作要困難很多,不只是工作量,還關乎是否能互相學習。
東海瑟也提到,他也正在努力建立在當地的資料新聞社群。不過他來到德國時就經歷了 COVID-19,這件事發展得很慢,但他也跟我分享,有在 co-working space 找到一個公民科技的社群,「我一週會去那裡兩次,為了找到可以不用多做解釋就能理解我在說什麼的人!」他笑道。
相關文章
留言 0