二次大戰期間,戰況激烈,各國想要提升軍機在砲火下的生存率。當時,美國一群科學家記錄了倖存回來的飛機上留下的彈孔,有人主張要在彈孔密度最高的區域,加強防護裝置;有人認為應該先強化油箱與駕駛所在的關鍵位置。
正當大家爭論不休時,哥倫比亞大學統計學教授亞伯拉罕.沃爾德(Abraham Wald)卻說了句,「這些彈孔統計數據毫無參考價值。」因為能夠安全飛回來的飛機,表示機身上的彈孔落點,都不足以致命;真正有致命危險的彈孔數據,早就已經隨著飛機葬身海底了。
這個例子說明,從錯誤的假設出發,蒐集到錯誤數據,再怎麼分析也得不出結果。
《用數字做決策的思考術》提到,數據蒐集有 2 個目的,一個是驗證你預設好的「假說」、一個是建構原先沒有的假說,兩者要交互運用,來回驗證說法的準確性。譬如,在執行一項專案時,你可能會先藉由訪談建立初步假設,再發放問卷驗證自己的假說是否正確。
換句話說,數據分析是圍繞著問題意識打轉,蒐集數據的目的,是用來驗證問題、產生行動。因此,在蒐集數據前,第一步要先定義商業問題。
5W1H 讓問題具體化,才知道該蒐集什麼資料
《只要 Excel 六步驟,你也能做商業分析、解讀數據,學會用統計說故事》表示,可以適當運用 5W1H(who 誰、when 時間、where 地方、what 什麼事、why 為什麼發生、how 如何發生),針對問題提問。
假設公司業務部營業額下降要思考對策,但「營業額降低」只是問題呈現出來的結果,不能只就這個結果設想解決方案,應該先思考,發生的原因是什麼?
如果你認為主要原因是「新客戶開發數量不夠」,新客戶開發數量的問題,加入 5W1H 後,重新整理成「是否因為某地區(where)的業務離職(what),導致該區域新客戶量較少?」讓問題愈來愈具體。
所謂的「具體」,是指能運用資料分析來回答的問題。當我們懷疑「開發新客戶數量」與「營業額」有關時,就要觀察「業務陌生拜訪次數」、「拜訪後成交率」、「各客戶消費金額」等指標。
接著進行分析比較,觀察兩者走勢:比方從折線圖觀察,是否拜訪次數增加、成交率也跟著增加?或者,即使拜訪次數增多,成交率也沒有太大差異,藉此驗證假設是否正確。
不是根據數據提出假說,而是有了假說才蒐集數據
有時現有資料無法釐清問題,或者資料有限,你得蒐集更多資料,或者修改假設,不見得分析一次就會成功。你也許會發現原先的假設與問題可能毫無關聯,但是依照結果,可以修改假設,一步步逼近問題核心。
《簡單用數據,做出好決策》表示,很多人以為,要觀察數據才能產生假說,但其實最佳來源是接近業務現場的人,產品經理、客服與銷售人員,因為他們才是在決策方針之下,實際行動的人。最好召集所有利害關係人,召開腦力激盪會議,分享他們認為什麼因素可能會造成目前的狀況。在這個階段,目標是要產生好幾個可能的假說。
美國數據管理顧問公司 Aryng 曾為一間金融服務機構諮詢,解決近期客戶流失的問題。在假說會議上,有業務員提出,風險政策改變,可能會導致某些潛在客戶失去資格,最後證實假說正確,但如果沒有業務相關經驗的人,只看數據就不會有人探究這項問題。
因此,在激盪會議上不該排除任何假說,更好的做法是,你可以依據假說的合理性、可行性,排定先後順序。在排序時,可以分派給每位參與者 100 點,讓他們分配點數投給每個假說,再根據每個假說獲得的總點數,排定優先順序。
在進行數據分析時,是採用「逆向思考法」,也就是先設定好目標再進行分析,有點類似先射箭再畫靶,而不是看到任何資料,就要立刻分析得出結論,在取得共識之後,才開始蒐集資料,減少過程中花費的時間與精力。
從證明或推翻假說的標準,界定該蒐集的資料範圍
在蒐集資料時,要先定義能證明或推翻假說的標準,界定每個假說所需的資料。這個階段常發生的錯誤是,每個人對問題的定義不一致。舉例來說,轉換率下降,是指這周、這個月,還是這季?下滑是與去年同期比較,還是與上個檔期比較?轉換率,是指顧客點擊、還是顧客必須完成交易?
因此,填寫資料規格時,就需要確定與這次分析有關的數據精細度,包括,時間(周、月、季、年)、地域大小、市場區隔(依消費特徵分、依人口統計特徵分)。根據你想要的結果,設想好資料格式,不同資料間才有比較基準,也方便後續彙整。
蒐集資料先以少量的資料進行驗證。留意資料中的空值(不存在於資料庫的資料,代表無意義的數值)與特殊數字,舉例來說,顧客資料裡的職銜名稱,顧客可能因為找不到符合選項,填寫「其他」,雖然不屬於空值,但是在做資料分析時,無法獲得更進一步的洞察。因此,在開始蒐集前,要先比對資料類型與你期望的是否一致。
數據不怕少,而是怕不好
除此之外,也要檢測你的資料是否正確,《以 MARTECH 經營大數據會員行銷》提到,企業蒐集數據常遇到幾個問題:
1. 沒有資料(no data): 以前沒有設定目標,因此沒有保存所需的資料。
2. 過時的資料(out-of-date data): 雖然有保存資料,但資料已經過時,例如 5 年前的會員資料,不確定現在是否正確。
3. 不完整的資料(incomplete data): 資料欄位不完整,導致只有部分可以應用。例如,有姓名、電話、地址,但缺少交易項目與金額的欄目,須補齊才能運用。
4. 遺失的資料(missing data): 某些資料欄位空白,例如,某些地區的交易資料空白,無法確定是否發生交易、或者交易金額為零。可以選擇填入平均值,以降低對整體資料的影響;若是資料數夠多,也可以選擇刪除。
5. 稀少的資料(sparse data): 該記錄到的資料都有,但數據非常稀少,較不具分析價值。
6. 不精確的資料(inaccurate data): 因為定義不同,而產生不一樣的數據。例如,線上廣告透過不同監測軟體如 Google Analytics、Double Click、Tracking Pixel,出現的數據就不一樣。分析前,應該先了解衡量方法的差異。
整理過後,往往你會發現,很大一部分資料缺乏利用價值。不過作者高端訓指出,數據不怕少,而是「怕不好」。如果數據的用途,是運用在預測分析,即透過機器學習,預測出個別客戶還有可能會買什麼,愈多數據預測愈準確,因此企業需要持續蒐集資料;但如果是用在商業分析,了解顧客過去的消費行為、購買的原因,少量且精確的數據,比大量、未經整理的數據還要有分析價值,假使資料有問題,再怎麼分析,也難以解決問題。
延伸閱讀
想做資料分析,不能只靠工程師!管其毅:建立數據團隊前,主管必懂的 2 個觀念
掌握資料科學的四大分析步驟,啟動 AI 專案
留言 0