Latest updates‎ > ‎

香港科技大學資訊商業統計及營運學系教授張曉泉

大數據分析的十二個陷阱
在打造數位企業的趨勢下,大數據應用幾乎已經是不可或缺的基礎,然而,在前進大數據的道路時,可知曉陷阱何在?如何避開?本篇或許可以找到初步的答案。
採訪/施鑫澤  文/楊迺仁


大數據分析的價值,開始受到許多人的重視,也已成為政府或企業的決策參考。但香港科技大學資訊商業統計及營運學系張曉泉教授指出,同樣的資料,不同的人會看到不同的結論,如果在做大數據分析時,沒有先了解大數據分析可能會碰到的陷阱,只是一昧的迷信大數據,可能未蒙其利,反受其害。
如瑞士的GDP是18萬美元,雖然人口只有800萬人,但市場規模仍與台灣相當,約在7000億美元左右,而中國大陸的GDP雖然只有7,000美元,但因為中國大陸人口數量高達14億人,市場規模其實多達9兆美元,相當於瑞士的200倍。
張曉泉指出,如果業者有「人口紅利」的概念,同樣的產品市占率,可以讓業者可以取得更大的利益,但業者如果只看人均GDP,就可能看不到中國及印度這種人口數眾多的市場力量。
換句話說,用不同的觀點,看不同的數字,會得到不一樣的結論。張曉泉指出,大數據就像顯微鏡,可以讓我們觀察到過去看不到的行為數據,如過去分析罪犯的動機或行為,可能只是看到罪犯本人的嗜好、學歷。有了大數據分析後,罪犯的行動路線、選擇的犯罪方式等各種更精細的數據都看得到,就可以作出更多的決策,但業者同時也要小心注意大數據本身的陷阱,以免被大數據誤導,做出錯誤決策。

十二個大數據陷阱

第一個陷阱,也是張曉泉認為大多數人最常犯的錯誤,就是沒有掌握數據之間的因果關係。大數據雖然會提供許多處理過的數據,也許可以告訴我們發生了什麼事,但是如何發生?為什麼會發生?大數據分析不見得能告訴我們答案,這也是大數據分析的限制。
張曉泉強調,一定要找到正確的方法,來證明數據之間的關聯性,這樣的數據才會有價值。如美國零售龍頭業者沃爾瑪(Wal-Mart)在分析結帳數據後發現,每到星期五晚上,尿布和啤酒的銷售量就會同步提高,透過調查才知道,原來是因為美國週五晚上,父親到超市買尿布時,會順便為週末球賽購買啤酒回家。
但張曉泉指出,並不是所有的數據同步提高,就表示兩者有正相關,如曾有人提出,只要冰淇淋銷售量上升,在游泳池淹死的人也會變多,但兩者其實毫無關連,純粹只是因為夏天到了。
此外,並不是所有的大數據分析都可以使用實驗法,因為有些數據如犯罪、醫藥等,不能隨便實驗或輕率判斷,可能會有意料之外的後果。如在美國大賣場Target就曾發生過一個很有名的案例,一位15歲女生收到Target寄來的驗孕棒與尿布廣告,讓女生的父親非常不滿地向Target抗議,因為她的女兒還未婚。
雖然事後證明,Target的大數據分析沒有錯,但依然造成公司非常大的困擾。張曉泉也指出,美國政府曾經想過要做個實驗,想了解提供小孩子免費午餐的政策效應,但如果真的要用實驗法,就得讓一半的小孩有免費的午餐可吃,一半的小孩沒有,可想而知,馬上就會遭遇不公平的質疑,可見想要用實驗來證明數據之間的因果關係,不見得就能夠用實驗法。
大數據的第二個陷阱是樣本的偏差。如很多媒體都會引用推特(Twitter)用戶的意見,但使用Twitter的人因為年齡層普遍偏低,只能代表年輕人的看法,在許多議題方面,都不見得有代表性。
張曉泉指出,許多產品意見調查也一樣,往往只有非常喜歡及非常不喜歡的人才會表示意見,而且這些人撰寫意見的動機,可能根本就看不到,如果只用這些意見來分析,結果就可能會有誤差。
大數據的第三個陷阱,就是大數據產生的結果可能會變得很糟糕(Dirty)。張曉泉指出,大數據分析也需要有團隊去監督,否則可能產生不好的結果。
如微軟曾經推出一台人工智慧聊天機器人「Tay」,微軟還特地為Tay開了 Twitter 帳號,想與更多世界各地的網友互動,但卻在不到 24 小時內,Tay竟被民眾訓練成具有種族歧視的人工智慧機器人,微軟只好緊急宣布將Tay暫時下架。
大數據的第四個陷阱,則是人類或群體對數據分析結果的回應很難預料。張曉泉指出,大數據的分析結果也許是中性的,但引發的行為卻可能是負面的。
如紐約市政府曾經將紐約醫生治病的死亡率資料公開,結果卻發現,有醫生因為擔心死亡率會上升,於是就設法只治療容易醫治的病人,反而讓一些急需醫療的疾病如心臟病,找不到願意治療的醫生。
大數據的第五個陷阱,就是數據本身的偏差。張曉泉指出,如果只看到某個數字的成長率非常快,就以為真實的現象也是如此,可能就會被誤導,因為成長的起點並不是從0開始,如果將起點降到0,成長現象就不會那麼讓人驚豔,可見數據呈現的方式,也有可能會造成誤導。
大數據的第六個陷阱,就是兩個數據可能都是真的,但給人的感受卻可能完全不同。張曉泉強調,大數據分析無法告訴關鍵點在哪裡,而這個關鍵點卻可能導致完全不同的結果。
如美國的租稅政策曾經想要像瑞典一樣提高稅率,卻發現瑞典人其實對國家的租稅政策很有意見,已經在要求降稅,有可能是因為瑞典已經過了某個關鍵點,而美國還沒到,造成完全不同的決策思維。
大數據的第七個陷阱,是缺乏理論模型支持引導數據分析,單純只去看數字本身是不夠的。
如Google Trends過去曾用來預測流感病毒的傳播現象,如某個地區開始大量搜尋流感病毒的關鍵字,可能就代表流感的傳染高峰期已經到來,但後來卻發現,Google的預測其實也沒有這麼準確,因為不知道搜尋的原因。
大數據的第八個陷阱,是有些事情是無法預測的,有些事情,不是有了很多的數據,就可以做得更好,即使是大數據分析也辦不到。
如地震、金融危機,就算過去已經累積了許多數據,還是很難做出精準的判斷。就像藥品的治療效果,其實也只是一個平均數字,只能表示治好的機率大不大,但想要預測某一種藥對某一個病人是否一定有效,就辦不到了。
大數據的第九個陷阱是,現實其實非常的複雜,很難用簡單的模型去描述。就算掌握了很多數據,許多數據可能也看似有關連,但其實不一定就有因果關係。
如美國在二次世界大戰之後,曾經發生過11次經濟危機,但如果真的想要用數據去分析,只有這11個參考資訊,還不足以產生能夠預測未來可能發生的經濟危機。
大數據的第十個陷阱是,當數據本身品質不佳時,再怎麼優化,數據的價值也不會提高。如果提供給自駕車的資訊,是一群不遵守交通規則的駕駛習慣,不管大數據分析多麼優秀,這台自駕車就只會因為不斷的違反交通規則,而一直作出不恰當的行為。
大數據的第十一個陷阱是,大數據不能只看平均的結果,也要去看其他例外的可能。如某種藥物的治療效果,大數據的分析結果,可能會給出成功率不到10%,似乎看起來沒有價值,但如果有3%的病人壽命,可以因為這種藥而延長10年,這種藥的價值其實還是很高。
大數據的第十二個陷阱是,世界隨時在變,結果隨時可能也有變。雖然用實驗法可以解決數據真偽的問題,但實行難度很高。張曉泉認為,解決的方法還是要用傳統經濟學的方法,要用合理的理論方法去分析數據,設法得到數據之間的因果關係。

大數據分析需要優秀的分析團隊

張曉泉強調,大數據分析如果有正確的理論來引導,同時考量前述的各種陷阱,就可以帶來正面的意義。換句話說,如果沒有優秀的分析團隊,即使有大數據,未必會有很好的預測效果。
張曉泉強調,做分析的人一定要孰悉理論,而不是看到兩個數據,就以為兩者之間有關聯。張曉泉認為,這些判斷數據關聯性的模型其實並不難,但還是需要學習的過程。建議業者如果需要人才的話,可以到大學找專門從事這方面研究的經濟專家,因為光是經濟學建立的數據分析模型,就已經有上百年的發展歷史基礎。
不過傳統大學目前針對大數據分析的統計專業並不是很足夠,可能需要更多跨系的整合人才。而且產業的變化非常大,學界可能需要更深入地了解產業需求,才能訓練出產業需要的大數據分析人才。
張曉泉指出,不做大數據分析肯定是不對的,但想要期待大數據分析真的能幫助決策,一定要找到一個可以驗證數據關係的模型,如統計模型、同時對於各種議題如經濟發展的模式,也要有一套可以解釋的理論,錯用大數據分析,不光只是決策錯誤,可能還會帶來非常嚴重的後果,產業可能只有獲利問題,但許多領域如醫療或治安,就可能會造成民眾生命的損傷。
張曉泉指出,完全的開放,往往會帶來更多無法預測的社會成本。大數據分析並不是不好,而是要注意整個發展歷程,蒐集資訊的階段已經結束,簡單分析也沒有大問題,但接下來就是要注意有哪些陷阱,大數據分析需要方法論,才能讓結果更正確,成為正確的驅動方向。                                

Comments