Latest updates‎ > ‎

國立雲林科技大學資訊管理所特聘教授許中川

巨量資料推動企業轉型

隨著資料型態從過去結構式資料走向非結構化資料的時代,能夠支援多種資源格式的巨量資料分析技術,被認為是企業挖掘潛在商機的最佳選擇。
採訪/林振輝、施鑫澤 文/林裕洋



伴隨著創新科技不斷問世,巨量資料一詞已非研究機構討論重點,如在Gartner公布2017 年前十大策略性科技趨勢中,選擇將人工智慧(Artificial Intelligence,AI)與先進機器學習(Machine Learning,ML)列為最值得關注的重點之一。然而這並不代表巨量資料已經式微,反而是在數位經濟時代下,Google、臉書、Airbnb等創新公司主導全球經濟發展之際,企業能否透過多元管道收集足夠資訊,進而以資料為核心推出眾多新服務,便成為可否持續保有競爭力的重要關鍵。
國立雲林科技大學資訊管理所特聘教授許中川表示,若從巨量資料廣義角度來看,其實全球投入資料進行分析已有很長歷史,早期資料分析主要以描述性統計為主,如平均、總和、排名、中位數、眾數等等。隨後在資訊化程度日深,資料分析也邁入OLTP(on-line transaction processing,線上交易處理)、OLAP(On-Line Analytical Processing,線上交易分析),支援主管決策,強調報告、儀表板的商業智慧,著重在關聯分析、分類、分群、網頁(站)資料分析的資料探勘。
而隨著資料型態從過去常見結構式資料,走向非結構化資料的時代,匯集多年技術能量的機器學習,已被認為是處理文件、語音、圖片、影像等非結構化處理的最佳選擇。至於能夠支援多種資源格式的巨量資料分析技術,主要內涵則涵蓋資料探勘、機器學習技術、分散式平台,被認為是企業挖掘潛在商機的最佳選擇。

資料結構快速改變 帶動巨量資料技術發展

在麥肯錫於2011年發表「巨量資料據:創新、競爭和生產力的下一個新領域」報告中指出,巨量資料將是企業競爭不可或缺的關鍵基礎,並成為下一波生產力提升、商業創新和為消費者創造價值的支柱。而儘管市場上對巨量資料定義有些取差異,不過主要都圍繞在資料量「大」(Volume)、增加「快」(Velocity)、資料型態「多」樣性(Variety)等範圍,此種在短時間產生大量多元資料的新型態,遠遠超過傳統資料分析工具的處理範圍,也對資訊架構帶來極大衝擊。
為因應資料型態與產生速度的改變,市面上也出現許多新技術與工具,如專為解決大量資料存放的分散式儲存架構,如HDFS(Hadoop Distributed File System)分散式儲存巨量資料架構,可在短時間內處理大量資料的分散式處理技術,如MapReduce平行分散式資料處理模式,以及能夠處理多種資料型態的先進資料分析技術,如In Memory即是將資料存放在電腦記憶體中,運用記憶體高速特性處理大量資料,此種大幅改變資料處理與分析型態,可大幅縮短資料分析所需時間。
許中川認為,即便有分散式儲存、分散式處理、先進分析技術等科技協助,企業仍然還需要能夠與巨量資料工具契合的程式語言,如Python、Pig、Hive等,以及一套於大量數據或資料中挖掘有價值資訊的方法,又或者能從大量影像或圖像形式中,呈現資料分析結果的視覺化資料分析工具。除此之外,隨著社群平台的蓬勃發展,市面上亦有專為分析文字出現頻率或情緒等事項的自然語言處理技術,透過多種分析工具的相互搭配,才能達成運用巨量資料工具挖掘商機的目標。

改善生產效率 強化競爭力

在現今相關技術持續進化下,各國企業引進巨量資料技術意願也比過去更高,全球各國也累積許多成功案例,即便是對創新科技接受度較慢的台灣,亦開始把該技術視為邁向數位轉型不可或缺的重要工具。根據CIO IT經理人公布的2017 CIO採購行為大調查報告發現,有高達88%資訊長認為該技術有助於提升企業競爭優勢,雖然2017年有意導入比重僅為35.5%,但也代表創新公司運用資料分析成功的模式,已開始改變台灣企業的經營思維。
若從市場上常見應用模式分析,巨量資料工具將有助於協助企業降低成本、提升效率、改善品質、發展新產品或新服務、支援事業內部決策等等,成為企業改善營運體質、發展多元業務部的最佳選擇。如近來台灣高科技產業飽受中國紅色供應鏈的衝擊,企業在強化研發能量、快速回應市場需求之外,若能從收集生產資訊、分析資料著手,有助於將設備、人為疏失降至最低,強化在市場上的競爭力。至於工具機業亦可導入物聯網概念,藉由增加機械設備運作效能與提供主動式維護服務,創造出競爭對手不及的差異化服務。
「不過,並非所有環境都適用巨量資料工具,若資料型態為傳統結構式資料,其實運用傳統資料分析工具,即可達成低成本創造更高價值的目的。」許中川解釋:「相較之下,若資料中資訊含量豐富、沒有現成的統計分析方法可用,且資料變動性極高,便相當適合引進巨量資料分析平台,有助於讓營運團隊做出正確決策,進而提升企業整體營運績效。」

專業人才不足 巨量資料發展隱憂

根據Wikibon預估,全球巨量資料產值2016年約為260億美元,並以年複合成長率14.4%速度成長,預估2026年將可達922億美元的規模。然而企業若要順利引進巨量資料平台,除要高層營運團隊的支援外,也勢必得仰賴熟悉工具特性、資料屬性的人才,只是也凸現出市場上專業人才不足的窘境。為解決此種問題,近幾年全球各國政府紛紛透過各種形式培養相關人才,如澳洲、南韓、新加坡等國家便成立巨量資料中心,其中新加坡則與民間業者合作,藉由業者提供軟硬體資源和資料科學專業,全力培養資料分析的專業人才,期望讓新加坡成為亞太巨量資料分析的重鎮。
至於台灣方面,最常見到學界、業界的跨界合作,如IBM便攜手交通大學、惠普科技、晉泰集團則與中華大學簽署策略聯盟,而雲林科技大學在開設相關課程之外,也曾多次舉辦巨量資料研討會,期望為台灣企業培育更多資料科學家。
許中川認為,巨量資料分析團隊應該要具備下列幾項特質,首先本身需是資訊技術高手,擁有會寫程式、能理解巨量技術架構的特性。其次,則是擁有科學家的精神,能提供佐證支援決策、即興、好奇,讓分析結果成為經營團隊決策的參考,第三點則得扮演可靠的顧問,具備良好溝通能力與人際技巧、了解決策架構與流程,才能讓更多部門享受到資料分析的好處。至於四點,巨量資料人才得有量化分析師的特質,能做統計分析、機器學習、非結構化資料分析,第五點則是需身為特定領域專家,懂組織運作、組織目標,且對巨量資料應用有想法,而非毫無目的推動創新技術。
在巨量資料分析初期屬於探索性質,充滿各種未知與不確定性,當業界與學界能夠合作共同攜手探索,研究標的便可因探索結果而調整。因此,在產學合作機制方面,學生可先從學習多種學科著手,如修習線性代數、數值分析、機率、統計、資料結構、演算法、資料庫系統、資料探勘、機器學習等等,並且熟悉設計演算法、寫程式、快速學習、溝通的能力。至於業界方面,則可提供學校環境欠缺的領域知識、協助解讀資料的特性,並且透過高階主管直接參與的方式,擴大產學合作效益。

巨量資料失敗案例多 足為企業發展借鏡

儘管巨量資料被視為是企業轉型,發展多元業務的重要工具,不過在長期發展過程中,仍然出現許多應用專案出現因欠缺專業知識協助,陷入創新技術應用的迷思,其中最有名案例則屬 Google Flu Trends(谷哥流感趨勢)。身為全球搜尋引擎龍頭的Google,曾在2008年宣稱可根據用戶在搜尋引擎上留下的資料,針對流感進行即時預報,研究團隊認為當用戶患上流感後,會運用搜尋引擎中尋找關於流感的相關資訊,最後便可形成有關於流感流行情況的整體性趨勢信號。如果將前述統計資料與美國疾病預防控制中心(Centers for Disease Control and Prevention,CDC)的流感監測資訊進行對比,即能提供更為精準的流感趨勢預測,至少可比CDC預測提早2周,讓各州衛生單位有更多時間因應。
可惜此專案計畫最終沒有成功,該專案團隊預測2012年底美國流感類疾病患者數目的偏差值高達140%,關鍵在於一般民眾欠缺判別流感與普通感冒差別的能力,所以會頻頻上網查詢相關訊息,最終導致與預測模型產生過度關聯。而該分析預測專案,也會產生不理性的恐慌效果,因為當一個州的有疑似流感狀況發生時,鄰近州準備工作或網路相關討論會,便被模型誤認為流感已擴散至鄰近州,導致出現偏差率高達140%狀況。
許中川說,近來最知名預測失敗案例,即是2016美國總統大選的民調失準事件,根據事後深入分析發現,關鍵在於抽樣代表性不足、民調回覆率過低、民調設計不良、受訪者不願吐實、游離票比例過高等等。若要改善此種狀況,研究團隊唯有充分了解應用領域、充分了解數據分析方法,才有辦法正確解讀結果與適度調整方法,進而讓巨量資料分析專案成功。
巨量資料是由各種量大、流動快地異質資料來源所匯集而來,企業運用巨量資料技術進行蒐集、紀錄、儲存、分析,便可將龐大資料轉換成有價值的資訊,成為推動公司前進的重要動能。              
Comments