官术网_书友最值得收藏!

第二章 大數據的技術分析理論研究

第一節 大數據分析的內涵

一般意義上的大數據分析指收集、組織和分析大量離散數據以揭開隱藏的系統模式、關系或者其他有意義的洞察,并獲取結論的過程(Wang et al.,2018)。目前,越來越多的研究者以大數據指代一系列以大數據集合作為基礎進行數據分析的范式(Blazquez & Domenech,2018;Wamba et al.,2017;Wang et al.,2018)。大數據技術關注大數據術語的語用意義,強調企業如何獲得以及使用對大數據集合進行分析的現實技術,以及基于大數據范式的社會經濟應用(Buyya et al.,2016)。作為典型的復雜數據系統,大數據的動態、非線性和跨尺度要求組織能夠通過同時使用系統等級和個案等級的技術,對不斷涌現的結構化和欠結構化數據進行自動的整理、挖掘和呈現,以從中獲取跨尺度的重要信息和洞見,實現從大數據到大影響的演化(Bar-Yam,2016;Chen et al.,2012)。不同的研究者從不同的視角給出了這一路徑的具體內涵,如表2-1所示。

表2-1 大數據分析的內涵

續表

一 大數據分析技術結構

大數據技術的起點在于從原始數據中構建數據集合倉庫,倉庫對數據的吞吐則構成了大數據生態的主要活動。數據倉庫的構建依賴于原始數據到大數據的數據集合處理的輸入過程。數據集合處理指針對原始數據的處理技術,包括數據收集、數據清洗、數據整合、數據準備、數據歸檔和存儲等步驟(Blazquez & Domenech,2018)。從非傳統社會經濟來源獲得的數據通常是龐大的、異質的、非結構化或半結構化的。這些特征意味著在檢索、處理、分析和存儲數據時會遇到許多挑戰。因此,處理機器學習和大數據中處理原始數據的方法和技術正在開發中。許多這樣的方法已被廣泛應用于其他領域,如工程、醫學和生物統計學。盡管它們有處理社會經濟數據的潛力,但它們在大數據分析的整個過程中仍處于早期階段(Varian,2014)。

1.數據收集

這個階段包括訪問數據源和收集初始數據或原始數據。根據開發項目所需的知識和數據,這個階段的活動包括現象觀察、實驗、記錄、模擬、抓取和與第三方協商。

2.數據清洗

這一階段包括記錄所獲得的數據并檢查它們的質量。首先,應該通過將數據與元數據關聯來記錄數據獲取過程。元數據包括與來源、數據格式、檢索過程和訪問日期的技術細節相關的信息,從而支持數據的二次利用和正確引用。第二,保證數據的質量和有效性。它需要驗證數據源和自身數據的可靠性,控制任何數據不一致性,如意外值和鍵入錯誤,并在必要時清理和匿名數據。

3.數據整合

這一階段是將不同數據源的數據以一致、同構的結構進行融合,使數據具有可追溯性和批量操作的可能,便于后續項目的訪問和使用。這包括將不同數據源的變量之間的關系制表、調整單元、翻譯和創建一個包含所有獲取數據的單一數據庫。數據集成還應該包含隱私約束,以避免在集成的數據中泄露一些私有信息。這是一個主要的倫理問題,因為豐富的綜合數據可能會無意間泄露個人信息。

4.數據準備

這一階段包括轉換數據,使其滿足將要應用的分析工具和技術的格式要求。這包括諸如轉錄、數字化、內插、在數據集中建立表格格式以及通過對現有數據的操作獲得新數據等活動。

5.數據歸檔和存儲

這個階段包括對收集、處理和分析的所有數據進行歸檔和注冊,以便長期保存、管理和二次利用。操作包括將數據存儲在特定存儲庫或計算系統中、將它們遷移到其他平臺或媒介、定期備份數據、生成相關的元數據、預處理生成的文檔、控制數據安全和隱私、處理相關法律問題等。

二 內容演化與商業情報分析

決策是組織及其活動的基礎,如何從復雜、混沌、龐雜的數據集合中提取有意義的信息和洞見并使之支持組織決策,這是大數據技術關注的第一個要點。在Simon的決策理論中,決策可以分為情報、設計和選擇三個階段(Simon,1960)。在情報階段,決策者需要盡可能地收集環境中與問題相關的信息,為設計階段發明、開發和分析所有可能的行動過程以達成決策目標做準備。而在選擇階段,決策者根據自身知識信念,從設計階段的方案中選擇一種特定的行動方案。Luhn(1958)隨即提出了一個早期的商業情報系統:一個利用數據處理機器對文檔進行自動抽象和自動編碼,并為組織及組織內部單位提供合適行為信息的系統。而在目前大數據時代,商業情報指一種數據驅動的決策支持系統,包括競爭情報等子系統。它將數據收集、數據存儲和知識管理分析結合起來,為決策過程提供情報輸入(Negash & Gray,2008)。商業情報強調對組織及其運營過程中產生及獲取的大量數據進行分析并得到有意義的信息。

Chen等(2012)根據數據內容,將目前的商業情報發展劃分為三個階段。目前在工業上采用的BI&A技術和應用程序可以看作BI&A 1.0,其中的數據大多是結構化的,由組織通過各種傳統系統或者遺產系統收集并存儲在商業關系數據庫管理系統(Relational Database Management System,RDBMS)。作為早期決策支持系統創新迭代整合的結果,BI&A一般包括在線分析處理(Online Analytical Processing,OLAP)、數據庫挖掘(Database Mining)、數據挖掘(Data Mining)、執行信息系統(Executive Information System,EIS)、知識管理系統(Knowledge Management System)、地理信息系統(Geographic Information System)、客戶關系管理營銷(Customer Relationship Management Marketing,CRMM)、可視化(Visualization)(Negash & Gray,2008)。Chen等(2012)則從13項BI平臺的必備功能中提取了八項作為BI&A 1.0,即報告、儀表板、特殊查詢、搜索型BI、OLAP、交互式可視化、記分卡、預測建模和數據挖掘。其中知識/數據庫管理、數據挖掘、實時BI等領域仍然被作為BI&A的固有部分,在BI&A 2.0中繼續得以發展。

BI&A 2.0則是強調在傳統RDBMS的基礎上,對基于互聯網的非結構化的網絡內容和文本進行進一步挖掘和分析,典型的包括文本挖掘(Text Analytics)(Chaudhuri,Dayal & Narasayya,2011)、社交媒體分析(He,Tian,Chen & Chong,2016)。通過利用cookie和服務器日志,網站平臺和企業平臺能夠完全地搜集并分析用戶的足跡和需求,并以此開發新的商業機會。而在移動設備網絡與物聯網(Internet of Things,IoT)興起后,對基于移動設備的地理位置信息、通信信息以及隱私等數據的獲取與分析進一步促成了以人機交互、移動交互等BI&A 3.0的誕生(Airinei & Homocianu,2010)。

商業情報可以利用數據挖掘從大量數據中發現潛在的有用的、隱藏的和有效的模式。借助商業情報,決策者可以更精確地預測一個商業策略的風險。此時,決策結果是基于大數據的,而不是基于一個人的本能或者個體有限的情報能力。自商業情報的概念誕生以來,大多數組織使用這種技術來預測歷史數據的結果或找到新的解決方案,以驅動業務或者變革商業模式。然而隨著數據內容的差異化與去結構化,基于明確內容加工框架的商業情報系統已經難以靈活地推廣到目前的大數據環境下,這一商業情報系統內生的缺陷呼吁更靈活的、基于程序框架的人工智能的參與。以機器學習技術為主的人工智能正在以更快的速度發展。與商業情報相比,機器學習過程更準確,更少出錯,更有能力自己做決定并解決問題。商業情報能夠定義特定業務的問題,而機器學習技術能夠對決策者的行為進行預測分析。

三 算法升級與人工智能分析

利用人工智能或者機器學習進行分析是大數據分析的另一個研究導向。這一導向關注利用大數據訓練機器實現對人類問題解決和決策能力的模仿和部分替代,以減輕人類認知負擔,增加決策精確性。機器學習最初的定義是“不需要明確編程就能讓計算機獲得學習能力”。機器或者系統能夠根據輸入給出最優的輸出。目前更具操作性的定義則認為機器學習是引入新的算法以使計算機能夠利用數據進行訓練并預測結果。在機器學習之前,計算機必須依賴于編程人員和決策指令的參與;而機器學習發明后,計算機可以自己思考并優化決策過程。組織注意到使用機器學習技術解決問題的新機會。人工智能是機器學習的最終目的。利用機器學習,機器最終能夠學習人類決策特征,并達到甚至超過人類智能水平以及解決問題的能力。

機器學習的工作程序很簡單,研究者首先在算法和模型幫助下為機器學習系統提供數據,一旦系統熟悉了數據,它就會根據已知的數據集生成目標預測結果。這一工具目前已被應用于管理學等社會科學研究中。例如,Luan、Reb和Gigerenzer(2019)就利用機器學習系統,利用計算機模擬個體決策,探究了啟發式和經濟理性兩類決策邏輯在不同生態環境和知識水平下的決策績效。

機器學習包括三個水平,即監督學習、無監督學習和強化學習。監督學習指根據以前的數據集知識預測新數據的輸出。在這里,研究者輸入數據,并期待機器輸出結果。早期的機器學習強調對正確案例的模仿和逼近,因而適用規則明確的任務,例如取代基于歷史數據的過濾算法并向客戶提供更具個性化的推薦(Brynjolfsson & Mcafee,2017),或者對欠結構化的復雜數據進行挖掘并獲取有意義的信息(Bose & Mahapatra,2001)。

而無監督學習指通過輸入數據,讓機器嘗試檢測模式、對算法進行聚類或者降維并總結數據點,以便分析人員獲取有意義的洞見并得出結果。自然數據往往是沒有標簽的,因而針對無標簽數據的無監督學習具有更大的適用場景以及普適性。例如,Azqueta-Gavaldón(2017)建議利用無監督學習和新聞數據建立一個反映經濟政策不確定性的指數。當研究者不存在明確的問題或者目的,不知道該從數據中得到什么時,應用無監督學習能夠為分析者提供更為異質性的知識。

強化學習則指機器關注環境中的交互,并通過合并交互模型來預測結果。強化學習強調對數據背景的敏感以及快速調整以適應環境并優化決策或者行為流程,這一點類似生態理性和啟發式決策(Todd & Gigerenzer,2007)。生態理性決策強調在環境和認知的雙重不確定性下,個體應當采用簡化的判斷方式,通過對環境進行判斷并選擇合適的決策工具(Kozyreva & Hertwig,2019)。例如,當環境數據分布呈“J”形時,決策者應當以“三角啟發式”作為優選項,根據權重最高的因子進行判斷而忽略其他因素(Luan et al.,2019)。因此,強化學習在信息有限及高不確定的環境下具有較高的使用價值。

值得注意的是,人工智能分析作為純粹的技術,其價值實現往往依賴與具體情境的結合。例如,自然語言處理(Natural Language Processing,NLP)已經被納入商業情報分析中,作為文本分析、語言錄音分析的重要技術手段(Maynard,Saggion,Yankova,Bontcheva & Peters,2007)。此外,大量信息同樣以視覺表征和圖像的形式被儲存在大數據倉庫中,因此圖像識別作為另一項重要的人工智能分析技術,對商業情報系統同樣有重要的支持作用(Kimble & Milolidakis,2015)。通過將人工智能算法與商業情報系統結合,大數據分析系統可以有效提高運行效率、運行結果以及價值創造(Canhoto & Clear,2020;Francia,Golfarelli & Rizzi,2020),這一整合后的系統可以被稱為商業智能(情報)系統。

主站蜘蛛池模板: 闸北区| 玛纳斯县| 武乡县| 乌拉特前旗| 屏东县| 扎兰屯市| 宜宾市| 乃东县| 咸丰县| 平武县| 开平市| 麻栗坡县| 兴文县| 济阳县| 读书| 大姚县| 石首市| 雷州市| 荃湾区| 买车| 宁明县| 腾冲县| 宁阳县| 乌鲁木齐市| 遂溪县| 徐水县| 田林县| 临漳县| 瑞丽市| 太谷县| 兴宁市| 湟中县| 砀山县| 旬阳县| 成武县| 福贡县| 平凉市| 新巴尔虎左旗| 东乌| 静安区| 怀远县|