- 數(shù)字化時代中國企業(yè)國際化戰(zhàn)略研究
- 程聰?shù)?/a>
- 4063字
- 2021-09-28 16:01:16
第二章 大數(shù)據(jù)的技術(shù)分析理論研究
第一節(jié) 大數(shù)據(jù)分析的內(nèi)涵
一般意義上的大數(shù)據(jù)分析指收集、組織和分析大量離散數(shù)據(jù)以揭開隱藏的系統(tǒng)模式、關(guān)系或者其他有意義的洞察,并獲取結(jié)論的過程(Wang et al.,2018)。目前,越來越多的研究者以大數(shù)據(jù)指代一系列以大數(shù)據(jù)集合作為基礎(chǔ)進行數(shù)據(jù)分析的范式(Blazquez & Domenech,2018;Wamba et al.,2017;Wang et al.,2018)。大數(shù)據(jù)技術(shù)關(guān)注大數(shù)據(jù)術(shù)語的語用意義,強調(diào)企業(yè)如何獲得以及使用對大數(shù)據(jù)集合進行分析的現(xiàn)實技術(shù),以及基于大數(shù)據(jù)范式的社會經(jīng)濟應(yīng)用(Buyya et al.,2016)。作為典型的復(fù)雜數(shù)據(jù)系統(tǒng),大數(shù)據(jù)的動態(tài)、非線性和跨尺度要求組織能夠通過同時使用系統(tǒng)等級和個案等級的技術(shù),對不斷涌現(xiàn)的結(jié)構(gòu)化和欠結(jié)構(gòu)化數(shù)據(jù)進行自動的整理、挖掘和呈現(xiàn),以從中獲取跨尺度的重要信息和洞見,實現(xiàn)從大數(shù)據(jù)到大影響的演化(Bar-Yam,2016;Chen et al.,2012)。不同的研究者從不同的視角給出了這一路徑的具體內(nèi)涵,如表2-1所示。
表2-1 大數(shù)據(jù)分析的內(nèi)涵

續(xù)表

一 大數(shù)據(jù)分析技術(shù)結(jié)構(gòu)
大數(shù)據(jù)技術(shù)的起點在于從原始數(shù)據(jù)中構(gòu)建數(shù)據(jù)集合倉庫,倉庫對數(shù)據(jù)的吞吐則構(gòu)成了大數(shù)據(jù)生態(tài)的主要活動。數(shù)據(jù)倉庫的構(gòu)建依賴于原始數(shù)據(jù)到大數(shù)據(jù)的數(shù)據(jù)集合處理的輸入過程。數(shù)據(jù)集合處理指針對原始數(shù)據(jù)的處理技術(shù),包括數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)整合、數(shù)據(jù)準備、數(shù)據(jù)歸檔和存儲等步驟(Blazquez & Domenech,2018)。從非傳統(tǒng)社會經(jīng)濟來源獲得的數(shù)據(jù)通常是龐大的、異質(zhì)的、非結(jié)構(gòu)化或半結(jié)構(gòu)化的。這些特征意味著在檢索、處理、分析和存儲數(shù)據(jù)時會遇到許多挑戰(zhàn)。因此,處理機器學(xué)習(xí)和大數(shù)據(jù)中處理原始數(shù)據(jù)的方法和技術(shù)正在開發(fā)中。許多這樣的方法已被廣泛應(yīng)用于其他領(lǐng)域,如工程、醫(yī)學(xué)和生物統(tǒng)計學(xué)。盡管它們有處理社會經(jīng)濟數(shù)據(jù)的潛力,但它們在大數(shù)據(jù)分析的整個過程中仍處于早期階段(Varian,2014)。
1.數(shù)據(jù)收集
這個階段包括訪問數(shù)據(jù)源和收集初始數(shù)據(jù)或原始數(shù)據(jù)。根據(jù)開發(fā)項目所需的知識和數(shù)據(jù),這個階段的活動包括現(xiàn)象觀察、實驗、記錄、模擬、抓取和與第三方協(xié)商。
2.數(shù)據(jù)清洗
這一階段包括記錄所獲得的數(shù)據(jù)并檢查它們的質(zhì)量。首先,應(yīng)該通過將數(shù)據(jù)與元數(shù)據(jù)關(guān)聯(lián)來記錄數(shù)據(jù)獲取過程。元數(shù)據(jù)包括與來源、數(shù)據(jù)格式、檢索過程和訪問日期的技術(shù)細節(jié)相關(guān)的信息,從而支持數(shù)據(jù)的二次利用和正確引用。第二,保證數(shù)據(jù)的質(zhì)量和有效性。它需要驗證數(shù)據(jù)源和自身數(shù)據(jù)的可靠性,控制任何數(shù)據(jù)不一致性,如意外值和鍵入錯誤,并在必要時清理和匿名數(shù)據(jù)。
3.數(shù)據(jù)整合
這一階段是將不同數(shù)據(jù)源的數(shù)據(jù)以一致、同構(gòu)的結(jié)構(gòu)進行融合,使數(shù)據(jù)具有可追溯性和批量操作的可能,便于后續(xù)項目的訪問和使用。這包括將不同數(shù)據(jù)源的變量之間的關(guān)系制表、調(diào)整單元、翻譯和創(chuàng)建一個包含所有獲取數(shù)據(jù)的單一數(shù)據(jù)庫。數(shù)據(jù)集成還應(yīng)該包含隱私約束,以避免在集成的數(shù)據(jù)中泄露一些私有信息。這是一個主要的倫理問題,因為豐富的綜合數(shù)據(jù)可能會無意間泄露個人信息。
4.數(shù)據(jù)準備
這一階段包括轉(zhuǎn)換數(shù)據(jù),使其滿足將要應(yīng)用的分析工具和技術(shù)的格式要求。這包括諸如轉(zhuǎn)錄、數(shù)字化、內(nèi)插、在數(shù)據(jù)集中建立表格格式以及通過對現(xiàn)有數(shù)據(jù)的操作獲得新數(shù)據(jù)等活動。
5.數(shù)據(jù)歸檔和存儲
這個階段包括對收集、處理和分析的所有數(shù)據(jù)進行歸檔和注冊,以便長期保存、管理和二次利用。操作包括將數(shù)據(jù)存儲在特定存儲庫或計算系統(tǒng)中、將它們遷移到其他平臺或媒介、定期備份數(shù)據(jù)、生成相關(guān)的元數(shù)據(jù)、預(yù)處理生成的文檔、控制數(shù)據(jù)安全和隱私、處理相關(guān)法律問題等。
二 內(nèi)容演化與商業(yè)情報分析
決策是組織及其活動的基礎(chǔ),如何從復(fù)雜、混沌、龐雜的數(shù)據(jù)集合中提取有意義的信息和洞見并使之支持組織決策,這是大數(shù)據(jù)技術(shù)關(guān)注的第一個要點。在Simon的決策理論中,決策可以分為情報、設(shè)計和選擇三個階段(Simon,1960)。在情報階段,決策者需要盡可能地收集環(huán)境中與問題相關(guān)的信息,為設(shè)計階段發(fā)明、開發(fā)和分析所有可能的行動過程以達成決策目標做準備。而在選擇階段,決策者根據(jù)自身知識信念,從設(shè)計階段的方案中選擇一種特定的行動方案。Luhn(1958)隨即提出了一個早期的商業(yè)情報系統(tǒng):一個利用數(shù)據(jù)處理機器對文檔進行自動抽象和自動編碼,并為組織及組織內(nèi)部單位提供合適行為信息的系統(tǒng)。而在目前大數(shù)據(jù)時代,商業(yè)情報指一種數(shù)據(jù)驅(qū)動的決策支持系統(tǒng),包括競爭情報等子系統(tǒng)。它將數(shù)據(jù)收集、數(shù)據(jù)存儲和知識管理分析結(jié)合起來,為決策過程提供情報輸入(Negash & Gray,2008)。商業(yè)情報強調(diào)對組織及其運營過程中產(chǎn)生及獲取的大量數(shù)據(jù)進行分析并得到有意義的信息。
Chen等(2012)根據(jù)數(shù)據(jù)內(nèi)容,將目前的商業(yè)情報發(fā)展劃分為三個階段。目前在工業(yè)上采用的BI&A技術(shù)和應(yīng)用程序可以看作BI&A 1.0,其中的數(shù)據(jù)大多是結(jié)構(gòu)化的,由組織通過各種傳統(tǒng)系統(tǒng)或者遺產(chǎn)系統(tǒng)收集并存儲在商業(yè)關(guān)系數(shù)據(jù)庫管理系統(tǒng)(Relational Database Management System,RDBMS)。作為早期決策支持系統(tǒng)創(chuàng)新迭代整合的結(jié)果,BI&A一般包括在線分析處理(Online Analytical Processing,OLAP)、數(shù)據(jù)庫挖掘(Database Mining)、數(shù)據(jù)挖掘(Data Mining)、執(zhí)行信息系統(tǒng)(Executive Information System,EIS)、知識管理系統(tǒng)(Knowledge Management System)、地理信息系統(tǒng)(Geographic Information System)、客戶關(guān)系管理營銷(Customer Relationship Management Marketing,CRMM)、可視化(Visualization)(Negash & Gray,2008)。Chen等(2012)則從13項BI平臺的必備功能中提取了八項作為BI&A 1.0,即報告、儀表板、特殊查詢、搜索型BI、OLAP、交互式可視化、記分卡、預(yù)測建模和數(shù)據(jù)挖掘。其中知識/數(shù)據(jù)庫管理、數(shù)據(jù)挖掘、實時BI等領(lǐng)域仍然被作為BI&A的固有部分,在BI&A 2.0中繼續(xù)得以發(fā)展。
BI&A 2.0則是強調(diào)在傳統(tǒng)RDBMS的基礎(chǔ)上,對基于互聯(lián)網(wǎng)的非結(jié)構(gòu)化的網(wǎng)絡(luò)內(nèi)容和文本進行進一步挖掘和分析,典型的包括文本挖掘(Text Analytics)(Chaudhuri,Dayal & Narasayya,2011)、社交媒體分析(He,Tian,Chen & Chong,2016)。通過利用cookie和服務(wù)器日志,網(wǎng)站平臺和企業(yè)平臺能夠完全地搜集并分析用戶的足跡和需求,并以此開發(fā)新的商業(yè)機會。而在移動設(shè)備網(wǎng)絡(luò)與物聯(lián)網(wǎng)(Internet of Things,IoT)興起后,對基于移動設(shè)備的地理位置信息、通信信息以及隱私等數(shù)據(jù)的獲取與分析進一步促成了以人機交互、移動交互等BI&A 3.0的誕生(Airinei & Homocianu,2010)。
商業(yè)情報可以利用數(shù)據(jù)挖掘從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的有用的、隱藏的和有效的模式。借助商業(yè)情報,決策者可以更精確地預(yù)測一個商業(yè)策略的風(fēng)險。此時,決策結(jié)果是基于大數(shù)據(jù)的,而不是基于一個人的本能或者個體有限的情報能力。自商業(yè)情報的概念誕生以來,大多數(shù)組織使用這種技術(shù)來預(yù)測歷史數(shù)據(jù)的結(jié)果或找到新的解決方案,以驅(qū)動業(yè)務(wù)或者變革商業(yè)模式。然而隨著數(shù)據(jù)內(nèi)容的差異化與去結(jié)構(gòu)化,基于明確內(nèi)容加工框架的商業(yè)情報系統(tǒng)已經(jīng)難以靈活地推廣到目前的大數(shù)據(jù)環(huán)境下,這一商業(yè)情報系統(tǒng)內(nèi)生的缺陷呼吁更靈活的、基于程序框架的人工智能的參與。以機器學(xué)習(xí)技術(shù)為主的人工智能正在以更快的速度發(fā)展。與商業(yè)情報相比,機器學(xué)習(xí)過程更準確,更少出錯,更有能力自己做決定并解決問題。商業(yè)情報能夠定義特定業(yè)務(wù)的問題,而機器學(xué)習(xí)技術(shù)能夠?qū)Q策者的行為進行預(yù)測分析。
三 算法升級與人工智能分析
利用人工智能或者機器學(xué)習(xí)進行分析是大數(shù)據(jù)分析的另一個研究導(dǎo)向。這一導(dǎo)向關(guān)注利用大數(shù)據(jù)訓(xùn)練機器實現(xiàn)對人類問題解決和決策能力的模仿和部分替代,以減輕人類認知負擔(dān),增加決策精確性。機器學(xué)習(xí)最初的定義是“不需要明確編程就能讓計算機獲得學(xué)習(xí)能力”。機器或者系統(tǒng)能夠根據(jù)輸入給出最優(yōu)的輸出。目前更具操作性的定義則認為機器學(xué)習(xí)是引入新的算法以使計算機能夠利用數(shù)據(jù)進行訓(xùn)練并預(yù)測結(jié)果。在機器學(xué)習(xí)之前,計算機必須依賴于編程人員和決策指令的參與;而機器學(xué)習(xí)發(fā)明后,計算機可以自己思考并優(yōu)化決策過程。組織注意到使用機器學(xué)習(xí)技術(shù)解決問題的新機會。人工智能是機器學(xué)習(xí)的最終目的。利用機器學(xué)習(xí),機器最終能夠?qū)W習(xí)人類決策特征,并達到甚至超過人類智能水平以及解決問題的能力。
機器學(xué)習(xí)的工作程序很簡單,研究者首先在算法和模型幫助下為機器學(xué)習(xí)系統(tǒng)提供數(shù)據(jù),一旦系統(tǒng)熟悉了數(shù)據(jù),它就會根據(jù)已知的數(shù)據(jù)集生成目標預(yù)測結(jié)果。這一工具目前已被應(yīng)用于管理學(xué)等社會科學(xué)研究中。例如,Luan、Reb和Gigerenzer(2019)就利用機器學(xué)習(xí)系統(tǒng),利用計算機模擬個體決策,探究了啟發(fā)式和經(jīng)濟理性兩類決策邏輯在不同生態(tài)環(huán)境和知識水平下的決策績效。
機器學(xué)習(xí)包括三個水平,即監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。監(jiān)督學(xué)習(xí)指根據(jù)以前的數(shù)據(jù)集知識預(yù)測新數(shù)據(jù)的輸出。在這里,研究者輸入數(shù)據(jù),并期待機器輸出結(jié)果。早期的機器學(xué)習(xí)強調(diào)對正確案例的模仿和逼近,因而適用規(guī)則明確的任務(wù),例如取代基于歷史數(shù)據(jù)的過濾算法并向客戶提供更具個性化的推薦(Brynjolfsson & Mcafee,2017),或者對欠結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)進行挖掘并獲取有意義的信息(Bose & Mahapatra,2001)。
而無監(jiān)督學(xué)習(xí)指通過輸入數(shù)據(jù),讓機器嘗試檢測模式、對算法進行聚類或者降維并總結(jié)數(shù)據(jù)點,以便分析人員獲取有意義的洞見并得出結(jié)果。自然數(shù)據(jù)往往是沒有標簽的,因而針對無標簽數(shù)據(jù)的無監(jiān)督學(xué)習(xí)具有更大的適用場景以及普適性。例如,Azqueta-Gavaldón(2017)建議利用無監(jiān)督學(xué)習(xí)和新聞數(shù)據(jù)建立一個反映經(jīng)濟政策不確定性的指數(shù)。當研究者不存在明確的問題或者目的,不知道該從數(shù)據(jù)中得到什么時,應(yīng)用無監(jiān)督學(xué)習(xí)能夠為分析者提供更為異質(zhì)性的知識。
強化學(xué)習(xí)則指機器關(guān)注環(huán)境中的交互,并通過合并交互模型來預(yù)測結(jié)果。強化學(xué)習(xí)強調(diào)對數(shù)據(jù)背景的敏感以及快速調(diào)整以適應(yīng)環(huán)境并優(yōu)化決策或者行為流程,這一點類似生態(tài)理性和啟發(fā)式?jīng)Q策(Todd & Gigerenzer,2007)。生態(tài)理性決策強調(diào)在環(huán)境和認知的雙重不確定性下,個體應(yīng)當采用簡化的判斷方式,通過對環(huán)境進行判斷并選擇合適的決策工具(Kozyreva & Hertwig,2019)。例如,當環(huán)境數(shù)據(jù)分布呈“J”形時,決策者應(yīng)當以“三角啟發(fā)式”作為優(yōu)選項,根據(jù)權(quán)重最高的因子進行判斷而忽略其他因素(Luan et al.,2019)。因此,強化學(xué)習(xí)在信息有限及高不確定的環(huán)境下具有較高的使用價值。
值得注意的是,人工智能分析作為純粹的技術(shù),其價值實現(xiàn)往往依賴與具體情境的結(jié)合。例如,自然語言處理(Natural Language Processing,NLP)已經(jīng)被納入商業(yè)情報分析中,作為文本分析、語言錄音分析的重要技術(shù)手段(Maynard,Saggion,Yankova,Bontcheva & Peters,2007)。此外,大量信息同樣以視覺表征和圖像的形式被儲存在大數(shù)據(jù)倉庫中,因此圖像識別作為另一項重要的人工智能分析技術(shù),對商業(yè)情報系統(tǒng)同樣有重要的支持作用(Kimble & Milolidakis,2015)。通過將人工智能算法與商業(yè)情報系統(tǒng)結(jié)合,大數(shù)據(jù)分析系統(tǒng)可以有效提高運行效率、運行結(jié)果以及價值創(chuàng)造(Canhoto & Clear,2020;Francia,Golfarelli & Rizzi,2020),這一整合后的系統(tǒng)可以被稱為商業(yè)智能(情報)系統(tǒng)。
- 國際服務(wù)貿(mào)易政策研究
- 外貿(mào)跟單與生產(chǎn)跟單
- 汽車終端服務(wù)店創(chuàng)業(yè)開店指南
- 經(jīng)濟民族主義:俄羅斯與歐盟能源貿(mào)易中的合作與沖突
- 信任:超給力的銷售技巧
- 科創(chuàng)板上市實務(wù)精要
- 廣州貿(mào)易
- 網(wǎng)店贏家
- 數(shù)字化信任:區(qū)塊鏈的本質(zhì)與應(yīng)用
- 傳統(tǒng)商業(yè)環(huán)境藝術(shù)研究
- 直面中美貿(mào)易沖突
- 貿(mào)易摩擦的屬性、影響與對策
- 清代榷關(guān)與北路貿(mào)易:以殺虎口、張家口和歸化城為中心
- 母嬰·中國
- 中國走向全球化:親歷開放戰(zhàn)略與經(jīng)貿(mào)政策研究