官术网_书友最值得收藏!

1.2 Hadoop等工具提升零售大數據分析能力

云服務為重構零售業奠定了基礎,而Hadoop等工具的發展和使用則極大提升了零售業的大數據分析能力。

1. Hadoop應用

我們先來認識Hadoop。Hadoop于2006年1月28日誕生,至今已發展了十余年,它改變了企業對數據的存儲、處理和分析過程的運用模式,加速了大數據的發展,形成了自己的技術生態圈,并得到非常廣泛的應用。Hadoop釋放了前所未有的計算能力,同時大大降低了計算成本。底層核心基礎設施促進生產力的發展帶來了大數據應用層的迅速建立。對于Hadoop上的應用可以分為以下兩類。

(1)IT優化

將已經實現的應用和業務搬遷到Hadoop平臺,以獲得更多的數據,更好的性能或更低的成本。通過提高產出比,降低生產和維護成本等方式為企業帶來好處。Hadoop在多個應用場景中已被證明是非常適合的解決方案,其一,在歷史日志數據在線查詢場景中的應用。傳統的解決方案將數據存放在昂貴的關系型數據庫中,不僅成本高、效率低,而且無法滿足在線服務時高并發的訪問量。以HBase為底層存儲和查詢引擎的架構非常適合有固定場景的查詢需求,如航班查詢、個人交易記錄查詢等,現在已經成為在線查詢應用的標準方案。其二,在ETL任務中的應用。不少廠商已經提供了ETL產品和解決方案,并在市場中得到廣泛的應用。然而在大數據的場景中,傳統ETL遇到性能和QoS保證上的嚴重挑戰。多數ETL任務是輕計算重I/O類型的,而傳統的IT硬件方案,如承載數據庫的小型計算機,都是為計算類任務設計的,即使使用了最新的網絡技術,I/O也頂多到達幾十GB。采用分布式架構的Hadoop提供了完美的解決方案,不僅使用share nothing的scale-out架構提供能線性擴展的無限I/O,保證ETL任務的效率,同時框架已經提供負載均衡、自動FailOver等特性保證任務執行的可靠性和可用性。其三在數據倉庫offload方面的應用。傳統數據倉庫中有很多離線的批量數據處理業務,如日報表、月報表等,占用了大量的硬件資源。而這些任務通常又是Hadoop所擅長的。目前來看,Hadoop只是作為數據倉庫產品的補充,和數據倉庫一起構建混搭架構為上層應用聯合提供服務。

(2)業務優化

在Hadoop上實現原有未實現的算法、應用,從原有的生產線中產生新的產品和業務,創造新的價值,通過新業務為企業帶來新的市場和客戶,從而增加企業收入。Hadoop提供了強大的計算能力,在垂直領域,其專業大數據應用已經非常成熟,從銀行業(反欺詐、征信等)、醫療保健(特別在基因組學和藥物研究方面),到零售業、服務業(個性化服務、智能服務,如Uber的自動派車功能等)。在企業內部,各種工具已經出現,以幫助企業用戶操作核心功能。例如,大數據通過大量的內部和外部數據,實時更新數據,可以幫助銷售和市場營銷人員弄清楚哪些客戶最有可能購買。客戶服務應用可以幫助個性化服務;HR應用程序可幫助找出如何吸引和留住最優秀的員工等。不過,互聯網以外的傳統行業內部,大數據的應用和業務普遍處在摸索階段,雖然不少企業已經從數據和深度挖掘數據價值中得到紅利,但更多的企業在實現數據分析時缺少專業的指導和支撐,可量化可規模化的專業大數據業務閉環尚未構建,目前更多是通過改善用戶體驗等視角改善現有運營效率。雖然行業性的大數據新興業務解決方案尚未出現,但很多新興的公司已經進入這個市場,并收到市場的熱捧,或提供輔助工具,或提供Big Data-as-a-Service服務,或提供基于大數據的商業設計咨詢,目的是適應大數據和分析專家以及所服務客戶的目標要求,包括大數據準備評估、路線圖、預測操作界面、算法和一些針對特定市場和企業消費分析解決方案等方面,如Palantir,營銷的大數據分析工具Qubit,針對CRM領域的人工智能Neokami等。

2. Hadoop提升大數據分析能力

大數據指的是利用傳統數據庫工具無法處理的數據,具有容量大,增長速度快,處理速度快,數據類型多樣的特點。Hadoop是對大數據進行分布式處理的計算平臺,是大數據分析的代表性工具。它具有高可靠性、高擴展性、高效性和高容錯性。它能夠維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。由于以并行方式工作,因此可以加快處理速度。零售企業采用Hadoop等工具,可以提升其對采集和整理的大數據進行分析和詮釋的能力。

(1)拓廣數據采集面

大數據工具極大地拓廣零售業的數據采集面。零售企業可以利用最新技術從多個渠道采集數據,從而實現數據來源的多樣化。比如,零售企業可以從多渠道采集顧客的線上行為數據,包括顧客在零售網站留下的信息,瀏覽器保存的顧客點擊行為,系統后臺存儲的網站交易行為等數據。另外,零售企業還可以利用各種設備對消費者的線下行為數據進行采集,如利用POS機、NFC、Wi-Fi探針技術采集顧客在實體店鋪內的行為數據。

(2)實現有效的數據清理

Hadoop等工具可以將零售企業采集的各種數據進行匯總,實現有效的數據清理。多來源地原始數據中存在大量多余的、錯誤的數據,如果有效去除,或將其中的有效指標篩選出來,是進行數據分析的前提和關鍵。原始數據清理分為三步:第一,對采集到的原始數據進行清理、重構、填補,去除其中的冗余數據,補足缺失;第二,對采集到的半結構化數據、非結構化數據進行處理,將其轉化為機器語言,以更好地被應用軟件識別、處理;第三,對經過前兩個流程處理的數據進行相關性、關聯性檢測,將相關性較高的數據整合在一起,對其進行進一步處理、分析。

(3)相關性數據挖掘

采用以大數據算法為基礎的相關性數據挖掘對數據進行分析。數據挖掘是傳統統計分析方法的延伸與拓展,其中最常用的技術包括關聯規則挖掘、支持向量機、神經網絡模擬、隨機森林樹、貝葉斯網絡、遺傳算法等。以關聯規則為例,關聯規則是指一個已發生事件與其他已發生事件之間的關聯信息,如簡單關聯、因果關聯、時序關聯等。在大數據環境下,使用關聯規則挖掘對數據相關性進行分析的代表案例就是零售場所的購物籃分析。通過對購物籃中不同商品銷售情況間的聯系進行分析,如A品牌服裝的購買量與B品牌鞋子購買量間的聯系進行分析,可以對顧客的購物模式進行挖掘。

(4)改革數據統計技術

利用大數據技術,對傳統統計數據技術進行改革。利用大數據技術,如可視化技術、人機交互技術、數據起源技術,可以對傳統的統計數據詮釋進行改革,實現全新的數據詮釋。數據詮釋首先引入數據可視化技術,將數據分析結果用圖形表示出來,讓零售企業對數據間的隱形關系與規律做出更具體的觀察。將人機交互與數據起源技術引入數據詮釋中,零售企業各部門就可以對數據分析全過程進行了解并參與其中。

主站蜘蛛池模板: 永城市| 金阳县| 禹城市| 莱州市| 右玉县| 宁波市| 东乡族自治县| 惠来县| 基隆市| 洛宁县| 贵定县| 前郭尔| 大厂| 罗城| 拜城县| 巨鹿县| 沁源县| 辛集市| 绍兴县| 修水县| 宝山区| 辉县市| 阿拉善右旗| 金寨县| 洞口县| 上蔡县| 阜阳市| 新河县| 闵行区| 台南县| 民勤县| 荆门市| 万荣县| 中江县| 灯塔市| 英德市| 特克斯县| 石屏县| 商河县| 河东区| 五大连池市|