官术网_书友最值得收藏!

1.2 數據分類

1.2.1 分類是認知事物的基本方法,也是數據分析的基本方法

分類是人類認知事物的基本方法,人們通過對事物進行分類,能夠根據每個類的特征,快速識別每個具體事物。我們通過對事物進行分類,可以辨別哪些是有益的,哪些是有害的;哪些可以加以利用;哪些需要規避。分類之后,根據類別進行深度研究是科學研究的基礎。分類也是數據分析的基本方法之一。

1.2.2 分類需要有標準

為了更好地認識數據、掌控數據、利用數據,我們需要對數據進行分類研究。在分類之前首先要有分類標準。分類標準其實是我們認識事物的角度,看待問題的視角。如果把人分為男人和女人,則我們的分類標準是性別;如果把人分為成年人和未成年人,則我們的分類標準是年齡。

下面我們會從數據的存儲方式、數據的來源、數據描述的主體、數據所描述事物的屬性特征等角度對數據進行分類。

1.2.3 越是高級的存儲方式,越方便、安全和高效

從存儲方式的角度對數據進行分類,可分為手工統計在白紙表格上的數據、存儲在計算機里電子表格中的數據、存儲在管理信息系統或者ERP系統服務器上的數據,還有存儲在云端數據庫的數據。如今電子化的數據存儲方式越來越普及,成本也越來越低,并且越高級的存儲格式,越方便、越安全、越高效。各種存儲格式的級別如下圖所示。

1.2.4 越高級的存儲格式保存的信息越豐富

從數據的存儲格式角度看,數據可分為數值型(含日期型)、文本型(包括字符型、短文本、長文本等)、視頻型(包括圖片型、音頻型、視頻型等格式)等。越高級的存儲格式保存的信息越豐富,未來可能會有更多的數據存儲格式以全景地記錄各種信息和數據。

隨著數據存儲設備和采集技術的發展,有越來越多的數據采用多媒體存儲格式,而目前的數據處理技術還處在發展階段,能夠直接計算的數據往往是數值型、日期型(具有特殊意義的數值型)和字符型。文本型數據中的文本挖掘技術在近幾年發展比較迅速,但受限于計算機對自然語言的解讀能力,文本挖掘需要結合數據字典,即便如此,文本型數據處理技術還不足以達到數值型數據處理技術的精準度。

圖像識別技術在近幾年發展得非常快,普及也很迅速,但仍然局限于某些領域中,如頭像識別技術、生物識別技術、車牌識別技術等。而大數據的圖片信息挖掘技術已經起步,音頻識別、視頻識別技術也在發展之中,但是與數值型數據處理能力相比,這些技術還是比較初級的。

隨著數據計算能力和數據處理技術的發展,各種存儲格式的數據都得到了更好的利用,而從現在開始存儲相關的數據,為以后的數據處理技術成熟后做準備,是值得投入的工作——如果企業有足夠的經濟實力。

1.2.5 靜態數據表示結果,動態信息表示行為

另外一種對數據進行分類的方法是按照數據所描述的對象來分類。對對象本身進行描述的數據被稱作靜態數據,而對對象的活動進行描述的數據被稱作動態數據。靜態數據又叫截面數據,是指事物在某個時間節點上的狀態。動態數據又叫時間序列數據,是對事物在不同時間節點的狀態的記錄,反映事物的動態變化性,或者在不同時間節點上的差異性。

把數據分成靜態數據和動態數據,有利于梳理數據的源頭。靜態數據是對企業資源的描述性數據,相對比較靜態,不會經常變化,一次采集之后,不斷更新即可;動態數據用來描述企業的經營和管理活動,隨著企業經營管理活動的推進,會形成不斷疊加的記錄,新的記錄不能覆蓋舊的記錄,從而形成一個時間序列的數據集。

員工基本信息表就是一個靜態數據集。靜態是一個相對的概念,靜態數據也并不是一成不變的。隨著新員工的加入,員工基本信息表會不斷增加數據,員工在企業內部工作時,除部分數據需要更新外,基本信息不會有太大的變化,例如姓名、員工編號、學歷、籍貫、民族等。而員工的年齡和司齡就會有變化,但年齡是由一個人的生日決定的,而他的生日是不會變的,可以通過生日來計算一個人的年齡,讓年齡自動更新;司齡也會變,但員工的入職日期一般是不會變的,可以根據員工的入職日期來計算司齡,這樣員工的司齡數據就可以自動更新,不需要人為地每年更新一次。

企業的動態數據是一個時間序列上的數據集,記錄著公司的經營管理活動,只要公司的經營管理活動每天都在發生,數據就會不斷地記錄著。例如銷售訂單表,這個數據集隨著企業每銷售出一個產品都會添加一條數據。

企業經營需要產生價值,價值往往是用靜態數據之間的差異來衡量的,而動態數據記錄著企業的資源轉換行為。所有的結果都是由行為產生的,我們把數據分成靜態數據和動態數據的主要目的就是方便研究行為和結果之間的關系,這是數據分析和挖掘最重要的目的。如果能夠找到行為和結果之間的關系,那么我們就能夠根據這個關系來指導企業的生產實踐,從而有效地控制產出的結果。

1.2.6 加工數據是在原始數據解讀基礎上的提煉,強調追溯機制

從產生的源頭對數據進行分類,可以分為原始數據和加工數據。我們從媒體上看到的數據往往是經過加工的數據,是對原始數據進行統計匯總后形成的數據指標。

原始數據的定義也有廣義和狹義之分。廣義的原始數據就是一手數據,即從數據責任主體處直接獲取的數據。例如從企業中直接收集的數據、部門內部統計之后匯報的數據。這種廣義的原始數據,有可能也是在數據源頭采集之后經過加工處理、匯總統計得到的。

狹義的原始數據是指直接采集的數據,即直接通過手工記錄、觀察、設備自動采集、電子手段直接識別等形成的最原始的數據,在這個基礎上經過統計、匯總之后的數據都是加工數據。例如,員工上下班打卡數據和指紋打卡機直接記錄的數據都是原始數據。而人力資源考勤員把指紋打卡機中存儲的數據導出之后,統計每個人在本月內正常上下班天數、遲到天數、早退天數,這些統計匯總后的數據從狹義定義上來說就是加工數據;而在廣義的原始數據中,考勤員統計后的數據則叫原始數據。一般說的原始數據是指原始數據責任主體直接提供的數據,考勤員對考勤數據直接負責,所以其提供的數據就可以看作原始數據。

從數據分析的角度講,糾結原始數據和加工數據到底哪種定義更準確是沒有什么太大意義的。之所以要定義原始數據和加工數據,最根本的價值在于對數據質量的控制和對數據形成和傳輸過程的追溯。數據質量決定了數據分析結論的準確性,在數據分析的過程中,如果發現數據存在問題,或者對數據本身有疑問,則可以通過追溯數據產生的機制,追溯數據源頭、數據傳輸的過程、數據處理過程和數據處理的方法,甚至追溯到數據采集的方式、數據采集人或者采集設備,從而找到問題的源頭,解決數據的質量問題,以及保證后續數據的準確性。

主站蜘蛛池模板: 紫云| 浠水县| 朝阳市| 同江市| 汉川市| 内江市| 平乐县| 兴宁市| 德保县| 衡阳县| 浙江省| 武强县| 红桥区| 扶风县| 永平县| 西平县| 蕲春县| 柏乡县| 桃园市| 孝昌县| 衡水市| 宜君县| 麻江县| 乐清市| 昆明市| 谢通门县| 克拉玛依市| 囊谦县| 中西区| 鸡东县| 沾化县| 自贡市| 邳州市| 罗甸县| 独山县| 佛冈县| 丰台区| 陆丰市| 河源市| 连州市| 宜州市|