- 機(jī)器學(xué)習(xí)從入門到入職:用sklearn與keras搭建人工智能模型
- 張威
- 1153字
- 2020-05-22 17:14:12
4.6 非結(jié)構(gòu)性數(shù)據(jù)預(yù)處理
非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或者不完整,沒(méi)有預(yù)設(shè)的數(shù)據(jù)模型或者結(jié)構(gòu),不便使用數(shù)據(jù)庫(kù)、模型及標(biāo)準(zhǔn)的數(shù)據(jù)接口表現(xiàn)的數(shù)據(jù),包括所有格式的文本、圖片、各類報(bào)表、圖像、音頻及視頻數(shù)據(jù)等。
計(jì)算機(jī)信息化系統(tǒng)中的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的格式非常多樣,標(biāo)準(zhǔn)也具有多樣性,而且在技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。所以,存儲(chǔ)、檢索、發(fā)布及利用需要更加智能化的IT技術(shù),如海量存儲(chǔ)、智能檢索、知識(shí)挖掘、內(nèi)容保護(hù)、信息的增值開(kāi)發(fā)利用等。
非結(jié)構(gòu)化數(shù)據(jù)幾乎在任何場(chǎng)景都可以得到,這些數(shù)據(jù)包括但不限于以下幾項(xiàng)。
·公司內(nèi)部的郵件信息、聊天記錄及搜集到的調(diào)查結(jié)果。
·網(wǎng)站上的評(píng)論、對(duì)客戶關(guān)系管理系統(tǒng)中的評(píng)論。
·應(yīng)用程序中得到的文本字段。
·短視頻App中的視頻信息。
·社交網(wǎng)絡(luò)中的圖文信息。
·博客或者論壇上感興趣的話題或者評(píng)論。
對(duì)以上數(shù)據(jù)不能簡(jiǎn)單通過(guò)變換等方式完成預(yù)處理,之前介紹的預(yù)處理方法是一種狹義的預(yù)處理,其處理的數(shù)據(jù)本質(zhì)上是數(shù)值化的、結(jié)構(gòu)化的,而處理的過(guò)程主要以一種數(shù)值變換的方法為主。
而對(duì)非結(jié)構(gòu)數(shù)據(jù)的預(yù)處理是更廣義的數(shù)據(jù)預(yù)處理,本質(zhì)上是特征提取。在機(jī)器學(xué)習(xí)、模式識(shí)別和圖像處理中,特征提取從一組初始的測(cè)量數(shù)據(jù)開(kāi)始,構(gòu)建具有信息性和非冗余性的派生值(特征),為后續(xù)的學(xué)習(xí)和泛化步驟提供便利,并在某些情況下形成更具有人類解釋性的數(shù)據(jù)。特征提取與降維有關(guān)。當(dāng)一種算法的輸入數(shù)據(jù)太大,無(wú)法處理,并且懷疑它是冗余的(例如,足尺和米的相同測(cè)量,或者表示為像素的圖像的重復(fù)性),就可以將其轉(zhuǎn)換成一組減少的特征集(也稱為特征向量)。確定初始特征的子集稱為特征選擇。期望所選的特征包含來(lái)自輸入數(shù)據(jù)的相關(guān)信息,這樣就可以使用這種簡(jiǎn)化的表示而不是完整的初始數(shù)據(jù)執(zhí)行所需的任務(wù)。
特征提取涉及減少描述大量數(shù)據(jù)所需的資源。在對(duì)復(fù)雜數(shù)據(jù)進(jìn)行分析時(shí),主要問(wèn)題之一是所涉及的變量數(shù)量。對(duì)大量變量進(jìn)行分析通常需要大量的內(nèi)存和計(jì)算能力,也可能導(dǎo)致分類算法對(duì)訓(xùn)練樣本的適應(yīng)性過(guò)強(qiáng),而對(duì)新樣本的泛化能力較差。特征提取是構(gòu)造變量組合以解決這些問(wèn)題的通用術(shù)語(yǔ),但對(duì)數(shù)據(jù)的描述仍具有足夠的準(zhǔn)確性。許多機(jī)器學(xué)習(xí)實(shí)踐者認(rèn)為,正確優(yōu)化特征提取是有效構(gòu)建模型的關(guān)鍵。
簡(jiǎn)單來(lái)說(shuō),特征提取是指將機(jī)器學(xué)習(xí)算法不能識(shí)別的非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)化為算法或者模型可以識(shí)別的特征的過(guò)程。例如,由一系列文字組成的文本,這些文字經(jīng)過(guò)分詞后會(huì)形成一個(gè)詞語(yǔ)集合,對(duì)于這些詞語(yǔ)集合(非結(jié)構(gòu)數(shù)據(jù)),機(jī)器學(xué)習(xí)算法是不能直接使用的,所以需要將它們轉(zhuǎn)化成機(jī)器學(xué)習(xí)算法可以識(shí)別的數(shù)值特征(用固定長(zhǎng)度的向量表示);圖片是由一系列像素點(diǎn)(原始數(shù)據(jù))構(gòu)成的,這些像素點(diǎn)本身無(wú)法被機(jī)器學(xué)習(xí)算法直接使用,但是如果將這些像素點(diǎn)轉(zhuǎn)化成矩陣的形式(數(shù)值特征),那么機(jī)器學(xué)習(xí)算法或者模型就能對(duì)其訓(xùn)練。
- 數(shù)據(jù)展現(xiàn)的藝術(shù)
- 基于C語(yǔ)言的程序設(shè)計(jì)
- 大數(shù)據(jù)項(xiàng)目管理:從規(guī)劃到實(shí)現(xiàn)
- Microsoft Power BI Quick Start Guide
- 人工免疫算法改進(jìn)及其應(yīng)用
- Visual FoxPro 6.0數(shù)據(jù)庫(kù)與程序設(shè)計(jì)
- 手把手教你玩轉(zhuǎn)RPA:基于UiPath和Blue Prism
- 計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)實(shí)訓(xùn)
- Hybrid Cloud for Architects
- 嵌入式操作系統(tǒng)
- 工業(yè)機(jī)器人運(yùn)動(dòng)仿真編程實(shí)踐:基于Android和OpenGL
- 工業(yè)自動(dòng)化技術(shù)實(shí)訓(xùn)指導(dǎo)
- 電氣控制與PLC原理及應(yīng)用(歐姆龍機(jī)型)
- 筆記本電腦電路分析與故障診斷
- PowerMill 2020五軸數(shù)控加工編程應(yīng)用實(shí)例