官术网_书友最值得收藏!

4.6 非結(jié)構(gòu)性數(shù)據(jù)預(yù)處理

非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或者不完整,沒(méi)有預(yù)設(shè)的數(shù)據(jù)模型或者結(jié)構(gòu),不便使用數(shù)據(jù)庫(kù)、模型及標(biāo)準(zhǔn)的數(shù)據(jù)接口表現(xiàn)的數(shù)據(jù),包括所有格式的文本、圖片、各類報(bào)表、圖像、音頻及視頻數(shù)據(jù)等。

計(jì)算機(jī)信息化系統(tǒng)中的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的格式非常多樣,標(biāo)準(zhǔn)也具有多樣性,而且在技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。所以,存儲(chǔ)、檢索、發(fā)布及利用需要更加智能化的IT技術(shù),如海量存儲(chǔ)、智能檢索、知識(shí)挖掘、內(nèi)容保護(hù)、信息的增值開(kāi)發(fā)利用等。

非結(jié)構(gòu)化數(shù)據(jù)幾乎在任何場(chǎng)景都可以得到,這些數(shù)據(jù)包括但不限于以下幾項(xiàng)。

·公司內(nèi)部的郵件信息、聊天記錄及搜集到的調(diào)查結(jié)果。

·網(wǎng)站上的評(píng)論、對(duì)客戶關(guān)系管理系統(tǒng)中的評(píng)論。

·應(yīng)用程序中得到的文本字段。

·短視頻App中的視頻信息。

·社交網(wǎng)絡(luò)中的圖文信息。

·博客或者論壇上感興趣的話題或者評(píng)論。

對(duì)以上數(shù)據(jù)不能簡(jiǎn)單通過(guò)變換等方式完成預(yù)處理,之前介紹的預(yù)處理方法是一種狹義的預(yù)處理,其處理的數(shù)據(jù)本質(zhì)上是數(shù)值化的、結(jié)構(gòu)化的,而處理的過(guò)程主要以一種數(shù)值變換的方法為主。

而對(duì)非結(jié)構(gòu)數(shù)據(jù)的預(yù)處理是更廣義的數(shù)據(jù)預(yù)處理,本質(zhì)上是特征提取。在機(jī)器學(xué)習(xí)、模式識(shí)別和圖像處理中,特征提取從一組初始的測(cè)量數(shù)據(jù)開(kāi)始,構(gòu)建具有信息性和非冗余性的派生值(特征),為后續(xù)的學(xué)習(xí)和泛化步驟提供便利,并在某些情況下形成更具有人類解釋性的數(shù)據(jù)。特征提取與降維有關(guān)。當(dāng)一種算法的輸入數(shù)據(jù)太大,無(wú)法處理,并且懷疑它是冗余的(例如,足尺和米的相同測(cè)量,或者表示為像素的圖像的重復(fù)性),就可以將其轉(zhuǎn)換成一組減少的特征集(也稱為特征向量)。確定初始特征的子集稱為特征選擇。期望所選的特征包含來(lái)自輸入數(shù)據(jù)的相關(guān)信息,這樣就可以使用這種簡(jiǎn)化的表示而不是完整的初始數(shù)據(jù)執(zhí)行所需的任務(wù)。

特征提取涉及減少描述大量數(shù)據(jù)所需的資源。在對(duì)復(fù)雜數(shù)據(jù)進(jìn)行分析時(shí),主要問(wèn)題之一是所涉及的變量數(shù)量。對(duì)大量變量進(jìn)行分析通常需要大量的內(nèi)存和計(jì)算能力,也可能導(dǎo)致分類算法對(duì)訓(xùn)練樣本的適應(yīng)性過(guò)強(qiáng),而對(duì)新樣本的泛化能力較差。特征提取是構(gòu)造變量組合以解決這些問(wèn)題的通用術(shù)語(yǔ),但對(duì)數(shù)據(jù)的描述仍具有足夠的準(zhǔn)確性。許多機(jī)器學(xué)習(xí)實(shí)踐者認(rèn)為,正確優(yōu)化特征提取是有效構(gòu)建模型的關(guān)鍵。

簡(jiǎn)單來(lái)說(shuō),特征提取是指將機(jī)器學(xué)習(xí)算法不能識(shí)別的非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)化為算法或者模型可以識(shí)別的特征的過(guò)程。例如,由一系列文字組成的文本,這些文字經(jīng)過(guò)分詞后會(huì)形成一個(gè)詞語(yǔ)集合,對(duì)于這些詞語(yǔ)集合(非結(jié)構(gòu)數(shù)據(jù)),機(jī)器學(xué)習(xí)算法是不能直接使用的,所以需要將它們轉(zhuǎn)化成機(jī)器學(xué)習(xí)算法可以識(shí)別的數(shù)值特征(用固定長(zhǎng)度的向量表示);圖片是由一系列像素點(diǎn)(原始數(shù)據(jù))構(gòu)成的,這些像素點(diǎn)本身無(wú)法被機(jī)器學(xué)習(xí)算法直接使用,但是如果將這些像素點(diǎn)轉(zhuǎn)化成矩陣的形式(數(shù)值特征),那么機(jī)器學(xué)習(xí)算法或者模型就能對(duì)其訓(xùn)練。

主站蜘蛛池模板: 利辛县| 芜湖市| 青川县| 石景山区| 景德镇市| 来凤县| 军事| 尉犁县| 岐山县| 乌兰县| 宜州市| 浦县| 梁山县| 冀州市| 鲁甸县| 蒲江县| 固阳县| 革吉县| 云霄县| 五家渠市| 剑川县| 庆云县| 遵义县| 安达市| 新沂市| 马关县| 铜山县| 邵阳县| 特克斯县| 余姚市| 个旧市| 永寿县| 建平县| 吴川市| 台南县| 怀仁县| 南昌市| 五莲县| 阳江市| 铅山县| 大冶市|