官术网_书友最值得收藏!

3.2?數(shù)據(jù)規(guī)范化

3.2.1 數(shù)據(jù)規(guī)范化規(guī)則

數(shù)據(jù)規(guī)范化是指根據(jù)規(guī)則將數(shù)據(jù)集S的屬性數(shù)據(jù)進(jìn)行縮放,使其落入特定區(qū)間。數(shù)據(jù)規(guī)范化可以消除不同屬性的量綱差異對(duì)數(shù)據(jù)分析結(jié)果的影響。實(shí)踐證明,對(duì)于采用反向傳播學(xué)習(xí)算法的多層感知機(jī)神經(jīng)網(wǎng)絡(luò),對(duì)訓(xùn)練元組中度量每個(gè)屬性的輸入值進(jìn)行規(guī)范化有助于加快學(xué)習(xí)速度;對(duì)于K均值聚類,數(shù)據(jù)規(guī)范化可以讓所有的屬性具有相同的權(quán)重。因此,數(shù)據(jù)規(guī)范化是數(shù)據(jù)分析的必要準(zhǔn)備步驟。本節(jié)介紹兩種最常用的數(shù)據(jù)規(guī)范化方法[24],最大最小規(guī)范化和z?score規(guī)范化。

(1)最大最小規(guī)范化

x'li=(new_maxXi-new_minXi)+new_minXi(3?1)

其中,xli是變量Xi第l個(gè)觀測(cè)值,即數(shù)據(jù)集中第l條記錄的屬性i的取值;[minXi,maxXi]是隨機(jī)變量Xi在數(shù)據(jù)集S中的分布區(qū)間;[new_minXi,new_maxXi]是隨機(jī)變量Xi規(guī)范化后的分布區(qū)間。通常會(huì)把所有變量Xi歸一化在[0,1]區(qū)間內(nèi),以消除量綱的影響。

(2)z?score規(guī)范化

x'li=?(3?2)

其中,μXi是隨機(jī)變量Xi的平均值;σXi是隨機(jī)變量Xi的標(biāo)準(zhǔn)差。

主站蜘蛛池模板: 北碚区| 柏乡县| 江城| 临洮县| 林甸县| 门源| 囊谦县| 永清县| 甘肃省| 赫章县| 湾仔区| 五常市| 滕州市| 石城县| 安义县| 溧水县| 右玉县| 抚松县| 琼中| 包头市| 建昌县| 潜江市| 泰兴市| 长治县| 景洪市| 泰顺县| 滦南县| 靖西县| 贡山| 宁远县| 穆棱市| 武陟县| 保亭| 高青县| 湘潭县| 中卫市| 凤翔县| 文水县| 平顶山市| 金沙县| 台北县|