官术网_书友最值得收藏!

3.2?數(shù)據(jù)規(guī)范化

3.2.1 數(shù)據(jù)規(guī)范化規(guī)則

數(shù)據(jù)規(guī)范化是指根據(jù)規(guī)則將數(shù)據(jù)集S的屬性數(shù)據(jù)進(jìn)行縮放,使其落入特定區(qū)間。數(shù)據(jù)規(guī)范化可以消除不同屬性的量綱差異對數(shù)據(jù)分析結(jié)果的影響。實(shí)踐證明,對于采用反向傳播學(xué)習(xí)算法的多層感知機(jī)神經(jīng)網(wǎng)絡(luò),對訓(xùn)練元組中度量每個(gè)屬性的輸入值進(jìn)行規(guī)范化有助于加快學(xué)習(xí)速度;對于K均值聚類,數(shù)據(jù)規(guī)范化可以讓所有的屬性具有相同的權(quán)重。因此,數(shù)據(jù)規(guī)范化是數(shù)據(jù)分析的必要準(zhǔn)備步驟。本節(jié)介紹兩種最常用的數(shù)據(jù)規(guī)范化方法[24],最大最小規(guī)范化和z?score規(guī)范化。

(1)最大最小規(guī)范化

x'li=(new_maxXi-new_minXi)+new_minXi(3?1)

其中,xli是變量Xi第l個(gè)觀測值,即數(shù)據(jù)集中第l條記錄的屬性i的取值;[minXi,maxXi]是隨機(jī)變量Xi在數(shù)據(jù)集S中的分布區(qū)間;[new_minXi,new_maxXi]是隨機(jī)變量Xi規(guī)范化后的分布區(qū)間。通常會(huì)把所有變量Xi歸一化在[0,1]區(qū)間內(nèi),以消除量綱的影響。

(2)z?score規(guī)范化

x'li=?(3?2)

其中,μXi是隨機(jī)變量Xi的平均值;σXi是隨機(jī)變量Xi的標(biāo)準(zhǔn)差。

主站蜘蛛池模板: 武山县| 晋宁县| 同江市| 合江县| 将乐县| 阿图什市| 柯坪县| 毕节市| 武平县| 和平区| 旬阳县| 潢川县| 古交市| 大姚县| 蚌埠市| 崇信县| 盘锦市| 福泉市| 宜兴市| 深水埗区| 南安市| 子洲县| 怀柔区| 凤城市| 政和县| 义马市| 简阳市| 梁河县| 丽江市| 河东区| 页游| 左云县| 长兴县| 泰宁县| 靖西县| 寿光市| 临汾市| 苏州市| 铁岭县| 富川| 阿拉尔市|