官术网_书友最值得收藏!

1.1 數(shù)據(jù)挖掘簡(jiǎn)介

數(shù)據(jù)挖掘旨在讓計(jì)算機(jī)根據(jù)已有數(shù)據(jù)做出決策。決策可以是預(yù)測(cè)明天的天氣、攔截垃圾郵件、檢測(cè)網(wǎng)站的語言,或者在約會(huì)網(wǎng)站上發(fā)現(xiàn)新的戀愛對(duì)象。數(shù)據(jù)挖掘方面的應(yīng)用已經(jīng)有很多,新的應(yīng)用也在源源不斷地出現(xiàn)。

數(shù)據(jù)挖掘涉及算法、統(tǒng)計(jì)學(xué)、工程學(xué)、最優(yōu)化理論和計(jì)算機(jī)科學(xué)相關(guān)領(lǐng)域的知識(shí)。除此之外,我們還會(huì)用到語言學(xué)、神經(jīng)科學(xué)、城市規(guī)劃等其他領(lǐng)域的概念或知識(shí)。要想充分發(fā)揮數(shù)據(jù)挖掘的威力,通常需要在算法中整合這些屬于特定領(lǐng)域的知識(shí)。

雖然數(shù)據(jù)挖掘相關(guān)應(yīng)用的實(shí)現(xiàn)細(xì)節(jié)可能千差萬別,但是從較高的層次看,它們往往大同小異。數(shù)據(jù)挖掘的第一步一般是創(chuàng)建數(shù)據(jù)集,數(shù)據(jù)集能夠描述真實(shí)世界的某一方面。數(shù)據(jù)集主要包括以下兩個(gè)部分。

? 表示真實(shí)世界中物體的樣本。樣本可以是一本書,一張照片,一個(gè)動(dòng)物,一個(gè)人或是其他任何物體。

? 描述數(shù)據(jù)集中樣本的特征。特征可以是長(zhǎng)度、單詞頻率、腿的數(shù)量、創(chuàng)建時(shí)間等。

接下來是調(diào)整算法。每種數(shù)據(jù)挖掘算法都有參數(shù),它們或者是算法自身包含的,或者是使用者添加的。這些參數(shù)會(huì)影響算法的具體決策。

舉個(gè)簡(jiǎn)單的例子,我們希望計(jì)算機(jī)能夠把人按照個(gè)子高矮分成兩大類。我們首先采集數(shù)據(jù),得到包含每個(gè)人身高的一組數(shù)據(jù),以及對(duì)他們高矮的判斷。

接下來要做的就是調(diào)整我們的算法。作為一個(gè)簡(jiǎn)單的算法,如果身高高于x,我們就認(rèn)為這個(gè)人是高個(gè)子,否則,他就屬于矮個(gè)子。我們的算法要過一遍數(shù)據(jù),確定x的最佳值。對(duì)于上面的數(shù)據(jù)集,x比較合理的值為170cm。任何高于170cm的人就被歸到高個(gè)子一類中,其余則為矮個(gè)子。

在上面這個(gè)數(shù)據(jù)集中,特征顯而易見為身高。因?yàn)槲覀兿胫廊藗兊母甙圆杉怂麄兊纳砀邤?shù)據(jù)。抽取特征是數(shù)據(jù)挖掘過程的一個(gè)重要環(huán)節(jié)。本書后面的章節(jié)中會(huì)介紹從數(shù)據(jù)集中抽取區(qū)分度高的特征的方法。特征抽取往往需要對(duì)相關(guān)領(lǐng)域有著深入的理解,或至少需要多次試錯(cuò)。

本書中使用Python語言介紹數(shù)據(jù)挖掘。出于講解的需要,為了保證代碼、流程的清晰易懂,我們有時(shí)候跳過了能夠提升算法速度、效果的細(xì)節(jié),沒有采用最優(yōu)方案。

主站蜘蛛池模板: 安丘市| 阿克陶县| 蕉岭县| 梨树县| 隆昌县| 湘潭县| 钟山县| 尼玛县| 宝兴县| 定日县| 玛曲县| 昆明市| 阳山县| 五指山市| 监利县| 昌邑市| 铁岭县| 永济市| 曲松县| 尼玛县| 佛教| 德令哈市| 莫力| 舒兰市| 遂溪县| 陵水| 宁乡县| 河北区| 册亨县| 辽宁省| 错那县| 固阳县| 桃江县| 克拉玛依市| 凤山县| 绩溪县| 临高县| 和硕县| 福清市| 金门县| 衡阳市|