- Python數(shù)據(jù)挖掘入門與實(shí)踐
- Robert Layton
- 825字
- 2020-01-10 15:40:58
1.1 數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘旨在讓計(jì)算機(jī)根據(jù)已有數(shù)據(jù)做出決策。決策可以是預(yù)測(cè)明天的天氣、攔截垃圾郵件、檢測(cè)網(wǎng)站的語言,或者在約會(huì)網(wǎng)站上發(fā)現(xiàn)新的戀愛對(duì)象。數(shù)據(jù)挖掘方面的應(yīng)用已經(jīng)有很多,新的應(yīng)用也在源源不斷地出現(xiàn)。
數(shù)據(jù)挖掘涉及算法、統(tǒng)計(jì)學(xué)、工程學(xué)、最優(yōu)化理論和計(jì)算機(jī)科學(xué)相關(guān)領(lǐng)域的知識(shí)。除此之外,我們還會(huì)用到語言學(xué)、神經(jīng)科學(xué)、城市規(guī)劃等其他領(lǐng)域的概念或知識(shí)。要想充分發(fā)揮數(shù)據(jù)挖掘的威力,通常需要在算法中整合這些屬于特定領(lǐng)域的知識(shí)。
雖然數(shù)據(jù)挖掘相關(guān)應(yīng)用的實(shí)現(xiàn)細(xì)節(jié)可能千差萬別,但是從較高的層次看,它們往往大同小異。數(shù)據(jù)挖掘的第一步一般是創(chuàng)建數(shù)據(jù)集,數(shù)據(jù)集能夠描述真實(shí)世界的某一方面。數(shù)據(jù)集主要包括以下兩個(gè)部分。
? 表示真實(shí)世界中物體的樣本。樣本可以是一本書,一張照片,一個(gè)動(dòng)物,一個(gè)人或是其他任何物體。
? 描述數(shù)據(jù)集中樣本的特征。特征可以是長(zhǎng)度、單詞頻率、腿的數(shù)量、創(chuàng)建時(shí)間等。
接下來是調(diào)整算法。每種數(shù)據(jù)挖掘算法都有參數(shù),它們或者是算法自身包含的,或者是使用者添加的。這些參數(shù)會(huì)影響算法的具體決策。
舉個(gè)簡(jiǎn)單的例子,我們希望計(jì)算機(jī)能夠把人按照個(gè)子高矮分成兩大類。我們首先采集數(shù)據(jù),得到包含每個(gè)人身高的一組數(shù)據(jù),以及對(duì)他們高矮的判斷。

接下來要做的就是調(diào)整我們的算法。作為一個(gè)簡(jiǎn)單的算法,如果身高高于x,我們就認(rèn)為這個(gè)人是高個(gè)子,否則,他就屬于矮個(gè)子。我們的算法要過一遍數(shù)據(jù),確定x的最佳值。對(duì)于上面的數(shù)據(jù)集,x比較合理的值為170cm。任何高于170cm的人就被歸到高個(gè)子一類中,其余則為矮個(gè)子。
在上面這個(gè)數(shù)據(jù)集中,特征顯而易見為身高。因?yàn)槲覀兿胫廊藗兊母甙圆杉怂麄兊纳砀邤?shù)據(jù)。抽取特征是數(shù)據(jù)挖掘過程的一個(gè)重要環(huán)節(jié)。本書后面的章節(jié)中會(huì)介紹從數(shù)據(jù)集中抽取區(qū)分度高的特征的方法。特征抽取往往需要對(duì)相關(guān)領(lǐng)域有著深入的理解,或至少需要多次試錯(cuò)。
本書中使用Python語言介紹數(shù)據(jù)挖掘。出于講解的需要,為了保證代碼、流程的清晰易懂,我們有時(shí)候跳過了能夠提升算法速度、效果的細(xì)節(jié),沒有采用最優(yōu)方案。
- 電氣自動(dòng)化專業(yè)英語(第3版)
- Circos Data Visualization How-to
- Windows內(nèi)核原理與實(shí)現(xiàn)
- 西門子S7-200 SMART PLC實(shí)例指導(dǎo)學(xué)與用
- Embedded Programming with Modern C++ Cookbook
- MATLAB/Simulink權(quán)威指南:開發(fā)環(huán)境、程序設(shè)計(jì)、系統(tǒng)仿真與案例實(shí)戰(zhàn)
- Machine Learning with Apache Spark Quick Start Guide
- Python:Data Analytics and Visualization
- 網(wǎng)站前臺(tái)設(shè)計(jì)綜合實(shí)訓(xùn)
- 突破,Objective-C開發(fā)速學(xué)手冊(cè)
- 計(jì)算機(jī)與信息技術(shù)基礎(chǔ)上機(jī)指導(dǎo)
- Excel 2007終極技巧金典
- 經(jīng)典Java EE企業(yè)應(yīng)用實(shí)戰(zhàn)
- FreeCAD [How-to]
- 玩轉(zhuǎn)PowerPoint