pg麻将胡了2

書名： Python數(shù)據(jù)挖掘入門與實(shí)踐
作者名： Robert Layton
本章字?jǐn)?shù)： 825字
更新時(shí)間： 2020-01-10 15:40:58

1.1 數(shù)據(jù)挖掘簡(jiǎn)介

數(shù)據(jù)挖掘旨在讓計(jì)算機(jī)根據(jù)已有數(shù)據(jù)做出決策。決策可以是預(yù)測(cè)明天的天氣、攔截垃圾郵件、檢測(cè)網(wǎng)站的語言，或者在約會(huì)網(wǎng)站上發(fā)現(xiàn)新的戀愛對(duì)象。數(shù)據(jù)挖掘方面的應(yīng)用已經(jīng)有很多，新的應(yīng)用也在源源不斷地出現(xiàn)。

數(shù)據(jù)挖掘涉及算法、統(tǒng)計(jì)學(xué)、工程學(xué)、最優(yōu)化理論和計(jì)算機(jī)科學(xué)相關(guān)領(lǐng)域的知識(shí)。除此之外，我們還會(huì)用到語言學(xué)、神經(jīng)科學(xué)、城市規(guī)劃等其他領(lǐng)域的概念或知識(shí)。要想充分發(fā)揮數(shù)據(jù)挖掘的威力，通常需要在算法中整合這些屬于特定領(lǐng)域的知識(shí)。

雖然數(shù)據(jù)挖掘相關(guān)應(yīng)用的實(shí)現(xiàn)細(xì)節(jié)可能千差萬別，但是從較高的層次看，它們往往大同小異。數(shù)據(jù)挖掘的第一步一般是創(chuàng)建數(shù)據(jù)集，數(shù)據(jù)集能夠描述真實(shí)世界的某一方面。數(shù)據(jù)集主要包括以下兩個(gè)部分。

? 表示真實(shí)世界中物體的樣本。樣本可以是一本書，一張照片，一個(gè)動(dòng)物，一個(gè)人或是其他任何物體。

? 描述數(shù)據(jù)集中樣本的特征。特征可以是長(zhǎng)度、單詞頻率、腿的數(shù)量、創(chuàng)建時(shí)間等。

接下來是調(diào)整算法。每種數(shù)據(jù)挖掘算法都有參數(shù)，它們或者是算法自身包含的，或者是使用者添加的。這些參數(shù)會(huì)影響算法的具體決策。

舉個(gè)簡(jiǎn)單的例子，我們希望計(jì)算機(jī)能夠把人按照個(gè)子高矮分成兩大類。我們首先采集數(shù)據(jù)，得到包含每個(gè)人身高的一組數(shù)據(jù)，以及對(duì)他們高矮的判斷。

接下來要做的就是調(diào)整我們的算法。作為一個(gè)簡(jiǎn)單的算法，如果身高高于x，我們就認(rèn)為這個(gè)人是高個(gè)子，否則，他就屬于矮個(gè)子。我們的算法要過一遍數(shù)據(jù)，確定x的最佳值。對(duì)于上面的數(shù)據(jù)集，x比較合理的值為170cm。任何高于170cm的人就被歸到高個(gè)子一類中，其余則為矮個(gè)子。

在上面這個(gè)數(shù)據(jù)集中，特征顯而易見為身高。因?yàn)槲覀兿胫廊藗兊母甙圆杉怂麄兊纳砀邤?shù)據(jù)。抽取特征是數(shù)據(jù)挖掘過程的一個(gè)重要環(huán)節(jié)。本書后面的章節(jié)中會(huì)介紹從數(shù)據(jù)集中抽取區(qū)分度高的特征的方法。特征抽取往往需要對(duì)相關(guān)領(lǐng)域有著深入的理解，或至少需要多次試錯(cuò)。

本書中使用Python語言介紹數(shù)據(jù)挖掘。出于講解的需要，為了保證代碼、流程的清晰易懂，我們有時(shí)候跳過了能夠提升算法速度、效果的細(xì)節(jié)，沒有采用最優(yōu)方案。

官术网_书友最值得收藏!

Python數(shù)據(jù)挖掘入門與實(shí)踐

1.1 數(shù)據(jù)挖掘簡(jiǎn)介