文本數(shù)據(jù)挖掘:基于R語(yǔ)言
文本是一種特殊的非結(jié)構(gòu)化數(shù)據(jù),在當(dāng)今的大數(shù)據(jù)時(shí)代,其價(jià)值日趨凸顯。本書利用開(kāi)源而強(qiáng)大的R軟件,對(duì)文本數(shù)據(jù)挖掘的概念、技術(shù)及技巧進(jìn)行了系統(tǒng)的介紹。本書共11章,內(nèi)容包括:走進(jìn)文本數(shù)據(jù)挖掘,R語(yǔ)言快速入門,字符串的基本處理,用好正則表達(dá)式,導(dǎo)入各類文本數(shù)據(jù),對(duì)各類文本數(shù)據(jù)進(jìn)行預(yù)處理,文本特征提取的4種方法,基于機(jī)器學(xué)習(xí)的文本分類方法,文本情感分析,文本可視化,文本數(shù)據(jù)挖掘項(xiàng)目實(shí)踐。本書還提供了豐富的應(yīng)用案例和程序源代碼引導(dǎo)讀者高效學(xué)習(xí)。本書適合對(duì)文本數(shù)據(jù)挖掘感興趣的學(xué)生、科研人員和數(shù)據(jù)科學(xué)從業(yè)者閱讀。同時(shí),本書還可以作為工具書,為需要經(jīng)常進(jìn)行文本數(shù)據(jù)挖掘的讀者提供快速檢索。
·6.6萬(wàn)字