官术网_书友最值得收藏!

Spark 3.0大數(shù)據(jù)分析與挖掘:基于機(jī)器學(xué)習(xí)
會(huì)員

Spark作為新興的、應(yīng)用范圍廣泛的大數(shù)據(jù)處理開源框架,吸引了大量的大數(shù)據(jù)分析與挖掘從業(yè)人員進(jìn)行相關(guān)內(nèi)容的學(xué)習(xí)與開發(fā),其中ML是Spark3.0機(jī)器學(xué)習(xí)框架使用的核心。本書用于Spark3.0ML大數(shù)據(jù)分析與挖掘入門,配套示例源碼、PPT課件、數(shù)據(jù)集、思維導(dǎo)圖、開發(fā)環(huán)境和作者答疑服務(wù)。本書共分13章,從Spark3.0大數(shù)據(jù)分析概述、基礎(chǔ)安裝和配置開始,依次介紹ML的DataFrame、ML的基本概念,以及協(xié)同過濾、線性回歸、分類、決策樹與隨機(jī)森林、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)降維、特征提取和轉(zhuǎn)換等數(shù)據(jù)處理方法;最后通過經(jīng)典的鳶尾花分析實(shí)例,回顧前面的學(xué)習(xí)內(nèi)容,實(shí)現(xiàn)了一個(gè)完整的數(shù)據(jù)分析與挖掘過程。本書采取實(shí)例和理論相結(jié)合的方式,講解細(xì)致直觀,示例豐富,適合Spark3.0機(jī)器學(xué)習(xí)初學(xué)者、大數(shù)據(jù)分析和挖掘人員,也適合高等院校和培訓(xùn)機(jī)構(gòu)人工智能與大數(shù)據(jù)相關(guān)專業(yè)的師生教學(xué)參考。

王曉華 羅凱靖編著 ·數(shù)據(jù)庫 ·8萬字

Pandas數(shù)據(jù)分析快速上手500招(微課視頻版)
會(huì)員

本書采用“問題描述+解決方案”模式,通過500個(gè)案例介紹了使用Pandas進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)處理的技術(shù)亮點(diǎn)。全書共分為8章,主要案例包括:讀寫CSV、Excel、JSON、HTML等格式的數(shù)據(jù);根據(jù)行標(biāo)簽、列名和行列數(shù)字索引篩選和修改數(shù)據(jù),使用各種函數(shù)根據(jù)數(shù)據(jù)大小、日期范圍、正則表達(dá)式、lambda表達(dá)式、文本類型等多種條件篩選數(shù)據(jù);統(tǒng)計(jì)NaN(缺失值)的數(shù)量、占比,根據(jù)規(guī)則填充和刪除NaN;在DataFrame中增、刪、查、改行列數(shù)據(jù),計(jì)算各種行差、列差、極差以及直接對兩個(gè)DataFrame進(jìn)行加、減、乘、除運(yùn)算和比較差異;將寬表和長表相互轉(zhuǎn)換,創(chuàng)建交叉表和各種透視表;對數(shù)據(jù)分組結(jié)果進(jìn)行求和、累加、求平均值、求極差、求占比、排序、篩選、重采樣等多種形式的分析,將分組數(shù)據(jù)導(dǎo)出為Excel文件。本書還附贈(zèng)36個(gè)數(shù)據(jù)可視化案例,如根據(jù)指定的條件設(shè)置行列數(shù)據(jù)的顏色和樣式,根據(jù)行列數(shù)據(jù)繪制條形圖、柱形圖、餅圖、折線圖、散點(diǎn)圖、六邊形圖、箱形圖、面積圖等。本書適于作為數(shù)據(jù)分析師、物流分析師、金融分析師、數(shù)據(jù)產(chǎn)品開發(fā)人員、人工智能開發(fā)人員、市場營銷人員、辦公管理人員、Python程序員等各行各業(yè)人員的案頭參考書,無論對于初學(xué)者還是專業(yè)人士,本書都極具參考和收藏價(jià)值。

羅帥 羅斌編著 ·數(shù)據(jù)庫 ·10.9萬字

Python廣告數(shù)據(jù)挖掘與分析實(shí)戰(zhàn)
會(huì)員

本書共十二章,第1-4章重在介紹移動(dòng)廣告營銷數(shù)據(jù)分析理論與案例分析,包括廣告數(shù)據(jù)分析的基本概念、內(nèi)容和意義,廣告數(shù)據(jù)分析相關(guān)理論知識及常用分析方法,移動(dòng)廣告營銷常見的數(shù)據(jù)分析案例剖析以及如何做一份讓領(lǐng)導(dǎo)滿意的數(shù)據(jù)分析報(bào)告;本書第5-6章主要介紹Python軟件安裝及常用包的主要用法。本書第7-10章主要介紹利用Python實(shí)現(xiàn)移動(dòng)廣告營銷中常見的機(jī)器學(xué)習(xí)算法,重點(diǎn)掌握常用的模型評價(jià)方法,模型原理、實(shí)現(xiàn)方法和技巧,其中包括混淆矩陣、AUC、ROC等常用模型評價(jià)方法以及線性回歸、邏輯回歸、決策樹、KNN、SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、GBDT、XGBoost、Stacking等常用監(jiān)督學(xué)習(xí)算法。第11章主要介紹k-means聚類、Lookalike相似用戶挖掘等常用無監(jiān)督學(xué)習(xí)算法及實(shí)現(xiàn)方法。第12章主要介紹移動(dòng)廣告營銷常用的特征選擇及特征工程方法。讀者如果只想了解數(shù)據(jù)分析相關(guān)概念和方法,可以選擇性閱讀本書前四章內(nèi)容,后八章偏向數(shù)據(jù)挖掘算法和編程實(shí)踐等內(nèi)容,有興趣可以深入閱讀全書。

楊游云 周健 ·數(shù)據(jù)庫 ·10.7萬字

QQ閱讀手機(jī)版

主站蜘蛛池模板: 胶州市| 乐陵市| 新竹县| 酉阳| 肇州县| 新田县| 宜兰县| 大洼县| 舞阳县| 宜君县| 个旧市| 化州市| 广丰县| 荣成市| 海安县| 黎城县| 衡阳县| 天水市| 兴文县| 日照市| 桦川县| 仙游县| 太湖县| 东丰县| 乌什县| 峨眉山市| 特克斯县| 德阳市| 明水县| 阳春市| 克山县| 马鞍山市| 西盟| 高密市| 怀远县| 沙雅县| 周宁县| 岳阳县| 林周县| 谢通门县| 泊头市|