官术网_书友最值得收藏!

1.6 小結

本章介紹了如何用Python進行數據挖掘。如果你能運行這一部分的代碼如果.ipynb文件在Notebook中打開時報錯,請用JSON檢查工具查找有無不合法的JSON字符,自行調整一下?!g者注(見代碼包第1章的文件夾),說明開發環境已搭建好,后續章節的大部分代碼都能運行了。當然有些Python庫還沒裝,隨用隨裝就好。

我們用IPython Notebook運行了代碼,好處是能及時看到一小塊代碼的輸出。它功能強大,后面會繼續使用。

我們舉了一個簡單的親和性分析的例子,用它找出顧客經常一起購買的商品。這種探索性的分析方法用處很大,能幫助人們發現商業流程、某個環境或場景中的潛在規律。親和性分析可用在商業、醫療、人工智能等領域,說不定能這些領域帶來突破。

本章還通過OneR算法介紹了分類的應用。該算法尋找最佳的特征值用于分類,該特征值在訓練集中哪個類別中出現的次數最多,待預測數據就屬于哪個類別。

后續章節會擴展分類和親和性分析的概念,同時還會介紹scikit-learn庫以及它實現的一些數據挖掘算法。

主站蜘蛛池模板: 克东县| 阳东县| 普宁市| 济南市| 宣恩县| 迭部县| 科尔| 张家口市| 准格尔旗| 玛曲县| 浠水县| 华宁县| 定日县| 长寿区| 龙里县| 通榆县| 迭部县| 阆中市| 景宁| 雅安市| 刚察县| 沙河市| 咸阳市| 沅江市| 葵青区| 五大连池市| 黎川县| 丽江市| 三河市| 获嘉县| 思南县| 星子县| 江津市| 龙州县| 温泉县| 义乌市| 盈江县| 克什克腾旗| 北辰区| 桂林市| 沂水县|