官术网_书友最值得收藏!

1.2 MADlib的功能

1.2.1 MADlib支持的模型類型

MADlib支持以下常用機器學習模型類型,其中大部分模型都包含訓練和預測兩組函數。

(1)回歸

如果所需的輸出具有連續性,我們通常使用回歸方法建立模型,預測輸出值。例如,如果有真實的描述房地產屬性的數據,我們就可以建立一個模型,預測基于房屋已知特征的售價。因為輸出反應了連續的數值而不是分類,所以該場景是一個回歸問題。

(2)分類

如果所需的輸出實質上是分類的,就可以使用分類方法建立模型,預測新數據會屬于哪一類。分類的目標是能夠將輸入記錄標記為正確的類別。例如,假設有描述人口統計的數據,以及個人申請貸款和貸款違約歷史數據,那么我們就能建立一個模型,描述新的人口統計數據集合貸款違約的可能性。此場景下輸出的分類為“違約”和“正常”兩類。

(3)關聯規則

關聯規則有時又叫作購物籃分析或頻繁項集挖掘。相對于隨機發生,確定哪些事項更經常一起發生,指出事項之間的潛在關系。例如,在一個網店應用中,關聯規則挖掘可用于確定哪些商品傾向于被一起售出,然后將這些商品輸入到客戶推薦引擎中,提供促銷機會,就像著名的啤酒與尿布的故事。

(4)聚類

識別數據分組,一組中的數據項比其他組的數據項更相似。例如,在客戶細分分析中,目標是識別客戶行為相似特征組,以便針對不同特征的客戶設計各種營銷活動,以達到市場目的。如果提前了解客戶細分情況,這將是一個受控的分類任務。當我們讓數據識別自身分組時,這就是一個聚類任務。

(5)主題建模

主題建模與聚類相似,也是確定彼此相似的數據組。這里的相似通常特指在文本領域中具有相同主題的文檔。注意,MADlib的當前實現并不支持中文分詞。

(6)描述性統計

描述性統計不提供模型,因此不被認為是一種機器學習方法,但是描述性統計有助于向分析人員提供信息以了解基礎數據,為數據提供有價值的解釋,可能會影響數據模型的選擇。例如,計算數據集中每個變量內的數據分布有助于分析理解哪些變量應被視為分類變量、哪些變量是連續性變量以及值的分布情況。描述性統計通常是數據探索的組成部分。

(7)模型驗證

不了解一個模型的準確性就開始使用它,很容易導致糟糕的結果,所以理解模型存在的問題,并用測試數據評估模型的精度尤為重要。需要將訓練數據和測試數據分離,頻繁進行數據分析,驗證統計模型的有效性,評估模型不過分擬合訓練數據。N-fold交叉驗證方法經常被用于模型驗證。

1.2.2 MADlib的主要功能模塊

MADlib的主要功能模塊如圖1-5所示。

圖1-5 MADlib主要功能模塊

下面基于MADlib 1.10版本預覽MADlib提供的具體模型算法或功能。

(1)Data Types and Transformations(數據類型與轉換)

?Arraysand Matrices(數組與矩陣)

?ArrayOperations(數組運算)

?MatrixOperations(矩陣運算)

?MatrixFactorization(矩陣分解)

◆ Low-rankMatrix Factorization(低階矩陣分解)

◆ SingularValue Decomposition(SVD,奇異值分解)

■Normsand Distance functions(范數和距離函數)

■SparseVectors(稀疏向量)

?DimensionalityReduction(降維)

■PrincipalComponent Analysis(PCA主成分分析)

■PrincipalComponent Projection(PCP主成分投影)

?Pivot(透視表)

?EncodingCategorical Variables(分類變量編碼)

?Stemming(詞干提取)

(2)Graph(圖)

?SingleSource Shortest Path(單源最短路徑)

(3)Model Evaluation(模型評估)

?CrossValidation(交叉驗證)

?PredictionMetrics(指標預測)

(4)Statistics(統計)

?DescriptiveStatistics(描述性統計)

■Pearson's Correlation(皮爾森相關系數)

■Summary(摘要匯總)

?InferentialStatistics(推斷性統計)

■HypothesisTests(假設檢驗)

?ProbabilityFunctions(概率函數)

(5)Supervised Learning(監督學習)

?ConditionalRandom Field(條件隨機場)

?RegressionModels(回歸模型)

■ClusteredVariance(聚類方差)

■Cox-ProportionalHazards Regression(Cox比率風險回歸)

■ElasticNet Regularization(彈性網絡回歸)

■GeneralizedLinear Models(廣義線性回歸)

■LinearRegression(線性回歸)

■LogisticRegression(邏輯回歸)

■MarginalEffects(邊際效應)

■MultinomialRegression(多分類邏輯回歸)

■OrdinalRegression(有序回歸)

■RobustVariance(魯棒方差)

?SupportVector Machines(支持向量機)

?TreeMethods(樹方法)

■DecisionTree(決策樹)

■RandomForest(隨機森林)

(6)Time Series Analysis(時間序列分析)

?ARIMA(自回歸積分滑動平均)

(7)UnsupervisedLearning(無監督學習)

?AssociationRules(關聯規則)

■AprioriAlgorithm(Apriori算法)

?Clustering(聚類)

■k-MeansClustering(k-Means)

?TopicModelling(主題模型)

■LatentDirichlet Allocation(LDA)

(8)Utility Functions(應用函數)

?DeveloperDatabase Functions(開發者數據庫函數)

?LinearSolvers(線性求解器)

■DenseLinear Systems(稠密線性系統)

■SparseLinear Systems(稀疏線性系統)

?PathFunctions(路徑函數)

?PMMLExport(PMML導出)

?Sessionize(會話化)

?TextAnalysis(文本分析)

■TermFrequency(詞頻)

主站蜘蛛池模板: 杨浦区| 河间市| 鹤峰县| 特克斯县| 涪陵区| 塔城市| 昌宁县| 黑水县| 富平县| 昭通市| 明光市| 清徐县| 武胜县| 察雅县| 伊金霍洛旗| 泸定县| 洪江市| 奉新县| 满城县| 台南市| 清涧县| 教育| 潮安县| 普洱| 东港市| 汉中市| 抚松县| 安顺市| 潞城市| 佛教| 扶沟县| 秦皇岛市| 临沭县| 鹤山市| 稻城县| 贵阳市| 房山区| 辉南县| 河曲县| 岳西县| 南昌市|