- SQL機器學習庫MADlib技術解析
- 王雪迎
- 336字
- 2020-06-29 18:08:03
第1章 MADlib基礎
MADlib是一個基于SQL的數據庫內置的開源機器學習庫,具有良好的并行度和可擴展性,有高度的預測精準度。MADlib最初由Pivotal公司與伯克利大學合作開發,提供了多種數據轉換、數據探索、概率統計、數據挖掘和機器學習方法,使用它能夠簡易地對結構化數據進行分析和學習,以滿足各行各業的應用需求。用戶可以非常方便地將MADlib加載到數據庫中,從而擴展數據庫的分析功能。2015年7月MADlib成為Apache軟件基金會的孵化器項目,經過兩年的發展,于2017年8月畢業成為Apache頂級項目。MADlib 1.14可以與PostgreSQL、Greenplum和HAWQ等數據庫系統無縫集成。
本章首先介紹MADlib的一些基本概念及其有別于其他機器學習工具包的特點。為了更好地使用MADlib,我們將簡要說明它的設計思想、工作原理、執行流程和基礎架構,還將羅列MADlib支持的模型和主要功能模塊,最后說明MADlib軟件包的安裝與卸載。