- SQL機器學習庫MADlib技術解析
- 王雪迎
- 307字
- 2020-06-29 18:08:04
第2章 數據類型
通常機器學習操作的數據集可以看作數據對象的集合。數據對象有時也叫作記錄、點、向量、模式、事件、案例、樣本、觀測或實體。數據對象用一組刻畫對象基本特征的屬性描述,如物體質量、事件發生的時間等。屬性有時也叫作變量、字段、特征或維。在數學上,向量和矩陣可以用來表示數據對象及其屬性。
和其他機器學習語言或工具一樣,MADlib操作的基本對象也是向量與矩陣。在MADlib中,對向量和矩陣的操作是通過一系列函數完成的。
本章將介紹MADlib中向量和矩陣的概念,并舉出一些簡單的函數調用示例。用戶可以使用psql的聯機幫助查看函數的參數、返回值和函數體等信息,例如\df madlib.array_add或\df+ madlib.array_add。這里側重于應用,因為理解這些函數的意義和用法是使用MADlib進行機器學習的基礎。
推薦閱讀