- 機器學習案例實戰
- 趙衛東
- 1897字
- 2020-01-16 10:54:16
1.2 TI-ONE平臺概述
智能鈦機器學習平臺是騰訊公司實現機器學習模型訓練和運行的一站式平臺化解決方案。該平臺主要為模型訓練、運行、評估與優化提供支持。用戶可以上傳標注的數據,利用平臺切分成訓練集、驗證集以及測試集。訓練模型的算法可以自行編寫,也可以使用平臺提供的,然后,在平臺上設置相關參數,計算資源參數,并訓練模型,模型的可用性也可以在平臺上進行檢測。
TI-ONE機器學習平臺是智能鈦機器學習平臺的子平臺之一,適合有一定機器學習經驗的建模人員使用,TI-ONE平臺支持使用編程語言實現數據處理、特征獲取,可以使用可視化、模塊化的建模工具,通過配置參數的方式構建機器學習模型訓練工程,平臺可以提供基本的機器學習和深度學習算法,計算資源由平臺管理,用戶只需要專注于業務場景相關的模型。
TI-ONE平臺提供云端的具備高可用性的GPU分布式集群服務器,可以滿足大規模深度學習模型訓練的性能要求;平臺內部兼容TensorFlow、Torch、Caffe等多種主流的機器學習框架,從而可以支持用戶自編程代碼的上傳和運行,為用戶提供了靈活性。
TI-ONE平臺對GPU分布式集群服務器上的深度學習模型訓練算法做了優化,能夠大幅度地提升訓練速度,從而大大地減少模型訓練所花費的時間;平臺提供了搭建好的機器學習開發環境,并且為用戶管理計算資源,可以為用戶節省這部分的時間,使用戶的精力可以集中在業務相關的工作中。平臺提供的沙箱能夠幫助用戶在保證數據安全和穩定的環境中,整合多方數據進行建模。
TI-ONE平臺適合應用在所有需要使用機器學習或深度學習平臺進行定制建模的場景中,典型的場景有風控、營銷推薦、預測、非結構化數據處理、文本分析和關系挖掘等。平臺可以通過接收原始數據的輸入,訓練各個場景下的不同模型,應用到對應的業務場景中。
TI-ONE平臺的架構可以分為六個層次,從上到下依次是產品層、交互層、算法層、框架層、調度層以及資源層。產品層表示用戶所接觸的TI-ONE平臺。交互層表示用戶的交互方式,也就是圖形化界面。算法層是平臺開發團隊實現的算法并且以組件的形式提供給用戶使用,提供的算法有機器學習、深度學習以及圖算法。框架層包含TI-ONE平臺內部算法、實現所依賴的框架以及提供給用戶的自編程功能可運行的框架:Spark、TensorFlow、Angel、Mariana、Caffe、Scikit-Learn、MXNet、PyTorch。調度層采用新一代的企業級容器平臺GaiaStack,用于資源管理和調度。資源層可以提供計算資源以及存儲資源,供用戶自編程調用和各類組件調用。
TI-ONE是一站式機器學習平臺,是專為AI初學者設計的機器學習平臺,具有可視化操作界面、具象化的算法結果、拖曳式的任務流、可靈活自定義的特性以及內置的豐富模型算法與案例。該機器學習平臺的特性如下。
(1)拖曳式任務流:拖曳式設計,各個元素可以自由地組合,以一種搭積木的方式繪制任務流。
(2)多實例調度:支持手工、定時、批量參數、重跑,可以方便用戶在各個應用場景下的靈活需求。
(3)支持多機器學習語言和框架:Python、R、Spark、TensorFlow以及騰訊的Angel都可使用。
(4)內置機器學習算法:算法包括特征工程、機器學習、深度學習、圖算法等,充分滿足不同場景下的使用需求。
(5)數據可視化:提供可視化服務,模型訓練效果可以懸浮呈現,用戶無須煩瑣操作就可以方便地辨別模型質量。
(6)模型的完整閉環:“一站式”機器學習平臺體驗,從模型訓練、評估、服務部署到在線推理,覆蓋全工作流程,形成機器學習訓練的完整閉環。
在開始使用TI-ONE服務之前,首先需要開通TI-ONE與COS(Cloud Object Storage,云對象存儲)服務,COS服務已接入TI-ONE產品,用于工程中的各環節。TI-ONE系列產品目前開放免費試用。
TI-ONE申請的流程如下:在產品介紹頁單擊“立即申請”按鈕填寫申請單后提交,進行線上白名單申請(需要到騰訊云平臺)。接到服務申請后,騰訊云平臺進行需求審核,并安排相應的工作人員進行初步需求確認、洽談。審核通過后會發送審核結果給用戶,用戶可以根據指引在產品頁進行試用體驗。
TI-ONE平臺提供了五大類的組件,如圖1.1所示。從上至下依次是輸入、組件、算法、模型以及輸出。其中輸入包括數據源、數據轉換、公共數據集,數據源有COS數據集以及本地數據;組件下有三個選項,分別是統計分析、機器學習、深度學習,機器學習包括Spark組件和PySpark組件,深度學習包括PyCaffe組件、PyCaffe定制版組件、PyTorch組件、TensorFlow組件以及TensorFlow多機版組件;算法包含27個機器學習算法以及16個深度學習算法;模型即算法相關的組件;輸出是機器學習輸出用到的功能組件。

圖1.1 TI-ONE平臺的組件
PySpark組件面向使用Python的Spark用戶,用戶可以使用Python編寫Spark程序,通過該組件來完成部署,這個組件支持Python腳本上傳與實時修改,還支持PySpark的SQL功能,靈活性很強,很適合數據預處理,也適合偏好PySpark的ML庫的使用者和Python使用者。在使用PySpark組件時,推薦使用PySpark中的DataFrame來替代Pandas中的DataFrame,這是由于前者是分布式執行的,而后者則是單機執行的。