官术网_书友最值得收藏!

4.2 理解特征工程

不管你是否相信,一個機器學習系統的學習效果都主要取決于訓練數據的質量。盡管每種學習算法都有其優點和缺點,但是性能的差異往往取決于數據準備或者數據表示的方式。因此,可以把特征工程理解為數據表示的一種工具。機器學習算法試圖從樣本數據中學習問題的解決方案,而特征工程會問:用于學習問題的解決方案的樣本數據的最佳表示是什么?

是否還記得,在前面我們討論過一個完整的機器學習管道。在那里我們提及過特征提取,但是還有沒有真正討論其究竟是什么。讓我們來看看特征提取是如何融入機器學習管道的,見圖4-1。

圖4-1 特征提取與機器學習過程

簡單提示一下,我們已經討論過,特征工程可以分為兩個階段:

  • 特征選擇(Feature selection):這是識別數據中重要屬性(或者特征)的過程。一張圖像的特征可能是邊緣、角點或脊的位置。在這一章,我們將研究OpenCV提供的一些更高級的特征描述符,例如二值魯棒獨立基本特征(Binary Robust Independent Elementary Feature,BRIEF)以及面向FAST和可旋轉的BRIEF(Oriented FAST and Rotated BRIEF,ORB)。
  • 特征提取(Feature extraction):這實際上是將原始數據變換到期望特征空間以滿足機器學習算法的過程,如圖4-1所示。例如Harris操作符,它允許我們提取一張圖像中的角點(即一個選擇的特征)。

剩下要做的就是逐步介紹這些過程,并討論一些最常見的數據預處理技術。

主站蜘蛛池模板: 丽江市| 甘孜| 万载县| 台前县| 乌兰察布市| 如东县| 钟祥市| 穆棱市| 贵港市| 友谊县| 义马市| 马关县| 观塘区| 长泰县| 温州市| 韶山市| 长白| 东平县| 鲁甸县| 凤翔县| 柞水县| 托里县| 中山市| 武山县| 博客| 吉林省| 合肥市| 京山县| 栖霞市| 玉山县| 安乡县| 浮梁县| 迁安市| 达尔| 横山县| 阿拉尔市| 平果县| 潞西市| 于都县| 古交市| 怀柔区|