- 實用卷積神經網絡:運用Python實現高級深度學習模型
- (印)莫希特·賽瓦克等
- 752字
- 2019-04-22 18:02:18
2.1 CNN歷史
幾十年來,人們一直試圖用機器識別圖像。在計算機中模擬人腦的視覺識別系統是一個很大的挑戰。人類視覺是最難模仿的,也是大腦最復雜的感官認知系統。我們不會在這里討論生物神經元(即初級視覺皮層),而是關注人工神經元。物理世界中的物體是三維的,而這些物體的圖像是二維的。在本書中,我們不會將神經網絡和人腦類比。1963年,計算機科學家拉里·羅伯茨(Larry Roberts),也被稱為計算機視覺之父,在他的研究論文《積木世界》(BLOCK WORLD)中描述了從積木的二維透視圖中提取三維幾何信息的可能性。這是計算機視覺領域的第一個突破。世界上許多機器學習和人工智能領域的研究人員都在跟蹤這項工作,并在《積木世界》的背景下研究計算機視覺。不論方向或者燈光發生什么變化,人類都能識別出物體。在這篇論文中,他提到理解圖像中簡單的形狀邊緣是非常重要的。為了讓計算機理解無論朝向如何這兩個方塊都是同一個,他從方塊中提取出這些邊緣狀形狀,如圖2-1所示。

圖2-1 從方塊中提取邊緣狀形狀
視覺從一個簡單的結構開始。這是計算機視覺作為工程模型的開端。麻省理工學院(MIT)計算機視覺科學家大衛·馬克(David Mark)提出了下一個重要概念,即視覺是分層的。他寫了一本很有影響力的書,名叫《視覺》(VISION)。這是本簡單的書,他提出一幅圖像由幾層組成。這兩個原則構成了深度學習架構的基礎,盡管它們沒有告訴我們用什么樣的數學模型。
在20世紀70年代,第一個視覺識別算法——被稱為廣義圓柱模型(generalized cylinder model)——產生于斯坦福大學的人工智能實驗室。它的思想是:世界是由簡單的形狀組成的,任何真實世界的物體都是這些簡單形狀的組合。與此同時,SRI公司發布了圖結構模型(pictorial structure model),其概念與廣義圓柱模型相同,但是各部分是通過彈簧連接的,因此它引入了可變性的概念。2006年,富士膠片公司(Fujifilm)在數碼相機中使用了第一種視覺識別算法。
- 玩轉Scratch少兒趣味編程
- Boost C++ Application Development Cookbook(Second Edition)
- UI智能化與前端智能化:工程技術、實現方法與編程思想
- TradeStation交易應用實踐:量化方法構建贏家策略(原書第2版)
- 深入實踐Kotlin元編程
- Go語言開發實戰(慕課版)
- Node.js區塊鏈開發
- Keil Cx51 V7.0單片機高級語言編程與μVision2應用實踐
- Vue.js 3.x高效前端開發(視頻教學版)
- Python面向對象編程(第4版)
- 程序員面試金典(第6版)
- Python程序設計現代方法
- Python自動化運維:技術與最佳實踐
- JavaScript全棧開發
- SQL Server 2012數據庫管理與開發(慕課版)