- 銷聲匿跡:數字化工作的真正未來
- (美)瑪麗·L.格雷(MaryL.Gray) 西達爾特·蘇里(SiddharthSuri)
- 1487字
- 2020-12-30 18:17:14
機器智能的崛起
計算機科學家凱文·墨菲(Kevin P. Murphy)這樣定義機器學習:“自動監測數據中的模式,并利用已發現的模式預測未來數據的一系列方法。”8
回想一下機器學習的問題,在引言中,我們討論過識別駝背沙發。一種常見的機器學習方法是,首先收集所謂的“訓練數據”,在這個例子中,通過收集沙發的圖片,比如來自家具目錄和社交媒體的帖子,讓賈斯汀這樣的人給它們貼上“是駝背沙發”或“不是駝背沙發”的標簽。然后,機器學習算法把一張新的沙發圖片與訓練數據中的圖片進行比較。如果它看起來更像駝背沙發,算法就會把新圖片歸類到駝背沙發。但如果新圖片光線不好,或者圖片角度有問題看不清靠背,或者有人坐在沙發上擋住了靠背,機器學習算法可能就不知道如何歸類。在這種情況下,大概需要更多人類幫忙。
人工智能的總體目標是建立具有智能的計算機系統,這種智能指的是具有可以與人類媲美的評價和行動能力。實現通用人工智能是一場野心勃勃的革命,而理解圖片中的物體是其中的一部分。畢竟,即使一兩歲的小孩也能夠認出照片里是蘋果還是狗。計算機科學教授李飛飛是斯坦福大學以人為本人工智能研究所(Human-Centered AI Institute)的聯合主任,她和同事想要解決一個更普遍的問題,而不是訓練人工智能識別特定的物體,比如沙發。他們想訓練機器識別圖片中的主要物體,無論這個物體是什么——狗、人、車,還是山。要做到這一點,他們需要的訓練數據遠遠不是一個人能產生的。要多得多。
李飛飛和她的同事首先編寫了一個軟件,以便從萬維網上下載數百萬張圖片。最開始,他們雇了一個大學生團隊給每張圖片貼標簽——在理論上,這相當于雇用臨時工。嘗試了之后,他們推算出完成這項工作需要的時間——大約是19年。所以他們改變了策略。接下來,他們嘗試開發機器學習算法,憑猜測自動給圖片貼標簽;如果機器不知道貼什么標簽,就求助于人類。這種方法也失敗了,因為機器學習算法犯的錯誤太多了。他們正在尋找非常精確的數據,或者叫“黃金標準”數據,以便日后其他科學家能夠反復使用。事實上,如果這個問題很容易就能由機器來解決,那么他們一開始就不需要數據集。
不久,2007年,李飛飛和她的同事發現了MTurk,他們意識到,MTurk的API為他們提供了一種方法,可以自動向人們分發圖片標記任務,并向他們支付費用。他們嘗試了幾種不同的工作流程,但最終他們共使用了來自167個國家的約4.5萬名工人,準確地為320萬張圖片貼了標簽。9兩年半后,他們的集體勞動創造了一個龐大的符合黃金標準的數據集,其中的圖片分辨率很高,物體的標簽也非常準確。李飛飛稱之為“ImageNet”。由于ImageNet自創建以來每年都會舉辦比賽,研究團隊使用這些數據開發更復雜的圖像識別系統,并提高技術水平。有了黃金標準的數據集,研究人員可以測量新算法的精度,并與當前算法的技術水平做比較。研究人員因此取得了非常大的進步,以至于現在有些人工智能在圖像識別方面比人類做得更好!10
在2010年至2017年的競賽中,科學家在算法和工程方面取得的進步,推動了近期的“人工智能革命”,對多個領域和多種問題產生了影響。訓練數據的規模和質量對這一努力至關重要。MTurk工人是人工智能革命的幕后英雄。如果沒有他們生成訓練數據,并提高訓練數據的規模和質量,ImageNet就不會存在。11ImageNet的成功是一個值得注意的例子,說明了自動化的最后一英里悖論是如何發揮作用的。人類訓練了人工智能,結果人工智能完全接管了任務。之后研究人員可能會提出更困難的問題。例如,在ImageNet挑戰完成之后,研究人員把注意力轉向尋找圖片和視頻中物體的位置。這些問題還需要更多的訓練數據,從而產生了另一波幽靈工作。但是,程序員和企業家利用幽靈工作創建訓練數據從而開發更好的人工智能有很多實例,ImageNet只是其中一個。12