第203章 無心插柳柳成蔭
- 崛起于2009
- 平底鍋煎蛋
- 2470字
- 2018-12-29 17:14:02
“人景分離項目……”
葉曉奇心說,來了,認真的聆聽狀,對這個項目非常關心。
“目前遇到了一些問題,主要是由于圖片集數據量不夠,導致我們的在此基礎上建立的特征庫,識別準確度非常低下。同時由于美工設計師的不足,在人工剝離人像上也顯得資源缺乏?!?
“唉……”
葉曉奇心里輕輕的嘆了一口氣,到此為止,最關心的兩個項目,都遇到了各自的困難。一個是自身的不足,自動化基因缺乏。一個是世界性難題,深度學習需要海量的圖片,世界各國的數據集都還在建,imageNet的數據集也還很弱小,中生代的勤工儉學數據集計劃也才開展沒多久。
“所以針對這兩個問題,我們基礎架構研發部,一方面加大美工的招人力度,另一方面我們開辟了一個新的思路,那就是把包含人像的視頻按幀拆分,作為我們的圖片素材來源?!?
“在此過程中,我們發現,通過對眼睛特征和嘴唇特征的綜合表現,可以計算出一個人的情緒;通過眼睛和嘴唇的連續變化,可以得到一個人的情緒變化指數;通過唇形的連續變化,可以大致的知道這個人說什么話……”
正在失望之中的葉曉奇,震驚的問道:“你是說,讀唇?”
霍蓓蕾撥了撥發梢,答道:“是這樣的,沒錯,這將是我們后續的參考研發方向?!?
“你是說,因為相應的圖片集不足,所以你們就把腦筋動在了視頻上。然后,就得到了這個東西?”
霍蓓蕾點點頭,“沒錯。”
葉曉奇卻感到有些凌亂,科研樹發展基本方向不應該是這樣的。
圖像AI技術大發展是建立在imageNet的深度學習理論的基礎之上的,深度學習得到的特征庫是一系列相關計算的核心,而深度學習依賴海量的圖片。
所以圖片不足,你們就特么去拆視頻?拆視頻就算了,美工不足所以你們直接就把人臉識別那套搬過來了,結果大把的資源撒下去,人景分離還是沒整出來,卻發現了可以做情緒識別和讀唇術?
這下總算知道剛剛香取綾匯報的大筆支出花在哪了……
真真的應了那句話:有心栽花花不開,無心插柳柳成蔭
“準確率多少?”
任何圖片項目都是有準確率作為標尺的,就以人臉識別來說,準確率低于50%的研究沒有任何意義,商用階段起碼要擁有80%以上的準確率才行。
“情緒識別準確率高達64%,主要包括哭、笑、怒、樂、難過、傷心等詞綴,目前還在進一步學習,因為分類決策比較少,所以這個學習進展非???。唇語識別,目前僅限于普通話中文,我們主要是采用央視某套有字幕的節目進行學習的,經測試,對特定的幾個主持人的口型識別準備率接近74%,而此類泛用視頻的識別率……不足5%……”
74%……不足5%……
情緒識別拋開不提,單說唇語識別。
74%什么概念,就是一句話識別正確的字數到七成,就以“人類是低等植物”這幾個字來說,可能意思完全相反,但是對人類來說,猜到它的正確意思一點困難都沒有。而實際錯誤發生的地方都是隨機的,也不一定會錯的這么離譜,比如“黑灰花卉會揮發”這句話,就如同正常人筆誤一樣。
葉曉奇不禁為那幾個主持人感到默哀,估計他們要是知道他們說的話被天網研究透徹到了這個地步,以后路過中生代都會遠遠的繞道走。
當然只針對這幾個人的研究是沒有意義的,所以才有泛用的說法。
泛用識別率不足5%,聽起來似乎不那么靠譜??墒鞘聦嵅皇沁@樣的,萬事皆有開頭,只要研究大方向上沒錯,后續只是時間的問題。
就以5%來說,基本接近于平行世界2015年底牛津大學提出的研究成果所能達到的目標。隨后牛津大學和谷歌合作,在三個月內,也就是16年的三月份迅速把這個識別率學習到了46%。緊跟著不到一年,谷歌就據此發布了唇語識別特征庫,面向世界開放,因此項技術收益的項目和企業隨之紛紛成立。
當然谷歌的技術僅限于英文,但是原理是一樣的,中文讀唇術依舊是采用這個原理。
只要研究方向得當,整個過程真的只是時間和算力的問題。
而且46%也絕不是計算機所能達到的極限,通過結合上下文語義分析和語義聯結,輔以更大的數據訓練,只需要經過兩三年的商用落地沉淀,這個準確率就很快可以超越90%。
想想電影里的那些唇語識別橋段吧,這可是超級特工才有的專精技能。而人類經過十幾年專業訓練的唇語專家,很遺憾,平均識別度僅有不到13%。
計算機以其自身的特點和優勢,在效率和成果上,在這方面是足以秒殺人類的。
那么唇語識別能做什么?
能做的事情很多……
特種任務案情分析、監控預警、人質交涉、視頻自動字幕……
懷疑某某在春晚上是假唱對吧?聲音對不上?沒關系,來唇語識別測一測,真唱假唱一測既知。
懷疑某些小鮮肉在電視里只是裝作念臺詞對吧?來咱唇語識別測一測,口型起碼要對上。
進一步想像下,有了讀唇術,在結合語音識別技術呢?兩者相加可以使計算機對人類的語言理解準確到令人發指的程度,這就為和語音智能企業的進一步深入合作提供了可能性,而不是現在的單純技術買入。
對于某些殘障人士呢?試想下,沒有人愿意生下來就耳不能聞、口不能述,還不得不去學習一些復雜的手語來和人交流,而這種交流對于普通人來說可能難以理解。但是讀唇術可以改變這一些,通過對口型的學習,再通過讀唇術翻譯,就能正常的與其他人交流!
不能為人類服務的機器人研究,對人類來說,是沒有意義的,如果真的出現了這樣的研究:請拍死他!
同樣,不能為人類服務的AI技術,亦是沒有價值的。
讀唇術有沒有價值?
必須有。
高度成熟的AI技術,是誕生高度發達的機器人的先決條件。
AI技術的發展,絕對不止是像物流機器人一樣,代替人類的某些工種,去跟人類搶飯吃。它可以使人類的生活變得更安逸和“懶惰”,比如掃地機器人。它也可以代替人類的某些高危工種,執行一些人類難以執行的任務,充當某些領域的敢死隊和馬前卒。
這方面最典型的例子就是“好奇者號”,雖然好奇者號在后世看來可能比較落伍,但是其“大腦”一定是擁有了初步的自我判斷能力的,否則也無法在長達20多分鐘的電波延遲中,脫離人類指揮生存。
假如有一天,人類要進軍外太空,人類怎么去指揮機器人?人機協同才是最聰明的方式,機器人的重要性是無可取代的,那么使用傳統按鍵操控方式嗎?
笨重的防護服可能不允許人類這么做。勢必有著其他指揮方式,例如手勢、聲音等,讀唇術就為人機協同作業提供了額外的可能性。
太空中如此,深海中呢?
高空作業?嘈雜環境作業?
讀唇術,及其所屬的圖像識別,其未來發展前景,是無限……是真正的星辰大海……