第191章 人景分離
- 崛起于2009
- 平底鍋煎蛋
- 2196字
- 2018-12-19 17:22:33
每一次挫折,都是一次新的機遇。
眼下的白堊紀正是如此,在吃瓜網民的注視下,白堊紀順勢發起對流量戶的名譽權反訴訟,并借勢開始招募線下加盟商,布局線下銷售行業。
緊跟著,白堊紀發布了Android操作系統版本2.02,新的操作系統中剔除了企鵝的兩款語音聊天工具,新加入了天貓商城APP。
企鵝立馬發起了不正當競爭訴訟,白堊紀直接就發了聲明:結束合作,賠錢退股!
反正就是不想跟你玩了。
(流量戶這一設定參考騰百和幾個手機的合作歷史和訴訟史,我感覺我又走在了404的邊緣,李飛飛千萬保佑我……)
白堊紀下一代手機戰略,在具體機型有了目標后,整體戰略也多了一個目標:實現盈利,尤其是在高端手機上,增加差異化,提高利潤比。
對高通的訴訟,一時半會兒也出不了什么結果,著急也沒用。工作組來了幾天,調查盤問了一些問題,又取走了一些資料,表示接下來還會對其他手機和生產單位調查取證,而后就走了。
即使知道工作組和國產手機在利益上是“一家人”,但是還是要有事實依據,最終拿證據說事的。
天網的開源計劃定了,霍蓓蕾的“任性”是一方面,也有一些出于其他方面的考量。
隨之而來的開發人員不足的問題,卻是讓人覺得頭都大了幾圈。
移動式機械手的研發還是要繼續進行下去的,哪怕研發速度減緩,還是不能停,這關乎到天網的“飯碗”問題。
其他的許多動作,只能被迫停下來了,這里面就有關于連桿機械足的研發計劃。
而保留下來的項目,除機械手外只有一個,仍然還是視覺領域的項目:人景分離。
再具體一點:視頻場景的人景分離。
更具體一點:為新A站打造人景分離彈幕。
技術本身不復雜,仍然還是基于神經網絡的深度學習。
一個完整的視頻網站或者直播網站,其技術流程包含了采集、處理、編碼、封裝、推流……還需要了解RTMP等協議、H264等格式,掩碼(mask)……
以上都是唬人玩的。
視頻網站的真實開發場景就是客戶端一套代碼,服務端一套代碼,按照規范和手冊做下來即可。有些東西并不需要特別深究,是前人已經封裝好的。保護腦細胞健康,從忽視原理開始。
卡住中小企業的關鍵問題之一仍然還是服務器架構問題,這里面cdn的運用和服務器分發規則等負載均衡問題算是個學問。
就視頻本身而言,其本質仍然還是圖片,以快速刷新屏幕的方式,欺騙人的視覺,讓人以為視頻中的人物和場景在移動,而直播則是被分割成的一個個短小視頻的銜接。
視頻中的每一張圖片被稱之為“幀”。
既然是圖片,那么神經網絡和深度學習這對組合,就能夠派上用場了。
對大量包含人物的樣本圖片進行監督學習,可以得到關于人物輪廓的特征庫以及語意庫,作為分離標準。
對靜動像素的神經網絡進行算法分析,可以得到需要處理的目標區域。
此外還有遠近景的區分等等,這又是一個長長的課題清單。
監督學習和深度學習不再表述,總之這就是個黑盒模式。黑盒就是人類看不懂也無法解釋的意思,其過程是個有目的的隨機碰撞的過程,依賴于高速GPU的計算能力。
靜動分析更好說,如果圖片四角是靜止的,那么目標可能就是動的。如果圖片四角是移動的,那么目標可能是靜止的。
遠近景就不說了,有些時候并不是所有圖片中動的物體都需要切割。
這里面臨一個問題:英偉達支持AI計算的顯卡目前還沒發布,所以這一項目想要實現,仍然還是依賴于服務器。
所以整個項目流程被定為,AI服務器從新A站服務器得到視頻數據,將視頻數據解碼變為圖片集,對像素進行標記,處理好的圖片集再次打包成視頻吐回服務器,視頻網站設置對應的人、景、彈幕三者的z-index,在網站上和移動端把彈幕置于人景之間,最終呈現給用戶的就是一個人景分離的彈幕了。
因為依賴于服務器的原因,算力是有限的,能從這一項目得到受惠的up主必然不會太多。因此這一成果將用于吸引優秀up主加入,作為優秀視頻的獎勵。
當然這些扯遠了,眼下八字還沒一撇。好端端的突然跳到這個科研樹,原因是因為需要強化語意分割。
語意分割,其目標是知道圖片中的物體是什么。
以微軟識圖為例,一張綠草如茵的圖片,可能會被識別為“羊”。原因是,有關羊的訓練庫都和草地有關,所以看到草地,計算機就會自動認為這是“羊”。這就是無語意分割。
語意分割就是要搞清楚,“羊”是什么,“羊”長什么樣,“羊”在哪。
機械手識別商品并進行抓取,用到是就是有語意分割的深度學習神經網絡,但是存在著一些缺陷。
新開的這個項目就是為了強化語意分割的概念,進一步增加對圖片的辨識度,并為圖片中的物體賦予含義。
并不涉及到未知技術,葉曉奇也沒打算插手。人景分離項目繼天網課堂的人臉識別項目后,成為了新的可選實訓項目。而人景分離,也將為天網課堂的考核教程提供素材。
葉曉奇點了一個人,做這個項目負責人,老實巴交的劉浩然,上一次劉浩然的展示給葉曉奇留下了深刻的印象。
校企合作那邊也相應的提了要求,近期需要側重提供包含人物的圖片,以供學習。
(這個技術的靈感來源是b站的蒙版彈幕,早在蒙版彈幕出來的時候我就在搞這個玩了,FNC在這方面做的很好,再后來發現可以不用這么玩,谷歌在2月份發布了deeplabv3+可以直接做這個東西。這個技術真的很簡單,當下的條件,一個人就能寫了,只是跟團隊比起來會有效率高低開發快慢的不同,具體用到的工具和庫也會不一樣,有幾個庫可供選擇,效果也不一樣。到目前為止,本書中出現過的東西,都是現實里已經有的。AI彈幕,按道理來說,其實早就應該有了,可能是研發AI的企業關注點都在別的方面,比如汽車和VR什么的,所以拖到2018年才有。未來,本書也許會略帶科幻元素,原則仍然還是以現有技術能否實現為基準,不會科幻的很離譜。)