1.1 人類認知基本理論
人類通過視覺、聽覺、觸覺等不同感官形成對事物的感知,本質上,人腦所處理的信息本身就具有跨媒體特性,“McGurk現象”和近期神經系統科學進行的研究從不同角度揭示了人腦認知的跨媒體特性。1976年,McGurk等人驗證了人類對外界信息的認知是基于不同感官信息(如聽覺和視覺等)而形成的整體性理解,任何感官信息的缺乏或不準確將導致大腦對外界信息的理解產生偏差,這個現象被稱為“McGurk現象” [7]。McGurk現象揭示了大腦在進行感知時,不同感官被無意識和自動地結合到了一起進行處理。更為重要的是,后續神經系統科學研究也揭示,在大腦皮層的穎上溝和腦頂內溝等部位,不同感官信息的處理神經相互交融,人腦的生理組織結構決定了其對外界的認知過程是通過跨越多種感官信息的融合處理來實現的[8]。
另外,從人工智能研究的角度來看,1976年Newell和Simon提出了物理符號系統假設,認為物理符號系統是表現智能行為的必要和充分條件,任何信息加工系統都可以看成一個具體的物理系統,如人的神經系統、計算機的構造系統等。之后以McCorthy和Nilsson等為代表,主張任何事物都可以用統一的邏輯框架來表示,即可以用形式化的方法來描述客觀世界。20世紀70年代后期提出的知識系統,作為人工智能學科最重要的工業化和商業化產物,輔助人們進行問題求解,如產品質量的評價、輔助醫療診斷、金融決策支持等。傳統的人工智能研究的目標是讓機器模仿人,認為人腦的思維活動可以通過一些公式和規則來定義,希望通過把人類的思維方式翻譯成程序語言輸入機器,使機器有朝一日能產生像人類一樣的思維能力。然而,人腦得到的信息中可以符號化的只占很小一部分,85%以上是符號以外的形象數據,如一幅花紅柳綠的風景圖、一段余音繞梁的音樂等。傳統的人工智能研究面對多媒體的信息環境,不能自如地模擬人腦的智能活動。跨媒體思想對于人工智能研究的重要意義正體現在著眼于對85%以上的非符號信息的綜合理解和有效利用,以使計算機可更好地模擬人類感知。
跨媒體是一個比較廣義的概念,主要涉及以下研究范疇。
1)跨媒體檢索
用戶向計算機提交一種類型的多媒體對象作為查詢例子,系統可以自動找到其他不同類型、在語義上相似的多媒體對象。雖然不同類型的多媒體對象之間沒有直接的可比性,如一幅山水畫和一段描述小河流水聲的音頻在底層內容特征上彼此異構,但卻可以用機器學習、統計分析等方法學習兩者在統計意義上潛在的相關性,并以此為依據進行跨媒體檢索。
2)跨媒體推理
推理是從一種命題合理演繹到另一種命題,跨媒體推理就是從一種類型的多媒體數據經過問題求解轉向另一種類型的多媒體數據。例如,OCR(Optical Character Recognition)技術是從圖像到文本的推理、基于內容的圖像檢索是從圖像到圖像的推理、視頻動畫技術是從視頻數據到動畫序列的演繹。跨媒體推理囊括了對這些不同類型的多媒體數據之間的轉換研究。
3)跨媒體存儲
現有的處理海量數據的檢索技術主要針對的是文本信息,如谷歌和百度等搜索引擎,針對多媒體檢索的研究工作其出發點并不是針對跨媒體海量數據。跨媒體存儲研究高效壓縮、索引和分片等方法,以及對用戶行為的個性化索引等技術,用于提高海量環境下的跨媒體檢索效率,更好地支持上層應用。
上述三個方面,從底層數據存儲到上層應用技術,從不同方面描述了跨媒體思想對多媒體研究領域的技術涵蓋和突破性要求,是一個整體性的研究框架設計和考慮。要實現上述研究思路,需要在海量數據庫、多媒體索引、并行計算、機器學習和統計分析、計算機視覺、計算機聽覺以及信息檢索等領域取得突破性的研究進展。