官术网_书友最值得收藏!

1.1 人類認(rèn)知基本理論

人類通過視覺、聽覺、觸覺等不同感官形成對事物的感知,本質(zhì)上,人腦所處理的信息本身就具有跨媒體特性,“McGurk現(xiàn)象”和近期神經(jīng)系統(tǒng)科學(xué)進(jìn)行的研究從不同角度揭示了人腦認(rèn)知的跨媒體特性。1976年,McGurk等人驗(yàn)證了人類對外界信息的認(rèn)知是基于不同感官信息(如聽覺和視覺等)而形成的整體性理解,任何感官信息的缺乏或不準(zhǔn)確將導(dǎo)致大腦對外界信息的理解產(chǎn)生偏差,這個(gè)現(xiàn)象被稱為“McGurk現(xiàn)象” [7]。McGurk現(xiàn)象揭示了大腦在進(jìn)行感知時(shí),不同感官被無意識和自動地結(jié)合到了一起進(jìn)行處理。更為重要的是,后續(xù)神經(jīng)系統(tǒng)科學(xué)研究也揭示,在大腦皮層的穎上溝和腦頂內(nèi)溝等部位,不同感官信息的處理神經(jīng)相互交融,人腦的生理組織結(jié)構(gòu)決定了其對外界的認(rèn)知過程是通過跨越多種感官信息的融合處理來實(shí)現(xiàn)的[8]

另外,從人工智能研究的角度來看,1976年Newell和Simon提出了物理符號系統(tǒng)假設(shè),認(rèn)為物理符號系統(tǒng)是表現(xiàn)智能行為的必要和充分條件,任何信息加工系統(tǒng)都可以看成一個(gè)具體的物理系統(tǒng),如人的神經(jīng)系統(tǒng)、計(jì)算機(jī)的構(gòu)造系統(tǒng)等。之后以McCorthy和Nilsson等為代表,主張任何事物都可以用統(tǒng)一的邏輯框架來表示,即可以用形式化的方法來描述客觀世界。20世紀(jì)70年代后期提出的知識系統(tǒng),作為人工智能學(xué)科最重要的工業(yè)化和商業(yè)化產(chǎn)物,輔助人們進(jìn)行問題求解,如產(chǎn)品質(zhì)量的評價(jià)、輔助醫(yī)療診斷、金融決策支持等。傳統(tǒng)的人工智能研究的目標(biāo)是讓機(jī)器模仿人,認(rèn)為人腦的思維活動可以通過一些公式和規(guī)則來定義,希望通過把人類的思維方式翻譯成程序語言輸入機(jī)器,使機(jī)器有朝一日能產(chǎn)生像人類一樣的思維能力。然而,人腦得到的信息中可以符號化的只占很小一部分,85%以上是符號以外的形象數(shù)據(jù),如一幅花紅柳綠的風(fēng)景圖、一段余音繞梁的音樂等。傳統(tǒng)的人工智能研究面對多媒體的信息環(huán)境,不能自如地模擬人腦的智能活動。跨媒體思想對于人工智能研究的重要意義正體現(xiàn)在著眼于對85%以上的非符號信息的綜合理解和有效利用,以使計(jì)算機(jī)可更好地模擬人類感知。

跨媒體是一個(gè)比較廣義的概念,主要涉及以下研究范疇。

1)跨媒體檢索

用戶向計(jì)算機(jī)提交一種類型的多媒體對象作為查詢例子,系統(tǒng)可以自動找到其他不同類型、在語義上相似的多媒體對象。雖然不同類型的多媒體對象之間沒有直接的可比性,如一幅山水畫和一段描述小河流水聲的音頻在底層內(nèi)容特征上彼此異構(gòu),但卻可以用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法學(xué)習(xí)兩者在統(tǒng)計(jì)意義上潛在的相關(guān)性,并以此為依據(jù)進(jìn)行跨媒體檢索。

2)跨媒體推理

推理是從一種命題合理演繹到另一種命題,跨媒體推理就是從一種類型的多媒體數(shù)據(jù)經(jīng)過問題求解轉(zhuǎn)向另一種類型的多媒體數(shù)據(jù)。例如,OCR(Optical Character Recognition)技術(shù)是從圖像到文本的推理、基于內(nèi)容的圖像檢索是從圖像到圖像的推理、視頻動畫技術(shù)是從視頻數(shù)據(jù)到動畫序列的演繹。跨媒體推理囊括了對這些不同類型的多媒體數(shù)據(jù)之間的轉(zhuǎn)換研究。

3)跨媒體存儲

現(xiàn)有的處理海量數(shù)據(jù)的檢索技術(shù)主要針對的是文本信息,如谷歌和百度等搜索引擎,針對多媒體檢索的研究工作其出發(fā)點(diǎn)并不是針對跨媒體海量數(shù)據(jù)。跨媒體存儲研究高效壓縮、索引和分片等方法,以及對用戶行為的個(gè)性化索引等技術(shù),用于提高海量環(huán)境下的跨媒體檢索效率,更好地支持上層應(yīng)用。

上述三個(gè)方面,從底層數(shù)據(jù)存儲到上層應(yīng)用技術(shù),從不同方面描述了跨媒體思想對多媒體研究領(lǐng)域的技術(shù)涵蓋和突破性要求,是一個(gè)整體性的研究框架設(shè)計(jì)和考慮。要實(shí)現(xiàn)上述研究思路,需要在海量數(shù)據(jù)庫、多媒體索引、并行計(jì)算、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析、計(jì)算機(jī)視覺、計(jì)算機(jī)聽覺以及信息檢索等領(lǐng)域取得突破性的研究進(jìn)展。

主站蜘蛛池模板: 乌恰县| 神农架林区| 信宜市| 阿勒泰市| 方山县| 新乐市| 泸定县| 张家川| 恩平市| 吉木萨尔县| 高州市| 大埔县| 龙州县| 宣汉县| 凤阳县| 祁阳县| 莱芜市| 应用必备| 永顺县| 北安市| 油尖旺区| 堆龙德庆县| 浏阳市| 闵行区| 商河县| 怀远县| 德清县| 桐乡市| 广东省| 东乌珠穆沁旗| 如东县| 乐昌市| 丹巴县| 包头市| 饶平县| 景东| 临海市| 肇东市| 启东市| 平山县| 合肥市|