官术网_书友最值得收藏!

第二節(jié) 知識(shí)圖譜的發(fā)展歷程

雖然知識(shí)圖譜這一命名是在2012年才出現(xiàn)的,但是它的發(fā)展歷程卻可以追溯到20世紀(jì)的引文網(wǎng)絡(luò)、語(yǔ)義Web、描述邏輯和專家系統(tǒng)等。在這一技術(shù)的歷史演變過(guò)程中,出現(xiàn)了多次發(fā)展瓶頸,人們也多次通過(guò)技術(shù)的發(fā)展突破了這些瓶頸。本節(jié)對(duì)知識(shí)圖譜的發(fā)展歷程進(jìn)行簡(jiǎn)要回溯。

一、起源:科學(xué)知識(shí)圖譜

1955年,尤金·加菲爾德(Eugene Garfield)在《科學(xué)》(Science)雜志發(fā)表了一篇題為《Citation Indexes for Science: A New Dimension in Documentation Through Association of Ideas》的論文,提出了“引文索引”的設(shè)想,即提供一種文獻(xiàn)計(jì)量學(xué)的工具,幫助科學(xué)家識(shí)別其感興趣的文獻(xiàn)。這一引文技術(shù)的概念開(kāi)創(chuàng)了從引文角度研究文獻(xiàn)及科學(xué)發(fā)展動(dòng)態(tài)的新方法。

1965年,普萊斯發(fā)表了《Networks of Scientific Papers》一文,提出了用引證網(wǎng)絡(luò)表示科學(xué)文獻(xiàn)之間印證關(guān)系的方法。這相當(dāng)于為當(dāng)代科學(xué)發(fā)展繪制了一張地形圖,由此引文網(wǎng)絡(luò)開(kāi)始成為研究科學(xué)發(fā)展脈絡(luò)的方法,進(jìn)而形成了科學(xué)知識(shí)圖譜(Mapping Knowledge Domain)的概念。但在這一階段,科學(xué)知識(shí)圖譜主要應(yīng)用于研究科學(xué)發(fā)展的歷程,更多地被用在科學(xué)計(jì)量學(xué)科和情報(bào)學(xué)科,致力于發(fā)展科學(xué)文獻(xiàn)引用網(wǎng)絡(luò)的可視化。

1968年,奎林(J.R.Quillian)提出了語(yǔ)義網(wǎng)絡(luò)(Semantic Network)的概念,為人類聯(lián)想記憶提供了一個(gè)明顯的公理模型。這一模型的本質(zhì)是一種用圖表示知識(shí)的結(jié)構(gòu)化方式,可以看成一種用于存儲(chǔ)知識(shí)的圖的數(shù)據(jù)結(jié)構(gòu)。但在語(yǔ)義網(wǎng)絡(luò)被提出之后,有人認(rèn)為自然語(yǔ)言比語(yǔ)義網(wǎng)絡(luò)更適合表示人類的知識(shí),于是展開(kāi)了對(duì)語(yǔ)義網(wǎng)絡(luò)和自然語(yǔ)言謂詞邏輯之間聯(lián)系的討論。在20世紀(jì)70年代的研究成果中,Bertram C.Bruce提供了一種將語(yǔ)義網(wǎng)絡(luò)轉(zhuǎn)化成謂詞邏輯的算法,且該算法在計(jì)算上具有一定優(yōu)勢(shì);B.Kaiser給出了用語(yǔ)義網(wǎng)絡(luò)表示連接詞的方法。在此之后,語(yǔ)義網(wǎng)絡(luò)可以方便地將自然語(yǔ)言的句子用圖進(jìn)行表達(dá)和存儲(chǔ),此技術(shù)可被廣泛應(yīng)用于機(jī)器翻譯、問(wèn)答系統(tǒng)和自然語(yǔ)言理解等任務(wù)。

二、發(fā)展:知識(shí)庫(kù)

1977年,美國(guó)斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家費(fèi)根·鮑姆教授在第五屆國(guó)際人工智能大會(huì)上提出了知識(shí)工程(Knowledge Engineering)的概念。知識(shí)工程是通過(guò)存儲(chǔ)現(xiàn)有的專家知識(shí)對(duì)用戶的提問(wèn)進(jìn)行求解的系統(tǒng),本質(zhì)上是一個(gè)通過(guò)智能軟件建立的專家系統(tǒng),研究如何由計(jì)算機(jī)進(jìn)行問(wèn)題的自動(dòng)求解。知識(shí)工程的提出使人工智能的研究從基于推理的模型轉(zhuǎn)向基于知識(shí)的模型,從理論轉(zhuǎn)向了應(yīng)用。隨后,作為知識(shí)工程的一個(gè)重要組成部分,知識(shí)庫(kù)(Knowledge Base,KB)應(yīng)運(yùn)而生,并成為知識(shí)圖譜技術(shù)發(fā)展史上的重要階段。

知識(shí)庫(kù)來(lái)自于人工智能-知識(shí)工程領(lǐng)域和數(shù)據(jù)庫(kù)領(lǐng)域兩方面技術(shù)的有機(jī)融合。它經(jīng)過(guò)分類和有序化,根據(jù)一定格式將相互關(guān)聯(lián)的各種知識(shí)存儲(chǔ)在計(jì)算機(jī)中。相比于一般的數(shù)據(jù)庫(kù),知識(shí)庫(kù)可以對(duì)知識(shí)結(jié)構(gòu)進(jìn)行分析,根據(jù)知識(shí)的各方面特征將其編構(gòu)成便于利用的、有結(jié)構(gòu)的組織形式。相比于一般的應(yīng)用程序只能把問(wèn)題求解的知識(shí)隱含地編碼在程序中,知識(shí)庫(kù)則可以將問(wèn)題的答案顯式地表達(dá),并單獨(dú)組成一個(gè)相對(duì)獨(dú)立的程序?qū)嶓w。

對(duì)于知識(shí)庫(kù)的研究,核心在于對(duì)知識(shí)的組織和表達(dá),因此邏輯基礎(chǔ)十分重要。在此后的一段時(shí)期,對(duì)語(yǔ)義網(wǎng)絡(luò)的研究方向逐漸轉(zhuǎn)變?yōu)榫哂袊?yán)格邏輯語(yǔ)義的表示和推理。從20世紀(jì)80年代末到20世紀(jì)90年代,語(yǔ)義網(wǎng)絡(luò)的工作集中在對(duì)概念之間關(guān)系的建模,有人提出了術(shù)語(yǔ)邏輯(Terminological Logic)以及描述邏輯的概念。這一時(shí)期比較有代表性的工作是Brachman等人提出的CLASSIC語(yǔ)言和Horrock實(shí)現(xiàn)的FaCT推理機(jī)。

進(jìn)入21世紀(jì),語(yǔ)義網(wǎng)(Semantic Web)和鏈接數(shù)據(jù)(Linked Data)的出現(xiàn)開(kāi)啟了語(yǔ)義網(wǎng)絡(luò)應(yīng)用的新場(chǎng)景。語(yǔ)義網(wǎng)和鏈接數(shù)據(jù)是萬(wàn)維網(wǎng)之父Tim Berners Lee分別在1998年和2006年提出的。相對(duì)于語(yǔ)義網(wǎng)絡(luò),語(yǔ)義網(wǎng)和鏈接數(shù)據(jù)傾向于描述萬(wàn)維網(wǎng)中資源、數(shù)據(jù)之間的關(guān)系。

語(yǔ)義網(wǎng)中的“Web”希望將數(shù)據(jù)相互鏈接,組成一個(gè)龐大的信息網(wǎng)絡(luò),正如互聯(lián)網(wǎng)中相互鏈接的網(wǎng)頁(yè),只不過(guò)基本單位變?yōu)榱6雀〉臄?shù)據(jù)。在萬(wàn)維網(wǎng)誕生之初,網(wǎng)絡(luò)上的內(nèi)容只有人類可讀,計(jì)算機(jī)無(wú)法理解和處理。在用戶瀏覽網(wǎng)頁(yè)時(shí),計(jì)算機(jī)只能判斷這是一個(gè)網(wǎng)頁(yè),網(wǎng)頁(yè)里面有圖片、有鏈接,但并不知道圖片描述的是什么,也不清楚鏈接指向的頁(yè)面與當(dāng)前頁(yè)面有何關(guān)系。語(yǔ)義網(wǎng)是對(duì)Web的一個(gè)擴(kuò)展,其核心是給Web上的文檔添加能夠被計(jì)算機(jī)理解的“元數(shù)據(jù)”,使網(wǎng)絡(luò)上的數(shù)據(jù)對(duì)于機(jī)器可讀,進(jìn)而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換媒介。

語(yǔ)義網(wǎng)與傳統(tǒng)Web的最顯著區(qū)別是用戶可以上傳各種圖結(jié)構(gòu)的數(shù)據(jù),并且數(shù)據(jù)之間可以建立鏈接,從而形成鏈接數(shù)據(jù)。鏈接數(shù)據(jù)產(chǎn)生的目的是定義如何利用語(yǔ)義網(wǎng)技術(shù)在網(wǎng)上發(fā)布數(shù)據(jù),強(qiáng)調(diào)在不同的數(shù)據(jù)集間創(chuàng)建鏈接。鏈接數(shù)據(jù)項(xiàng)目匯集了很多高質(zhì)量的知識(shí)庫(kù),如FreeBase、DBpedia和YAGO,這些知識(shí)庫(kù)都來(lái)源于人工編輯的大規(guī)模知識(shí)庫(kù)——維基百科,隨后出現(xiàn)的知識(shí)圖譜就是對(duì)鏈接數(shù)據(jù)這一概念的進(jìn)一步包裝。

在這一階段,由于技術(shù)發(fā)展程度的限制,知識(shí)庫(kù)更多以機(jī)構(gòu)知識(shí)庫(kù)的形式出現(xiàn)。對(duì)于特定的機(jī)構(gòu),由于該機(jī)構(gòu)所在領(lǐng)域的知識(shí)規(guī)模通常相對(duì)較小,因此容易通過(guò)知識(shí)庫(kù)的理論和方法進(jìn)行有效的組織和管理。有了機(jī)構(gòu)知識(shí)庫(kù),對(duì)機(jī)構(gòu)內(nèi)容知識(shí)的保存、管理、訪問(wèn)更加方便,人們甚至可以利用機(jī)構(gòu)知識(shí)庫(kù)進(jìn)行預(yù)測(cè)和決策支持。

三、形成:知識(shí)圖譜

隨著互聯(lián)網(wǎng)的發(fā)展,知識(shí)與信息呈現(xiàn)爆發(fā)式增長(zhǎng),搜索引擎的使用越來(lái)越廣泛。但海量的信息使得傳統(tǒng)萬(wàn)維網(wǎng)并不能滿足人們快速、準(zhǔn)確地獲取高質(zhì)量信息的需求,于是,知識(shí)圖譜出現(xiàn)了。

2012年11月,Google公司率先提出知識(shí)圖譜的概念,表示將在其搜索結(jié)果中加入知識(shí)圖譜的功能。此時(shí)的知識(shí)圖譜與最初在引文網(wǎng)絡(luò)中出現(xiàn)的科學(xué)知識(shí)圖譜有很大的區(qū)別,但與知識(shí)庫(kù)在理論和方法上還比較相近,只是由于建立在互聯(lián)網(wǎng)搜索引擎的發(fā)展之上,知識(shí)圖譜的含義更加寬泛。從發(fā)展愿景來(lái)看,知識(shí)圖譜里的知識(shí)應(yīng)該包含人們生活中的萬(wàn)事萬(wàn)物,涵蓋人類文明發(fā)現(xiàn)和創(chuàng)造的所有知識(shí)。

知識(shí)圖譜由知識(shí)及知識(shí)之間的關(guān)系組成,知識(shí)(實(shí)體)的內(nèi)部特征使用屬性-值對(duì)表示;知識(shí)(實(shí)體)之間的關(guān)系通過(guò)相互連接的邊表示。從機(jī)構(gòu)知識(shí)庫(kù)到互聯(lián)網(wǎng)搜索引擎,面向知識(shí)圖譜的研究不斷深入。傳統(tǒng)的搜索引擎是基于關(guān)鍵詞匹配的,而知識(shí)圖譜是利用知識(shí)(實(shí)體或概念)之間的匹配度建立一個(gè)有序的知識(shí)組織,為用戶提供智能化的訪問(wèn)接口,使用戶在搜索時(shí)可以更加快速、準(zhǔn)確地獲得一個(gè)全面的信息體系。其工作原理如圖2所示。

圖2 知識(shí)圖譜工作原理

Google公司擁有數(shù)量眾多的互聯(lián)網(wǎng)用戶,有需求和資本建立一個(gè)龐大的知識(shí)圖譜。Google公司采用多種語(yǔ)言對(duì)知識(shí)圖譜中的實(shí)體、屬性和實(shí)體間的關(guān)系進(jìn)行描述。根據(jù)2015年統(tǒng)計(jì)的數(shù)據(jù),Google公司構(gòu)建的知識(shí)圖譜擁有5億個(gè)實(shí)體、約35億條實(shí)體關(guān)系信息,已被廣泛用于提高搜索引擎的搜索質(zhì)量。

在Google知識(shí)圖譜中,一個(gè)大規(guī)模的、協(xié)同合作的知識(shí)庫(kù)——FreeBase起到了重要作用。FreeBase即鏈接數(shù)據(jù)的一個(gè)數(shù)據(jù)集,采用“圖”的數(shù)據(jù)結(jié)構(gòu),把知識(shí)庫(kù)繪制成一個(gè)有向圖。這種數(shù)據(jù)模型相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)的優(yōu)勢(shì)在于其可以處理更復(fù)雜的數(shù)據(jù)以及方便數(shù)據(jù)的插入。Google知識(shí)圖譜的模式(Schema)是由Google公司的專業(yè)團(tuán)隊(duì)在FreeBase的基礎(chǔ)上開(kāi)發(fā)和設(shè)計(jì)的。在Google知識(shí)圖譜中,所有的對(duì)象都有屬于它的類型(Type),類型的數(shù)量是不固定的。

在Google之后,微軟、百度、搜狗等互聯(lián)網(wǎng)公司紛紛開(kāi)始構(gòu)建自己的知識(shí)圖譜。隨著探索研究的不斷深入,知識(shí)圖譜作為一種新的知識(shí)管理思路,不再局限于搜索引擎的拓展應(yīng)用中,開(kāi)始在各類智能系統(tǒng)(如IBM Watson)以及數(shù)據(jù)存儲(chǔ)等領(lǐng)域發(fā)揮關(guān)鍵作用。但是目前的知識(shí)圖譜構(gòu)建尚不完善,期待知識(shí)圖譜在實(shí)體之間更加復(fù)雜的關(guān)系推理等方面有更多的突破。

主站蜘蛛池模板: 湘乡市| 新河县| 伊春市| 刚察县| 安多县| 当阳市| 平定县| 旬邑县| 上杭县| 营口市| 镇雄县| 万盛区| 建德市| 达州市| 顺平县| 阜南县| 商水县| 岫岩| 镇江市| 宜章县| 成武县| 盐源县| 阿拉尔市| 绥滨县| 灵山县| 开远市| 安仁县| 台州市| 长葛市| 濮阳县| 射阳县| 通州区| 通河县| 泗阳县| 乳源| 宿迁市| 汉阴县| 从江县| 阳春市| 涟源市| 石景山区|