官术网_书友最值得收藏!

第一節(jié) 什么是知識圖譜

一、知識圖譜的定義

作為一種智能、高效的知識組織方式,知識圖譜能夠幫助用戶迅速、準確地查詢到自己需要的信息,近年來得到了飛速發(fā)展。盡管產(chǎn)業(yè)界對其內(nèi)涵有了基本共識,但實際上目前尚沒有一個公認的定義。

知識圖譜由Google公司在2012年提出,但發(fā)布時Google公司并沒有對這一概念做出清晰的定義。維基百科上知識圖譜的詞條實際是對Google公司搜索引擎使用的知識庫功能的描述,即知識圖譜是Google公司使用的一個知識庫及服務(wù),它利用從多種來源收集的信息提升搜索引擎返回的結(jié)果的質(zhì)量。

百度百科將知識圖譜定義為“通過將應(yīng)用數(shù)學、圖形學、信息可視化技術(shù)、信息科學等學科的理論和方法與計量學引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu),達到多學科融合目的的現(xiàn)代理論。”但從該詞條的詳細內(nèi)容可以看出,百度百科的定義仍是一種對知識圖譜的早期理解和對Google公司提出的知識圖譜功能的復述。

國內(nèi)外學術(shù)機構(gòu)圍繞知識圖譜進行了大量研究,近年來我國高校學者也在知識圖譜領(lǐng)域發(fā)表了許多優(yōu)秀的論文,并對知識圖譜做出了比較完整和全面的定義。如華東理工大學教授王昊奮認為:“知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標識,這個ID被稱為它們的標識符。‘屬性-值’對(Attribute-Value Pair,AVP)用來刻畫實體的內(nèi)在特性,而關(guān)系用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)。”而電子科技大學的劉嶠等人認為:“知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是‘實體-關(guān)系-實體’三元組以及實體及其屬性-值對,實體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。”

在互聯(lián)網(wǎng)上有大量對知識圖譜的討論,在知乎等社交問答網(wǎng)站上存在多種對知識圖譜的表述,內(nèi)容大同小異,如“本質(zhì)上,知識圖譜旨在描述真實世界中存在的各種實體或概念及其關(guān)系,其構(gòu)成一張巨大的語義網(wǎng)絡(luò)圖,節(jié)點表示實體或概念,邊則由屬性或關(guān)系構(gòu)成。現(xiàn)在的知識圖譜已被用來泛指各種大規(guī)模的知識庫”。

技術(shù)廠商和用戶對知識圖譜有著不同的理解,但大多沒有提出明確的定義。

從以上研究中可以看到知識圖譜的起源和在中國的傳播發(fā)展。綜合其中的共識,作者對本書探討的知識圖譜給出以下定義:知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),是新一代的知識庫技術(shù),通過結(jié)構(gòu)化、語義化的處理將信息轉(zhuǎn)化為知識,并加以應(yīng)用。

二、對知識圖譜定義的解讀

對于上述知識圖譜的定義,可以從以下幾個方面進行解讀。

1.表現(xiàn)形式

知識圖譜的抽象表現(xiàn)形式是以語義互相連接的實體,是把人對實體世界的認知通過結(jié)構(gòu)化的方式轉(zhuǎn)化為計算機可理解和計算的語義信息。我們可以將知識圖譜理解成一個網(wǎng)狀知識庫,這個知識庫反映的是一個實體及與其相關(guān)的其他實體或事件,不同的實體之間通過不同屬性的關(guān)系相互連接,從而形成了網(wǎng)。由此,知識圖譜可以被看成對物理世界的一種符號表達。

2.涵蓋范圍

知識圖譜由傳統(tǒng)的知識庫演變而來,可以說狹義的知識圖譜就是知識庫,但廣義的知識圖譜應(yīng)涵蓋知識庫、從信息到知識的知識庫構(gòu)建以及高效定位正確的知識、發(fā)現(xiàn)隱含的知識的知識庫運用等方面,目標是解決信息過載和信息缺失的問題。

3.技術(shù)表現(xiàn)

知識圖譜在技術(shù)上表現(xiàn)為技術(shù)棧,通常被認為是由知識提取、知識融合、知識加工、知識呈現(xiàn)4層技術(shù)組合而成的。知識圖譜在知識庫的構(gòu)建方面具備接入多數(shù)據(jù)源的能力,比傳統(tǒng)的人工方式更加高效。除了知識庫部分外,知識圖譜技術(shù)還包括可以生成新知識的推理引擎,被視為自動化、智能化的新一代知識庫技術(shù)。

4.研究價值

知識圖譜是人工智能的關(guān)鍵技術(shù)之一,人工智能追求的目標是利用機器快速、便捷地獲得高質(zhì)量的數(shù)據(jù)信息,進而輔助人們進行更多智能化的應(yīng)用。在實現(xiàn)這一目標的過程中,知識就是核心力量。知識對于人工智能的價值在于讓機器具備對數(shù)據(jù)的認知能力和理解能力。構(gòu)建知識圖譜的目的就是讓機器形成這種認知能力,使其能夠理解這個世界。

知識的獲取,特別是自動獲取本身就很難,知識的來源廣泛,且種類多樣,形成知識的數(shù)據(jù)可能是結(jié)構(gòu)化的,也可能是非結(jié)構(gòu)化的。獲取知識后的理解和推理是對知識的選擇和應(yīng)用,是將零散的數(shù)據(jù)整合到一起并梳理出脈絡(luò)的過程,更為復雜。

這個時候,可以通過“圖”這樣一種直觀、清晰的基礎(chǔ)性通用“語言”,清楚地還原各個數(shù)據(jù)之間的復雜關(guān)系。知識圖譜的構(gòu)建就是在Web網(wǎng)頁的基礎(chǔ)上增加一層覆蓋的網(wǎng)狀的圖,將Web網(wǎng)頁上的概念相互鏈接起來,用最小的成本將互聯(lián)網(wǎng)中大量的信息組織成可以被利用的知識。

5.應(yīng)用價值

知識圖譜提供了一種從海量數(shù)據(jù)中抽取結(jié)構(gòu)化知識的手段,快速便捷,擁有廣闊的應(yīng)用前景。

對于使用知識圖譜的人來說,相比文字,圖更加直觀、有條理,因此知識圖譜可以幫助人們更好地理解和記憶知識。很多人應(yīng)用思維導圖對知識進行記憶和梳理,在這個過程中應(yīng)用的是使用者本身的記憶習慣和技巧。知識圖譜是從知識本身出發(fā),保留了知識原來的組織,引導使用者理解知識。

對于使用知識圖譜的軟件、服務(wù)、系統(tǒng)來說,知識圖譜提供了結(jié)構(gòu)化的數(shù)據(jù)存儲格式,降低了軟件、服務(wù)、系統(tǒng)在數(shù)據(jù)挖掘和管理過程中的難度。同時,知識圖譜可以在較好地保存數(shù)據(jù)及數(shù)據(jù)之間關(guān)聯(lián)的基礎(chǔ)上,挖掘出更多的有效信息,開發(fā)更多的應(yīng)用場景。在使用知識圖譜服務(wù)進行搜索時,人們可以直接獲得與數(shù)據(jù)關(guān)聯(lián)的答案,而不是可能包含答案的網(wǎng)頁。

知識圖譜由復雜多層次的技術(shù)棧構(gòu)成,內(nèi)涵覆蓋構(gòu)建、應(yīng)用等多個生命周期環(huán)節(jié),知識圖譜技術(shù)的供需雙方對于知識圖譜的理解和著眼點實際是不同的。需求方企業(yè)往往傾向于簡單化理解,或者將其等同于傳統(tǒng)的專家?guī)欤蛘哒J為其就是圖可視化的炫酷展現(xiàn)形式;而技術(shù)廠商可能基于自身在技術(shù)棧不同層面的優(yōu)勢宣傳和解讀這一技術(shù)。透過復雜的技術(shù)棧和紛繁的技術(shù)術(shù)語來看,知識圖譜的本質(zhì)是運用新的技術(shù)在知識結(jié)構(gòu)化和分析洞察兩個方面提升信息轉(zhuǎn)化為知識并且被利用的效率,具體如下。

● 知識結(jié)構(gòu)化:與傳統(tǒng)知識庫相比,知識圖譜在知識構(gòu)建部分除了專家人工的方式,還利用機器學習算法等手段進行文本挖掘和自然語言處理,從大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中抽取知識。

● 分析洞察:在人、企業(yè)、產(chǎn)品、興趣、想法、事實存在交織的關(guān)聯(lián)關(guān)系時,使用圖分析這些復雜的關(guān)系效率更高,也更加有可擴展性。如應(yīng)用圖遍歷、最短路徑、三角計數(shù)、連通分量、類中心等算法進行目標實體搜尋、實體關(guān)聯(lián)識別、關(guān)聯(lián)程度評價、關(guān)鍵人物和特殊關(guān)系群體發(fā)現(xiàn)等工作時,可得到較好的效果。

從企業(yè)級信息管理的全局視角來看,知識圖譜無疑是企業(yè)信息管理的一種方式和手段。知識圖譜的主要功能(如文本分析、語義計算等)與傳統(tǒng)的數(shù)據(jù)采集、清洗、整合等數(shù)據(jù)處理功能在處理方法和流程上有一定的相似性,在技術(shù)上也有互通或重合的內(nèi)容。知識圖譜的建設(shè)橫跨企業(yè)級數(shù)據(jù)建設(shè)和應(yīng)用的多個環(huán)節(jié),在技術(shù)的整合方面復雜度較高,因此應(yīng)用知識圖譜的用戶企業(yè)需要具備一定的數(shù)據(jù)基礎(chǔ)和數(shù)據(jù)技術(shù)能力基礎(chǔ),比如持續(xù)的數(shù)據(jù)治理和知識管理機制、較好的基礎(chǔ)數(shù)據(jù)質(zhì)量、對數(shù)據(jù)技術(shù)能力和團隊的積累等。

三、知識圖譜的通用表示

從本質(zhì)上來看,可以將知識圖譜理解成一張由不同知識點相互連接形成的語義網(wǎng)絡(luò)。任何一種網(wǎng)絡(luò)都是由節(jié)點和邊構(gòu)成的,因此,知識圖譜也是由節(jié)點和邊構(gòu)成的。節(jié)點表示實體或概念,邊表示實體的屬性或?qū)嶓w間的關(guān)系。

知識圖譜中的節(jié)點分為以下兩種。

● 實體:指具有可區(qū)別性且獨立存在的某種事物,如一個人、一座城市、一種商品等。某個時刻、某個地點、某個數(shù)值也可以作為實體。實體是一個知識圖譜中最基本的元素,每個實體可以用一個全局唯一的ID進行標識。

● 語義類/概念:語義類指具有某種共同屬性的實體的集合,如國家、民族、性別等;而概念則反映一組實體的種類或?qū)ο箢愋停缛宋铩夂颉⒌乩淼取?/p>

知識圖譜中的邊分為以下兩種。

● 屬性(值):指某個實體可能具有的特征、特性、特點以及參數(shù),是從某個實體指向它的屬性值的“邊”,不同的屬性對應(yīng)不同的邊,而屬性值是實體在某一個特定屬性下的值。例如,圖1所示的“類別”“首都”是不同的屬性,“北京”是中國在“首都”這一屬性下的屬性值。

圖1 知識圖譜示例

● 關(guān)系:是連接不同實體的“邊”,可以是因果關(guān)系、相近關(guān)系、推論關(guān)系、組成關(guān)系等。在知識圖譜中,將關(guān)系形式化為一個函數(shù)。這個函數(shù)把若干個節(jié)點映射到布爾值,其取值反映實體間是否具有某種關(guān)系。

基于以上定義,可以更好地理解三元組。三元組是知識圖譜的一種直觀、簡潔的通用表示方式,可以方便計算機對實體關(guān)系進行處理。

用三元組G=(E,R,S)表示知識圖譜,其中,E={e1,e2,……,eE}是知識圖譜中的實體集合,包含|E|種不同的實體;R={r1,r2,……,rE}是知識圖譜中的關(guān)系集合,共包含|R|種不同的關(guān)系;S?E×R×E是知識圖譜中的三元組集合。三元組的基本形式主要包括(實體1,關(guān)系,實體2)以及(概念屬性,屬性值)等。(實體1,關(guān)系,實體2)、(實體,屬性,屬性值)都是典型的三元組。如圖1所示,方塊是實體,橢圓是屬性值,實線是兩個實體之間的關(guān)系,虛線是實體的屬性。中國的首都是北京就可以用(中國,首都,北京)表示。

主站蜘蛛池模板: 金堂县| 巴青县| 淮北市| 延边| 闵行区| 绥棱县| 久治县| 秦皇岛市| 灵石县| 外汇| 南郑县| 灵山县| 锡林郭勒盟| 红桥区| 安西县| 栖霞市| 乐东| 东源县| 邹城市| 噶尔县| 泗洪县| 普格县| 山西省| 芮城县| 枣阳市| 那曲县| 苏尼特右旗| 梅州市| 饶平县| 南木林县| 平原县| 蓬安县| 兴文县| 衡南县| 海口市| 石景山区| 建德市| 定襄县| 积石山| 平定县| 沧州市|