官术网_书友最值得收藏!

1.3 搜索引擎的一般結(jié)構(gòu)

在學(xué)習(xí)了文本搜索引擎之后,我們是否可以從文本搜索引擎抽象出搜索引擎的一般結(jié)構(gòu)呢?根據(jù)一般的抽象方法,我們可以把事物非關(guān)鍵性的特征剝離出來,而只保留其最為本質(zhì)的特征。對于現(xiàn)有技術(shù)條件下的搜索引擎,必須事先生成索引庫,再在其上進(jìn)行搜索查詢。如圖1-10所示,首先需要對輸入數(shù)據(jù)進(jìn)行一定的預(yù)處理,以使我們可以對其進(jìn)行進(jìn)一步分析。接下來,把文本搜索引擎的詞法、語法分析等語言處理階段抽象為對輸入數(shù)據(jù)的特征提取,一個(gè)個(gè)提取出來的詞就是構(gòu)成一個(gè)文檔特征向量的基本元素,反向索引庫就是特征和文檔對應(yīng)關(guān)系的集合。對于查詢數(shù)據(jù),我們也要抽取其特征,然后計(jì)算它的特征向量與索引庫中所有特征向量的相似度,最終返回規(guī)定數(shù)量的相似結(jié)果。

圖1-10 抽象搜索引擎結(jié)構(gòu)

主站蜘蛛池模板: 永年县| 开阳县| 景泰县| 青田县| 林口县| 扶余县| 香港| 正阳县| 乐山市| 吉水县| 于都县| 政和县| 万载县| 霍林郭勒市| 中超| 商河县| 安平县| 巩留县| 克拉玛依市| 青铜峡市| 桑日县| 祥云县| 石泉县| 聂荣县| 六枝特区| 灵寿县| 延边| 环江| 武安市| 小金县| 宁都县| 江华| 炉霍县| 宝清县| 民和| 宁津县| 莱州市| 溧阳市| 内江市| 石首市| 海淀区|