官术网_书友最值得收藏!

1.2.2 建立索引

經過文本分析后,得到的結果稱為詞(Term),我們利用它建立索引。首先使用得到的詞創建一個字典,然后對字典按字母順序進行排序,最后合并相同的詞,形成文檔倒排表(Posting List),具體過程如下。

1.使用詞生成字典,如表1-1所示

表1-1 使用詞生成字典

2.對字典按字母順序排序,如表1-2所示

表1-2 對字典按字母順序排序

3.合并相同的詞,形成文檔倒排鏈表

在文檔倒排表中,有幾個概念需要解釋一下。文檔頻率(Document Frequency)表示共有多少個文檔包含這個詞。詞頻率(Term Frequency),表示這個文檔中包含此詞的個數。在圖1-4中,左邊是按字母順序排序的字典合并相同詞,并統計出該詞在文檔中出現次數的結果。中間和右邊是文檔1和文檔2中包含某個詞的次數——詞頻率。它們之間是用鏈表的形式串起來的,又因為是根據詞的值來查找相關文檔的,而非在文檔中查找相關的值,和正常順序是相反的,故稱其為文檔倒排鏈表或倒排索引。

圖1-4 文檔倒排鏈表

至此,索引已經構建好了。根據以上的文檔倒排鏈表,我們就能使用關鍵詞來查到相應的文檔了。

主站蜘蛛池模板: 大埔区| 鹿泉市| 西林县| 滕州市| 兴隆县| 廊坊市| 宣化县| 台南县| 平利县| 长寿区| 陆河县| 岳西县| 香河县| 常德市| 松阳县| 花莲县| 大余县| 桂阳县| 阿瓦提县| 阳谷县| 北安市| 鹿邑县| 永川市| 鄯善县| 历史| 阿鲁科尔沁旗| 成安县| 常熟市| 岳西县| 海盐县| 房产| 藁城市| 康乐县| 江达县| 区。| 嵩明县| 东源县| 南安市| 扎兰屯市| 如皋市| 加查县|