- 自制AI圖像搜索引擎
- 明恒毅
- 424字
- 2020-04-14 15:19:27
1.2.2 建立索引
經過文本分析后,得到的結果稱為詞(Term),我們利用它建立索引。首先使用得到的詞創建一個字典,然后對字典按字母順序進行排序,最后合并相同的詞,形成文檔倒排表(Posting List),具體過程如下。
1.使用詞生成字典,如表1-1所示
表1-1 使用詞生成字典

2.對字典按字母順序排序,如表1-2所示
表1-2 對字典按字母順序排序

3.合并相同的詞,形成文檔倒排鏈表
在文檔倒排表中,有幾個概念需要解釋一下。文檔頻率(Document Frequency)表示共有多少個文檔包含這個詞。詞頻率(Term Frequency),表示這個文檔中包含此詞的個數。在圖1-4中,左邊是按字母順序排序的字典合并相同詞,并統計出該詞在文檔中出現次數的結果。中間和右邊是文檔1和文檔2中包含某個詞的次數——詞頻率。它們之間是用鏈表的形式串起來的,又因為是根據詞的值來查找相關文檔的,而非在文檔中查找相關的值,和正常順序是相反的,故稱其為文檔倒排鏈表或倒排索引。

圖1-4 文檔倒排鏈表
至此,索引已經構建好了。根據以上的文檔倒排鏈表,我們就能使用關鍵詞來查到相應的文檔了。
推薦閱讀
- PrestaShop 1.3 Theming – Beginner’s Guide
- 基于元胞自動機的城市路網交通流建模與仿真
- Adobe Photoshop 網頁設計與制作標準實訓教程(CS5修訂版)
- MATLAB 2015從入門到精通
- DSP開發寶典
- Adobe創意大學After Effects產品專家認證標準教材(CS6修訂版)
- 二維計算機繪圖教程:二維CAD工程師取證全程指導
- 中文版Photoshop CC平面設計從入門到精通(唯美)
- Premiere CC視頻編輯入門與應用
- 剪映+Vlog+Premiere短視頻制作從新手到高手
- Premiere Pro基礎與實戰教程
- Apache JMeter
- 中文版SolidWorks 2018完全實戰技術手冊
- Deep Inside osCommerce: The Cookbook
- 中文版Photoshop 2020基礎培訓教程