- 自制AI圖像搜索引擎
- 明恒毅
- 552字
- 2020-04-14 15:19:27
1.2.1 文本預處理
蜘蛛程序(Spider)抓取的數(shù)據在進行一定程度的預處理之后才能用于索引的建立。文本數(shù)據預處理主要是為了提取詞語而進行的文本分析,而文本分析又可分為分詞、語言處理等過程。
1.分詞
文本分詞過程通常分為三步:第一步,將文本分為一個個單獨的單詞;第二步,去除標點符號;第三步,去除停止詞(Stop words)。停止詞是語言中最普通的一些單詞,它們的使用頻率很高,但又沒有特殊意義,一般情況下不會作為搜索關鍵詞。為了減小索引的大小,一般將此類單詞直接去除。為方便讀者理解,下面舉例說明,如圖1-2所示。

圖1-2 文本預處理
2.語言處理
語言處理主要對分詞產生的詞元進行相應語言的處理。以英文為例:首先將詞元變?yōu)樾?,然后對單詞進行縮減??s減過程主要有兩種,一種被稱為詞干提取(Stemming),另一種被稱為詞形還原(Lemmatization)。詞干提取是抽取詞的詞干或詞根,詞形還原是把某種語言的詞匯還原為一般形式。兩者依次進行相關語言處理,比如將books縮減為book(去除復數(shù)形式),將tional縮減為tion(去除形容詞后綴)。詞干提取采用某種固定的算法進行縮減。詞形還原通常使用字典的方式進行縮減,縮減時直接查詢字典,比如將reading縮減為read(字典中存在reading到read的對應關系)。詞干提取和詞形還原有時會有交集,同一個詞,使用兩種方式都會得到同樣的縮減。接上面的舉例,繼續(xù)說明,如圖1-3所示。

圖1-3 語言處理
推薦閱讀
- Vulkan學習指南
- Vue.js前端開發(fā)技術
- Object/Oriented Programming in ColdFusion
- AI繪畫教程:Midjourney使用方法與技巧從入門到精通
- 從零開始:Photoshop CC中文版基礎培訓教程
- Photoshop 2022從入門到精通
- UG NX 8.0基礎與實例教程
- ADOBE FLASH PROFESSIONAL CS6 標準培訓教材
- RESTful PHP Web Services
- 工業(yè)軟件研發(fā)、測試與質量管理論叢
- Drupal: Creating Blogs, Forums, Portals, and Community Websites
- Photoshop CC 2017從入門到精通
- 新編AutoCAD制圖快捷命令速查一冊通
- Adobe創(chuàng)意大學Photoshop CS5 產品專家認證標準教材
- UG NX 9中文版從入門到精通