mg不朽情缘在哪个网站

書名：自制AI圖像搜索引擎
作者名：明恒毅
本章字數(shù)： 552字
更新時間： 2020-04-14 15:19:27

1.2.1 文本預處理

蜘蛛程序（Spider）抓取的數(shù)據在進行一定程度的預處理之后才能用于索引的建立。文本數(shù)據預處理主要是為了提取詞語而進行的文本分析，而文本分析又可分為分詞、語言處理等過程。

1．分詞

文本分詞過程通常分為三步：第一步，將文本分為一個個單獨的單詞；第二步，去除標點符號；第三步，去除停止詞（Stop words）。停止詞是語言中最普通的一些單詞，它們的使用頻率很高，但又沒有特殊意義，一般情況下不會作為搜索關鍵詞。為了減小索引的大小，一般將此類單詞直接去除。為方便讀者理解，下面舉例說明，如圖1-2所示。

圖1-2 文本預處理

2．語言處理

語言處理主要對分詞產生的詞元進行相應語言的處理。以英文為例：首先將詞元變?yōu)樾?，然后對單詞進行縮減?？s減過程主要有兩種，一種被稱為詞干提取（Stemming），另一種被稱為詞形還原（Lemmatization）。詞干提取是抽取詞的詞干或詞根，詞形還原是把某種語言的詞匯還原為一般形式。兩者依次進行相關語言處理，比如將books縮減為book（去除復數(shù)形式），將tional縮減為tion（去除形容詞后綴）。詞干提取采用某種固定的算法進行縮減。詞形還原通常使用字典的方式進行縮減，縮減時直接查詢字典，比如將reading縮減為read（字典中存在reading到read的對應關系）。詞干提取和詞形還原有時會有交集，同一個詞，使用兩種方式都會得到同樣的縮減。接上面的舉例，繼續(xù)說明，如圖1-3所示。

圖1-3 語言處理

官术网_书友最值得收藏!

自制AI圖像搜索引擎

1.2.1 文本預處理

1．分詞

2．語言處理