官术网_书友最值得收藏!

1.2.1 文本預處理

蜘蛛程序(Spider)抓取的數(shù)據在進行一定程度的預處理之后才能用于索引的建立。文本數(shù)據預處理主要是為了提取詞語而進行的文本分析,而文本分析又可分為分詞、語言處理等過程。

1.分詞

文本分詞過程通常分為三步:第一步,將文本分為一個個單獨的單詞;第二步,去除標點符號;第三步,去除停止詞(Stop words)。停止詞是語言中最普通的一些單詞,它們的使用頻率很高,但又沒有特殊意義,一般情況下不會作為搜索關鍵詞。為了減小索引的大小,一般將此類單詞直接去除。為方便讀者理解,下面舉例說明,如圖1-2所示。

圖1-2 文本預處理

2.語言處理

語言處理主要對分詞產生的詞元進行相應語言的處理。以英文為例:首先將詞元變?yōu)樾?,然后對單詞進行縮減??s減過程主要有兩種,一種被稱為詞干提取(Stemming),另一種被稱為詞形還原(Lemmatization)。詞干提取是抽取詞的詞干或詞根,詞形還原是把某種語言的詞匯還原為一般形式。兩者依次進行相關語言處理,比如將books縮減為book(去除復數(shù)形式),將tional縮減為tion(去除形容詞后綴)。詞干提取采用某種固定的算法進行縮減。詞形還原通常使用字典的方式進行縮減,縮減時直接查詢字典,比如將reading縮減為read(字典中存在reading到read的對應關系)。詞干提取和詞形還原有時會有交集,同一個詞,使用兩種方式都會得到同樣的縮減。接上面的舉例,繼續(xù)說明,如圖1-3所示。

圖1-3 語言處理

主站蜘蛛池模板: 于田县| 嫩江县| 嘉峪关市| 清河县| 张掖市| 新沂市| 庐江县| 永善县| 太保市| 祁门县| 若尔盖县| 区。| 内丘县| 延寿县| 丰城市| 津市市| 永登县| 灌南县| 和平县| 师宗县| 察隅县| 南江县| 惠水县| 申扎县| 竹北市| 黄大仙区| 巢湖市| 曲松县| 称多县| 万年县| 吉林省| 侯马市| 健康| 德化县| 靖江市| 浦东新区| 石城县| 丽水市| 宿松县| 郎溪县| 乡宁县|