- 情感分析進階
- 林政 劉正宵 李江楠
- 1415字
- 2023-08-28 18:18:04
1.2 文本情感分析方法
文本情感分析研究始于20世紀90年代,當時的情感分析主要分為兩類,一類是基于知識庫/情感詞典的方法,另一類是基于機器學習的方法。近幾年,深度學習在語音識別、圖像識別等應用領域取得了飛速發展,也為情感分析提供了新的思路。
1.2.1 基于知識庫的方法
基于知識庫的方法主要利用詞匯的情感傾向來判斷文本的情感極性,分析對象是文本中具有情感傾向的詞匯。首先判斷或計算詞匯/詞組的褒貶傾向性,再以詞匯/詞組為單位,通過對詞匯/詞組的褒貶程度加權求和等方法,獲得整個句子或篇章的情感極性。知識庫/情感詞典的構建方法通常有三種,即手工標注方法、基于知識庫的方法和基于語料庫的統計方法。基于知識庫的方法主要是借助知識庫資源(比如Wordnet、Hownet等)中概念之間的關系(同義詞關系、反義詞關系、上下位關系等)、概念的解釋等來判斷詞語的情感極性。基于語料庫的方法通常有如下的假設:具有相同情感傾向性的情感詞容易出現在同一句子中。因此,這類方法通常需事先手工標注一小部分種子情感詞,然后通過待判定情感詞與種子詞在語料中共現關系的強度來估算待判定情感詞的情感極性。
1.2.2 基于機器學習的方法
基于機器學習的情感分析方法需經過預處理、文本表示(特征選擇、特征約簡、特征權重設置)與分類器訓練,最終輸出對情感極性的預測。1)特征選擇:選取適當的語義單元作為特征,對不同文檔有較強的區分能力。2)特征約簡:去除特征集中不能有效反映類別信息的特征,提高分類的效率和準確率。3)特征權重設置:一般按照特征詞是否出現取0/1值,或者按詞頻信息取TF、TF-IDF值等。4)分類器訓練:常用的分類器包括樸素貝葉斯(Na?ve Bayes, NB)、支持向量機(Support Vector Machines, SVM)、最大熵(Maximum Entropy, ME)等。在有監督學習的方法中,對一篇文本的情感傾向性判別可以看成文本分類過程,可以用標注好的語料來訓練情感分類器。然而,有監督方法要求已標注的情感文本集和待標注的情感文本集服從相同的分布,以便經由已標注文本集訓練出的分類器可以自然地適用于待標注文本。當標注文本特別稀缺,或者已標注文本和待標注文本領域不同時,可以采用半監督學習或者遷移學習等策略。
1.2.3 基于深度學習的方法
隨著深度學習技術的發展,大量的文本情感分析研究圍繞文本的表示學習和各種神經網絡的結構設計展開。
表示學習是指通過表示學習算法將自然語言中所蘊含的語法和語義等信息編碼為向量表示的過程。目前常用的詞匯表示學習有兩種方式,一種是上下文無關的詞向量表示,比如Word2Vec和GloVe;另一種是上下文相關的詞向量表示,比如ELMO和BERT。基于上下文的詞向量學習模型雖然可以學習到詞與上下文之間的語法和語義關系,但是沒有包含顯式的情感信息,比如good和bad的詞向量表示比較接近,然而情感極性截然不同。因此,有研究者提出學習具有情感屬性的詞向量(情感詞向量)方法,這一類方法大體可以分為兩類,一類是對已有詞向量進行面向情感分析任務的微調,從而學到具有情感屬性的詞向量;另一類是利用神經網絡模型從頭開始學習具有情感屬性的詞向量。
目前較為流行的神經網絡模型包括卷積神經網絡、循環神經網絡、記憶網絡和預訓練語言模型等,這些模型在本書第2章會有詳細介紹。不同神經網絡模型具有不同的特性,因此很多研究者根據情感分析任務,設計了多種網絡結構組合的情感分類模型,比如將卷積神經網絡作為下層,在詞向量矩陣上進行卷積操作,然后將得到的抽象表示輸入上層的循環神經網絡中。在實際應用中,具體選擇哪一種模型,要依據任務特點和計算資源條件來決定。