- 情感分析進階
- 林政 劉正宵 李江楠
- 2480字
- 2023-08-28 18:18:03
第一部分
第1章 概述
1.1 文本情感分析相關概念
情感分析(Sentiment Analysis)[1]又稱為傾向性分析或觀點挖掘(Opinion Mining),是一種重要的信息分析處理技術,其研究目標是自動挖掘和分析文本中的立場、觀點、看法、情緒和喜惡等主觀信息。隨著微博、論壇和社交網絡等新型互聯網應用逐漸融入社會生活的各個角落,網民經常在互聯網上表達自己對于日常事件、產品等方面的觀點和看法,使互聯網記錄了大量由用戶生成且帶有情感傾向的文本數據。這些數據是情感分析的重要語料來源[2],對其充分利用有利于掌握大眾觀點,促進各行各業更好地發展,因而情感分析受到工業界和研究領域的普遍關注。
情感分析包含了情感基本單元抽取、情感分類、情緒分析、情感摘要和情感檢索等多項研究任務。
情感基本單元抽取是情感分析最底層的研究任務,旨在從情感文本中抽取有意義的信息單元,然后將無結構的情感文本轉化為計算機容易識別和處理的結構化文本。情感基本單元可以為情感分析上層的研究和應用提供支撐。情感基本單元抽取主要包括觀點持有者抽取、評價對象(target)或屬性詞(aspect)抽取、情感詞抽取以及情感詞的極性判定等。觀點持有者抽取是指抽取觀點句中觀點或評論的持有者,目前此項抽取任務主要面向的是新聞評論文本。評價對象抽取是指抽取評論文本中情感表達所面向的對象。屬性詞抽取與評價對象抽取略有不同,屬性詞可能是顯式的也可能是隱式的,屬性詞對應的不是一個詞或一組詞,比如在酒店評論中,“服務”是一個屬性,跟“服務”相關的屬性詞有“服務員”“態度”“前臺”“服務生”等。情感詞(評價詞/極性詞)指在情感句中帶有情感傾向性的詞語,是表達情感傾向的關鍵部分。情感詞的判定是給情感詞打一個正負標簽,比如,“好”對應+1,是個褒義詞;“差”對應-1,是個貶義詞。有時為了進一步區分情感強烈程度,還會采用帶權重的極性打分。
情感分類是情感分析中被最廣泛研究的任務,很多論文中把情感分類等同于情感分析[3-6]。情感分類[7]是指對情感文本所體現出的主觀看法進行類別判定。情感分類通常分為兩類(正面與反面)或三類(正面、反面與中立),其中正面類別(positive)是指文本體現出支持的、積極的、喜歡的態度和立場;負面類別(negative)是指文本體現出反對的、消極的、厭惡的態度和立場;中立類別(neutral)是指沒有偏向的態度和立場。情感分類和普通文本分類[8]有相似之處,但比普通文本分類更為復雜。在基于主題(topic)的文本分類中,因為不同主題的文本所運用的詞語往往也不同,這種詞語的領域相關性使得不同主題的文本可以很好地進行區分。然而,情感分類的正確率比基于主題的文本分類低很多,這主要是由于文本中復雜的情感表達和大量的情感歧義造成的。比如,在一篇文章中,客觀句子與主觀句子可能相互交錯,或者一個主觀句子同時具有兩種以上情感。因此,情感分類是一項比主題分類更復雜的任務。
按照不同的粒度,情感分類又可以分為篇章級情感分類、句子級情感分類和屬性級情感分類。篇章級情感分類是指對整篇文章/文檔進行整體的情感極性判別,常用于酒店、餐館、圖書和電影等領域評論的整體評分。句子級情感分類是指對一個句子進行情感極性判定,一篇文章中可能有多個句子,不同句子的情感極性可能不同。在實際應用中,因為微博的內容通常較短,所以基于微博情感分類經常被視為句子級情感分類任務。屬性級情感分類是指針對文本中的特定屬性進行情感極性判別,常用于不同商品的特定參數的對比評測,比如“數碼相機”就擁有“鏡頭”“外觀”“像素”“價格”等多個屬性。不同的消費者對商品不同屬性有著不同的偏好,因此屬性級情感分類非常適用于電商的評論挖掘。
情緒分析(Emotion Analysis)是在現有粗粒度的情感二分類或三分類基礎上,從心理學角度出發,多維度地描述人的情緒態度。比如“卑劣”是個負面的詞語,而它更精確的注釋是憎恨和厭惡。由于情緒分析對于快速掌握大眾情緒的走向、預測熱點事件甚至民眾的需求都有重要的作用,近幾年引起了許多研究者的關注[9-11]。我國很早就開始對情緒分析開展研究。據《禮記》記載,人的情緒有“七情”的分法,即為喜、怒、哀、懼、愛、惡、欲。法國的哲學家笛卡兒(Descartes)在其著作《論情緒》中認為,人的原始情緒分為驚奇、愛悅、憎惡、欲望、歡樂和悲哀,其他的情緒都是這六種原始情緒的分支或者組合。在本書中,若無特殊說明,情感分類是指正、負二分類,而情緒分析則是多個類別的分類。情感和情緒研究一直是心理學的研究重點,心理學關于情感和情緒的研究成果,對于挖掘和分析互聯網用戶生成數據具有重要的參考價值。越來越多的信息科學學者意識到這一點,不僅在傳統的情感分析工具中加入一些心理學元素,而且還根據心理學的情緒結構理論構建了多個全新的研究工具,為網絡文本的情感分析注入了心理學思想。利用這些研究工具對在線文本進行情感分析,已取得諸多有價值的研究成果,也拓寬了社會科學研究的邊界。
網絡數據的爆炸式增長,激發了用戶從互聯網海量信息中搜索有效信息的需求。為滿足互聯網用戶日益增長的搜索需求,2006年國際文本檢索會議(Text Retrieval Evaluation Conference, TREC)首次引入博客檢索任務。在搜索過程中同時考慮搜索關鍵字和用戶的情感訴求,可以使搜索變得更加便捷、準確和智能。情感檢索技術[12]是解決該問題的重要方法之一,其任務是從海量文本信息中查詢文本所蘊含的觀點,并根據主題相關度和觀點傾向性對結果進行排序。情感檢索返回的結果需要同時滿足主題相關性和情感傾向性。
為了有效利用互聯網上的海量評論文本,就需要用技術和工具對這些評論文本進行自動地處理和分析。這既可以減少人們的工作量,又可以將有用的信息準確快速地反饋給用戶,故自動情感摘要技術[13]應運而生。自動情感摘要技術是在自動摘要技術的基礎上延伸出來的。傳統的自動摘要技術是指提取文本中能夠表達主題信息的文本形成摘要。但是,對于評論文本來說,它包含了用戶的情感和觀點,簡單的自動摘要技術缺少情感信息的采集,不能滿足用戶的需要。與傳統的主題摘要不同,情感摘要側重于提取具有明顯情感傾向性的主觀評論,比如對特定商品或服務的評論信息進行歸納和匯總。針對在線用戶評論,情感摘要主要有兩種呈現方式:一種是基于主題的情感摘要,另一種是基于情感傾向性的情感摘要。