- 敏捷供應鏈中的客戶知識管理
- 郝玫著
- 2945字
- 2018-12-27 12:37:40
1.3 評論挖掘概述
網絡上的評論信息主要包含以下三類:基于事件的評論、基于人物的評論以及基于產品的評論。其中,基于產品的評論是用戶在商家提供的評論平臺、個人博客以及各類產品論壇上對商品的價格、性能、使用、售后等方面發表的主觀性評論。
隨著電子商務的快速發展,電子商務網站提供了越來越多的產品,越來越多的消費者也開始習慣于通過電子商務網站購買各類產品。同時,為了提高消費者的滿意度以及改善消費者的購物體驗,電子商務網站大都開辟了專門的區域來供消費者發表對其購買產品的評論。因此,網絡上各種產品的評論數量也在飛速增長。
產品評論挖掘(Reviews Mining)是文本挖掘研究領域近幾年興起的研究熱點,以Web上發表的用戶產品評論作為挖掘對象,采用自然語言處理技術,從大量文本數據中發現用于對該產品各方面性能的評價[20]。本書將圍繞產品評論挖掘在產品特征提取和評論極性方面展開研究,所以本書中后續章節所提到的評論挖掘均指產品評論挖掘。
評論挖掘主要包含四個子任務:產品特征提取、評論觀點抽取、評論觀點的極性以及強度判斷、評論挖掘結果的匯總以及按用戶觀點排序[21]。
(1)產品特征提取:產品評論挖掘是針對某類產品(如手機、數碼相機)進行挖掘,因此必須首先建立產品評論的語料庫,目前研究主要采用從指定的網站獲取某類產品的產品評論來構建產品評論語料庫。產品特征提取是指從產品評論語料庫中抽取用戶評價的產品特征,產品特征包括產品的屬性或功能、產品的部件、產品部件的屬性或功能、產品的相關概念等。
(2)評論觀點抽取:從產品評論中抽取用戶所評論的產品特征的觀點。
(3)評論觀點的極性以及強度判斷:確定用戶觀點的極性(褒義、貶義、中性)以及用戶表達情感程度的極性強度。
(4)評論挖掘結果的匯總以及按用戶觀點排序:利用統計數字、圖表等直觀的形式對挖掘結果進行顯示,并可以按照評論中用戶對產品的評價觀點對產品或產品的特征進行排序。
產品評論挖掘系統框架如圖1-1所示[20]。
評論挖掘目前比較集中的研究方向為產品特征提取和評論觀點極性分析。

圖1-1 產品評論挖掘系統框架
1.產品評論挖掘的產品特征提取方面
產品評論挖掘需要了解用戶對產品的哪些功能、性能進行了評價,因此需要從產品評論語句中提取用戶最關心的產品特征。產品特征提取的目的是發現用戶在產品評論中對哪些產品特征表達了自己的看法。
產品特征的提取分為人工定義和自動提取兩類。在人工定義方面,Kobayashi,Inui和Matsumoto[104]以人工定義方式提出了針對汽車的產品特征,建立了287 個產品特征,每一個特征使用一個三元組進行表示(〈Attribute,Subject,Value〉),其中,Subject表示產品,Attribute表示產品的特征,Value表示對這個特征的觀點。姚天昉[105~106]利用本體建立了汽車的產品特征,該系統可在電子公告板、門戶網站的各大論壇上挖掘并且概括意見持有者對各種汽車品牌的不同性能指標的評論和意見,并且判斷這些意見的褒貶性以及強度。Li[107]針對電影人工定義電影的產品特征,將電影的產品特征分為兩類:電影的元素(screenplay,vision effect)和與和電影相關的人員(director,screenwriter,actor)。
人工定義產品特征的方法需要每一個領域的產品都有該領域的專家參與,因此不具有移植性。同時人工定義的產品特征是靜態的,當產品的功能發生改變后(如手機加入了新的功能),只有重新召集領域專家才能將新特征加入該類產品的產品特征集合中。而且人工定義的方法需要有人工標注的語料作為訓練集,不同種類的產品必須標注不同的語料,這就相當耗費時間,也無法適用所有種類的產品[108]。
自動提取產品特征則主要使用詞性標注、句法分析、文本模式等自然語言技術對產品評論中的語句進行分析,從中自動發現產品特征。由于不需要大量的標注語料庫作為訓練集,因此有較好的通用性,可以適用于多種產品,不需要花太多時間就能夠移植到不同產品上,但缺點是正確率可能較差。Mingqing Hu和Bing Liu把產品特征分為顯式特征和隱式特征[109]。顯式特征是出現在句子中可以作為產品特征的詞匯或短語,而隱式特征就是沒有在句子中直接進行描述,需要對句子進行語義理解后才能得到的。提取隱式特征需要自然語言的完全理解技術,而該技術還不成熟,因此目前的產品評論挖掘中產品特征提取均只考慮顯式特征[20]。
Mingqing Hu和Bing Liu先對評論語料進行詞性標注,把每個句子中的名詞和名詞短語提取出來,利用關聯規則挖掘方法(Agrawal and Srikant)[110]從評論語料中提取出滿足最小支持度的名詞或名詞短語生成事務文件(Transaction File)。再使用關聯分類(Classification Based on Associations,CBA)[111]從事務文件中挖掘出頻繁項,把頻繁項作為產品特征候選集。
在中文產品評論挖掘方面,李實[112]針對英文的研究成果尚無法直接應用于中文客戶評論的挖掘中的情況,結合中文的特點,提出了面向中文的客戶評論挖掘方法。該方法基于改進關聯規則算法,實現了針對中文產品評論的產品特征信息挖掘。李實采用通過互聯網獲得的針對手機、數碼相機、書籍等五種產品的評論語料,對該方法進行了數據實驗,實驗結果初步驗證了該方法的有效性。
2.產品評論挖掘的評論觀點極性判斷方面
產品評論挖掘中需要抽取的是用戶在某一具體的產品特征(如手機屏幕的大小)所表示態度的極性,因此更多地傾向于對詞語、短語的態度進行分析。詞語或短語的極性判定需要極性詞匯表,極性詞匯表的建立分為人工定義和自動獲取兩種方法。
人工定義方法通過人對語言的分析來建立極性詞匯表,直接查詢極性詞匯表即可獲取詞匯或短語的極性。Hatzivassiloglou和Wiebe[113]分析了語義方向和程度詞匯(副詞和名詞)對語義方向的影響,手工建立了一個73 個單詞構成的詞匯表。Lun-Wei Ku等[114]建立的極性詞匯表包含兩個來源:英語的極性詞典General Inquirer翻譯成中文得到的極性詞匯表和人工從網絡上收集構成的中文網絡極性詞典,二者一共包含2764個正性詞匯和7778個負性詞匯。婁德成和姚天昉[115]分別對HowNet中的6564個詞條和從2454篇汽車評論中人工選擇得到的極性詞匯以人工標注的方式建立了極性詞匯表。
Hatzuvassiloglou等[116]利用形容詞之間的連詞存在語言學上的限制(連詞連接的兩個詞表相同或相反的態度),將語料庫中的形容詞聚類為正性詞匯和負性詞匯,實驗結果表明對形容詞的極性判定具有較好的效果,雖然該文只對形容詞進行了語義方向的判定,但是可以采用同樣的方法來確定動詞和副詞的極性。Chao Wang、Jie Lu和Guangquan Zhang[117]發現產品評論語料庫中的評論包含兩個部分的內容:標題和具體內容。由于標題通常表示了整個評論的態度,因此可以將標題中的用戶態度作為具體內容的極性標注,建立樸素貝葉斯分類器,計算具體內容中詞匯的極性。Changhua Yang等[118]將博客的回復信息的表情圖標(通常用戶會使用從網站提供的表情圖標中選擇一個來表示自己的態度:肯定/否定)作為回復語句的詞性標注,通過計算語句中的詞匯與表情圖像之間的互信息來建立極性詞匯表。
在極性詞匯表的自動獲取方面,Turney觀察到正面觀點與正面觀點往往會一起出現,而負面觀點則會靠近負面觀點,故采用互信息和信息檢索(PMI-IR)相結合的方法判定詞匯的極性[119~120],該方法假設共現的詞語具有相同的情感極性方向。Turney的方法只需少量的極性詞匯構成語言模型,可對任何的詞匯判定極性,因此得到了廣泛的應用。
通過對以上研究成果的分析,不難發現產品特征提取的研究中尚未實現特征的層次性,往往提取出的特征是無序的,這就使得評論挖掘所獲取的知識的描述缺乏條理性。另外,在特征觀點的極性判斷方面,缺少對中文產品評價復雜語義的分析,即只是簡單反映觀點詞的正負傾向,沒有考慮對觀點詞的程度修飾等問題。