- 情感分析進階
- 林政 劉正宵 李江楠
- 968字
- 2023-08-28 18:18:05
1.4 情感分析面臨的困難
盡管針對文本情感分析的研究已經(jīng)取得了一定的成果,但仍然面臨來自多方面的困難,主要包括:數(shù)據(jù)稀缺性、類別不平衡、領(lǐng)域依賴性、語言不平衡。
(1)數(shù)據(jù)稀缺性
無論是訓(xùn)練語料還是詞典資源,都處于比較匱乏的階段;文本情感分析主要包括基于情感詞典和規(guī)則的無監(jiān)督學(xué)習(xí)方法和基于機器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)方法。然而,在面向特定領(lǐng)域或場景時,無論是無監(jiān)督學(xué)習(xí)還是有監(jiān)督學(xué)習(xí),數(shù)據(jù)都很稀缺。在無監(jiān)督學(xué)習(xí)中,大規(guī)模高質(zhì)量的情感詞典是非常寶貴的,目前尚無公開的針對多個不同領(lǐng)域的情感詞典可用。此外,即使有開源的情感詞典,由于網(wǎng)絡(luò)新詞層出不窮,還需要不斷對情感詞典進行擴充和更新;在有監(jiān)督學(xué)習(xí)中,需要借助有情感標(biāo)注的語料庫來提取特征并訓(xùn)練情感分類器。然而情感標(biāo)注語料本身也是稀缺資源,由于不同領(lǐng)域的情緒表達有不同特點,通用的情感訓(xùn)練語料無法滿足不同領(lǐng)域研究的需求。
(2)類別不平衡
收集到的樣本中情緒各類別的數(shù)量明顯存在差異;情感分析的工作已開展多年,目前大多數(shù)工作都假設(shè)正負(fù)樣本是均衡的。情緒分析是在情感分析的基礎(chǔ)上進行更細(xì)粒度的分類。然而,不同情緒的數(shù)據(jù)集規(guī)模往往不均衡,在實際收集的微博語料中,一些情緒類別的語料數(shù)量明顯多于另一些類別,比如表達喜歡的語料明顯多于表達害怕的。所以,適用于均衡分類的方法在面對不均衡數(shù)據(jù)時效果往往并不理想。樣本數(shù)據(jù)的不平衡分布會使機器學(xué)習(xí)方法在進行分類時嚴(yán)重偏向于樣本多的類別,進而影響分類的性能。
(3)領(lǐng)域依賴性
情感詞在不同領(lǐng)域的表達存在差異;同一個詞在不同的領(lǐng)域背景下表達著不同的情感,比如“不可預(yù)測”在電影評論領(lǐng)域是褒義的,在汽車評論領(lǐng)域是貶義的。因此,在進行情感分析的時候,應(yīng)該充分考慮情緒詞的領(lǐng)域依賴性。跨領(lǐng)域情緒分析是文本情緒分析的一個重要研究課題,有很多問題需要解決。比如,在一個領(lǐng)域的意見表達,在另一個領(lǐng)域可能反轉(zhuǎn)。此外,還應(yīng)該考慮不同領(lǐng)域情緒詞匯的差異。
(4)語言不平衡
當(dāng)前大多數(shù)工作都基于英文語料,語言遷移存在困難。現(xiàn)有情緒分析工作大多基于英文,雖然近些年對中文的情緒分析也有了一定的研究成果,但是基于情感語義知識庫的工作都需依賴特定語種的外部資源,基于英文的情感分析研究在遷移到其他語言時往往性能下降明顯。此外,由于非英語的情感分析訓(xùn)練集和測試集也相對匱乏,極大限制了非英語語種的情緒分析研究。
- 機器視覺與人工智能應(yīng)用開發(fā)技術(shù)
- 智能制造系統(tǒng)中的建模與仿真:系統(tǒng)工程與仿真的融合
- 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí):基于MATLAB的仿真與實現(xiàn)
- 機器學(xué)習(xí)算法競賽實戰(zhàn)
- 機器人制作從入門到精通(第2版)
- 不會被機器替代的人:智能時代的生存策略
- 科學(xué)儀器設(shè)備配置學(xué):人工智能時代的界面管理
- 深度學(xué)習(xí)及加速技術(shù):入門與實踐
- 智能化社會:未來人們?nèi)绾紊睢⑾鄲酆退伎?/a>
- 大模型工程化:AI驅(qū)動下的數(shù)據(jù)體系
- 機器學(xué)習(xí)與學(xué)習(xí)資源適配
- 智慧的疆界:從圖靈機到人工智能
- 樂高機器人:EV3與Scratch機器人基礎(chǔ)與應(yīng)用實例
- 奇點臨近
- 云計算:在智能交通系統(tǒng)中的應(yīng)用