- 機(jī)器閱讀理解:算法與實(shí)踐
- 朱晨光
- 1698字
- 2020-04-24 18:38:07
1.4 機(jī)器閱讀理解任務(wù)的測(cè)評(píng)方式
機(jī)器閱讀理解類似于人類的閱讀理解任務(wù),即考核閱讀者/模型對(duì)文章內(nèi)容的理解能力。和數(shù)學(xué)計(jì)算不同,閱讀理解需要設(shè)計(jì)專門的指標(biāo)來(lái)驗(yàn)證模型的語(yǔ)義理解能力。眾所周知,測(cè)評(píng)人類閱讀理解能力通常采用問(wèn)答形式,即要求閱讀者回答與文章相關(guān)的問(wèn)題。因而測(cè)評(píng)機(jī)器閱讀理解模型也可以采用相同的形式,讓模型回答與文章相關(guān)的問(wèn)題。本節(jié)將介紹機(jī)器閱讀理解任務(wù)中常見(jiàn)的測(cè)評(píng)方式。
1.4.1 機(jī)器閱讀理解的答案形式
當(dāng)前,大部分機(jī)器閱讀理解任務(wù)均采用問(wèn)答式測(cè)評(píng):設(shè)計(jì)與文章內(nèi)容相關(guān)的自然語(yǔ)言式問(wèn)題,讓模型理解問(wèn)題并根據(jù)文章內(nèi)容作答。為了評(píng)判答案的正確性,一般有如下幾種形式的參考答案。
? 多項(xiàng)選擇式。即模型需要從給定的苦干選項(xiàng)中選出正確答案。
? 區(qū)間答案式。即答案限定是文章中的一個(gè)子句,需要模型在文章中標(biāo)明正確的答案起始位置和終止位置。
? 自由回答式。即不限定模型生成答案的形式,允許模型自由生成語(yǔ)句。
? 完形填空式。即在原文中除去若干關(guān)鍵詞,需要模型填入正確單詞或短語(yǔ)。
此外,一些數(shù)據(jù)集還設(shè)計(jì)了“無(wú)答案”問(wèn)題,即一個(gè)問(wèn)題在文章中可能沒(méi)有的答案,需要模型輸出“無(wú)法回答”(unanswerable)。
在以上答案形式中,多項(xiàng)選擇和完形填空屬于客觀類答案,測(cè)評(píng)時(shí)可以將模型答案直接與正確答案進(jìn)行比較,并以準(zhǔn)確率作為評(píng)測(cè)標(biāo)準(zhǔn),易于計(jì)算。
區(qū)間式答案屬于半客觀類答案,可以將模型答案直接以字符串形式與標(biāo)準(zhǔn)答案進(jìn)行比較,完全相同時(shí)得分為1,否則為0,這種衡量標(biāo)準(zhǔn)稱為精確匹配(exact match)。如果標(biāo)準(zhǔn)答案為“上午|八點(diǎn)”,模型作答“是|上午|八點(diǎn)”,精確匹配分?jǐn)?shù)為0分,但其實(shí)模型答案已非常接近標(biāo)準(zhǔn)答案。因此,對(duì)于區(qū)間式答案,還有一種衡量標(biāo)準(zhǔn)稱為F1,它是單詞準(zhǔn)確率和召回率(recall)的調(diào)和平均數(shù),即。準(zhǔn)確率是指在模型給出的答案中有多大比例的單詞在標(biāo)準(zhǔn)答案中出現(xiàn);召回率是指在標(biāo)準(zhǔn)答案中有多大比例的單詞在模型給出的答案中出現(xiàn)。表1-2所示為計(jì)算答案精確匹配和F1分?jǐn)?shù)的示例。從中可以看出,F(xiàn)1分?jǐn)?shù)可以在答案部分正確時(shí)給出部分分。
表1-2 機(jī)器閱讀理解答案的精確匹配和F1計(jì)算示例

自由回答式答案是最為靈活的一種答案形式。理想的測(cè)評(píng)標(biāo)準(zhǔn)是,當(dāng)模型答案和標(biāo)準(zhǔn)答案語(yǔ)義完全相同時(shí)得滿分,否則得部分分或不得分。但是,要判斷兩段語(yǔ)句是否表達(dá)相同的語(yǔ)義,其本身就是很復(fù)雜的課題,沒(méi)有很好的解決方法。而如果完全采用人工評(píng)分,效率又太低,而且標(biāo)準(zhǔn)難以統(tǒng)一。因此,一般采用單詞水平的匹配率作為自由式答案的評(píng)分標(biāo)準(zhǔn)。常見(jiàn)的標(biāo)準(zhǔn)有ROUGE、BLEU和METEOR等。下面我們先來(lái)看評(píng)測(cè)標(biāo)準(zhǔn)ROUGE。
1.4.2 自由回答式答案評(píng)分標(biāo)準(zhǔn)ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一種基于召回率的文本相似性度量方法,用于衡量標(biāo)準(zhǔn)答案中的單詞和短語(yǔ)在模型答案中出現(xiàn)的比例。因?yàn)橐粋€(gè)問(wèn)題的答案可能有多種表述方法,ROUGE允許同一個(gè)問(wèn)題有多個(gè)標(biāo)準(zhǔn)答案。ROUGE評(píng)分有ROUGE-N、ROUGE-S和ROUGE-L等指標(biāo)。
ROUGE-N用來(lái)測(cè)評(píng)N元組(N-gram)的召回率,其公式如下:

其中,M為模型答案,N元組是指答案中相鄰的N個(gè)單詞組成的短語(yǔ),counts(A)表示N元組s在標(biāo)準(zhǔn)答案A中出現(xiàn)的次數(shù)。ROUGE-N以N元組s在標(biāo)準(zhǔn)答案A中出現(xiàn)的次數(shù)和在模型答案M中出現(xiàn)的次數(shù)的較小值作為分子,以s在標(biāo)準(zhǔn)答案中出現(xiàn)的次數(shù)作為分母,來(lái)測(cè)量N元組出現(xiàn)的召回率。
ROUGE-S和ROUGE-2(N=2)的定義非常類似,只是ROUGE-S中不要求兩個(gè)詞相鄰,而是允許二元組中的兩個(gè)詞在答案中最多相隔Skip個(gè)詞,其中Skip為參數(shù)。例如,“我|很|喜歡|晚上|跑步”中,如果Skip=2,則“我|很”,“我|喜歡”,“我|晚上”都是ROUGE-S所考慮的二元組。
ROUGE-L計(jì)算標(biāo)準(zhǔn)答案和模型答案的最長(zhǎng)公共子序列(Longest Common Subsequence, LCS)的長(zhǎng)度L。這個(gè)子序列不一定要在原序列中連續(xù)出現(xiàn)。例如,“我|喜歡|這個(gè)|學(xué)?!焙汀拔襹在|這個(gè)|學(xué)校|時(shí)間|很|長(zhǎng)”的最長(zhǎng)公共子序列是“我|這個(gè)|學(xué)?!保L(zhǎng)度為3。然后,ROUGE-L計(jì)算L和標(biāo)準(zhǔn)答案單詞個(gè)數(shù)的比值RLCS、L和模型答案單詞個(gè)數(shù)的比值PLCS,以及它們的調(diào)和平均數(shù)FLCS。其中FLCS即為ROUGE-L的分值:

其中,β為ROUGE-L的參數(shù)。表1-3通過(guò)一個(gè)示例總結(jié)了ROUGE-N、ROUGE-S和ROUGE-L的計(jì)算標(biāo)準(zhǔn)。
表1-3 ROUGE評(píng)測(cè)標(biāo)準(zhǔn)示例

通過(guò)比較ROUGE分值和人工評(píng)測(cè)得分,研究者發(fā)現(xiàn)ROUGE值和評(píng)測(cè)者的主觀評(píng)價(jià)之間有一定關(guān)聯(lián)性,但也有許多不一致的地方。因此,除ROUGE指標(biāo)外,通常也對(duì)自由式答案進(jìn)行人工評(píng)價(jià),包括答案的正確性和流暢度等。
- Photoshop+Camera Raw風(fēng)光、人文、城市、星空攝影后期技法(全彩)
- Moodle 2.0 E/Learning Course Development
- Object/Oriented Programming in ColdFusion
- 中文版AutoCAD 2016從入門到精通
- Learning Ext JS 3.2
- COSPLAY的后期藝術(shù):Lightroom+Photoshop修圖技法攻略
- Cinema 4D電商美工與視覺(jué)設(shè)計(jì)案例教程(培訓(xùn)教材版)
- ABAQUS有限元分析從入門到精通(第3版)
- 通達(dá)信炒股軟件從入門到精通(第2版)
- Building Websites with Joomla! 1.5
- 邊做邊學(xué):Photoshop CS6數(shù)碼藝術(shù)照片后期處理教程
- Photoshop 2024從入門到精通
- Photoshop CC 2018基礎(chǔ)教程(第3版)
- 數(shù)碼攝影后期密碼Photoshop CC調(diào)色秘籍(第2版)
- 中文版CINEMA 4D R20 實(shí)用教程