官术网_书友最值得收藏!

1.4 機(jī)器閱讀理解任務(wù)的測(cè)評(píng)方式

機(jī)器閱讀理解類似于人類的閱讀理解任務(wù),即考核閱讀者/模型對(duì)文章內(nèi)容的理解能力。和數(shù)學(xué)計(jì)算不同,閱讀理解需要設(shè)計(jì)專門的指標(biāo)來(lái)驗(yàn)證模型的語(yǔ)義理解能力。眾所周知,測(cè)評(píng)人類閱讀理解能力通常采用問(wèn)答形式,即要求閱讀者回答與文章相關(guān)的問(wèn)題。因而測(cè)評(píng)機(jī)器閱讀理解模型也可以采用相同的形式,讓模型回答與文章相關(guān)的問(wèn)題。本節(jié)將介紹機(jī)器閱讀理解任務(wù)中常見(jiàn)的測(cè)評(píng)方式。

1.4.1 機(jī)器閱讀理解的答案形式

當(dāng)前,大部分機(jī)器閱讀理解任務(wù)均采用問(wèn)答式測(cè)評(píng):設(shè)計(jì)與文章內(nèi)容相關(guān)的自然語(yǔ)言式問(wèn)題,讓模型理解問(wèn)題并根據(jù)文章內(nèi)容作答。為了評(píng)判答案的正確性,一般有如下幾種形式的參考答案。

? 多項(xiàng)選擇式。即模型需要從給定的苦干選項(xiàng)中選出正確答案。

? 區(qū)間答案式。即答案限定是文章中的一個(gè)子句,需要模型在文章中標(biāo)明正確的答案起始位置和終止位置。

? 自由回答式。即不限定模型生成答案的形式,允許模型自由生成語(yǔ)句。

? 完形填空式。即在原文中除去若干關(guān)鍵詞,需要模型填入正確單詞或短語(yǔ)。

此外,一些數(shù)據(jù)集還設(shè)計(jì)了“無(wú)答案”問(wèn)題,即一個(gè)問(wèn)題在文章中可能沒(méi)有的答案,需要模型輸出“無(wú)法回答”(unanswerable)。

在以上答案形式中,多項(xiàng)選擇和完形填空屬于客觀類答案,測(cè)評(píng)時(shí)可以將模型答案直接與正確答案進(jìn)行比較,并以準(zhǔn)確率作為評(píng)測(cè)標(biāo)準(zhǔn),易于計(jì)算。

區(qū)間式答案屬于半客觀類答案,可以將模型答案直接以字符串形式與標(biāo)準(zhǔn)答案進(jìn)行比較,完全相同時(shí)得分為1,否則為0,這種衡量標(biāo)準(zhǔn)稱為精確匹配(exact match)。如果標(biāo)準(zhǔn)答案為“上午|八點(diǎn)”,模型作答“是|上午|八點(diǎn)”,精確匹配分?jǐn)?shù)為0分,但其實(shí)模型答案已非常接近標(biāo)準(zhǔn)答案。因此,對(duì)于區(qū)間式答案,還有一種衡量標(biāo)準(zhǔn)稱為F1,它是單詞準(zhǔn)確率召回率(recall)的調(diào)和平均數(shù),即。準(zhǔn)確率是指在模型給出的答案中有多大比例的單詞在標(biāo)準(zhǔn)答案中出現(xiàn);召回率是指在標(biāo)準(zhǔn)答案中有多大比例的單詞在模型給出的答案中出現(xiàn)。表1-2所示為計(jì)算答案精確匹配和F1分?jǐn)?shù)的示例。從中可以看出,F(xiàn)1分?jǐn)?shù)可以在答案部分正確時(shí)給出部分分。

表1-2 機(jī)器閱讀理解答案的精確匹配和F1計(jì)算示例

自由回答式答案是最為靈活的一種答案形式。理想的測(cè)評(píng)標(biāo)準(zhǔn)是,當(dāng)模型答案和標(biāo)準(zhǔn)答案語(yǔ)義完全相同時(shí)得滿分,否則得部分分或不得分。但是,要判斷兩段語(yǔ)句是否表達(dá)相同的語(yǔ)義,其本身就是很復(fù)雜的課題,沒(méi)有很好的解決方法。而如果完全采用人工評(píng)分,效率又太低,而且標(biāo)準(zhǔn)難以統(tǒng)一。因此,一般采用單詞水平的匹配率作為自由式答案的評(píng)分標(biāo)準(zhǔn)。常見(jiàn)的標(biāo)準(zhǔn)有ROUGE、BLEU和METEOR等。下面我們先來(lái)看評(píng)測(cè)標(biāo)準(zhǔn)ROUGE。

1.4.2 自由回答式答案評(píng)分標(biāo)準(zhǔn)ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一種基于召回率的文本相似性度量方法,用于衡量標(biāo)準(zhǔn)答案中的單詞和短語(yǔ)在模型答案中出現(xiàn)的比例。因?yàn)橐粋€(gè)問(wèn)題的答案可能有多種表述方法Chin-Yew Lin.《Rouge: A package for automatic evaluation of summaries》. 2004.,ROUGE允許同一個(gè)問(wèn)題有多個(gè)標(biāo)準(zhǔn)答案。ROUGE評(píng)分有ROUGE-N、ROUGE-S和ROUGE-L等指標(biāo)。

ROUGE-N用來(lái)測(cè)評(píng)N元組(N-gram)的召回率,其公式如下:

其中,M為模型答案,N元組是指答案中相鄰的N個(gè)單詞組成的短語(yǔ),counts(A)表示N元組s在標(biāo)準(zhǔn)答案A中出現(xiàn)的次數(shù)。ROUGE-N以N元組s在標(biāo)準(zhǔn)答案A中出現(xiàn)的次數(shù)和在模型答案M中出現(xiàn)的次數(shù)的較小值作為分子,以s在標(biāo)準(zhǔn)答案中出現(xiàn)的次數(shù)作為分母,來(lái)測(cè)量N元組出現(xiàn)的召回率。

ROUGE-S和ROUGE-2(N=2)的定義非常類似,只是ROUGE-S中不要求兩個(gè)詞相鄰,而是允許二元組中的兩個(gè)詞在答案中最多相隔Skip個(gè)詞,其中Skip為參數(shù)。例如,“我|很|喜歡|晚上|跑步”中,如果Skip=2,則“我|很”,“我|喜歡”,“我|晚上”都是ROUGE-S所考慮的二元組。

ROUGE-L計(jì)算標(biāo)準(zhǔn)答案和模型答案的最長(zhǎng)公共子序列(Longest Common Subsequence, LCS)的長(zhǎng)度L。這個(gè)子序列不一定要在原序列中連續(xù)出現(xiàn)。例如,“我|喜歡|這個(gè)|學(xué)?!焙汀拔襹在|這個(gè)|學(xué)校|時(shí)間|很|長(zhǎng)”的最長(zhǎng)公共子序列是“我|這個(gè)|學(xué)?!保L(zhǎng)度為3。然后,ROUGE-L計(jì)算L和標(biāo)準(zhǔn)答案單詞個(gè)數(shù)的比值RLCS、L和模型答案單詞個(gè)數(shù)的比值PLCS,以及它們的調(diào)和平均數(shù)FLCS。其中FLCS即為ROUGE-L的分值:

其中,β為ROUGE-L的參數(shù)。表1-3通過(guò)一個(gè)示例總結(jié)了ROUGE-N、ROUGE-S和ROUGE-L的計(jì)算標(biāo)準(zhǔn)。

表1-3 ROUGE評(píng)測(cè)標(biāo)準(zhǔn)示例

通過(guò)比較ROUGE分值和人工評(píng)測(cè)得分,研究者發(fā)現(xiàn)ROUGE值和評(píng)測(cè)者的主觀評(píng)價(jià)之間有一定關(guān)聯(lián)性,但也有許多不一致的地方。因此,除ROUGE指標(biāo)外,通常也對(duì)自由式答案進(jìn)行人工評(píng)價(jià),包括答案的正確性和流暢度等。

主站蜘蛛池模板: 申扎县| 鹰潭市| 崇明县| 冕宁县| 布尔津县| 扬州市| 东海县| 诸城市| 鄂州市| 郁南县| 涟源市| 漯河市| 夏津县| 徐汇区| 临猗县| 通化县| 仁化县| 廊坊市| 景洪市| 孟津县| 晋城| 射阳县| 泸州市| 洮南市| 韶山市| 武清区| 临桂县| 习水县| 侯马市| 尤溪县| 拜城县| 太仓市| 龙门县| 琼海市| 文化| 安泽县| 曲水县| 固安县| 锡林郭勒盟| 丹巴县| 墨玉县|