糖果2炸100万

書(shū)名：機(jī)器閱讀理解：算法與實(shí)踐
作者名：朱晨光
本章字?jǐn)?shù)： 1698字
更新時(shí)間： 2020-04-24 18:38:07

1.4 機(jī)器閱讀理解任務(wù)的測(cè)評(píng)方式

機(jī)器閱讀理解類似于人類的閱讀理解任務(wù)，即考核閱讀者/模型對(duì)文章內(nèi)容的理解能力。和數(shù)學(xué)計(jì)算不同，閱讀理解需要設(shè)計(jì)專門的指標(biāo)來(lái)驗(yàn)證模型的語(yǔ)義理解能力。眾所周知，測(cè)評(píng)人類閱讀理解能力通常采用問(wèn)答形式，即要求閱讀者回答與文章相關(guān)的問(wèn)題。因而測(cè)評(píng)機(jī)器閱讀理解模型也可以采用相同的形式，讓模型回答與文章相關(guān)的問(wèn)題。本節(jié)將介紹機(jī)器閱讀理解任務(wù)中常見(jiàn)的測(cè)評(píng)方式。

1.4.1 機(jī)器閱讀理解的答案形式

當(dāng)前，大部分機(jī)器閱讀理解任務(wù)均采用問(wèn)答式測(cè)評(píng)：設(shè)計(jì)與文章內(nèi)容相關(guān)的自然語(yǔ)言式問(wèn)題，讓模型理解問(wèn)題并根據(jù)文章內(nèi)容作答。為了評(píng)判答案的正確性，一般有如下幾種形式的參考答案。

? 多項(xiàng)選擇式。即模型需要從給定的苦干選項(xiàng)中選出正確答案。

? 區(qū)間答案式。即答案限定是文章中的一個(gè)子句，需要模型在文章中標(biāo)明正確的答案起始位置和終止位置。

? 自由回答式。即不限定模型生成答案的形式，允許模型自由生成語(yǔ)句。

? 完形填空式。即在原文中除去若干關(guān)鍵詞，需要模型填入正確單詞或短語(yǔ)。

此外，一些數(shù)據(jù)集還設(shè)計(jì)了“無(wú)答案”問(wèn)題，即一個(gè)問(wèn)題在文章中可能沒(méi)有的答案，需要模型輸出“無(wú)法回答”（unanswerable）。

在以上答案形式中，多項(xiàng)選擇和完形填空屬于客觀類答案，測(cè)評(píng)時(shí)可以將模型答案直接與正確答案進(jìn)行比較，并以準(zhǔn)確率作為評(píng)測(cè)標(biāo)準(zhǔn)，易于計(jì)算。

區(qū)間式答案屬于半客觀類答案，可以將模型答案直接以字符串形式與標(biāo)準(zhǔn)答案進(jìn)行比較，完全相同時(shí)得分為1，否則為0，這種衡量標(biāo)準(zhǔn)稱為精確匹配（exact match）。如果標(biāo)準(zhǔn)答案為“上午|八點(diǎn)”，模型作答“是|上午|八點(diǎn)”，精確匹配分?jǐn)?shù)為0分，但其實(shí)模型答案已非常接近標(biāo)準(zhǔn)答案。因此，對(duì)于區(qū)間式答案，還有一種衡量標(biāo)準(zhǔn)稱為F1，它是單詞準(zhǔn)確率和召回率（recall）的調(diào)和平均數(shù)，即。準(zhǔn)確率是指在模型給出的答案中有多大比例的單詞在標(biāo)準(zhǔn)答案中出現(xiàn)；召回率是指在標(biāo)準(zhǔn)答案中有多大比例的單詞在模型給出的答案中出現(xiàn)。表1-2所示為計(jì)算答案精確匹配和F1分?jǐn)?shù)的示例。從中可以看出，F(xiàn)1分?jǐn)?shù)可以在答案部分正確時(shí)給出部分分。

表1-2 機(jī)器閱讀理解答案的精確匹配和F1計(jì)算示例

自由回答式答案是最為靈活的一種答案形式。理想的測(cè)評(píng)標(biāo)準(zhǔn)是，當(dāng)模型答案和標(biāo)準(zhǔn)答案語(yǔ)義完全相同時(shí)得滿分，否則得部分分或不得分。但是，要判斷兩段語(yǔ)句是否表達(dá)相同的語(yǔ)義，其本身就是很復(fù)雜的課題，沒(méi)有很好的解決方法。而如果完全采用人工評(píng)分，效率又太低，而且標(biāo)準(zhǔn)難以統(tǒng)一。因此，一般采用單詞水平的匹配率作為自由式答案的評(píng)分標(biāo)準(zhǔn)。常見(jiàn)的標(biāo)準(zhǔn)有ROUGE、BLEU和METEOR等。下面我們先來(lái)看評(píng)測(cè)標(biāo)準(zhǔn)ROUGE。

1.4.2 自由回答式答案評(píng)分標(biāo)準(zhǔn)ROUGE

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是一種基于召回率的文本相似性度量方法，用于衡量標(biāo)準(zhǔn)答案中的單詞和短語(yǔ)在模型答案中出現(xiàn)的比例。因?yàn)橐粋€(gè)問(wèn)題的答案可能有多種表述方法 Chin-Yew Lin.《Rouge: A package for automatic evaluation of summaries》. 2004. ，ROUGE允許同一個(gè)問(wèn)題有多個(gè)標(biāo)準(zhǔn)答案。ROUGE評(píng)分有ROUGE-N、ROUGE-S和ROUGE-L等指標(biāo)。

ROUGE-N用來(lái)測(cè)評(píng)N元組（N-gram）的召回率，其公式如下：

其中，M為模型答案，N元組是指答案中相鄰的N個(gè)單詞組成的短語(yǔ)，counts(A)表示N元組s在標(biāo)準(zhǔn)答案A中出現(xiàn)的次數(shù)。ROUGE-N以N元組s在標(biāo)準(zhǔn)答案A中出現(xiàn)的次數(shù)和在模型答案M中出現(xiàn)的次數(shù)的較小值作為分子，以s在標(biāo)準(zhǔn)答案中出現(xiàn)的次數(shù)作為分母，來(lái)測(cè)量N元組出現(xiàn)的召回率。

ROUGE-S和ROUGE-2（N=2）的定義非常類似，只是ROUGE-S中不要求兩個(gè)詞相鄰，而是允許二元組中的兩個(gè)詞在答案中最多相隔Skip個(gè)詞，其中Skip為參數(shù)。例如，“我|很|喜歡|晚上|跑步”中，如果Skip=2，則“我|很”，“我|喜歡”，“我|晚上”都是ROUGE-S所考慮的二元組。

其中，β為ROUGE-L的參數(shù)。表1-3通過(guò)一個(gè)示例總結(jié)了ROUGE-N、ROUGE-S和ROUGE-L的計(jì)算標(biāo)準(zhǔn)。

表1-3 ROUGE評(píng)測(cè)標(biāo)準(zhǔn)示例

通過(guò)比較ROUGE分值和人工評(píng)測(cè)得分，研究者發(fā)現(xiàn)ROUGE值和評(píng)測(cè)者的主觀評(píng)價(jià)之間有一定關(guān)聯(lián)性，但也有許多不一致的地方。因此，除ROUGE指標(biāo)外，通常也對(duì)自由式答案進(jìn)行人工評(píng)價(jià)，包括答案的正確性和流暢度等。

官术网_书友最值得收藏!

機(jī)器閱讀理解：算法與實(shí)踐

1.4 機(jī)器閱讀理解任務(wù)的測(cè)評(píng)方式

1.4.1 機(jī)器閱讀理解的答案形式

1.4.2 自由回答式答案評(píng)分標(biāo)準(zhǔn)ROUGE