官术网_书友最值得收藏!

1.5 機(jī)器閱讀理解數(shù)據(jù)集

自然語言處理的許多領(lǐng)域中有大量的公開數(shù)據(jù)集。在這些數(shù)據(jù)集上的客觀評(píng)測(cè)可以檢驗(yàn)?zāi)P偷馁|(zhì)量,比較模型的優(yōu)劣。這在很大程度上推動(dòng)了相關(guān)研究的發(fā)展。機(jī)器閱讀理解作為NLP中的熱門課題,有許多大規(guī)模數(shù)據(jù)集和相關(guān)競(jìng)賽。根據(jù)數(shù)據(jù)集中閱讀文章的形式,可以將這些數(shù)據(jù)集分為單段落、多段落和可檢索的文本庫3種類型。單段落和多段落類型的文章因?yàn)槠溟L度有限,可以直接在給定段落中建模獲取答案。而文本庫規(guī)模龐大,一般需要先建立信息檢索模塊。算法根據(jù)給定的問題信息通過檢索找到文本庫中最相關(guān)的若干段落或語句,大幅縮小閱讀范圍,然后在檢索結(jié)果中找到回答問題的線索。下面分別對(duì)這3種類型的機(jī)器閱讀理解數(shù)據(jù)集進(jìn)行介紹。

1.5.1 單段落式數(shù)據(jù)集

單段落式機(jī)器閱讀理解數(shù)據(jù)集要求模型在閱讀一個(gè)給定的文本段落之后,回答與之相關(guān)的問題。在此過程中,模型不需要參考任何該段落以外的信息。單段落式數(shù)據(jù)集的構(gòu)造比較簡單,而且只考察模型的核心閱讀能力,是機(jī)器閱讀理解中最常見的數(shù)據(jù)集類型。

1. RACE

RACEG. Lai, Q. Xie, H. Liu, Y. Yang, E. Hovy.《Race: Large-scale reading comprehension dataset from examinations》. 2017.是CMU大學(xué)于2017年推出的大規(guī)模英語機(jī)器閱讀理解數(shù)據(jù)集。數(shù)據(jù)來源為中國中學(xué)生的英語考試。RACE中包含28000篇文章和近10萬個(gè)多項(xiàng)選擇問題。模型需要在選項(xiàng)中選擇正確的答案,如圖1-4所示。RACE數(shù)據(jù)分為面向初中生的RACE-M數(shù)據(jù)集和面向高中生的RACE-H數(shù)據(jù)集。值得一提的是,在采集答案的過程中,RACE使用了光學(xué)字符識(shí)別系統(tǒng)對(duì)公開的答案圖像信息進(jìn)行識(shí)別。

圖1-4 RACE數(shù)據(jù)集中的文章與問答

2. NewsQA

NewsQAT. Wang, X. Yuan, J. Harris, A. Sordoni, P. Bachman, K. Suleman. 《NewsQA: A Machine Comprehension Dataset Adam Trischler》. 2016.是Maluuba公司于2016年推出的新聞閱讀理解數(shù)據(jù)集,其中包含12000多篇CNN新聞稿以及近12萬個(gè)人工編輯的問題,均采用區(qū)間式答案。NewsQA數(shù)據(jù)集的重點(diǎn)考核目標(biāo)之一是模型的推理和歸納能力,即從多個(gè)不同位置的信息得到最終答案。并且,模型需要對(duì)無法確定答案的問題輸出“無法回答”。圖1-5所示為NewsQA的樣例文章和相關(guān)問答。

圖1-5 NewsQA數(shù)據(jù)集中的文章與問答

3. CNN/Daily Mail

CNN/Daily MailK. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, P. Blunsom. 《Teaching machines to read and comprehend》. 2015.是DeepMind于2015年推出的閱讀理解任務(wù)。該任務(wù)中的文章來源于媒體CNN和Daily Mail。數(shù)據(jù)集中共包含約140萬個(gè)樣例。每個(gè)樣例包括一篇文章、一個(gè)問題和相應(yīng)答案。CNN/Daily Mail數(shù)據(jù)集采用完形填空式答案。為了使模型更關(guān)注于對(duì)語義的理解,文章中的實(shí)體信息,如人名、地名等,均用編號(hào)代替。模型需要根據(jù)問題從文章中選出正確的實(shí)體編號(hào)填入@placeholder處正確的實(shí)體編號(hào),如圖1-6所示。

圖1-6 CNN /Daily Mail數(shù)據(jù)集中的文章與問答

4. SQuAD

SQuADP. Rajpurkar, J. Zhang, K. Lopyrev, P. Liang. 《SQuAD: 100,000+ questions for machine comprehension of text》. 2016.是影響力最大、參與者最多的機(jī)器閱讀理解競(jìng)賽,由斯坦福大學(xué)于2016年推出。SQuAD一共有10萬多個(gè)問題,來源于536篇維基百科的文章,采用區(qū)間式答案。2018年上線的SQuAD2.0版本中加入了大量“無法回答”的問題,問題總數(shù)量達(dá)到15萬個(gè)。圖1-7所示為SQuAD中的文章和問答示例。SQuAD數(shù)據(jù)集規(guī)模大且質(zhì)量高,獲得了很高的關(guān)注度。截至2019年12月,來自全球的研究機(jī)構(gòu)和團(tuán)隊(duì)已經(jīng)在SQuAD競(jìng)賽中提交模型294次之多。2018年10月5日,Google提交的BERT模型在SQuAD1.1版本競(jìng)賽中第一次獲得了超過人類水平的得分,引起了空前反響。

圖1-7 SQuA D數(shù)據(jù)集中的文章與問答

5. CoQA

CoQAS. Reddy, D. Chen, C. D. Manning. 《CoQA: A conversational question answering challenge》.2018.是2018年斯坦福大學(xué)提出的多輪對(duì)話式機(jī)器閱讀理解競(jìng)賽。其最大的特點(diǎn)是在問答過程中加入了上下文,即對(duì)每個(gè)段落提出多輪問題。模型回答每輪問題時(shí),均需要理解該段落以及之前的若干輪問題和答案(見圖1-8),這就要求模型具有理解上下文的能力。該數(shù)據(jù)集中共有8000多個(gè)段落和超過12萬個(gè)問題,平均每個(gè)段落有15輪問答。此外,CoQA在測(cè)試集中加入了訓(xùn)練集內(nèi)所沒有的兩個(gè)領(lǐng)域的問答(Reddit論壇和科學(xué)問題)以測(cè)試模型的泛化能力。CoQA的答案形式有區(qū)間式、“是/否”“無法回答”以及少量自由式回答。2019年3月,來自微軟的研究團(tuán)隊(duì)提出了MMFT模型,并獲得了89.4%的F1分?jǐn)?shù),首次超過了人類水平88.8%,再一次證明了機(jī)器閱讀理解模型的有效性。

圖1-8 CoQA數(shù)據(jù)集中的文章與多輪問答

1.5.2 多段落式數(shù)據(jù)集

多段落式機(jī)器閱讀理解數(shù)據(jù)集要求模型閱讀給定的多個(gè)文本段落,并回答與之相關(guān)的問題。其中,一種形式為某個(gè)段落中含有正確答案,這可以考察模型建立問題與每個(gè)段落的相關(guān)性的能力;另一種形式為模型需要在多個(gè)段落中尋找線索并推理得出答案,這可以考察模型的多步推理能力。

1. MS MARCO

MS MARCOT. Nguyen, M. Rosenberg, X. Song, J. Gao, S. Tiwary, R. Majumder, L. Deng. 《MS MARCO: A Human-Generated MAchine Reading COmprehension Dataset》. 2016.是2016年由微軟公司推出的大型機(jī)器閱讀理解數(shù)據(jù)集,其中包含超過100萬個(gè)問題和800多萬篇文章。該數(shù)據(jù)集中的問題來自真實(shí)用戶提交的查詢,而相關(guān)的多個(gè)段落來自Bing搜索引擎對(duì)查詢的檢索結(jié)果(見圖1-9),并采用自由回答式答案。MS MARCO一共提供了3個(gè)競(jìng)賽任務(wù):

圖1-9 MS MAR CO數(shù)據(jù)集中的文章與問答

? 判斷是否可以從給定段落的信息中得到問題的答案;

? 生成答案語句;

? 按照與問題的相關(guān)性對(duì)給定的多個(gè)段落進(jìn)行排序。

2. DuReader

DuReaderW. He, et. al. 《Dureader: A Chinese machine reading comprehension dataset from real-world applications》. 2017.是百度公司于2017年推出的中文閱讀理解數(shù)據(jù)集。DuReader的數(shù)據(jù)來自百度搜索引擎的用戶查詢和相關(guān)文檔。和MS MARCO類似,DuReader利用搜索引擎的查詢結(jié)果提供與問題相關(guān)的文章,但文章是以全文的形式給出,而非MS MARCO的段落式,從而加大了模型處理的難度。此外,由于文章的立場(chǎng)和觀點(diǎn)不盡相同,DuReader對(duì)一些問題提供了多個(gè)標(biāo)準(zhǔn)答案,這也更加符合真實(shí)的問答情景(見圖1-10)。DuReader共包含20萬個(gè)問題和100萬篇相關(guān)文檔,答案包括自由回答式及“是/否”類型。

圖1-10 DuReader數(shù)據(jù)集中的文章與問答

3. QAngaroo

QAngarooJ .Welbl, P. Stenetorp, S. Riedel. 《Constructing datasets for multi-hop reading comprehension across documents》. 2017.是2017年倫敦大學(xué)學(xué)院推出的多文檔推理閱讀理解數(shù)據(jù)集。它由兩個(gè)數(shù)據(jù)集組成:WikiHop和MedHop。WikiHop來源于維基百科,MedHop來源于醫(yī)療論文庫PubMed的論文摘要。QAngaroo最大的特點(diǎn)是問題的答案并不能從一個(gè)段落中單獨(dú)得出,其中的線索分散在多個(gè)段落中尋找線索并推理得出。因此,QAngaroo對(duì)于算法理解和分析多段落的能力提出了很高的要求,需要模型利用多跳推理(multi-hop reasoning)獲得答案。該數(shù)據(jù)集中共包含5萬多個(gè)問題和相關(guān)文檔,采用多項(xiàng)選擇式答案。圖1-11所示為QAngaroo數(shù)據(jù)集中的樣例文章、問題及答案選項(xiàng)。

圖1-11 QAngaroo數(shù)據(jù)集中的文章與問答

4. HotpotQA

HotpotQAZ. Yang, P. Qi, S. Zhang, Y. Bengio, W. W. Cohen, R. Salakhutdinov, C. D. Manning. 《Hotpotqa: A dataset for diverse, explainable multi-hop question answering》. 2018.是2018年由卡耐基·梅隆大學(xué)、斯坦福大學(xué)、蒙特利爾大學(xué)和Google公司等共同推出的多段落推理閱讀理解數(shù)據(jù)集。與QAngaroo類似,HotpotQA要求模型在多個(gè)文檔中尋找線索并經(jīng)過多步推理得出答案,如圖1-12所示。HotpotQA中共包含11萬個(gè)問題和相關(guān)的維基百科段落,采用區(qū)間式答案。

圖1-12 HotpotQA數(shù)據(jù)集中的文章與問答

1.5.3 文本庫式數(shù)據(jù)集

文本庫式數(shù)據(jù)集一般提供一個(gè)大型文本語料庫(corpus)。閱讀理解模型需要首先根據(jù)問題在文本庫中利用檢索方法找到相關(guān)的段落或文章,然后進(jìn)一步分析確定答案。這也是最貼近在線搜索問答等實(shí)際應(yīng)用的一種數(shù)據(jù)集形式。由于這種形式基于大規(guī)模文本資源,未限定答案的來源,也被稱為開放域機(jī)器閱讀理解(open-domain machine reading comprehension)。

ARC

ARC(AI2 Reasoning Challenge)P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, O. Tafjord. 《Think you have solved question answering? try arc, the ai2 reasoning challenge》. 2018.是艾倫人工智能研究院于2018年推出的關(guān)于科學(xué)知識(shí)的文本庫式機(jī)器閱讀理解數(shù)據(jù)集。ARC中的問題來自于約7800道美國三到九年級(jí)學(xué)生的科學(xué)課試題。所有問題均采用多項(xiàng)選擇式答案(見圖1-13)。此外,數(shù)據(jù)集中還提供了一個(gè)大型科學(xué)文本庫,來源于搜索引擎對(duì)科學(xué)問題的查詢結(jié)果,共包含1400多萬個(gè)句子。模型可以使用文本庫中的信息回答問題,也可以通過其他途徑獲得相關(guān)信息。

圖1-13 ARC數(shù)據(jù)集中的問題和答案選項(xiàng)

主站蜘蛛池模板: 隆德县| 珲春市| 海宁市| 鹤庆县| 元朗区| 金堂县| 札达县| 喜德县| 四会市| 瑞昌市| 岗巴县| 襄城县| 滦平县| 澄城县| 蒙阴县| 青冈县| 清水县| 都江堰市| 普兰店市| 水城县| 吉隆县| 房产| 峡江县| 尼勒克县| 兴化市| 塘沽区| 永修县| 麻城市| 安岳县| 宁夏| 南川市| 阿克陶县| SHOW| 磐石市| 通州市| 尉氏县| 松原市| 苏州市| 辽宁省| 大港区| 怀安县|