- 機(jī)器閱讀理解:算法與實(shí)踐
- 朱晨光
- 2709字
- 2020-04-24 18:38:07
1.5 機(jī)器閱讀理解數(shù)據(jù)集
自然語言處理的許多領(lǐng)域中有大量的公開數(shù)據(jù)集。在這些數(shù)據(jù)集上的客觀評(píng)測(cè)可以檢驗(yàn)?zāi)P偷馁|(zhì)量,比較模型的優(yōu)劣。這在很大程度上推動(dòng)了相關(guān)研究的發(fā)展。機(jī)器閱讀理解作為NLP中的熱門課題,有許多大規(guī)模數(shù)據(jù)集和相關(guān)競(jìng)賽。根據(jù)數(shù)據(jù)集中閱讀文章的形式,可以將這些數(shù)據(jù)集分為單段落、多段落和可檢索的文本庫3種類型。單段落和多段落類型的文章因?yàn)槠溟L度有限,可以直接在給定段落中建模獲取答案。而文本庫規(guī)模龐大,一般需要先建立信息檢索模塊。算法根據(jù)給定的問題信息通過檢索找到文本庫中最相關(guān)的若干段落或語句,大幅縮小閱讀范圍,然后在檢索結(jié)果中找到回答問題的線索。下面分別對(duì)這3種類型的機(jī)器閱讀理解數(shù)據(jù)集進(jìn)行介紹。
1.5.1 單段落式數(shù)據(jù)集
單段落式機(jī)器閱讀理解數(shù)據(jù)集要求模型在閱讀一個(gè)給定的文本段落之后,回答與之相關(guān)的問題。在此過程中,模型不需要參考任何該段落以外的信息。單段落式數(shù)據(jù)集的構(gòu)造比較簡單,而且只考察模型的核心閱讀能力,是機(jī)器閱讀理解中最常見的數(shù)據(jù)集類型。
1. RACE
RACE是CMU大學(xué)于2017年推出的大規(guī)模英語機(jī)器閱讀理解數(shù)據(jù)集。數(shù)據(jù)來源為中國中學(xué)生的英語考試。RACE中包含28000篇文章和近10萬個(gè)多項(xiàng)選擇問題。模型需要在選項(xiàng)中選擇正確的答案,如圖1-4所示。RACE數(shù)據(jù)分為面向初中生的RACE-M數(shù)據(jù)集和面向高中生的RACE-H數(shù)據(jù)集。值得一提的是,在采集答案的過程中,RACE使用了光學(xué)字符識(shí)別系統(tǒng)對(duì)公開的答案圖像信息進(jìn)行識(shí)別。

圖1-4 RACE數(shù)據(jù)集中的文章與問答
2. NewsQA
NewsQA是Maluuba公司于2016年推出的新聞閱讀理解數(shù)據(jù)集,其中包含12000多篇CNN新聞稿以及近12萬個(gè)人工編輯的問題,均采用區(qū)間式答案。NewsQA數(shù)據(jù)集的重點(diǎn)考核目標(biāo)之一是模型的推理和歸納能力,即從多個(gè)不同位置的信息得到最終答案。并且,模型需要對(duì)無法確定答案的問題輸出“無法回答”。圖1-5所示為NewsQA的樣例文章和相關(guān)問答。

圖1-5 NewsQA數(shù)據(jù)集中的文章與問答
3. CNN/Daily Mail
CNN/Daily Mail是DeepMind于2015年推出的閱讀理解任務(wù)。該任務(wù)中的文章來源于媒體CNN和Daily Mail。數(shù)據(jù)集中共包含約140萬個(gè)樣例。每個(gè)樣例包括一篇文章、一個(gè)問題和相應(yīng)答案。CNN/Daily Mail數(shù)據(jù)集采用完形填空式答案。為了使模型更關(guān)注于對(duì)語義的理解,文章中的實(shí)體信息,如人名、地名等,均用編號(hào)代替。模型需要根據(jù)問題從文章中選出正確的實(shí)體編號(hào)填入@placeholder處正確的實(shí)體編號(hào),如圖1-6所示。

圖1-6 CNN /Daily Mail數(shù)據(jù)集中的文章與問答
4. SQuAD
SQuAD是影響力最大、參與者最多的機(jī)器閱讀理解競(jìng)賽,由斯坦福大學(xué)于2016年推出。SQuAD一共有10萬多個(gè)問題,來源于536篇維基百科的文章,采用區(qū)間式答案。2018年上線的SQuAD2.0版本中加入了大量“無法回答”的問題,問題總數(shù)量達(dá)到15萬個(gè)。圖1-7所示為SQuAD中的文章和問答示例。SQuAD數(shù)據(jù)集規(guī)模大且質(zhì)量高,獲得了很高的關(guān)注度。截至2019年12月,來自全球的研究機(jī)構(gòu)和團(tuán)隊(duì)已經(jīng)在SQuAD競(jìng)賽中提交模型294次之多。2018年10月5日,Google提交的BERT模型在SQuAD1.1版本競(jìng)賽中第一次獲得了超過人類水平的得分,引起了空前反響。

圖1-7 SQuA D數(shù)據(jù)集中的文章與問答
5. CoQA
CoQA是2018年斯坦福大學(xué)提出的多輪對(duì)話式機(jī)器閱讀理解競(jìng)賽。其最大的特點(diǎn)是在問答過程中加入了上下文,即對(duì)每個(gè)段落提出多輪問題。模型回答每輪問題時(shí),均需要理解該段落以及之前的若干輪問題和答案(見圖1-8),這就要求模型具有理解上下文的能力。該數(shù)據(jù)集中共有8000多個(gè)段落和超過12萬個(gè)問題,平均每個(gè)段落有15輪問答。此外,CoQA在測(cè)試集中加入了訓(xùn)練集內(nèi)所沒有的兩個(gè)領(lǐng)域的問答(Reddit論壇和科學(xué)問題)以測(cè)試模型的泛化能力。CoQA的答案形式有區(qū)間式、“是/否”“無法回答”以及少量自由式回答。2019年3月,來自微軟的研究團(tuán)隊(duì)提出了MMFT模型,并獲得了89.4%的F1分?jǐn)?shù),首次超過了人類水平88.8%,再一次證明了機(jī)器閱讀理解模型的有效性。

圖1-8 CoQA數(shù)據(jù)集中的文章與多輪問答
1.5.2 多段落式數(shù)據(jù)集
多段落式機(jī)器閱讀理解數(shù)據(jù)集要求模型閱讀給定的多個(gè)文本段落,并回答與之相關(guān)的問題。其中,一種形式為某個(gè)段落中含有正確答案,這可以考察模型建立問題與每個(gè)段落的相關(guān)性的能力;另一種形式為模型需要在多個(gè)段落中尋找線索并推理得出答案,這可以考察模型的多步推理能力。
1. MS MARCO
MS MARCO是2016年由微軟公司推出的大型機(jī)器閱讀理解數(shù)據(jù)集,其中包含超過100萬個(gè)問題和800多萬篇文章。該數(shù)據(jù)集中的問題來自真實(shí)用戶提交的查詢,而相關(guān)的多個(gè)段落來自Bing搜索引擎對(duì)查詢的檢索結(jié)果(見圖1-9),并采用自由回答式答案。MS MARCO一共提供了3個(gè)競(jìng)賽任務(wù):

圖1-9 MS MAR CO數(shù)據(jù)集中的文章與問答
? 判斷是否可以從給定段落的信息中得到問題的答案;
? 生成答案語句;
? 按照與問題的相關(guān)性對(duì)給定的多個(gè)段落進(jìn)行排序。
2. DuReader
DuReader是百度公司于2017年推出的中文閱讀理解數(shù)據(jù)集。DuReader的數(shù)據(jù)來自百度搜索引擎的用戶查詢和相關(guān)文檔。和MS MARCO類似,DuReader利用搜索引擎的查詢結(jié)果提供與問題相關(guān)的文章,但文章是以全文的形式給出,而非MS MARCO的段落式,從而加大了模型處理的難度。此外,由于文章的立場(chǎng)和觀點(diǎn)不盡相同,DuReader對(duì)一些問題提供了多個(gè)標(biāo)準(zhǔn)答案,這也更加符合真實(shí)的問答情景(見圖1-10)。DuReader共包含20萬個(gè)問題和100萬篇相關(guān)文檔,答案包括自由回答式及“是/否”類型。

圖1-10 DuReader數(shù)據(jù)集中的文章與問答
3. QAngaroo
QAngaroo是2017年倫敦大學(xué)學(xué)院推出的多文檔推理閱讀理解數(shù)據(jù)集。它由兩個(gè)數(shù)據(jù)集組成:WikiHop和MedHop。WikiHop來源于維基百科,MedHop來源于醫(yī)療論文庫PubMed的論文摘要。QAngaroo最大的特點(diǎn)是問題的答案并不能從一個(gè)段落中單獨(dú)得出,其中的線索分散在多個(gè)段落中尋找線索并推理得出。因此,QAngaroo對(duì)于算法理解和分析多段落的能力提出了很高的要求,需要模型利用多跳推理(multi-hop reasoning)獲得答案。該數(shù)據(jù)集中共包含5萬多個(gè)問題和相關(guān)文檔,采用多項(xiàng)選擇式答案。圖1-11所示為QAngaroo數(shù)據(jù)集中的樣例文章、問題及答案選項(xiàng)。

圖1-11 QAngaroo數(shù)據(jù)集中的文章與問答
4. HotpotQA
HotpotQA是2018年由卡耐基·梅隆大學(xué)、斯坦福大學(xué)、蒙特利爾大學(xué)和Google公司等共同推出的多段落推理閱讀理解數(shù)據(jù)集。與QAngaroo類似,HotpotQA要求模型在多個(gè)文檔中尋找線索并經(jīng)過多步推理得出答案,如圖1-12所示。HotpotQA中共包含11萬個(gè)問題和相關(guān)的維基百科段落,采用區(qū)間式答案。

圖1-12 HotpotQA數(shù)據(jù)集中的文章與問答
1.5.3 文本庫式數(shù)據(jù)集
文本庫式數(shù)據(jù)集一般提供一個(gè)大型文本語料庫(corpus)。閱讀理解模型需要首先根據(jù)問題在文本庫中利用檢索方法找到相關(guān)的段落或文章,然后進(jìn)一步分析確定答案。這也是最貼近在線搜索問答等實(shí)際應(yīng)用的一種數(shù)據(jù)集形式。由于這種形式基于大規(guī)模文本資源,未限定答案的來源,也被稱為開放域機(jī)器閱讀理解(open-domain machine reading comprehension)。
ARC
ARC(AI2 Reasoning Challenge)是艾倫人工智能研究院于2018年推出的關(guān)于科學(xué)知識(shí)的文本庫式機(jī)器閱讀理解數(shù)據(jù)集。ARC中的問題來自于約7800道美國三到九年級(jí)學(xué)生的科學(xué)課試題。所有問題均采用多項(xiàng)選擇式答案(見圖1-13)。此外,數(shù)據(jù)集中還提供了一個(gè)大型科學(xué)文本庫,來源于搜索引擎對(duì)科學(xué)問題的查詢結(jié)果,共包含1400多萬個(gè)句子。模型可以使用文本庫中的信息回答問題,也可以通過其他途徑獲得相關(guān)信息。

圖1-13 ARC數(shù)據(jù)集中的問題和答案選項(xiàng)
- 零基礎(chǔ)玩轉(zhuǎn)AI繪畫
- ERP沙盤模擬簡明教程
- Inkscape 0.48 Illustrator's Cookbook
- Apache Roller 4.0 – Beginner's Guide
- Python數(shù)據(jù)分析實(shí)戰(zhàn):從Excel輕松入門Pandas
- Instant Microsoft SQL Server Analysis Services 2012 Dimensions and Cube
- SketchUp/Piranesi印象彩繪表現(xiàn)項(xiàng)目實(shí)踐
- Excel數(shù)據(jù)管理:不加班的秘密
- 新媒體美工一冊(cè)通(全彩)
- Blender 2.5 Materials and Textures Cookbook
- AutoCAD 2020中文版入門、精通與實(shí)戰(zhàn)
- UG NX 12.0中文版從入門到精通
- Vue.js實(shí)戰(zhàn)
- 深入淺出WebAssembly
- KNIME視覺化數(shù)據(jù)分析