机器阅读理解技术研究文献综述
2020-04-14 19:59:03
阅读理解作为常见的一种题型,对于绝大多数人来说都不陌生,在从小到大的语文和英语科目中非常普遍的存在。机器阅读理解其实和人阅读理解面临的问题是类似的,不过为了降低任务难度,很多目前研究的机器阅读理解都将世界知识排除在外,采用人工构造的比较简单的数据集,以及回答一些相对简单的问题。
让机器阅读文本,理解文本语义,是实现自然语言理解的重要一步。而自然语言理解又被称为人工智能皇冠上的明珠。自从人工智能的概念诞生以来,让机器理解语言,并能够像人类一样使用语言进行交流,一直是许多人工智能研究者的愿景和目标。而如今随着深度神经网络的兴起,人工智能也迎来了新的生机。自然语言理解作为人工智能领域长久以来无人力及的明珠,也藉由大规模数据集的出现和计算能力的急剧提升,达到了前所未有的研究热度,无论在学术界还是工业界,成为人工智能领域的必争之地。由此可见,机器阅读理解本身具有极其重要的研究意义。
近几年,机器阅读理解任务的研究在国外上获得空前的瞩目,许多著名的研究机构,如斯坦福大学、卡内基梅隆大学、艾伦研究院等,工业界如 IBM、Google、Facebook 等巨头也纷纷加入到这一任务的研究中来。例如:Herman在2015年发布填空型大规模英文机器阅读理解数据集CNNamp;Dailymail,使深度学习方法应用在机器阅读理解任务上成为可能。Herman提出三个深度学习模型,内部结构有所差别,但整体框架均为通过神经网络学习到问题和原文中每个词的表示,并基于这些表示进行打分,得分最高的词即为最后的答案。对于 CNNamp;Dailymail 数据集,其答案一定为出现在原文中的一个词,根据这一特点,Kadlec受 Pointer Network启发提出 ASReader 模型,直接将原文中每个词的注意力相加作为其成为答案的概率,进而输出答案。这一模型非常简单,但取得了当时最好的结果,也启发了后续一系列模型。
在国内,中文阅读理解技术的研究开展较晚,主要由于缺乏中文阅读理解语料库。针对这一问题,郝晓燕等构建了包含 121 篇文章,涵盖14个领域的中文阅读理解数据集,并对其构造方法加以详细阐述,为后续中文阅读理解研究提供基础。基于山西大学的中文阅读理解语料库CRCC v1.1,李济洪使用最大熵模型,根据问句和候选答案的关系,在词法层面和句法层面构造了35个人工特征,最终达到了80.18%的HumSent准确率。国内早期在中文阅读理解上面的研究,受限于语料规模的限制,使用的方法以依赖于人工构造特征的机器学习模型和基于规则的方法为主。 HFL-RC是哈工大讯飞联合实验室发布的大规模填空型中文阅读理解数据集,填补了大规模中文阅读理解数据集的空白。该数据集使用人民日报和儿童读物,通过机器自动挖词的方式构造,并且在文中提出了一种基于注意力机制的神经网络模型,取得了良好的效果。
{title}2. 研究的基本内容与方案
{title}基本内容:
1)基于深度学习理论,使用并学习现有的国内外MRC模型系统
2)对Du-Reader数据集进行研究,建立一个MRC系统
目标:
1)对于给定问题和其获选文档集合,要求阅读理解系统输出能够回答问题的文本答案;
2)文本答案能够正确、完整、简洁地回答问题;