基于深度神经网络的中文文本蕴含识别方法研究毕业论文
2021-11-07 21:00:02
摘 要
随着计算机和网络技术的不断发展,中文文本形式的数据在互联网上呈现出爆炸式的增长,如何准确、快速地获取文本中的有用数据信息,是目前计算机领域亟需解决的问题。本文所研究的文本蕴含识别是一种对深入理解文本意义十分重要的技术。文本蕴含识别,即是文本间的推理关系识别,它广泛地存在于自然语言文本中。文本蕴含关系描述的是两个文本之间的推理关系,即判断能否由前一句话(前提句),推断出下一句话(假设句)的合理性。它的应用十分广泛,如信息检索、自动问答系统、机器翻译等。
目前,中文文本蕴含识别研究的主要问题在于可参考的模型多是基于英文的,但英文和中文语言存在差异,模型并不能直接迁移应用;且目前中文文本蕴含识别的准确率和效率都较低,有待进一步改进。
针对以上问题,本文在研究和总结前人工作的基础上,完成如下工作:
1、使用Google的word2vec训练不同语料获取词向量,对RITE数据集和CNLI数据集两个中文文本蕴含数据集做预处理。根据中文文本的特点,在ESIM模型的基础上,添加数据处理及词向量生成模块,构建中文文本蕴含识别模型CESIM,获得较高的准确率;
2、以提升文本蕴含效率为目的,本文对预训练模型BERT进行微调,添加了对RITE数据集的处理类,将其应用于中文文本蕴含识别领域,可以获得较高的效率,但准确率有所下降;因此在BERT模型的基础上,增加了规则修正模块,构建了中文文本蕴含识别模型R-BERT,可以获得较高的准确率和效率;
3、针对本文提出的模型,本文以准确率和效率为指标,在RITE数据集和CNLI数据集上进行了实验对比,结果表明,CESIM模型在识别准确率方面更高,而R-BERT模型训练速度方面更快。且R-BERT模型的准确率在原先的BERT模型上增加了3%,说明了本文提出的方法的可行性与有效性。
关键词:中文文本蕴含; word2vec;ESIM;BERT.
Abstract
With the continuous development of computer and network technology, information data in the form of Chinese text has shown explosive growth on the Internet. How to accurately and quickly obtain useful data information in the text is an urgent problem that needs to be solved in the computer field. Text implication recognition is the recognition of inference relations between texts, which exists widely in natural language texts. The text implication relationship describes the reasoning relationship between two texts, that is, whether the previous sentence (premise sentence) can be inferred from the previous sentence (premise sentence), and whether there is an implication relationship between the two . Its application is very extensive, such as information retrieval, automatic question answering system, machine translation and so on.
At present, the main problem of the research on the recognition of Chinese text implication is that most of the reference models are based on English, but there are differences between English and Chinese languages, and the model cannot be used directly; and the accuracy and efficiency of the recognition of the implication of Chinese text are both low Further improvement.
In response to the above problems, this paper completes the following work based on the research and summary of previous work:
1. Use Google's word2vec to train different corpora to obtain word vectors, and preprocess the two Chinese text implication datasets of the RITE dataset and the CNLI dataset. According to the characteristics of the Chinese text, on the basis of the ESIM model, add data processing and word vector generation modules to construct the Chinese text implication recognition model CESIM, and obtain a higher accuracy rate;
2. For the purpose of improving the efficiency of text implication, this article fine-tunes the pre-trained model BERT, adds a processing class to the RITE dataset, and applies it to the field of Chinese text implication recognition, which can achieve higher efficiency, but the accuracy rate is Reduced; therefore, on the basis of the BERT model, a rule correction module is added, and a Chinese text implication recognition model R-BERT is constructed, which can obtain higher accuracy and efficiency;
3. According to the model proposed in this paper, the accuracy and efficiency are used as indicators, and the experimental comparison is made on the RITE dataset and the CNLI dataset. The results show that the CESIM model has higher recognition accuracy and the R-BERT model is trained It's faster. And the accuracy of the R-BERT model has increased by 3% on the original BERT model, indicating the feasibility and effectiveness of the method proposed in this paper.
Keywords: Chinese text contains; word2vec; ESIM;BERT.
目 录
摘 要 I
Abstract II
第1章 绪论 1
1.1 研究背景与意义 1
1.2 国内外研究现状 1
1.3 本文研究内容 3
1.4 本文组织结构 3
第2章 基于CESIM模型的文本蕴含识别方法 5
2.1 引言 5
2.2 ESIM模型研究及分析 5
2.3 CESIM模型的架构 6
2.4 基于中文语料的输入层 8
2.4.1 数据预处理 8
2.4.2 词性标注 9
2.4.3 生成词向量 10
2.4.4 word2vec模型研究及实现 11
2.5 LSTM模型研究及效率分析 13
2.5.1 LSTM模型研究 13
2.5.2 双向LSTM模型研究 14
2.5.3 LSTM实现效率对比 15
2.6 基于CESIM模型的中文文本蕴含识别 15
2.7 本章小结 16
第3章 基于R-BERT模型的文本蕴含识别方法 17
3.1 引言 17
3.2 BERT模型 17
3.3 R-BERT模型的构建 18
3.4 规则修正层的设计 19
3.5 基于R-BERT模型的中文文本蕴含识别 21
3.6 本章小结 22
第4章 实验数据与设置 23
4.1 实验环境 23
4.2 实验数据 23
4.3 评价指标 24
4.4 实验内容与结果分析 24
4.4.1 CESIM模型实验 24
4.4.2 CESIM模型和R-BERT模型对比实验 25
4.4.3 常见中文文本蕴含识别模型对比实验 26
第5章 总结与展望 28
5.1 全文总结 28
5.2 下一步工作 28
参考文献 29
致 谢 30
第1章 绪论
1.1 研究背景与意义
随着互联网技术的不断普及和发展,网络上的中文自然语言文本数量呈现爆炸式增长。如果想实现在这大量的数据里快速、准确地获得所需要的信息,就对计算机的语言理解能力提出了更高的要求,因此文本蕴含识别技术应运而生。
文本蕴含识别即文本间的推理关系识别,通常包含两个句子,其中一个句子作为前提(premise),另一个句子作为假设(hypothesis),根据能否由前一句话推断出下一句话的合理性,判断两者之间是否有蕴含关系。其识别结果通常包含三种情形:蕴含、矛盾、无关。例如,前提文本为“一个穿红色衬衫的男子在和一个穿白色裙子的女人在交谈”,假设为“男人和女人在交谈”,由前提句可推断出假设句正确,那么可判断两者关系为蕴含。
文本蕴含方法的应用十分广泛,例如信息检索、问答系统、机器翻译等。信息检索通常是对关键词进行检索,因为对用户输入的语句分析不明确,常常会导致检索到的结果与用户期望的结果不一致。在信息检索中应用文本蕴含识别技术可以使计算机更准确地为用户提供相关搜索结果。问答系统是指对用户提出的问题和语料库中的回答进行识别,如果我们可以判断出这两者具有蕴含关系,就能准确地对用户的问题做出回答。在机器翻译中,人工翻译得到的答案和机器翻译得到的答案应该具有相同的涵义,将文本蕴含应用于其中,可以对机器翻译系统的性能进行评估。除此之外,还有定向的阅读理解答题、多标签策略的中文知识图谱问答等等多方面的应用。
然而在自然语言中,尤其对于中文而言,词语的不同理解方式、不同的断句方式都会导致对整个句子理解的偏差。为了更好地让计算机理解自然语言,我们需要对句子的涵义进行更深刻的分析。本文的研究目的在于吸收和借鉴已有的文本蕴含识别模型,提出适用于中文文本的基于深度神经网络的文本蕴含识别模型,提高文本蕴含识别的准确率和效率。
1.2 国内外研究现状
文本蕴含识别是自然语言处理中一个核心的任务,应用十分广泛。文本蕴含识别目前有六种方法,即基于相似度、基于文本对齐、基于逻辑演算、基于文本转换、基于混合模型和基于深度学习。随着深度学习和神经网络的发展,同时得益于大规模数据集SNLI的发布,基于神经网络的文本蕴含识别模型得到了快速发展。本文对此进行了深入研究,发现基于深度神经网络的模型主要分为两大类,一类是基于句子编码的文本蕴含模型,主要对句子本身进行编码和相似度分析;另一类是基于交互注意力机制的文本蕴含模型,更关注两个句子之间的关联和交互。