基于注意力机制的神经网络机器翻译毕业论文
2022-01-08 21:58:53
论文总字数:30301字
摘 要
ABSTRACT II
第一章 绪论 1
1.1 研究背景与意义 1
1.1.1 研究背景 1
1.1.2 研究意义 1
1.2 机器翻译国内外研究现状 2
1.3 研究内容和框架 4
1.3.1 研究内容 4
1.3.2 研究框架 5
1.4 重点工作 6
第二章 基于神经网络的解码器和编码器结构 7
2.1 循环神经网络 7
2.2 按时间步展开的双向神经网络 8
2.3 编码器 8
2.4 解码器 10
第三章 神经机器翻译模型及优化 11
3.1 神经网络中的激活函数 11
3.1.1 sigmoid函数 11
3.1.2 tanh函数 12
3.2 梯度下降算法 12
3.3 seq2seq结构 14
3.4 基于LSTM的神经机器翻译 15
3.5 基于GRU单元的神经机器翻译 17
3.6 注意力机制的翻译模型 19
3.7 柱搜索法 21
3.8综合因素考虑 23
第四章 神经机器翻译测试 24
4.1 数据下载和处理 24
4.2句子筛选和词向量生成 25
4.3编码器输出比较 26
4.4注意力分布比较 28
4.5损失函数比较 30
第五章 总结与展望 34
5.1 工作总结 34
5.2 系统评价 34
5.3 工作展望 35
参考文献 36
致谢 38
第一章 绪论
1.1 研究背景与意义
1.1.1 研究背景
自然语言处理已经成为人工智能领域的比较火热的研究课题,尤其是在深度学习快速发展的现如今,神经机器翻译也取得了比较快的发展,其翻译性能在许多语言种类上的效果都要比基于短语的统计机器翻译[1]好,而神经机器翻译最基本的模型是seq2seq模型。机器翻译是利用数字模型将语言文本转换成数字向量,再通过模型进行预测与源语言对应的目的语言的一种翻译机制。
自然语言处理相关的课题是当今人工智能的标志性研究领域之一,在如今的互联网快速发展的时代,对于庞大数量的文本和数据加以分析和提取本身就是一种越来越重要的工作。而机器翻译作为自然语言处理的头等任务,而这项工作的起源最早可以追溯到上世纪四十年代左右,而后经过几十年的发展。机器翻译主要形成了两种主流的方法:一种被叫做基于规则的机器翻译,另一种被叫做基于统计的机器翻译。而前者需要专家或者开发者制定明确且尽可能具体的规则,后者需要的是大量的双语资料,也就是翻译中的目的语言和源语言的数据集,通过统计的方法归纳出语言的规则。但是上述的两者的通病在于,不同自然语言之间的表达方式本身就有着错综复杂的关系,其特征往往没法正确确定,直到2013年,David M.等人才提出了完全基于神经网络的机器翻译模型[2]。
神经机器翻译在过去的几年里快速发展,在这个结构中源语言被数学模型转换成一个数字向量,经过神经网络的学习之后,再利用模型输出目的语言对应的数字向量,再转化成语言文本,能够取得比较好的翻译效果[16] 。
1.1.2 研究意义
从个人角度而言,随着经济全球化的影响越来越大,人们在生活中接触到的不同于本国文化的事物也越来越多,人们在学习旅游的过程中,会接触到各种的语言,对于个人而言,同时精通多门语言是比较困难的,这时候一个功能强大的神经机器翻译系统就成为了比较好的选择。
从企业角度而言,机器翻译系统不光可以解决语言翻译问题,对于一些互联网企业,这类模块也是极其重要的,本国的搜索资源,企业更加期望通过母语得到比较好的结果,这对于电子商务这类服务行业是十分重要的。在这类服务中应用机器翻译可以有效推进贸易全球化的进程,目前比较先进的深度学习框架,比如谷歌的TensorFlow和百度AI的PaddlePaddle框架都是为了解决这类问题而诞生的。
从国家角度而言,由于历史、文化等因素的影响,一些多元民族国家中可能会有多种官方语言,除此之外,国家内部可能包含更多的语言种类,对于这种情况官方文件就需要多种语言的译本,而这种工作如果全都由人工来承担,工作量巨大,相比之下一个可靠的机器翻译系统就显得成本低廉和工作高效。
神经机器翻译利用神经网络来代替规则来确定语言之间的内在特征,此类方法不需要太多的人工干涉,也不需要语言学专家制定复杂的语言规则,采用一种端到端的方式处理两种语言,极大的简化了复杂文本之间的转化过程。从理论角度而言,真正完美的机器翻译系统更像感性的认知系统,这也是人工智能发展至今最为重要的研究课题,也就是如何真正的实现算法模拟人的思考,这也是其重要的理论研究的价值所在。
深刻的理论研究意义和灵活的实际运用价值都使得神经机器翻译受到了学术界和实际工业的极大关注。神经机器翻译更是在短短的几年发展迅速,并且其翻译效果,从机器翻译的BLEU打分上高于统计机器翻译方法,在神经网络预测的损失函数这一环节中也低于统计机器翻译方法,但是这项技术还远未能到达无差别的翻译,因此对于这个课题的研究依旧是具有活力和价值的。
1.2 机器翻译国内外研究现状
神经机器翻译目前主流的方法有以隐结构短语为基础的短语翻译模型,也就是将单词切分成短语,再按照语序调节顺序实现翻译。基于深度学习的机器翻译方法主要的思想就是:“端”到“端”,个人理解就是输入输出的对应关系,主要是利用神经网络实现自然语言的映射,不引入隐变量,而是通过源句子和已经生成的目标语言句子来预测下一个词或者短语,条件概率模型也用连续来代替离散的,其技巧在于利用向量,也就是源语言的上下文和目标语言的上下文来作为所谓的稠密向量。习惯将机器翻译的发展从2013年开始分为两段,13年之后不仅有多数研究人员,如Li X ,Zhang J,Zong C.等人证实了神经机器翻译相比于统计机器翻译的优越性,对其模型本身也提出了很多的改进。
神经机器翻译在近几年的快速发展要归功于很多其他技术的发展,在NLP语言处理模型方面,Bengio团队在2003年提出的神经网络概率语言数学模型[3],该模型提出了一个比较独特的方法,即将本文信息通过数字模型转化成数字矩阵或者向量,这一思路基本上决定了深度学习在自然语言领域的发展方向。
在2013年,牛津大学的KALCHBRENNER和BLUNSOM两位发表了一篇基于神经网络算法的机器翻译的数学模型[2],该篇论文中采用RNN循环神经网络作为目的语言的解码模型,对于编码模型采用CNN卷积神经网络来提取源语言的规则。 一年之后,谷歌公司的团队[4]提出了seq2seq模型,改进了之前提到的CNN和RNN模型,并且利用英法两语数据集进行测试,此外用相同的数据集也测试了传统统计机器翻译的性能,结果神经机器翻译表现出更优越的性能。同样是在2014年,德国Cho团队[5]利用seq2seq这个框架来学习短语与短语之间的翻译效果,并且在传统统计机器翻译测试该模型的改进效果,极大的提高了翻译系统的性能,再一次说明了seq2seq序列对于学习向量特征的优势所在。
随着序列到序列模型被提出,神经机器翻译的发展又取得了进一步发展,但是随着测试的增多,该模型是将输入的源语言固定压缩成一个固定长度的向量,这样就会导致,在输入的句子结构比较复杂时,在压缩句子向量时候,会出现信息丢失的情况发生,也就是会出现“没翻译”或者“翻译多次”的问题,为了加强句子上下文的翻译时候的联系,2015年,Bahdanau团队[6]加入了Attention机制来实时监督输入语言的前后文之间的联系。与此同时,该模型可以得到一个注意力矩阵,可以显示注意力机制在发挥作用时候,注意力大的主要是在句子的哪一部分,地位等同于传统机器翻译中的对齐函数,因此也被称为“软对齐”的一种对齐方式。
请支付后下载全文,论文总字数:30301字