基于深度学习的写作风格迁移研究与实现毕业论文
2021-11-20 22:22:01
论文总字数:20865字
摘 要
本文主要基于机器学习深度学习研究了莎士比亚的写作风格研究以及迁移。
1.其中数据集选用的都是莎士比亚的早期现代英语作品以及现代人将其翻译成现代英语的两种不同的文本风格,将整体莎士比亚作品数据集分为三个部分,训练集,验证结果集,测试集。
2.通过编写基于attention的seq2seq模型系统程序,完成对莎士比亚写作风格的识别与学习,然后将机器学习得到的模型应用于普通现代英语文本中,得到莎士比亚风格的迁移文本。
3.再用Django架构将此种迁移技术应用于网页中,可以形成一个简单的将普通现代英语翻译成莎士比亚时期早期现代英语的实用小型网站。
4.对整体结果进行评估,在数据集最大化的情况下,根据时间复杂度和空间复杂度的要求做了几次参数调整之后,在运用双语互译质量评估辅助工具,即bleu的评估下,所得的最大bleu值为31.10。
研究结果表明:可以提取写作莎士比亚早期现代英语的风格特征来进行莎士比亚的写作风格模型的构建,通过验证和测试实验,可以验证莎士比亚写作风格的识别模型的普适性和准确性,最终可以将任意现代英语句子任意现代英语文章完成到莎士比亚早期现代英语写作风格的迁移。
关键词:seq2seq;文本识别;文本迁移;语义转换;深度学习;机器学习
Abstract
This paper studies Shakespeare's writing style and his transfer based on machine learning
1.The data sets are based on Shakespeare's early modern English works and the two different styles of text that modern people have translated into modern English. The whole data set of Shakespeare's works is divided into three parts: the training set, the verification result set and the test set.
2.By writing the system program of seq2seq model based on attention, the recognition and learning of Shakespeare's writing style were completed, and then the model obtained by machine learning was applied to the ordinary modern English text to obtain the transfer text of Shakespeare's style.
3.Using Django architecture to apply this migration technique to web pages, you can form a simple and practical website that translates common modern English into early modern English in Shakespeare's time.
4.The overall results were evaluated. In the case of data set maximization, the maximum bleu value was 31.10 after several parameter adjustments according to the requirements of time complexity and space complexity
The results show that can extract the writing style of Shakespeare's early modern English to Shakespeare's writing style, model building, by testing and verification experiments, can validate the universality of the identification model of Shakespeare's writing style and accuracy, and could eventually will be done any modern English sentence any modern English article to the migration of Shakespeare's early modern English writing style.
This paper features: finally, the research results are applied in practice, and a small website is prepared for use.
Key Words:seq2seq;text recognition;text migration;semantic transformation;deep learning; machine learning
目录
第1章 绪论 1
1.1写作风格迁移的目的、意义 1
1.2写作风格迁移的国内外的研究现状 2
1.2.1文本风格迁移的现状 2
1.2.2对目前国内外研究现状的总结 3
1.3写作风格迁移的实现的研究内容 4
1.3.1系统程序架构 4
1.3.2Django框架 5
第2章 莎士比亚数据集构建 6
2.1数据集构成 6
2.2莎士比亚数据集说明 6
2.2莎士比亚数据集分析 6
2.3预处理过程 7
第3章 文本迁移系统实现处理流程 10
3.1Seq2Seq算法原理 10
3.2对数据集训练过程 14
3.2.1编码过程 15
3.2.2注意力分配 15
3.2.3解码过程 16
3.3结果验证与测试 18
3.4 写作风格迁移网页实现 18
3.4.1Predict 18
3.4.2Django 18
第4章 写作风格迁移的评估与分析 21
4.1bleu方法 21
4.1.1bleu算法描述 21
4.1.2encode5级时的bleu结果 22
4.1.3对bleu结果优化 23
4.2PINC方法 27
4.2.1PINC算法 27
4.2.2PINC结果 28
第5章 回顾与展望 30
参考文献 32
致 谢 33
第1章 绪论
1.1写作风格迁移的目的、意义
最近几年随着计算机行业的发展,深度神经网络学习也开始逐渐进入大众研究应用范围,基于深度学习的写作风格转换也是深度神经网络学习领域中的一个研究热点。其实这项研究最早集中于文本风格识别的研究,其研究的功能作用一开始是辨别文章写作是否为原作者,是否为抄袭文本,小范围的应用于一些著作权判定领域,近年来才发展成现在的写作风格转换,简单的说就是文本转换,因为其应用领域有着很大的前景,近年来有受到研究专家的瞩目,那么文本转换究竟是什么呢,其实文本转换的目的就是能够将一种新的风格的输入的文本,根据已知模型的转换,转换成另外一种所需要风格的文本,以达到我们所需的目的。
现在这种技术已经广泛应用于各类行业场景,如将文本风格的情绪进行转换,可以将生气或者喜悦的有个人情绪色彩的文本转换为普通无情绪的官方文本,当然还包括一些形式上的,比如断句,标点,常用词等细节的修改。根据看不同风格作者的书籍可以看出来,每个作者都有自己专属的可以识别的风格特点,就如上文提到的遣词造句,常用词,修辞手法,标点使用频率、虚词词频等一些各种各样不同的方面都可以判断一个作者的写作风格,我们可以基于这些句类特征提取写作风格特征,再进一步通过这些特征来描述不同作者的写作风格,掌握了作者的写作风格模型之后,就可以进行写作风格迁移了。就如莎士比亚,他的作品有着很强的时代色彩,但从词汇上来看,就可以看出莎士比亚运用的那个时期的早期现代英文与现在常用的英文有着不小的差别,如果要想将文本转换成莎士比亚作品的风格,就需要掌握莎士比亚风格的模型,然后才能基于模型对现代英语文本进行迁移。
文本生成作为一个大方向的热点研究,也根据不同的输入内容可以有不同的分类,目前的研究中分为以下几类,包括纯数据、纯图像、还有纯文本还有这三种互相之间交互的情况到文本的生成。这其中几种类型无论哪一种,在要求文本生成成功率高的情况下,都对技术实现都有着极大的要求,可以说是非常具有挑战性的研究方向,在近年来也不乏应用于各类人工智能方向的研究学习工作。而写作风格迁移,就是其中文本到文本生成的一类,我们可以将其应用到需要不同情感分类文本的机器创作文学中,比如撰写小说或者新闻就需要不同的情感,小说可以有较强的个人色彩,基于自己的情感出发,而新闻则必须不带个人色彩的,基于真实事件出发,为读者提供一个真实的理解环境;再进一步推进深入,文本风格迁移其实可以用于翻译工作,不难理解,使用机器翻译器的时候,当我们要将一种语言翻译成另外一种语言,需要贴合另外一种语言文化环境的风格,才能真正翻译出所需的不同文化环境下大家都能理解的翻译后文本,比如中文和英文的语言环境就有着较大的差别,运用现有的市面上的翻译软件,经常出现翻译不通,甚至翻译错误等现象,所以只有将中英文两种风格按照不同语言环境的模型迁移,才能翻译得更加准确;同时,文本迁移中间工作形成的模型,也可以用来判断一段文本的风格好坏,可以应用于机器阅卷中;再有,文本迁移还可以用来判断一个人文章的风格,从而在互联网中提取出研究所需的属于某个人的文本信息。当然文本迁移的研究还有更多更为广泛的应用,就以上这些实现意义来说,写作风格迁移已经有了他的实现价值,不难看出,这种技术不但现在就已经有应用而且将会有很大更深层的研究与应用前景。不止计算机等智能产业,这种技术在未来更加可以应用于各行各业,用机器直接生成所需风格的文本,直接减少了人工工作量,同时也减少了出错的概率,比如法律文书,经济财报,文献译制等等,可以用人工智能大幅度提高行业效率,从而促进行业发展。
除了这些行业需要,甚至可以用于每个人自己的生活,我们自己每个人无论是工作还是学习也每天面临着大量的写作需要,这些需要当然也存在着风格目的要求,比如完成作业时写的作文的语气,和同学或者同事发信息的语气,给导师发邮件的语气,给公司发简历的语气,其中有的需要轻松有的需要正式,各种不同的场景都有着很大不同的需求,而我们日常生活中的有些场景不可避免的对文本的语气、情绪以及风格有着极高的要求,如果有文本迁移工具,就可以直接运用机器来帮助我们表达更加适合不同场景的准确内容,同时,通过将一段文字随着我们需求的变化任意迁移到各种不同的风格,也大大减少了我们本人写作的压力。由此可以看出写作风格迁移的研究,对于从学习到工作到私人需要到团队合作,都有着很大的帮助和意义。
1.2写作风格迁移的国内外的研究现状
写作风格迁移的研究以及其相关技术的研究在国内外已经有了一段时间的研究历史了,其中很多研究结果已经应用于实际生活中,国外开始这方面研究较早,从一段时间之前就有文本风格识别和文本生成的研究,国内相对开始的比较晚,近年来才有相关方面的研究成果。
1.2.1文本风格迁移的现状
本文的写作风格迁移国内外研究现状主要分为三个部分:
- 国内外开展研究的时间
最早进行写作风格研究的是英国逻辑学家Augustus Dc Morgan,他建议以英文单词的长短来区分不同作者的写作风格,2001年khmelevD将文学作品中出现的字母序列做为特征通过模型分析,在Gutenberg语料库中取得了非常好的效果,针对中文作者识别研究开展的比较晚,主要集中在对《红楼梦》的研究上,李贤平提出了一种根据47个虚字的出现频率来分析文章的写作风格,并给出了对《红楼梦》的研究结果[1]。
请支付后下载全文,论文总字数:20865字