基于深度学习的写作风格分类与识别文献综述
2020-04-15 20:31:03
1 课题来源、目的、意义以及国内外研究现状
1.1 课题来源
随着移动互联网技术快速发展,人类依赖计算机从事的工作越来越多,也越需要计算机能够智能地理解和处理海量的自然语言信息。在自然语言处理中,作品风格分析是计算语言学的经典的研究工作。不同的作家具有各自不同的写作特点,这些特点体现在使用的词语、句子结构、修辞方法等许多方面。目前关于作者写作风格的研究还主要依靠作者主观判断、利用语感进行人工分析[1],而更深入的利用计算机进行语言风格的研究依旧比较困难。
1.2 研究目的及意义
1.2.1 研究目的
针对不同作者在作品中体现出的不同语言特征,如句类、虚词、词语、句子长度等特点,我们对于作者作品中的句子进行分词和句子成分的划分,通过使用计算机的方法对这些特征进行进行收取与统计,并对收集到的数据进行预处理,去除掉其中出现次数较小的可能对分类结果产生不良影响的项;使用数学符号形式定义文章的写作风格,结合之前收集到的特征,扩展了如何使用机器学习算法对文章尽行定义;根据训练出的特征或已经拥有的数据集,从整体的风格和单独的作品出发,结合二者的各项特征,构建出文章风格分类模型,并进一步对作者的写作风格进行定义。最后提出整体总体的建模方案。
1.2.2 研究意义
近年来,随着互联网技术的发展和移动网络的兴起,网络上产生了越来越多的文本信息,如网络小说、新闻等等;而一些经典的优秀文学作品的数字化也在紧锣密鼓的进行中。这些不断积累的文本知识,是人类文化的宝贵财富,同时,也为许多的应用领域提供了进行探索的原始材料。
统计和分析文本分类数据,可以归纳出它们所属的文章风格,甚至进一步的判断出作者的写作风格。借助这些数据,我们可以进行许多有意义的工作,例如:借助作者所属的写作风格,阅读网站可以根据其浏览者浏览记录中偏好的作者,根据这些作者的写作风格寻找写作风格相似的作者,从而对浏览者可能感兴趣的内容进行进一步的针对性的推荐;通过对写作风格的分析,还可以解决某些书前后的作者是否为同一人的问题,如在《红楼梦》中,许多人质疑前80回与后40回的作者是否是同一人[1],通过对前后两段的写作风格,使用计算机进行客观化的分析,可以的出进一步的结论;最后,一名作者的写作风格在一段时间内往往保持稳定,通过对其写作风格的研究,对比其之前的作品,我们可以为判断和解决是否存在抄袭等问题进行比较有利的佐证。
该项目针对目前存在的部分作者的部分文学作品,使用了机器学习的方法构建了基于写作风格的分类模型。针对目前中文文学作品风格分析中存在的如分词、句类等问题设计了适用于中文作品风格分类的系统,并尝试解决以上所述的一些问题。
1.3 国内外的研究现状
所谓风格,一般是指作风、风貌、格调等各种特点的综合体现[2],写作风格,就是作家创作个性与具体话语情境造成的相对稳定的整体话语特色[3],它是主体与对象、内容与形式的特定融合,是一个作家创作趋于成熟、其作品达到较高艺术造诣的标志[2]。作家作品风格收到地域、时代、流派等各方面的影响。作品风格通常被称为作家的徽记或指纹,因此,不同的作家作品间往往具有差异性。
1.3.1国外研究应用现状
通过分析文章的写作特点来推断作者的写作风格这一研究在国外很早就已经开始了,最早进行写作风格学研究的是英国逻辑学家Augustus De Morgan,他建议以英文单词的长短来区分不同作者的写作风格[4]。作者的写作风格体现在其文章的语法、词汇、修辞、语篇结构、句式以及句法等特点中[5]是写作过程中所形成的个人语言特征,和笔迹类似,不同的作者风格也不相同,根据这一特点可以比较准确地推断出某篇文章的作者,这在司法鉴定、抄袭检测以及文献考证领域有着非常广泛的应用前景。
最著名的作品风格研究要属美国《TheFederalist Papers》的作者认定问题[6]与莎士比亚的作品风格研究,摩斯泰勒和瑕莱斯对其中12篇文章的写作风格进行了考证,认为可能的作者有两个人,一个是美国开国政治家汉密尔顿,另一个是美国第四任总统麦迪逊。Eforn和Thisted对莎士比亚作品的词汇使用频率进行了统计[6],定义为莎士比亚的写作风格,作为判断一篇作品是否为莎士比亚所写的依据,并用于推测1985年发现的一首9节诗歌为莎士比亚所写。
早期的研究比较偏重于用统计的方法,对文章中的字、词的使用频率进行统计,然后分析规律。Mendenhall[7]是最早尝试用统计的方法对写作风格进行研究的,根据作者使用的单词长度来区分作者;英国皇家统计协会会长Yule对Mendenhall的方法进行了扩展[8],提出根据句子长度来区分作者的写作风格方法,另外还提出了Yule图的方法,用于研究单词频率的序号。
随着统计学习和机器学习的发展,学者们幵始将一些比较成熟的机器学习模型引入到作者识别中,并且取得了较好的效果[5]。2001年khmelev D[9]将隐马尔可夫模型引入到俄语文学作品的作者识别中,将文学作品中出现的字母序列作为特征,然后通过模型来分析,在Gutenberg语料库中取得了非常好的效果。
1.3.2 国内研究应用现状
针对中文的作者写作风格研究开展得比较晚[4],主要集中在对《红楼梦》作者的研究上,1952年瑞典汉学家高本汉提出了通过将词汇分为“高频”、“中频”、“低频”三类的方法,对《红楼梦》进行了研究。李贤平[10]提出了一种根据47个虚字的出现频率来分析文章的写作风格,并且给出了对《红楼梦》作者的分析结果。施建军[11]运用人工智能中的支持向量机技术,以44个文言虚字频率为特征向量,对《红楼梦》120回进行了研究。
{title}2. 研究的基本内容与方案
{title}研究内容与方法
2.1 研究内容
本文主要构建基于作者写作风格特征,如标点使用频率,虚词词频等的作者写作风格描述系统。使用深度学习的方法,对于分类过程进行建模,对分类方法进行训练。研究的主要内容主要包括以下几点: