基于深度学习的中文新闻文本分类研究文献综述

2020-04-14 19:50:38

1．目的及意义

1、目的及意义

1.1 研究目的及意义

网络时代发展迅速，随之而来的是信息量的迅猛增长。在新闻行业中，信息化媒体资源正逐步取代传统纸质媒体，人们更倾向于通过网络方便快捷的获取新闻信息。但在享受互联网丰富多媒体信息资源的同时，也给人们带来了相应的困扰：如何在鱼龙混杂的海量互联网信息中准确的获取自己想要的信息。这一现实需求推动了信息检索技术和信息挖掘挖掘与处理技术的发展，人们迫切的需要对互联网新闻信息进行高效的处理和分类，方便读者准确获取新闻信息。在这样的背景下，互联网信息自动提取技术应运而生，对于信息的自动分类是处理数据的关键技术之一，这项技术在各个领域都有广泛的应用，是实现信息重组，文本数据挖掘的基础。可以极大程度解决互联网信息杂乱无章的困扰，帮助互联网用户准确定位所需信息，是当下数据信息的重要手段之一。

互联网新闻信息处理的内容包括文本，语音和图像三大格式。其中，文本处理由于文本携带的庞大的数据，相对成熟的处理技术和广泛地应用需求而备受关注。文本分类属于自然语言处理的范畴，通过分析文本中汉字的结构特征和字词的语义信息，系统自动将文本映射到所属的已设定的标签类别中。文本分类是当下学科研究的热门课题，也是难题，原因在于汉语结构独特复杂，语义丰富多变。文本自动分类是文本处理技术中最典型的技术，通过文本分类，方便我们粗略的了解文本的内容，情感信息，为更深层次的处理和挖掘文本信息奠定基础。在无纸化的新闻文本中，文本分类能够提高新闻推送与获取的效率，在个性化制定新闻推送，网络舆情监控等方面都起到重要作用。与此同时，互联网技术的发展，人工智能的兴起，各类带有分类标签的文本可以被有效的利用，这也进一步推动了基于深度学习的文本分类技术的快速发展。

深度学习的发展，在自然语言处理领域掀起了研究的热潮。深度神经网络通过多层次的非线性映射结构，优化传统的浅层学习的限制，并通过多层神经网络训练提高模型的特征学习能力，从而实现利用少量的参数个数完成复杂的函数逼近。此外，深度学习在数据的分布式特征表示方面，通过把低层特征组合成更加抽象的高层特征表示，即利用逐层学习的方法进而获得输入数据的主要驱动变量，并且还具有强大的小样本特征学习能力。最重要的是在训练好深度神经网络之后，可以通过将其展开为普通的BP神经网络达到整个网络的性能优化，深度学习是目前机器学习领域最火热的研究方向，深度学习理论知识的不断丰富推动着自然语言处理领域的不断发展。深度学习模型已经在语音识别，图像处理等领域广泛应用，但由于文字语言的复杂性，它内涵丰富，是人类历史文明和智慧的结晶，其抽象灵活程度远远超过其它领域。因此，基于深度学习的自然语言处理在人工智能时代扮演着至关重要的角色。

1.2 国内外研究现状

1.2.1深度学习的研究现状

随着互联网科技技术的飞速发展，人们在获得信息的同时，对信息处理的速度以及处理的准确率的要求也随之提高，而传统的以浅层学习算法为主文本分类方法在如今海量即时数据的处理分析上存在的缺陷也日益明显，因此人们随之将研究目标转移到了基于浅层学习改进的研究上，从而撤起了又一研究热潮。

1980年，基于传统的感知器结构，深度学习创始人，加拿大多伦多大学教授杰弗里·辛顿（G. Hinton）采用多个隐含层的深度结构来代替代感知器的单层结构。多层感知器模型（Multi_Layer Perceptron）是其中最具代表性的，也是最早的深度学习网络模型。1984年,日本学者福岛邦彦提出了卷积神经网络的原始模型神经感知机（Neocognitron）。1998年，燕·勒存（Y. LeCun）提出了深度学习常用模型之一卷积神经网络（Convoluted Neural Network， CNN）。2006年，杰弗里·辛顿（G. Hinton）提出了深度学习的概念，随后与其团队在文章《A fast Learning Algorithm for Deep Belief Nets》中提出了深度学习模型之一，深度信念网络，并给出了一种高效的半监督算法：逐层贪心算法，来训练深度信念网络的参数，打破了长期以来深度网络难以训练的僵局。从此，深度学习的大门打开，在各大政府、高校和企业中掀起了研究深度学习的大浪潮。2009年，Yoshua Bengio提出了深度学习另一常用模型：堆叠自动编码器（Stacked Auto-Encoder,SAE），采用自动编码器来代替深度信念网络的基本单元：限制玻尔兹曼机，来构造深度网络。

深度学习是一个复杂的机器学习算法，在语言和图像识别方面取得的效果，远远超过先前相关技术。从2011年开始，谷歌研究院和微软研究院的研究人员先后将深度学习应用到语音识别，使识别错误率下降了20%-30%。2012年，杰弗里·辛顿的学生IIya Sutskever和Alex Krizhevsky在图片分类比赛ImageNet中，使用深度学习打败了Google团队，深度学习的应用，使得图片识别错误率下降了14%。2012年6月，谷歌首席架构师Jeff Dean和斯坦福大学教授AndrewNg主导著名的GoogleBrain项目，采用16万个CPU来构建一个深层神经网络，并将其应用于图像和语音的识别，最终大获成功。此外，它在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其它相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题推动人工智能相关技术取得了重大进步。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码