基于深度学习的中文新闻文本分类研究开题报告
2020-02-18 19:27:58
1. 研究目的与意义(文献综述)
1、目的及意义
1.1 研究目的及意义
网络时代发展迅速,随之而来的是信息量的迅猛增长。在新闻行业中,信息化媒体资源正逐步取代传统纸质媒体,人们更倾向于通过网络方便快捷的获取新闻信息。但在享受互联网丰富多媒体信息资源的同时,也给人们带来了相应的困扰:如何在鱼龙混杂的海量互联网信息中准确的获取自己想要的信息。这一现实需求推动了信息检索技术和信息挖掘挖掘与处理技术的发展,人们迫切的需要对互联网新闻信息进行高效的处理和分类,方便读者准确获取新闻信息。在这样的背景下,互联网信息自动提取技术应运而生,对于信息的自动分类是处理数据的关键技术之一,这项技术在各个领域都有广泛的应用,是实现信息重组,文本数据挖掘的基础。可以极大程度解决互联网信息杂乱无章的困扰,帮助互联网用户准确定位所需信息,是当下数据信息的重要手段之一。
2. 研究的基本内容与方案
-
本文以深度学习为基础,构建中文新闻文本分类系统。首先收集大量新闻文本资料,将文本输入系统后对文本进行预处理,处理后输出已分好词的文本数据,更易于系统处理,然后对这些数据进行词向量表示,将文本中每个不同的词条表示向量空间中的独立一维。利用词的上下文语义信息训练出一个新闻类词向量模型,实现了将新闻类词语映射成为更低维数的实数向量。完成文本表示后,搭建卷积神经网络(CNN),利用卷积操作,用filter在数据上进行滑动,通过多次卷积操作将数据特征进行提取,然后拼接池化层将数据进行降维,最后用全连接层把特征向量进行拼接,完成将整条新闻映射成一个整体向量作为模型输入,并送入分类器进行分类。最后利用测试集测试分类器的性能,通过反馈学习提高分类器的性能。
图1 结构框图
深度学习分类模型的建立分又为两个步骤:一是用已标记类别的文本样本作为训练集训练分类型,二是用去除标记类别的文本样本测试集验证模型的分类准确率。通过反复的训练和调整优化,提高文本分类系统的稳定性和准确度。本次模型词向量表示用具采用的是使用较广泛的词向量表示工具:Word2Vec , 通过Skip-gran continuous 神经网络算法实现。一条文本在文本预处理后,通过Word2Vec进行词向量运算,输出这条样本的词向量数据。在分类识别模块中,使用 softmax 分类器通过对训练数据特征学习,就可以利用分类模型对测试文本进行文本分类。 最终检验分类准确度的测试指标为三项,准确率、召回率和F-测度值。通过这三项测评数据,我们可以大体验证系统的准确度。
图2:深度学习结构图
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。
第6-9周:编程实现各算法,并进行仿真调试。
4. 参考文献(12篇以上)
参考文献
[1] 彭君睿.面向文本分类的特征提取算法d,北京邮电大学,2013.
[2] 余凯,贾磊,陈雨强.深度学习的昨天、今天、明天.计算机研究与发展,2013