基于TensorFlow的自然语言处理研究开题报告
2021-03-11 00:24:24
1. 研究目的与意义(文献综述)
1.1深度学习深度学习(deep learning)通过建立深层神经网络,模拟人脑的机制进行解释并分析学习图像、语音及文本等数据,是目前机器学习研究中的一个热点领域。传统机器学习工作的有效性,很大程度上依赖于人工设计的数据表示和输入特征的有效性;机器学习方法在这个过程中的作用仅仅是优化学习权重以便最终输出最优的学习结果。与传统机器学习方法不同的是,深度学习试图自动完成数据表示和特征提取工作;并且深度学习更强调,通过学习过程提取出不同水平、不同维度的有效表示。以便提高不同抽象层次上对数据的解释能力。从认知科学角度来看,这个思路与人类学习机理非常吻合。
虽然当前深度学习还未有完备的理论体系支撑,但并不妨碍在图像识别和语音识别等应用领域率先结出累累硕果。2012年,一种称为“深度神经网络(deep neural network,dnn)”的机器学习模型在图像识别领域的image net评测上被采用,把识别错误率从26%降到15%,是图像识别领域近年来的最好结果。而在此之前的2011年,同样类似的dnn技术在语音识别领域也取得惊人效果,降低语音识别错误率达20%#8764;30%,从而大大推进了应用技术产品的开发。比如基于dnn技术的微软全自动同声传译系统,在2012年11月中国天津的一次公开活动中流畅地实现了自动语音识别、英文到中文的机器翻译以及合成中文语音输出的整个过程,效果震惊全场。
尽管深度学习已经在上述图像和语音处理领域取得显著进展,但是在同属人类认知范畴的自然语言处理任务中,应用还未有重大突破。与语音和图像不同,语言是一种经过人类大脑产生并加工处理的符号系统,似乎模仿人脑结构的人工神经网络应该在自然语言处理领域拥有更多优势,但实际情况并非如此。同时,近几十年来,在基于统计的模型成为自然语言处理主流方法之后,属于统计方法典型代表的人工神经网络在自然语言处理领域依然没有得到足够的重视。
2. 研究的基本内容与方案
2.1深度学习方法深度学习的首要任务其实是特征学习,深度学习模型本质上是一种基于原始特征(或者说是未经过人类思维分析的数据)输入,通过多层非线性处理,来学习复杂特征表示的方法。如果结合特定的领域任务,则深度学习可以通过自动学习的特征表示来构建新型分类器或生成工具,以实现面向领域的分类或其他任务。具体而言,算法流程如下所示。步骤如下:
1.随机初始化构建一个学习网络;设置训练网络层数n;
2.初始化无标注数据作为网络训练输入集;初始化训练网络层i=1;
3. 研究计划与安排
第1周—第4周 搜集资料,撰写开题报告;
第5周—第6周 论文开题;
4. 参考文献(12篇以上)
[1]柏艺珊,黄展原. 自然语言处理中半监督算法的应用[j]. 电子技术与软件工程,2017,02:156.[2]张俊,李鑫. tensorflow平台下的手写字符识别[j]. 电脑知识与技术,2016,16:199-201.
[3]于政. 基于深度学习的文本向量化研究与应用[d].华东师范大学,2016.
[4]樊小超. 基于机器学习的中文文本主题分类及情感分类研究[d].南京理工大学,2014.