结合支持向量机的卷积神经网络分类开题报告
2022-01-25 23:27:15
全文总字数:7040字
1. 研究目的与意义及国内外研究现状
撰写毕业论文的目的和意义,主要有两个方面:一是对所学知识相能力进行一次全面的全面检验,是对基本知识、基本理论和基本技能掌握与提高程度的一次总测试。第二是培养学生自己的科学研究能力,初步掌握进行科学研究的基本程序和方法。通过撰写毕业论文,可以使学生了解科学研究的过程,掌握如何收集、整理和利用材料;如何观察、调查、作样本分析;如何利用图书馆,检索文献资料;如何操作仪器等方法。同时也是学习如何进行科学研究的一个极好的机会,因为它不仅有导师的指导与传授,可以减少摸索中的一些失误,同时也直接参与和亲身体验了科学研究工作的全过程及其各环节,是一次系统的、全面的实践机会。
本次研究的课题是《结合支持向量机的卷积神经网络分类》主要的目的是用卷积神经网络(cnn)作为特征提取器提取图片的特征,用支持向量机(svm) 作为网络的最后一层,来替代原本的softmax分类器进行分类。在fashion-mnist dataset数据集上取得了比原本的cnn分类器更好的效果。
国内外研究现状
卷积神经网络的最早出现来自于上世纪六十年代,hubel 和 wiesel通过对猫脑质皮层的样本图像信息获取预处理,特征提取分类研究,定义了具有局部感知功能的神经元,同时感受野((receptive field)一词受到了科研人员的重视。1980 年,k.fukushima提出了一种神经认知机模型(neocognitron),首次将局部感受野应用到人工神经网络中,并第一次在计算机上模拟运行了该类模型。神经认知机可以看做是卷积神经网络的原始模型,它的模型中已经包含了防变形卷积层与特征提取下采样层,下采样层体现了局部感受野与参数的优势。k.fukushima 提出,参数相同的神经网元在同一图像的不同位置计算时会出现一种数据平移的效果,这保持了数据的不变(translationalinvariance)。根据以上结论,lecun等人建立了经典的卷积神经网络模型,并用随机梯度方法训练了算法。
2. 研究的基本内容
本文所研究的卷积神经网络分类模型是在国内外科研研究者的基础上进一步进行的,为了能够对现在的卷积神经网络分类模型进行改进,提高卷积神经网络的性能,本文提出了一些具有可行性的算法。为了提高卷积神经网络的分类能力,这里提出了 用卷积神经网络(cnn)作为特征提取器提取图片的特征,用支持向量机(svm) 作为网络的最后一层,来替代原本的softmax分类器进行分类。在fashion-mnist dataset数据集上取得了比原本的cnn分类器更好的效果。
神经网络是由具有“可学习”参数的神经元组成的隐藏层构成的。这些神经元接收输入,执行点积,然后用a跟随它非线性。整个网络表达了原始图像像素与其类分数之间的映射关系。一般来说,将softmax函数是该网络最后一层使用的分类器。然而,已经有研究[2,3,11]对这一标准提出了挑战。上述研究介绍了线性支持向量机(svm)在人工神经网络结构中的应用。这个项目是对这个主题的另一种理解,并受到启发[11]。实验数据表明,利用mnist数据集[10],cn - svm模型的测试精度可以达到≈99.04%。另一方面,使用相同的数据集,cnn-softmax能够达到≈99.23%的测试精度。这两款机型都在最近发布的时尚mnist数据集[13]上进行了测试,这是一个比mnist[15]更困难的图像分类数据集。结果表明,cn - svm的检测精度≈90.72%,而cn - softmax的检测精度达到了a≈91.86%的准确性。如果在数据集上使用数据预处理技术,并且基本cnn模型相对复杂,则上述结果可能会得到改善本研究中使用的一个。
许多涉及深度学习方法的研究声称在相当多的任务中具有最先进的性能。这些包括但不限于图像分类[9],自然语言处理[12],语音识别[4],文本分类[14]。在上述任务中使用的模型使用了在分类层的softmax函数。然而,已经有研究[2,3,11]对softmax函数的另一种分类方法进行了研究支持向量机(svm)。上述研究声称在人工神经网络(ann)结构中使用svm产生的结果比使用传统softmax函数。当然,这样做也有缺点这种方法,也就是对二元分类的限制。
3. 实施方案、进度安排及预期效果
1. 启动阶段( 2018年11月15日前)
毕业论文(设计) 选题,指导教师下达任务书,指导学生查阅文献、审核上传任务书至学校“毕业设计( 论文)智能管理系统”
4. 参考文献
[1] martn abadi, ashish agarwal, paul barham, eugene brevdo, zhifeng chen,craig citro, greg s.corrado, andy davis, jeffrey dean, matthieu devin, sanjay ghemawat, ian goodfellow, andrew harp, geoffrey irving, michael isard,yangqing jia, rafal jozefowicz, lukasz kaiser, manjunath kudlur, josh levenberg, dan man, rajat monga, sherry moore, derek murray, chris olah, mikeschuster, jonathon shlens, benoit steiner, ilya sutskever, kunal talwar, paultucker, vincent vanhoucke, vijay vasudevan, fernanda vigas, oriol vinyals,pete warden, martin wattenberg, martin wicke, yuan yu, and xiaoqiang zheng.2015. tensorflow: large-scale machine learning on heterogeneous systems.(2015).http://tensorflow.org/ software available from tensorflow.org.
[2] abien fred agarap. 2017. a neural network architecture combining gatedrecurrent unit (gru) and support vector machine (svm) for intrusion detectionin network traffic data. arxiv preprint arxiv:1709.03082 (2017).