基于卷积神经网络的图像识别研究毕业论文
2022-03-01 20:19:34
论文总字数:28375字
摘 要
本文设计了一个基于AlexNet的8层卷积神经网络模型,并利用Caffe深度学习框架,在Cifar-10数据集上对该模型进行了训练与测试。该模型在测试集上的准确率达到了0.8152,然而对于经过仿射变换后的测试集识别准确率较低。
接下来通过对比实验,揭示了对训练集进行数据扩充,及加入高斯噪声,可以提高卷积神经网络模型的鲁棒性,但会牺牲一定的准确率。此外,还探讨了卷积核大小、卷积步长、池化方式和激活函数的选取对模型效果的影响。对比实验的结果表明,较小的卷积核可以加快网络的训练速度,但不利于对图像局部特征的提取;重叠池化和使用较小的池化窗口可以提升模型在测试集上的准确率;在卷积神经网络前端使用最大池化方式,后端使用平均池化方式,具有较好的效果; 选用ELU作为激活函数与Sigmoid, Tanh, ReLU和PReLU相比具有优越性。
关键词:图像识别 Caffe深度学习框架 卷积神经网络
Research on Image Recognition Based on Convolutional Neural Network
Abstract
This paper designs an 8-layer Convolutional Neural Network (CNN) based on AlexNet. The model is trained and tested on Cifar-10 dataset by adopting Caffe Deep Learning Framework. The accuracy of this model reaches 0.8152 on the test set, while has an unsatisfying performance when the test set is affined.
Comparative experiments reveal that, data augmentation and adding Gaussian noise may improve the robustness of the CNN model while accuracy is sacrificed. Moreover, this paper discusses how kernel size, kernel stride, pooling method and activation function affect the model’s performance. It comes to the conclusion that smaller kernel may speed up the training process, however, lower the accuracy due to the loss of local information; adopting max-pooling at the beginning of the neural network and average-pooling in the back with overlapping and smaller kernel may improve test accuracy. Finally, test results show that using ELU (Exponential Linear Unit) as the activation function leads to a more desirable result compared with Sigmoid, Tanh, ReLU and PReLU.
Key Words: Image Recognition; Caffe Deep Learning Framework; Convolutional Neural Network
目 录
摘要 I
ABSTRACT II
第一章 绪论 IV
1.1 图像识别问题的研究背景及意义 1
1.2 国内外发展现状 1
1.3 难点及方法综述 3
1.3.1 卷积神经网络模型搭建 3
1.3.2 基于CUDA的编程 3
1.3.3 深度学习框架的选取 3
1.3.4 卷积神经网络模型的搭建 4
1.3.5 数据集的选取 5
1.4 本文的主要研究内容和章节安排 5
第二章 基于卷积神经网络的图像分类 6
2.1 引言 6
2.2 卷积神经网络的网络结构 6
2.2.1 卷积层 6
2.2.2 下采样层 8
2.2.3 全连接层 9
2.2.4 分类器 9
2.2.5 典型的卷积神经网络模型 10
2.3 代价函数 10
2.4 参数更新 10
2.4.1 卷积层 11
2.4.2 下采样层 11
2.4.3 全连接层 12
2.5 本章小结 13
第三章 卷积神经网络模型的设计 14
3.1 引言 14
3.2 数据集的选取 14
3.2.1 卷积神经网络中常使用的数据集 14
3.2.2 Cifar-10数据集 14
3.2 网络结构的设计 16
3.3 激活函数的选择 17
3.3.1 传统的激活函数 17
3.3.2 指数线性单元 17
3.4 模型参数更新策略的选取 18
3.4.1 传统的模型模型参数更新策略 18
3.4.2 加入动量的随机梯度下降法 20
3.5 本章小结 20
第四章 卷积神经网络模型的训练与测试 21
4.1 模型训练与结果 21
4.1.1 数据预处理 21
4.1.2 模型训练结果 21
4.1.3 对模型鲁棒性的考察 23
4.2 模型改进与分析 25
4.2.1 数据集的扩充 25
4.2.2 模型对噪声的鲁棒性分析 25
4.2.3 卷积层参数对模型识别率的影响分析 31
4.2.4 池化方式对模型识别率的影响分析 31
4.2.5 激活函数对模型的影响 33
4.3 本章小结 35
第五章 总结与展望 36
参考文献 37
致谢 40
绪论
1.1 图像识别问题的研究背景及意义
人工智能作为研究机器与智能的一门综合性高技术学科[1],对社会发展有着深重的影响。其研究领域十分广泛,目前在工业界和科技领域的应用包括医学影像、推荐系统、航空航天等。大型科技公司如谷歌、Facebook、百度等均成立了人工智能研究实验室。
而图像作为一种重要的数据信息,出现在人们生活中的方方面面,如广告宣传、安全监控、平面设计等。提取图像中包含的信息并加以分析利用具有重要的研究价值。图像识别技术将人工智能与计算机视觉相结合,有着广泛的应用,包括军工业、交通监管、视频监控、生物医学成像、图像搜索等。在商业领域较为成熟的应用是各类模式识别,如对人脸、指纹和字体的识别等。除此之外,图像识别技术的另一个应用热点是目前在科技领域话题度很热的虚拟现实技术,其通过摄像头捕捉图像,再利用图像识别技术对目标进行定位,最终实现对目标的增强信息叠加和交互[2]。
1.2 国内外发展现状
图像识别技术指从获得的图像数据中识别出潜在目标,并对其作出有意义的判断[3]。
自1950年起,学术界就开始了对字体识别的研究。图像识别问题内容复杂,需要综合运用许多学科的知识,如统计理论、机器学习等。计算机视觉领域的代表期刊如ICCV、ECCV、IJCV等,每年都有大量相关的技术论文发表,新算法层出不穷,极大地促进了图像识别技术的发展[4]。此外,许多旨在鉴定算法精度的比赛正不断地将图像识别技术推向新的高度。
请支付后下载全文,论文总字数:28375字