整条卷烟的32位防伪码特征提取研究毕业论文

2020-02-17 23:20:29

摘要

根据国家烟草局相关规定，市场上销售的每条卷烟烟盒上都必须打印有32位的卷烟防伪码，否则则是违法销售。烟盒上的32位码分两行可以表示该条烟的件码、分拣配送日期、烟草生产企业和零售户代码等信息。它不仅可以很好地维护零售户及消费者的利益，也方便了专卖人员对烟草营销过程的监督管理。然而对于市场中的罚没烟，手动抄写32位防伪码工作量大，效率低下。因此用机器视觉代替人力进行卷烟32位防伪码的特征提取与识别，将其进行统计汇总是大势所趋。

然而由于不同卷烟防伪码的打印方式、位置、背景颜色和条码清晰度均有不同，甚至部分防伪码已经模糊不清，这都给32位防伪码的机器识别带来了很大的难度。本文将这些情况分为可以清晰分辨32位码与无法看清32位码两种情况，并着重提出了一种利用卷积神经网络对卷烟图片中的32位防伪码整个进行特征提取的方法，以此避免在32位码无法清楚识别的情况下造成条烟防伪码的在机器上的重复提交与识别。主要研究工作如下：

（1）卷积神经网络结构。主要介绍了卷积神经网络工作的原理，并且针对经典LeNet5网络结构对其中卷集层、池化层、全连接层的工作过程进行了详细介绍。

32位防伪码识别研究。利用OpenCV进行图像处理，主要是先对图片进行大小归一化处理、然后使用EEMD 法完成二值化等预处理，然后进行Log-Gabor 滤波提取特征识别防伪码，最后用SVM分类器进行分类识别。
搭建卷积神经网络，在32位码不清晰时对整张图片进行特征提取与识别。主要内容包括数据集的构建，搭建卷积神经网络模型和网络模型的训练等3部分。

关键词：卷烟32位防伪码；特征提取；卷积神经网络；图像识别。

Abstract

According to the relevant provisions of the state tobacco bureau, each cigarette case sold on the market must be printed with a 32-bit cigarette security code, otherwise it is illegal sales. The 32-bit code on the cigarette case can be divided into two lines to represent the piece code of the cigarette, sorting and distribution date, tobacco production enterprises and retail business code and other information. It can not only well protect the interests of retail households and consumers, but also facilitate the supervision and management of tobacco marketing process by monopoly personnel. However, manual copying of 32-bit anti-counterfeiting code is a heavy workload and inefficient for smoke confiscation in the market. Therefore, it is an inevitable trend to use machine vision instead of human to extract and identify the features of 32-bit anti-counterfeiting code of cigarettes and summarize them statistically.

However, due to different cigarette security code printing method, location, background color and bar code definition are different, and even part of the security code has been blurred, which gives 32 bit security code machine identification has brought great difficulty. This paper will be divided into these situations can clearly distinguish the 32-bit code and cannot see the 32-bit code two cases, and puts forward

a way to use on convolutional neural network to 32-bit anti-counterfeiting code in cigarette image feature extraction method, so as to avoid a 32-bit code can't clearly

identify the cause of smoke anti-counterfeiting code under the condition of the machine on the duplicate submissions and recognition. The main research work is as

follows:

(1) construction of convolutional neural network. The working principle of convolutional neural network is mainly introduced, and the working process of volume set layer, pooling layer and full connection layer is introduced in detail according to the classical LeNet5 network structure.

(2) research on 32-bit anti-counterfeiting code identification. OpenCV is used for image processing, which mainly includes image size normalization, binarization and other preprocessing by EEMD method, log-gabor filtering for feature recognition and anti-fake code extraction, and finally classification and recognition by SVM classifier.

(3) the convolutional neural network is built to extract and identify features of the whole picture when the 32-bit code is not clear. The main contents include the construction of data set, the establishment of convolutional neural network model and the training of network model.

Keywords: cigarette 32-bit anti-counterfeiting code ; feature extraction ; convolutional neural network ; image recognition.

1.绪论 1

1.1研究背景目的及意义 1

1.2国内外研究现状 1

1.3论文内容与结构 3

2.卷积神经网络原理与结构 4

2.1深度学习与卷积神经网络 4

2.2卷积神经网络结构 4

2.3卷积神经网络各层原理 4

2.3.1卷集层（Convolutional Layer） 4

2.3.2激活层（activation） 6

2.3.3池化层（Pooling Layer） 7

2.3.4全连接层（Fully Connected Layer） 8

2.4相关学习框架与平台 8

2.4.1 TensorFlow 8

2.4.2 Keras 9

2.4.3 Caffe 9

2.5本章小结 9

3. 防伪码识别 11

3.1防伪码清晰时的识别 11

3.1.1防伪码图像预处理 11

3.1.2防伪码特征提取 11

3.1.3分类器设计 12

3.1.4识别结果 12

3.2基于CNN网络的32位码特征提取 13

3.2.1卷积神经网路的输入 13

3.2.2数据集的构建 13

3.2.3图像数据增强技术 15

3.2.4训练集与测试集 16

3.3搭建CNN网络 17

3.4 CNN网络的训练 18

3.5训练与结果分析 19

3.5.1 网络模型评价标准 19

3.5.2过拟合及解决办法 19

3.5.3学习率的设置 20

3.5.4训练结果 21

3.6本章小结 23

4.总结与展望 24

4.1本文工作总结 24

4.2 工作展望 24

参考文献 25

致谢 26

1.绪论

1.1研究背景目的及意义

2010年9月，国家烟草专卖局发布《关于卷烟打码销售有关事项的通知》。明确规定市场上所有的卷烟都必须在烟盒上打印32位防伪码才能流通和销售。烟盒上的32位防伪码，分上下两行书写，每行16位，由字母和数字组成：第一行前5位数字是分拣日期码，第6-16位是卷烟的件码派生号，第二行前4位是烟草生产企业的公司名称，5至10位是该卷烟分属的地市级行政区域国标代码，11至16位则是零售商户码。在中国商品防伪查询中心官网上，输入需要查询的32位防伪码就可以判断输入卷烟的合法性。若为假烟，系统会输出“您所查询的防伪码不存在，谨防假冒！”

卷烟打码到条可以很好地维护零售户及消费者的利益。零售户在进货时可以对防伪码第二行的数字进行核对，若零售码与本店许可经营证号不同，可拒绝进货。而消费者同样可以根据卷烟32位码与购买点的许可经营证号对比，避免买到假烟，还可以将整个32位码输入到官网进行查询，维护自己的合法利益。

同时卷烟32位防伪码也方便了专卖人员对卷烟市场营销过程的监督^[1]，可以用来检查零售户进货渠道是否违法，是否存在违法销售行为，对于打击假烟售卖和真烟非法流转具有重要的作用。例如专卖人员只需要对32位码上的生产企业和地址信息进行验证，便可以准确区分出一批卷烟是外地流入还是本地销售客户串货。

但是对于查抄的卷烟，手动抄写防伪码工作量太大，而且录入效率不高，在长时间人眼识别抄写的过程中更容易导致视觉疲劳造成防伪码抄写错误。而且随着大数据物联网时代的到来，手动抄写无法做到像计算机识别一样快速统计，因此用机器视觉代替人力进行卷烟32位防伪码的特征提取与识别，将其进行统计汇总是大势所趋。不过由于不同卷烟防伪码的打印方式、位置、背景颜色和条码清晰度均有不同，有的打印在正面，有的打印在反面，而且有的背景颜色较深，甚至部分防伪码已经模糊不清，这都给32位防伪码的机器识别带来了很大的难度。本文提出了利用计算机图像处理方法识别32位码的方法，在32位码清晰时使用OpenCV进行图像处理准确识别出数字与字母，在32位码不清楚时利用卷积神经网络提取32位码的整体图片特征，防止32位码无法清楚识别的情况下造成条烟防伪码的在机器上的重复提交与识别。

1.2国内外研究现状

激光防伪码识别属于光学文字识别(OCR,Optical Character Recognition)的一种。虽然传统的防伪码识别多采用人工的方式，通过人眼识别产品外包装上的防伪码，但随着人工智能及图形识别技术的高速发展，光学文字识别也已经逐步步入社会化实用阶段^[2]，在识别汽车车牌照^[3]、识别文档文字、识别门牌号等方面^[4]应用很广泛，一些字符识别机器也出现在了市场中。

早在19世纪20年代，一些欧美国家就已经开始了对于英文字符以及手写数字的识别尝试。国内相关研究虽然起步较晚，但时至今日对一些简单数字、汉字的识别成功率已经达到较高的水平，甚至对于日文、俄语等语种的文字识别也已经获得了一定的成果。

传统字符识别主要有以下以下几种思路：一是通过建立字符模板库，然后将待识别字符与标准库字符进行匹配识别。二是通过一定方法提取字符特征，然后通过分类器进行识别。这种方法主要过程如下：

(1)图片预处理：目的是去除掉图片中无用的干扰信息，对主要的感兴趣的部分进行图片增强处理。主要操作是对图片进行滤波去噪声、归一化和二值化等。

(2)字符特征提取^[5]：目的是提取出可以对字符进行区分的字符特征，包括结构特征和统计特征两大类。

(3)分类器设置：分类器的作用是根据上一步提取出的字符特征对字符进行分类，基于距离的分类器和基于神经网络的分类器是目前的主流。

近几年随着机器学习越来越火热，可以自动学习图片特征的卷积神经网络（CNN）在图像分类识别以及文字识别方面得到了越来越广泛的应用。卷积神经网络是受生物视觉认知机制的启发而来的^[6]，科学家发现动物视觉皮层有小部分细胞只对对特定部分的视觉区域敏感^[7]，例如一些神经元只对垂直边缘兴奋，另一些只对水平或对角边缘兴奋，这就是 CNN 的基础。以下是几种经典的CNN网络，也大致代表了CNN网络的发展历程：

LeNet（1990年）^[8]：LeNet是最早出现的卷积神经网络模型之一，它主要被用于字符识别任务。Yann LeCun 把这一先驱工作命名为LeNet5^[9][10]，但是由于在其他领域表现欠佳，并没有得到更广泛的应用。

AlexNet（2012年）^[11]：2012年的 ImageNet 大规模视觉识别大赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)冠军，且正确率领先第二名很多。 AlexNet在结构上比 LeNet网络更宽更深^[12]，它使用多层小卷积叠加来替代大卷积，当前 CNN 大范围的应用也是基于这个工作。

ZF Net(2013年)^[13]：ZF NET是在2013年ILSVRC大赛中获胜的卷积神经网络，它在 AlexNet 架构超参数上进行了调整得到了效果的提升。

GoogLeNet(2014年)^[14]：2014 ILSVRC大赛的冠军，由 Google 的 Szegedy等人创建。它提出了一个新的思路，使用Inception 模块，大幅减少了需要训练的参数个数。

VGGNet (2014年)^[15]：这种网络在2014年ILSVRC大赛中同样表现优异，它增加了卷积神经网络的深度^[16]，经典模型包括有16层的VGG16和19层深的VGG19。

ResNets (2015年)：2015年ILSVRC大赛冠军，它解决了增加网络深度时会出现的退化问题，很大程度上提升了卷积神经网络的网络性能。

虽然有关字符识别与卷积神经网络的相关研究一直没有中断并在不停的向前发展，但是针对卷烟32位码这种背景较为复杂的特征提取与识别却并不多。所以本文将利用相关知识对32位码特征提取识别对这一实际问题进行探讨。

1.3论文内容与结构

本文主要内容围绕着卷烟32位防伪码特征提取与卷积神经网络的构建而展开，全文共分为4个章节：

第1章为绪论，主要介绍了本文的研究背景与目的即对卷烟32位防伪码进行特征提取以及机器识别的必要性，并且介绍了激光文字文字识别与本文关键技术卷积神经网络的研究现状，最后简单说明了本文的主要研究内容与结构安排。

第2章详细介绍了本文关键技术卷积神经网络的相关知识，包括卷积神经网络结构以及其中卷集层、池化层、激活层、全连接层的工作过程，并且介绍了卷积神经网络搭建时常用框架与平台。

第3章主要进行32位防伪码的识别设计。32位码清晰时方法是对32位码图片进行归一化、二值化，然后进行滤波操作然后使用分类器实现防伪码数字字母的识别。在32位码不清晰时搭建卷积神经网络对整个32位码图片进行特征提取与分类识别，分别介绍了数据集的构建，卷积神经网络模型的搭建与模型的训练三部分。

第4章是总结与展望，对本文的研究成果进行了总结与概括，然后提出了本次研究的不足以及对下一步的工作展望。

2.卷积神经网络原理与结构

2.1深度学习与卷积神经网络

卷积神经网络、深度学习、机器学习这三个概念之间联系很紧密。深度学习是一种实现机器学习的方法，甚至可以说深度学习直接脱胎于机器学习理论；而卷积神经网络是深度学习框架下一种典型的算法。对于机器学习过程可以将其通俗的理解为在电脑上编写程序使它能实现某种功能的过程。首先存在一个完全空白的电脑（机器学习平台及框架）；然后程序员在电脑里编写一个软件程序（也就是构建卷积神经网络的过程），让电脑拥有学习的能力；第三步就是用数据对这个程序进行训练与测试。比如想让电脑分辨猫与狗，就需要拿出大量的猫与狗的照片，同时告诉电脑那些是猫，那些是狗。这样电脑就可以利用它的学习能力，提取出猫与狗的外貌特点，在以后再见到猫的图片就可以辨认出来（这就是卷积神经网络的训练过程）。

2.2卷积神经网络结构

下图2.1为经典的LeNet-5网络的网络结构，虽然它提出的时间较早，但是由于其经典性，仍是卷积神经网络学习中不可跳过的一部分。LeNet-5网络是针对灰度图进行训练的，图中输入的是大小为32*32 的灰度图，总的结构不计算输入层的话一共7层：2个卷积层（Convolutional Layer），2个降采样(Subsampling)层(池化层)，2个全连接层，1个输出层。每层都包含可训练参数(连接权重)。而且每个卷集层都有多个卷积核，每个卷积核提取输入图片的一种特征。

LENET50a21ea18fe2613f5