基于内容的图像搜索系统的设计与实现毕业论文
2021-03-19 22:07:26
摘 要
随着图片信息量爆炸式增长,互联网环境涌现了许多图片搜索算法,但是多数图片搜索只是单一的特征识别,或者几个特征简单的组合检索,针对部分的数据集实验结果效果好,而针对其他的数据库集可能效果就很差,此类单一特征检索方案或者简单的组合检索,对数据集依赖性太大,不具有普遍性。
因此,本文关注到一个基于遗传算法计算多特征融合系数向量的特征融合方案,但是其在训练多特征系数向量时,需要人为的设定一个适应度参考数值,用以筛选掉遗传算法迭代过程中适应度低的个体,不断优化迭代结果。
但是这一适应度是人为设定的,对不同的数据库集需要设定不同的基础数值,这样人为造成的误差会非常大。为了解决这个问题,本文针对利用遗传算法进行多特征融合的算法进行了改进,并且对前期特征筛选进行了一定的实验数据支撑,同时在原有的特征组合基础上添加了图片的局部特征。
论文主要研究了图片各单一的全局特征、局部特征的处理建立索引的耗时,以及基于单一特征搜索匹配时的搜索结果的查全率和查准率。
研究结果表明:在添加几个局部特征因素,并对遗传算法加以改进后,搜索得到的结果有了较好的提升。
本文的特色:特征组合筛选添加了实验数据支撑,并改进了遗传算法中的一个参数值的人为设定。
关键词:以图搜图;遗传算法;多特征融合;图像检索
Abstract
With the explosive growth of picture information, the Internet environment has many image search algorithms, but most of the image search is only a single feature recognition, or a few simple combination of features search, for some of the data set experimental results are effective, and for other Of the database set may be very poor results, such a single feature search program or a simple combination of retrieval, the data set dependency is too large, not universal.
Therefore, this paper focuses on a feature fusion scheme based on the genetic algorithm to calculate the multi-feature fusion coefficient vector. However, when training the multi-feature coefficient vector, it is necessary to set a fitness reference value for filtering the genetic algorithm iterative process Low fitness of individuals, and constantly optimize the iterative results.
But this fitness is artificially set, for different database sets need to set a different base value, so that the error caused by artificial will be very large. In order to solve this problem, this paper improves the algorithm of multi-feature fusion using genetic algorithm, and carries out some experimental data support for the early feature screening, and adds the local features of the picture on the basis of the original feature combination.
This paper mainly studies the time - consuming of the single feature of the picture, the time - consuming of the local feature processing and the search rate and the precision of the search results based on the matching of the single feature search.
The results show that the results of the search have been improved by adding several local features and improving the genetic algorithm.
The characteristics of this paper: feature combination screening to add experimental data support, and improve the genetic algorithm in a parameter value of the artificial set.
Key words: CBIR; genetic algorithm; multi-feature fusion; image retrieval
目录
第1章 绪论 1
1.1 项目背景及研究现状 1
1.2 研究目的 3
1.3 研究内容 3
1.4 论文结构 3
第2章 图像检索简述 5
2.1简介 5
2.2图像特征 5
2.3相似性定义 6
2.4本设计的技术框架及知识点介绍 6
2.4.1 Lucene框架介绍 6
2.4.2 MPEG-7标准介绍 7
2.4.3 Lire框架介绍 7
2.4.4 lire框架实现图像检索的原理 8
第3章 系统设计 10
3.1 多特征结合方案的简介与改进 10
3.2系统架构介绍及搭建 10
第4章 实验数据与分析总结 13
4.1 单一图像特征性能测试 13
4.1.1 单一图像特征提取分析建立索引性能 13
4.1.2 实验结果分析 14
4.2 遗传算法多特征组合实验数据 16
4.2.1未改进的遗传算法多特征组合的实验 16
4.2.2改进后的遗传算法的多特征组合的实验 16
4.2.3 实验数据分析总结 16
第5章 系统实现 18
5.1 数据库集的选择 18
5.2 后台设计实现 18
5.3 前端页面及web页面逻辑 21
5.4本章小结 22
第6章 归纳总结 23
致谢 26
参考文献 24
第1章 绪论
1.1 项目背景及研究现状
信息技术发展日新月异,社交媒体与新闻媒体的电子化越来越普遍,导致互联网网络上的信息量剧增,日益繁杂的大数据信息背景下,人们得依靠有效的信息检索技术才能更高效的利用与查找所需的信息。其中图片资源随着社交媒体与电子新闻媒体的兴起而备受关注。从大量图片中搜索所需要的相似图片,也即准确的以图搜图,按图的内容去搜索相似的图片变得越来越受关注。
图像的管理方式多是文件系统来统一管理(参见文献[1]),但是由于其操作得逐个打开访问,导致查找访问效率较低,在面对大量图像数据时,其运行效率十分低下。但是由于其简便统一的操作借口,使它得以沿用至今。早期的图像搜索是以数据库管理的,将图像数据和附加的一些描述信息组合成一个实体存储在数据库中,这种方法往往需要人工的为每张图像添加关键描述信息。然后再利用图像和描述信息对应的关系建立图像的描述信息向量,并对处理该向量建立索引;最后搜索阶段按照搜索图片的控制条件,也即输入图片的关键描述信息,按照关键信息向量进行搜索匹配。上述方法实质上为基于文本内容的图片搜索匹配。其不依靠分析图片本身的图像信息特征去评估图片而是通过人为的添加图片的描述信息,进而通过描述信息去搜索图片。而上述图片检索系统在早期的图书管理系统,博物馆文物管理系统等较为小型的数据库中表现较好,人工标注的工作量较为有限,而且分类信息明细准确,进而进行相关属性的图片检索得到的效果较为满足需求。但是由于现有的数据库越来越庞大,而且图片种类不仅仅限于某一特定领域,而是整个互联网环境的图片资源。人工进行对图片进行标注极不现实,故而需要依照分析图片本身的特征信息进行检索的方法实现海量图片数据的检索。
目前笔者了解到谷歌图片搜索和TinEye搜索引擎搜索分别提供搜索相似图片和图片背景定位。两者原理都是利用了"感知哈希算法"(Perceptual hash algorithm),对每张图片生成一个“指纹”字符串,然后比较不同图片的指纹,结果越相近,图片越相似,具体算法介绍可参考文章。所以在图片搜索处理方面更能贴合用户的需求。