面向大数据检索的哈希算法研究开题报告
2021-03-11 00:24:17
1. 研究目的与意义(文献综述)
近些年,由于云计算、移动设备、互联网和物联网等技术的迅猛发展,每天将产生数以万计的信息,大数据时代翩然而至。根据国际数据公司的统计结果,预计到 2020 年全球的数据总量将超过 40zb,是 2011 年的数据量的 22 倍。大数据已经和人们的生活息息相关,从购物到住房,从娱乐到商务,所有的一切都和大数据紧密相联。
如何中海量数据中查找到用户所需要的数据信息,是一个非常具有挑战性的问题。而哈希技术,则是一种解决大数据检索问题的有效方案。哈希技术通过0-1二元编码将任意类型的数据映射到汉明空间中进行处理,例如图像、文本、音频与视频等内容。二元编码的优点在于一方面能够大量节省计算机的存储空间,另外一方面能够加快检索速度。在汉明空间搜索的好处主要有:数据被高度压缩,因此可以载入内存;在汉明空间使用汉明距离进行搜索,而汉明距离可以使用逻辑运算,因而搜索速度很快。例如每一张图像大小是 800kb,那么一百万张这样的图像所需要的内存大约是 760gb,现在计算机的内存基本上无法全部加载,即使提取 512 维的 gist 特征,同样也需要 2gb 的内存,而 128 位的二进制编码仅需要 16mb 空间,可以看出使用哈希编码可以节省大量的内存空间。
局部敏感哈希(lsh)[17]是早期最经典的哈希方法之一,对之后哈希方法的发展起到了至关重要的作用,但其准确率低所以不能满足现实需求。为了克服lsh的种种缺陷与不足,weiss在2008年的时候提出了谱哈希(sph) [18]需要通过假设新的数据分布符合一个超矩形平面,才能得到哈希码。在现实应用中,数据一般是不会符合这种假设,因此实用效果差。之后,gong等人提出了迭代量化哈希(itq)[19]在sph的基础上,采用了迭代量化的形式,学习一个旋转矩阵,来修正投影方向和减小量化误差。最近,由于互联网上的数据种类变多,用户想要通过检索获得不同模态下的数据(比如,用户希望通过搜索文本来获得与文本相关的图像数据),因此,许多学者提出了跨模态哈希学习,例如:多视角哈希(cvh)[20]稀疏多模态哈希(sm2h)[21]等。
2. 研究的基本内容与方案
为了得到快速准确的搜索结果,我们要求哈希算法满足以下三个方面的要求:
- 对于给定的查询点,可以很容易计算其编码;
- 编码的位数要尽量少;
- 相似的数据对应的编码的汉明距离要小。
据此,我们拟采用在深入学习和研究现有哈希算法的基础上,提出一种基于分类器的监督哈希算法框架,并将支持向量机分类器或adaboost 分类器应用于此监督哈希算法框架中,有效地提高了检索的精度。根据训练数据及相应的类标,对同类数据设定相同的编码,则每一位编码可看作一个二分类问题,基于此训练每一位编码对应的分类器,得到对应位的哈希映射函数。
通过对类标传递算法的研究,提出一种基于类标传递的半监督哈希算法框架,并将本文提出的监督哈希算法应用到此半监督框架中。基于类标传递的半监督哈希算法首先根据数据及少量类标,使用邻图的构建方法,构建所有训练数据之间的近邻图,然后使用lgc算法估计未标记数据的类标,从而使得所有训练数据均含有类标。在使用类标传递算法得到所有训练数据的类标后,将训练数据和训练数据的类标作为监督哈希算法的输入,使用监督哈希算法学习得到哈希映射函数,并且对训练数据进行编码。
3. 研究计划与安排
1-3周:查阅文献,完成开题报告
4-6周:总体设计,完成论文综述
7-10周:改进与推广
11-13周:论证和检查
14-15周:写论文,提交初稿,给老师检查,修改定稿,答辩。
4. 参考文献(12篇以上)
[1] dell zhang, jun wang, deng cai, jinsong lu. self-taughthashing for fast similarity search. sigir 2010: 18-25
[2] jingkuan song, yang yang, yi yang, zi huang, heng taoshen. inter-media hashing for large-scale retrieval from heterogeneous datasources. sigmod conference 2013: 785-796
[3] fumin shen, chunhua shen, wei liu, heng tao shen.supervised discrete hashing. cvpr 2015: 37-45
您可能感兴趣的文章
- UI 和 UE 设计技术及其在 HTML5 网站开发中的地位的研究外文翻译资料
- .NET MVC框架在开发农业资源清单系统中的适应性外文翻译资料
- 使用Java平台针对数据库桥接层的Spring框架可靠性调查外文翻译资料
- 基于MVC架构的数据库和Web应用程序外文翻译资料
- 利用微服务SpringBoot 设计和开发公众投诉系统的后端应用。外文翻译资料
- 基于SSM框架的校园自行车租赁管理系统统计外文翻译资料
- 基于Android的校园交友社交应用的设计与开发外文翻译资料
- 基于Android的在线社交系统服务端的设计与实现外文翻译资料
- 基于Spring-boot微服务框架的学生成绩分析系统的设计与实现外文翻译资料
- 用于生成计算材料科学文献中使用的方法和参数的数据库的自动化工具外文翻译资料