基于弱随机映射的目标检索技术研究
Research on Weakly Random Mapping Based Object Retrieval Technologies
近年来,随着互联网和多媒体技术的迅猛发展,使得多媒体数据呈"爆炸式"增长,形成了海量的信息环境.面对海量的图像数据,人们往往对其中的一些具体目标感兴趣,因此,如何准确、高效地从中检索出包含用户感兴趣目标的图像已成为亟待解决的问题.论文主要对目标检索技术进行研究,其贡献体现在如下三个方面:(1)在目标检索领域,当前主流的解决方案是视觉词典法(Bag of Visual Words,BoVW),然而,传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性等问题.为此,本文提出了一种弱随机化视觉词典组模型.该模型首先采用精确欧氏位置敏感哈希(Exact Euclidean Locality Sensitive Hashing, E~2LSH)对训练图像库的SIFT特征点进行聚类;然后,借鉴随机森林思想对哈希函数的选取进行有效地监督以降低E~2LSH算法本身的随机性;最后,采用多个哈希表生成多个视觉词典构建弱随机化视觉词典组,进一步增强视觉词典的区分性.实验结果表明,较之传统的聚类算法,该模型能取得更好的聚类效果,增强了视觉单词的独特性,并提高了视觉词典生成的效率.(2)结合弱随机化视觉词典组和查询扩展技术,提出了一种基于弱随机化视觉词典组和查询扩展的目标检索方法.首先,该方法在由E~2LSH映射完成图像特征点与视觉单词的匹配的同时,采用tf-idf算法对视觉单词重新分配权重来构建视觉词汇直方图;然后,针对内存消耗大的问题,又将图像的直方图特征库存为索引文件,而不再直接进行内存操作;最后,引入一种平均查询扩展策略(Average Query Expansion)来丰富初始目标区域的信息量以进一步提高检索性能.实验结果表明该方法能够较大地提高目标检索精度,获取更多与查询目标相关的图像,同时,对大规模数据库有较好的适用性.(3)为更好地利用视觉单词间的空间信息和目标区域的上下文信息,结合弱随机化视觉词典组和上下文语义信息,提出了一种基于弱随机化视觉词典组和上下文语义信息的目标检索方法.该方法在语言模型(Language Model, LM)的基础上,加入了各视觉单词的空间位置信息,并利用目标区域周围的视觉单元构建了包含目标上下文语义信息的目标模型;然后,引入K-L散度(Kullback-Leibler divergence)进行相似性度量完成目标检索.实验结果表明该方法对查询目标区域模糊、凌乱和部分被遮挡的情况表现良好,能够进一步增强目标检索性能.总之,在模型方面,通过对随机映射的扩展和改进,使得生成的视觉词典的区分性更强、识别率更高,具有可扩展性;在关键技术方面,引入查询扩展和上下文语义信息,并与弱随机化视觉词典组相结合,形成新型目标检索技术,提高了模型和相关算法的鲁棒性,使得目标检索系统在复杂环境下依然保持良好的性能.
- 作者:
- 赵永威
- 学位授予单位:
- 解放军信息工程大学
- 专业名称:
- 信号与信息处理
- 授予学位:
- 硕士
- 学位年度:
- 2012年
- 导师姓名:
- 李弼程
- 中图分类号:
- TP391.41
- 关键词:
- 目标检索;视觉词典法;精确欧式位置敏感哈希;弱随机化视觉词典组;查询扩展;语言模型;上下文语义信息;K-L散度
- Object Retrieval;Bag of Visual Words Method;Exact Euclidean LocalitySensitive Hashing;Weakly Randomized Visual Vocabularies;Query Expansion;LanguageModel;Contextual Semantic Information;Kullback-Leibler Divergence
- 基金项目:
- 国家自然科学