图文匹配算法的研究文献综述
2020-04-30 16:14:28
网络出版和自媒体高度发展的今天,互联网已经成为人们获取信息的重要来源。根据TalkingData统计数据,从2017年以来,由于内容过剩,大部分自媒体推送文章阅读量平均从12%跌至5%,关注人数增长缓慢,甚至出现负增长。随着内容进一步爆炸,用户的注意力越来越稀缺,根据企鹅智酷调研发现,九成读者关注不到50个自媒体。而78.3%的读者的高频关注或置顶的自媒体数量不足5个。读者对很多已经关注账号推送的文章信息打开阅读概率越来越小。读者点开推送文章的概率和完整阅读的概率在逐渐递减。面对这样的情况,最核心的还是回归到深耕内容创作上,内容形式上要更加有趣有料。所以为了丰富用户阅读体验,使文章个性化、互动性强,优质文章应该精准配图。为每个段落附上匹配度最高的配图能有效提高阅读趣味性和用户粘性。传统的文章生产模式是先撰写文章后,再根据文章内容人工搜图配图,此方法耗时大、精准性差。而采用机器自动配图的方式可以快速、精准的为文章段落配图,极大提高网络出版和自媒体生产效率,“机器 人工”的编辑方式有望成为主流生产模式。
一些国内外互联网企业针对文本自动配图问题已提出了自己的解决方案。在2016年Google I/O大会上,Google首次公布了文字自动配图技术,基于深度学习生成文本语义特征,再根据文本语义推荐图片用于聊天。该技术更多的是推导语义,然后用语义搜图,并没有涉及到对图像的处理。而Google在2016年中旬提出的基于深度学习的图像语义分析方法则更多侧重于图像含义的处理。腾讯在QQ空间中也运用了自动配图的技术,采用提取文本关键字,再根据关键字和图像标签相似度推荐图片。但腾讯的自动配图只是简单的提取了关键字,然后在图片库匹配,并没有自学习的功能。
{title}2. 研究的基本内容与方案
{title}
研究的基本内容:本课题拟研究文本的自动配图问题,力图通过自然语言处理、图形图像识别技术等,解决图文匹配问题,提升网络新闻的生产效率、自媒体网站的用户体验。拟研究的内容有文本的语义抽取、图像的语义抽取、文本和图像距离模型。
目标:构建图片自动推荐模型,为输入文章匹配10张最关联的图片。
拟采用的技术方案及措施:首先使用中文分词工具对文本进行分词,然后在训练集上训练TF-IDF模型,将文本转化为稀疏向量表示;采用VGGnet使图像向量化,采用余弦距离衡量文本向量和图像向量之间的距离,为了使图像向量与对应的文本向量距离更小,将文本向量作为图像的category进行训练。在测试集上进行结果预测时,使用文本编码模型将所有文本进行编码,使用图像编码模型对所有图片进行编码。计算两个矩阵相似度,得到的结果矩阵的每个元素为一个文本和一个图片之间的余弦距离。对于每个文本,将对应的所有距离进行排序,选择的前10的图像作为推荐结果。