基于主题模型的文档标签语义分类系统开题报告
2021-03-10 23:42:58
1. 研究目的与意义(文献综述)
随着计算机技术、网络技术和信息处理技术的快速发展,网络作为一种新的信息交流和通讯工具,成为人们获取信息的重要来源,深刻地改变了人们的学习、工作和生活方式。其中,数字阅读作为一种重要的阅读方式也日益普及。截至2010年底,中国电子书总量已达115万种,年新增18万种;单独出版的数字报已达700份以上,电子期刊已近万种。在这样一个数据信息呈现爆炸式的增长的时代,人们的阅读重心也从传统的纸质书籍刊物逐渐地转向了数字图书。
数字图书以其海量的资源规模,和基于互联网、手机、数字电视、智能移动终端等各种媒体渠道的服务,为我们提供了一个高度共享的平台。人们置身于这样一个信息无处不在的环境中,这不光光为数字图书提供了更加丰富的资源内容,同时也给数字图书的精确搜索带来了难题——如何在成千上万本图书中迅速快捷地查找到满足自己需求的书籍呢?这就涉及到如何判断文档相似性,如何根据文档内容及语义对其进行分类等问题。
在信息检索挖掘领域,传统上判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如tf-idf(term frequency–inverse documentfrequency)方法,通过某个词或短语在一篇文章中出现的频率tf高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,并用其进行文档分类。然而这种方法具有一个比较大的缺陷,即没有考虑到文字背后的语义关联,可能在两个文档中共同出现的单词微乎其微甚至没有,但它们在语义上的联系却十分紧密。例如,“乔布斯去世了”与“苹果的价格会不会降低呢”,按照传统的分类方法这两个句子毫不相似,但事实上它们的语义联系是十分紧密的。所以在判断文档相关性的时候需要考虑到文档的语义,这便需要使用主题模型,本文所介绍的lda模型就是其中一种比较有效的模型。本课题利用lda模型对数字图书标签进行分析分类,从而完成对图书自动贴标签功能,使得用户在搜索图书时能迅速找到满足自己需要的结果。
2. 研究的基本内容与方案
本课题所要研究的基本内容及目标如下:通过深入细致地学习主题模型,尤其是lda(latent dirichlet allocation)模型,了解主题模型分类的经典方法,深入理解lda模型的思想和原理,弄清楚lda模型的来龙去脉;并且学习实现lda模型的相关算法;最后,在一定的数据集上,利用lda模型对数字图书进行分类,完成图书自动贴标签功能。
选择python作为实现相关算法的编程语言。首先,python具有清晰的语法结构,python开发环境已经附带如列表、元组、字典等数据结构,直接使用可使得实现抽象的数学概念非常简单。其次,python语言处理和操作文本文件简单,易于处理非数值型数据。最后,可以利用丰富的模块库缩短开发周期。例如scipy和numpy等函数库都实现了向量和矩阵操作。
主要思想:首先选定一个主题向量θ,确定每个主题被选择的概率。然后在生成每个单词的时候,从主题分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词。
3. 研究计划与安排
(1)2017/1/14—2017/2/28:确定选题,查阅文献资料,撰写开题报告;
(2)2017/3/15—2017/4/30:完成外文翻译、系统架构、程序设计与开发、系统测试与完善;
(3)2017/5/1—2017/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1] douglas a. smith, charles mcmanis: "classificationof text to subject using lda". ieee international conference on semanticcomputing, 2015
[2]wu x, fang l, wang p, et al. performance of using ldafor chinese news text classification[c]// electrical and computer engineering.ieee, 2015:1260-1264.