基于词内涵的文本分类算法研究开题报告
2022-01-04 21:12:12
全文总字数:2192字
1. 研究目的与意义及国内外研究现状
随着internet网络资源快速发展,人们不仅重视信息的有效性,而且更加关注信息获取的经济性。因此,准确地获取有效信息,高效地应用有价值信息显得十分重要。文本分类是信息检索、知识挖掘的关键技术,如何使分类效果更加精确成为信息检索领域的研究热点。但是,通常的检索方法只能实现对同一语种内的文献进行检索,因此检索的文献范围受到了语种的限制。网络中开放的文本资源呈爆炸式增涨,单一语种检索的局限性越来越明显。能在不同语种中检索,获取多渠道多方面的信息成为互联网时代信息获取新的需求。文本分类的方法有很多,本文的方法是基于词内涵的文本分类算法研究。词内涵,即词与词之间的关系,包括语境、词语共同意义等等。通过以句子为单位,分析词与词之间的关系,重点研究词的内涵分布,通过词在句子中的位置与关联关系,再分析词在句子中出现的频率,即共现关系,然后设计算法,实现文本的分类,设计并实现相关的算法与实验,是此次研究的目的。 这样对于实现跨语种文本检索提供了很大的帮助。文本检索技术在生活学习中,有着非常广泛的应用,给我们的生活学习带来了高效和方便。在互联网方面,随着互联网进入人们的日常必需行列,其内容也爆炸性增长。互联网大多内容是标记文本,所以文本信息处理技术能发挥巨大作用。
国内外研究现状
国外对文本分类的研究较早,20世纪50年代末,ibm公司对该领域进行开创性的研究。目前自动文本分类技术已经成为机器学习技术和信息检索技术的交汇点和结合点,成为所有基于内容的自动文本管理技术的重要基础。近几年来,新出现的文本分类方法主要是基于粗糙集理论的文本分类方法、基于群的文本分类方法、多分类器融合的方法以及一些经典分类器的改进或者变形如knnmodel、cb-svm等。
国内对文本分类研究比较晚,始于20世纪80年代初期。1981年,侯汉清教授首先探讨了计算机在文本分类工作中的应用。随后,国内很多学者在这方面进行比较深入的研究,产生了一些文本分类系统。到目前为止,已经研究出的经典文本分类方法主要包括:rocchio方法、决策树方法、贝叶斯分类、k近邻算法和支持向量机等分类方法。
2. 研究的基本内容
在理论研究的基础上,将词内涵作为分析的要点,以单个词语共现频率关系模拟模型,构造出可量化的词内涵。
从而实现基于词内涵的文本分类算法研究,为跨语种搜索提供参考。
将词内涵融入搜索之中,在一定程度保证跨语种翻译的准确的同时,能够更加准确地搜索到相关文本,避免了复杂的各语种的语法分析,并且找到一个多语种通用的、可行的搜索方式。
3. 实施方案、进度安排及预期效果
准备阶段:3月前,先利用网上下载的语料库进行分析,先研究词内涵并写出词与词之间的共现关系,了解课题研究现状;后期了解文本分析算法,写好论文的绪论部分。开题阶段:至4月1日,完成总体设计,撰写相应部分的论文。
实现阶段:至4月20日,完成基于词内涵的文本分类算法研究并通过代码验证。
论文完成阶段:至5月,完成论文及总结部分,完成论文初稿。
4. 参考文献
[1]北京大学计算机科学技术研究所.杨建武.文本检索技术.
[2]王建华.论语境的功能及实现[j].修辞学习,2003(2).
[3]陈进.语境的本质及其特征[j].西安外国语学院学报,1997(4).