基于支持向量机的中文网页分类器的设计与实现开题报告
2021-03-11 00:03:16
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
随着我们踏入信息化时代的脚步变得越来越快,微博,微信等新兴的网络自媒体日益流行起来,网页信息量出现爆炸性增长,信息化时代的典型特点是用户的参与性和交互性,每个互联网用户都可以参与到网页信息的制作和传播过程中来,因此产生出的信息量是十分巨大的。面对网络上海量的数据,人们要想从其中有效地获取自己所需要的信息已经变得越来越困难。因此,如何对网页中各种资源进行有效的组织和管理,帮助用户快速有效地查找到真正所需要的信息就成为一个非常有意义的课题。
为了解决这一问题,人们将传统的文本分类技术引入到网页的文本分类中来。信息收集员对于爆炸式的网页内容,传统的方法是对网上信息进行手工分类,按照信息归属的类别,进行管理和组织,在一定程度上,为人们提供一种相对快捷有效的信息获取手段。然而,这种手工分类的做法越来越跟不上信息爆炸式的增长,而且耗时耗力,还可能因为信息员的原因,导致分类出现纰漏。因此,研究网页自动分类技术,能够对复杂的网页内容进行分类,供用户使用,显得更加重要和现实意义[1]。
2. 研究的基本内容与方案
2.1基于svm的中文网页分类模型
中文网页分类和文本分类归根到底都是对文本信息的分类,都存在着文本信息的表示、分类信息的获取等特点。正是基于这样的共性使得我们可以借鉴文本分类中的技术来处理网页分类问题。但文本分类和页面分类又有所不同,比如网页信息相对于文本信息更开放,风格不固定;网页分类的类别比文本分类的类别更多,为了便于用户浏览和选择,一般要求类别有层次关系;网页的分类体系随着信息的变化会做一些变动,并且很难有一个统一的标准。简单地说,中文网页分类是按照预先给定的主题类别,为文档集合中的每个文档确定一个类别,这样,用户不但能够方便地浏览文档,还可以通过限制搜索引擎范围来使文档的查找更为容易,从而利用文本分类技术可以快速、有效地对大量文档进行自动分类。所以中文网页分类系统的任务是:在给定分类体系下,根据已经掌握的每类若干样本的数据信息,总结出分类规律性,建立判别公式和判别规则,然后,当遇到新样本点时,只需根据总结出的判别公式和判别规则,就能判别该样本点的所属类别[19]。
从上面的分析中,我们可以知道网页分类过程就是一个建立从页面文本属性到页面文本类别空间的映射过程,它主要分为训练过程和分类过程两个阶段。本文提出的基于支持向量机方法的中文网页文本分类也是包括这两个部分,其中所实现分类系统的结构模型如图l所示,此模型在svm训练过程就是对凸二次规划最优化求解的过程,而且该解也是全局最优解。在训练完成之后,就可以对新的样本通过训练得到的分类判别函数进行分类测试。
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。
第6-9周:编程实现各算法,并进行仿真调试。
4. 参考文献(12篇以上)
[1] 陈安,陈宁,周龙骤等.数据挖掘技术及应用[m].北京:科学出版社,2006.3
[2] mallat s,zhang z.matching pursuit with time-frequency dictionaries[j].ieee trans on signal processing,1993,41(12):3397-3415.
[3] arthur p l,philipos c l.voiced/unvoiced speech discrimination in noise using gabor atomic decomposition[c]//proc of ieee icassp,hong kong 2003:820-828.