登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 理工学类 > 自动化 > 正文

基于支持向量机的文本分类研究文献综述

 2020-05-05 17:29:08  

文 献 综 述

一、 研究背景

文档分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。根据1998年的统计结果,全世界每年出版大约156000种期刊,而且这一数字以每年12000种的速度递增。1999 年的统计结果表明,Internet上有约3.5亿个静态HTML页面,每天增加将近100万。而且,在我们日常所接触的信息中,绝大部分信息是文本。它们或者以印刷品的方式存在,或者以电子文档的形式出现。近十多年来,随着Internet 的飞速发展,越来越多的文本信息表现为电子文档的形式。

这进一步加剧了存在已久的”信息过载”。为了获取并处理感兴趣和对于自己有价值的文本,人们不得不花费大量的时间对所能获得的文本进行分类和筛选,过滤掉不需要或无用的内容,这通常是一个费时费力的过程。不仅如此,用户在人为地进行筛选和过滤文本时,将不可避免地受到种种负面影响:心血管疾病、视力减弱、时间和注意力的浪费等。从生产效率和人类健康两方面来看,实现文本的自动分类是现在亟待解决的难题。

二、 本课题的研究意义

使用计算机来代替人工完成繁复的文本分类的处理工作,将减轻人类的工作负担并且提高对文本的处理速度,无疑有助于增加单位时间内的文本处理量,帮助用户将精力集中到感兴趣和有帮助的内容上来;同时也可以降低信息过载对用户的健康危害。由此可见,研究如何使用计算机对信息进行分类具有重要的现实意义。

当前流行的文本分类算法有KNN、k-means、决策树、感知器、BP神经网络、支持向量机等,它们有各自的特性和适用范围,已经在各种分类问题上获得广泛的应用,如人脸识别、物体辨认、视频捕捉、音频处理等,其理论还在发展之中,应用方式也在不断的改进。

在对文本分类的研究中,支持向量机(SVM)得到了广泛应用,它尤其适用于高维数据的分类问题,相关理论基础成熟,并且在训练过程和使用过程中并不复杂,已有很多通用的SVM工具以供使用,被广泛运用于模式识别的各个领域,如函数拟合、物体识别、字符检测、文本分类、语音处理等等,并且有很好的表现。目前,SVM的理论和实践仍在不断发展,随着研究的深入和在不同领域的应用,各种改进的SVM模型被提出,并且获得更好的效果和更广泛的应用。该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高:在误分度与精确度指标上匹配结果更加均衡。

三、国内外研究现状综述

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图