基于支持向量机的文本分类研究文献综述

2020-05-05 17:29:08

文献综述

一、研究背景

文档分类作为处理和组织大量文本数据的关键技术，可以在较大程度上解决信息杂乱现象的问题，方便用户准确地定位所需的信息和分流信息。根据1998年的统计结果,全世界每年出版大约156000种期刊，而且这一数字以每年12000种的速度递增。1999 年的统计结果表明，Internet上有约3.5亿个静态HTML页面，每天增加将近100万。而且，在我们日常所接触的信息中，绝大部分信息是文本。它们或者以印刷品的方式存在，或者以电子文档的形式出现。近十多年来，随着Internet 的飞速发展，越来越多的文本信息表现为电子文档的形式。

这进一步加剧了存在已久的”信息过载”。为了获取并处理感兴趣和对于自己有价值的文本，人们不得不花费大量的时间对所能获得的文本进行分类和筛选，过滤掉不需要或无用的内容，这通常是一个费时费力的过程。不仅如此，用户在人为地进行筛选和过滤文本时，将不可避免地受到种种负面影响:心血管疾病、视力减弱、时间和注意力的浪费等。从生产效率和人类健康两方面来看，实现文本的自动分类是现在亟待解决的难题。

二、本课题的研究意义

使用计算机来代替人工完成繁复的文本分类的处理工作，将减轻人类的工作负担并且提高对文本的处理速度，无疑有助于增加单位时间内的文本处理量，帮助用户将精力集中到感兴趣和有帮助的内容上来;同时也可以降低信息过载对用户的健康危害。由此可见，研究如何使用计算机对信息进行分类具有重要的现实意义。

当前流行的文本分类算法有KNN、k-means、决策树、感知器、BP神经网络、支持向量机等，它们有各自的特性和适用范围，已经在各种分类问题上获得广泛的应用，如人脸识别、物体辨认、视频捕捉、音频处理等，其理论还在发展之中，应用方式也在不断的改进。

在对文本分类的研究中，支持向量机（SVM）得到了广泛应用，它尤其适用于高维数据的分类问题，相关理论基础成熟，并且在训练过程和使用过程中并不复杂，已有很多通用的SVM工具以供使用，被广泛运用于模式识别的各个领域，如函数拟合、物体识别、字符检测、文本分类、语音处理等等，并且有很好的表现。目前，SVM的理论和实践仍在不断发展，随着研究的深入和在不同领域的应用，各种改进的SVM模型被提出，并且获得更好的效果和更广泛的应用。该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高:在误分度与精确度指标上匹配结果更加均衡。

三、国内外研究现状综述

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码