支持向量机在文本分类的运用开题报告
2022-01-06 21:22:53
全文总字数:1617字
1. 研究目的与意义及国内外研究现状
随着计算机技术的飞速发展以及internet的普及和运用,互联网上电子文档急剧增多,如何在海量中文信息中提取有用信息并有效利用,越来越具有现实意义。
国内外研究现状
近年来成为研究热点的统计学习理论是一种专门研究小样本情况下机器学习规律的理论。统计学习理论为解决有限样本学习问题提供了一个统一的框架,在这一理论框架基础上发展起来了一种新的通用学习方法——支持向量(svm)。svm根据有限的样本信息,在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化能力;svm能以任意的精度逼近任意函数。这些特点显示了svm在解决非线性和不确定性系统建模与控制方面的巨大潜力。
支持向量机(support vector machine,svm)是corinna cortes和vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。svm已经在图像识别、信号处理和基因图谱识别等方面得到了成功的应用,显示了它的优势。svm 通过核函数实现到高维空间的非线性映射,所以适合于解决本质上非线性的分类、回归和密度函数估计等问题。支持向量方法也为样本分析、因子筛选、信息压缩、知识挖掘和数据修复等提供了新工具。对支持向量机的研究主要集中在对svm本身性质的研究以及加大支持向量机应用研究的深度和广度两方面。
2. 研究的基本内容
1、研究内容
本课题即是将svm非线性建模方法用于实际的文本样本数据,针对样本数据建立支持向量机非线性模型,再根据典型算法比如粒子群优化算法,遗传算法等算法进行优化模型的参数,从而实现更优更快的对文本进行分类。
主要研究支持向量机非线性建模方法,根据样本数据建立支持向量机非线性模型,并采用参数优化方法优化模型参数。通过学习国内外先进研究成果,自主学习和研究,在课题研究中选择适宜核函数,实现到高维空间的非线性映射,对具体的样本数据采用数理方法进行量化处理工作,选取适宜的输入向量,综合考虑各影响因素的影响,使分类结果达到较高精度,从而实现数据的分类。
3. 实施方案、进度安排及预期效果
1、实行方案
将文本样本数据中取一部分作为训练集,其余构成模型的验证集,然后训练模型,将训练好的模型应用于样本测试集的预测,可以得到模型的预测的准确率来衡量模型的优劣;最后应用参数优化方法优化参数,选取最佳参数,优化模型,提高非线性支持向量机模型的的预测准确率。
2、进度安排
4. 参考文献
-
丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报.2011(01)
-
曲凯阳.基于支持向量机文本分类研究[J].无线互联科技.2016(03)
- Ji Zhu,Saharon Rosset,Trevor Hastie,Rob Tibshirani.1-norm Support Verctor Machines