短文本分类算法的研究开题报告
2021-12-18 21:26:11
全文总字数:2156字
1. 研究目的与意义及国内外研究现状
随着生产力的发展和科学技术的进步,特别是计算机网络技术和通信技术的快速发展,人们对于信息资源的重视越来越强,这些都促进了因特网技术的迅猛崛起与快速发展。
因特网作为一个全球计算机互联网络,具有很多图像、声音、文本等等各种信息和数据。例如越来越多的人都在使用诸如qq等各种聊天工具进行交流和共享信息,聊天工具的普及给我们的生活带来了极大的便利。但处于这个信息爆炸的时代,人们的聊天内容也纷繁复杂,除重要信息外其实还有很大一部分垃圾信息即没有任何价值的信息也展示在聊天信息中。信息量的剧增给人们在浏览和获取自己感兴趣信息时带来巨大的不便。继而信息的处理就显得非常重要。
在信息处理时采用文本分类技术辅助网络信息资源的组织与管理,不仅能使人们从繁重的手工分类劳动中解放出来,而且节省大量的人力,还能提高信息组织和管理的效率,从而能够管理更多的信息资源。如何在如此海量的信息中获得有价值的信息,已经成为提升用户体验和信息获取效率的不容忽视的问题。
2. 研究的基本内容
文本的研究工作是建立在目前已有的理论和成果之上的,重点在于svm算法的研究。在文本表示模型、分类方法的基础、文本特征的选择、文本分类的研究意义及现状、文本特征加权、文本预处理上,对svm分类理论进行了较为深入地研究。
本文主要研究内容如下:
(1)支持向量机(svm)文本分类理论
3. 实施方案、进度安排及预期效果
方案:
1.svm是基于结构风险最小化理论之上的特征空间中建构最优分割超平面,使得学习器得到全局最优化;
2.在理论分析的基础上设计系统功能模块与整体编写文本分类系统;
4. 参考文献
[1]方辉,王倩. 支持向量机的算法研究学.长春师范学院学报(自然科学版)2007,26(3)
[2]叶志刚.基于svm在文本分类算法中的应用.哈尔滨:哈尔滨工程大学,2006.1
[3]王晓霞,尹四清.一种基于向量机的分类算法.山西电子技术2007,3:18-25