短文本分类技术的研究开题报告
2022-01-16 20:13:52
全文总字数:1260字
1. 研究目的与意义及国内外研究现状
随着信息化时代的到来,人们获取外界信息越来越依赖互联网,如何在浩如烟海又纷繁芜杂的文本中掌握有效的信息变成了信息处理的一大目标,因此文本的自动分类已成为一项具有较大实用价值的关键技术。
而近年来,人们活跃的社交媒体渐渐从博客、论坛、贴吧到twitter、facebook、微博、微信朋友圈,特点就是文本的长度越来越短。因为编辑随意、发布便捷、形式简约、传播速度快等特点,短文本信息数据量爆炸式增长。不仅仅是普通用户,新闻记者、官方机构、政界领导人等也在社交媒体中发布信息,这使得短文本中蕴含了大量的有价值信息。
然而文本长度短,外部格式以及内容上的不规范、垃圾信息庞杂等特点,使得短文本分类技术面临着严峻的挑战。国内外研究现状
文本分类是有监督分类方法在文本中的一种应用。文本分类的流程大致是提取关键词(分词),将文本表征为特征向量的形式,根据特征向量分类。提取关键词技术较为成熟,多用打包好的分词工具,分类效果的好坏体现在特征值的表征办法和分类算法上。
2. 研究的基本内容
1.分析问题现状及研究现状2.介绍短文本分类的主要流程,并分别介绍各个流程中的常用方法3.分析特定短文本的特点4.选择合适的算法实现短文本的分类5.总结与展望
3. 实施方案、进度安排及预期效果
实施方案:阅读相关参考文献,完成论文。
进度安排:3月拟初稿,4月完善。
预期效果:深入学习并了解现阶段存在的短文本分类算法,并提出改善的见解。
4. 参考文献
[1]周志华.机器学习[m]. 北京:清华大学出版社, 2016.
[2]徐易.基于短文本的分类算法研究[d].上海:上海交通大学,2010.
[3]文永.社交媒体短文本分类方法研究[d].成都:电子科技大学,2018.