中文垃圾短文本的识别方法研究开题报告
2020-02-11 00:36:38
1. 研究目的与意义(文献综述)
1.1 目的及意义
所谓短文本主要是指手机短信、微博、商品评论、论坛帖子等一类长度较短,字数有限的文本。在该类短文本中,往往存在着大量的违反信息交互平台使用规定的违法的垃圾类文本,例如垃圾短信、广告微博、虚假评论等。由于短文本长度较短,字数有限,编辑来源广泛且内容编辑存在诸多不规范。因此,对其进行二分类,识别其中的垃圾类短文本时将会面临三个问题: (1)数据噪声大; (2)训练数据集不平衡; (3) 如果直接采用基于词表的向量空间模型来表示短文本,将会导致特征向量过于稀疏且维度较高。
就手机短信而言,据360发布的《2016年度手机安全状况报告》显示,2016年360手机卫士为全国用户拦截各类垃圾短信约173.5亿条,其中,广告推广类垃圾短信最多,所占比例高达92.2%"1。而对于商品评论,随着近年来电子商务在我国的蓬勃发展,越来越多的人倾向于网上消费,购买商品或服务。同时,消费者还可以对所购买的商品或服务根据自身的消费体验发表相关评论,从而供其他有购买意愿的顾客作为参考。然而,在这些大量评论中存在的一些与商品无关的、不真实的或者涉及广告推广的等诸多垃圾类评论,不仅容易误导消费者的购买行为,损害消费者的利益,而且扰乱了网络环境的正常秩序,严重影响了网络市场的正常竞争。因此,对短文本进行分类研究,识别出其中的垃圾类信息,在当今信息化时代背景下具有重要意义。
2. 研究的基本内容与方案
2.1 基本内容
短文本有如下特点:(1)长度短,短则几个词,长也不过几十个词,信息单元少;(2)在开放域状态下,词语总量大,用词重复率不高;(3)信息更新快,新词出现频繁。这些因素导致当前主流的分类方法在短文本分类方面力显不足。垃圾短文本识别的实质就是对短文本进行二分类,将其分为正常短文本、垃圾短文本。目前关于短文本分类的研究主要集中在如何解决短文本长度较短、信息量不足、特征稀疏的问题上,本文将要进行的主要工作包括如下:
1) 预处理。预处理工作主要包括:错别字纠正、繁体字转换、字母大小写转换、停用词去除等。因此,本文将根据短文本自身的特点,在尽量不丢失信息的情况下,对其进行预处理,在一定程度上去除数据集中存在的噪声。
2) 特征提取。对于分类而言,提取比较具有类别区分性的特征来向量化表示数据实例,时取得良好分类效果的重要一步。在内容方面提取的特征包括“标点符号”“垃圾关键词”“短信长度”等。
3. 研究计划与安排
1~3周:调研,完成开题报告。4周:学习人工智能、python编程。
5~6周:研究设计短文本中文分词及特征提取方法。
7~8周:设计垃圾短文本识别算法。
4. 参考文献(12篇以上)
[1] wesley chun.python核心编程[m].人民邮电出版社,2016.05[2] eric matthes.python教程从入门到实践[m].人民邮电出版社,2016.07。
[3] 赖文辉,乔宇鹏.基于词向量和卷积神经网络的垃圾短信识别方法[j].计算机应用,2018,38(9):2469-2476。
[4] 江大鹏.基于词向量的短文本分类方法研究[d].浙江大学,2015。