Scikit和CNTK机器学习方法研究开题报告
2020-04-12 08:50:55
1. 研究目的与意义(文献综述)
二十一世纪以来,中国互联网行业取得了蓬勃发展,网民数量与互联网普及率不断增长,中国互联网信息中心发布的第 38 次《中国互联网发展状况统计报告》显示,截至 2016 年 6 月,我国网民数量连续多年保持增长,互联网普及率超过百分之五十。认知心理学研巧表明:人们的信息交流行为受情感影响。在现实社会中,互联网用户的行为和信息传播包含着用户群所表达的情感信息,并通过社会关系链传递。随着互联网的飞速发展和社交媒体的普及,网上产生了大量的用户衍生文本,而这些文本主观性很强并带有明显的情感倾向和丰富的情感信息,具有很高的研究价值。情感分析技术被广泛应用于电影评论分析、在线购物平台商品评价分析、政治选举结果预测、金融股票走势预测、顾客购买习惯分析等领域。运用情感分析技术,可以通过分析观众对电影的褒贬评价数据,预测电影票房成绩,也可以识别网购消费者对产品质量、价格、品质等属性的评价,还可以统计政治选举中不同政党的支持率,预测选举结果等。通过情感分类技术对信息进行归纳处理,能够使互联网资源得到更加充分的利用,可以发现商品的特定感情色彩信息,掌握用户的消费习惯,分析总结热点事件的舆情,从而为个人、企业、政府等提供重要的决策依据。
近几年来,学术界的许多学者对于情感分类也保持了高度的关注,情感分类成为了自然语言处理和信息检索领域的热点研究问题。最近几年在conference on information and knowledge management(cikm)、association of computational linguistics (acl), special interest group on information retrieval (sigir), knowledge discovery and data mining(sigkdd)等国际顶级会议上,许多学者发表了有关情感分类的文章,取得了丰硕的成果。相对于英语,中文情感分析研宄起步较晚,但也已取得了许多研宄成果,国内的许多学术会议都收录了相关论文并对该领域保持高度关注。
pang、lee等人在情感分类中引入机器学习方法对电影评论进行情感分类,对于文本的N元句法和词性等特征的选取,其使用了基于词袋的框架,采取多种分类器结果比较的方法,通过svm、bayes、最大熵分类器,进行情感分析比较,实验表明,支持向量机在文本分类任务中取得了较好效果。wang等人通过对情感词和程度副词的选择最终形成特征库,然后通过贝叶斯算法对文本进行情感分析。gamon对于文本情感特征抽取问题,采用了特征融合的方法,并且在有噪音干扰的条件下,对评论数据集的情感分类任务中,取得了较好的分类效果。wei jin等主要对机器学习系统进行了相关的研究工作,完成了情感词自动抽取以及情感倾向性分类。刘志明等使用不同的机器学习算法、不同的特征选取算法及相应的特征权重计算方法对微博的评论文本进斤了情感分类。li将文本分为个人情感文本的和非个人情感文本的两类来进行半监督学习分类。dasgupta通过谱聚类方法查找容易区分的文本。然后利用主动学习方法为不容易区分的文本手工标注。最后通过迁移学习的方法完成情感分类。
2. 研究的基本内容与方案
1.研究的基本内容
(1)文本预处理
3. 研究计划与安排
1-3周 | 查阅文献、开题报告、外文翻译 |
3-5周 | Python语言学习 |
5-7周 | 文本预处理研究,论文撰写 |
7-9周 | 特征选择研究,论文撰写 |
9-11周 | 机器学习部分研究 论文撰写 |
12-13周 | 论文初稿完成 |
14周 | 资料整理、完成毕业论文答辩PPT等 |
15周 | 论文答辩 |
4. 参考文献(12篇以上)
[1]Marijana Zeki#263;-Su#353;ac,Sanja Pfeifer,Nata#353;a #352;arlija. A Comparison of Machine Learning Methods in a High-Dimensional Classification Problem[J]. Business Systems Research Journal,2014,5(3).
[2]Xiao-Wei Wang,Dan Nie,Bao-Liang Lu. Emotional state classification from EEG data using machine learning approach[J]. Neurocomputing,2014,129.
[3]M. Ghiassi,David Lio,Brian Moon. Pre-production forecasting of movie revenues with a dynamic artificial neural network[J]. Expert Systems With Applications,2015,42(6)
[4]黄时友. 面向话题型微博评论的观点识别及其情感倾向分析研究[D].杭州电子科技大学,2015.
[5]袁丁. 中文短文本的情感分析[D].北京邮电大学,2015.
[6]沈磊. 基于规则与机器学习方法的中文微博情感分析研究[D].安徽大学,2015.
[7]孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014,31(07):177-181.
[8]刘明昌. 豆瓣网站电影在线评分的混合预测模型研究[D].河北大学,2017.
[9]苏煜宇. 中文文本情感分析中的特征选择和权重研究[D].南京邮电大学,2017.
[10]孔庆超,毛文吉,张育浩.社交网站中用户评论行为预测[J].智能系统学报,2015,10(03):349-353.
[11]黄时友. 面向话题型微博评论的观点识别及其情感倾向分析研究[D].杭州电子科技大学,2015.
[12]柳淑婷. 基于社交网络的舆情关键技术研究[D].吉林大学,2017.
[13]杨忆,李建国,葛方振.基于Scikit-Learn的垃圾短信过滤方法实证研究[J].淮北师范大学学报(自然科学版),2016,37(04):39-41.
[14]樊小超. 基于机器学习的中文文本主题分类及情感分类研究[D].南京理工大学,2014.
[15]陈可佳.社会网络分析中的机器学习技术综述[J].南京邮电大学学报(自然科学版),2011,31(03):83-89 93.
|
|
|
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
|
|
| |
| |
| |
| |
| |
| |
| |
| |
| |
|