基于网络爬虫技术的电影点评情感分析研究开题报告
2021-02-25 13:13:45
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
随着互联网技术的发展,越来越多的人在网络上表达自己的情感和观点。这些海量数据可帮助企业了解产品的优缺点,为决策和对未来的预测提供更加深层和丰富的信息支持。人工浏览大量的信息并分析情感十分困难,本课题将基于爬虫技术和情感分类技术来分析电影评论中的情感倾向。
1.2 研究现状
文本情感分类目前正日益受到学术界和互联网企业界的关注。大致分为基于语义理解和基于有监督的机器学习两类。语义理解的优势在于其对不同领域的文本都可以进行情感分类,但容易受到中文存在的不同句式及搭配的影响,分类精度不高。有监督的机器学习虽然能够达到比较高的情感分类精度,但在一个领域方面得到较高分类能力的分类器不适应新领域的情感分类。
recchia g等人使用点互信息技术来评估词语与表示褒贬两个极性的基准词的相似度,以此判断这些词语属于哪一类,从而判断其倾向性[15]。
abhiteja gajjala提出了一个多层次模型的分类系统,并在实验中分别使用了weka的朴素贝叶斯分类器、svmlight的svm分类器、scikit learn的随机梯度下降分类器,结果表明随机梯度下降分类器的效果较好[8]。
徐军等人采用朴素贝叶斯分类器和最大熵分类器,采用布尔和词频特征权重,对新闻进行情感分类。实验表明,最大熵方法优于朴素贝叶斯方法,并且布尔权重性能不弱于词频特征权重[11]。
刘志明等人使用3种机器学习算法、3种特征选择算法以及3种特征项权重计算方法进行情感分类研究,实验证明采用svm结合ig和tfidf方法可以获得最好效果[10]。
特征选择是文本挖掘非常重要的一步,用来降维和提高分类的精确度。许多人专门对特征选择方法进行了研究。
yang y等人比较了5种特征选择方法,包括文档频数、信息增益、互信息、chi和单词权[9]。张玉芳等人对传统的tfidf方法进行了改进,并采用遗传算法训练分类器,结果表明改进的tfidf是有效的[12]。
唐慧丰等以 n-gram 以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、chi和文档频率作为不同的特征选择方法,以中心向量法、 knn、winnow、nb和svm作为不同的分类方法,在不同的特征数量和不同规模的训练集下分别进行了中文情感分类实验,结果表明bigrams特征表示方法、信息增益特征选择方法和svm分类方法的结合取得了较好的结果[14]。
2. 研究的基本内容与方案
2.1 目标(开发的系统概况描述)
本课题将基于对豆瓣网的电影评论的爬取,结合机器学习方法建立分类系统,分析文本的情感。
2.2 基本内容
3. 研究计划与安排
第1—3周:查阅相关文献资料,明确研究内容,完成开题报告,书写摘要并完成相关英文文献翻译。
第4-6周:研究爬虫技术和机器学习方法,进行系统的初步设计。
第7-12周:系统的具体实现,调试。
第13-14周:毕业设计相关文档的撰写。
第15周:完成并修改毕业论文。
4. 参考文献(12篇以上)
[1] Anuja Lawankar, Nikhil Mangrulkar. A review on techniques for optimizing web crawler results [J]. Futuristic Trends in Research and Innovation for Social Welfare (Startup Conclave), World Conference on, 2016: 1-4.
[2] Mironela Pirnau. Considerations on the functions and importance of a web crawler [J]. Electronics, Computers and Artificial Intelligence (ECAI), 2015: 17-22.
[3] Tanya Bhattacharya, Arunima Jaiswal, Vaibhav Nagpal. Web usage mining and text mining in the environment of web personalization for ontology development of recommender systems [J]. Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO), 2016: 78-85.
[4] Prakaash Kumar Udupi, Nisha Sharma, S K Jha. Educational data mining and big data framework for e-learning environment [J]. Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO), 2016: 258-261.
[5] 陆文星, 王燕飞. 中文文本情感分析研究综述 [m]. 计算机应用研究, 2012, 29(6): 2014-2015.
[6] 王洪伟, 刘總, 尹裴等. web文本情感分类研究综述 [J]. 情报学报, 2010, 29(5): 931-938.
[7] 赵研妍, 秦兵, 刘挺. 文本情感分析 [J]. 软件学报, 2010, 21(8): 1834-1848.
[8] Abhiteja Gajjala. Multi Faceted Text Classification using Supervised Machine Learning Models [D]. San Jose State University, 2016.
[9] Yang Y, Pedersen, Jan O. A comparative study on feature selection in text categorization [C]. ICML, 1997: 412-420.
[10] 刘志明, 刘鲁. 基于机器学习的中文微博情感分类实证研究 [J]. 计算机工程与应用, 2012, 48(1): 1-4.
[11] 徐军, 丁宇新, 王晓龙. 使用机器学习方法进行新闻的自动情感分类 [J]. 中文信息学报, 第21卷, 第6期. 2007: 95-100.
[12] 张玉芳, 彭时名, 吕佳. 基于文本分类TFIDF方法的改进与应用 [J]. 计算机工程, 2006, 32(19): 76-78.
[13] 王素格, 魏英杰. 停用词表对中文文本情感分类的影响 [J]. 情报学报, 2008, 27(2): 175-179.
[14] 唐慧丰, 谭松波, 程学旗. 基于监督学习的中文情感分类技术比较研究 [J]. 中文信息学报, 2007, 21(6): 88-94.
[15] Recchia G, Jones M N. More data trumps smarter algorithms:Comparing pointwise mutual information with latent semantic analysis [J]. Behavior research methods, 2009, 41(3): 647-656.