新浪微博互动预测方法的研究开题报告
2020-02-20 07:18:11
1. 研究目的与意义(文献综述)
近年来,internet的发展给人们提供更方便、更快捷的通信手段和信息获取方式,人们足不出户就可以看到世界的模样,在家就可以享受全球资源。互联网给我们提供了各种多媒体交互性服务,远程医疗,在家办公,网上购物颠覆了人们的生活模式,使不管有多远的人们感觉越来越近。世界逐渐进入个人互联网时代。
社交媒体的出现驱动了个人互联网时代的发展,大家耳熟能详的社交媒体有facebook、twitter、微信、qq、新浪微博、腾讯微博等等。新浪微博是当下热门的人际互动平台,正如它的标语“随时随地发现新鲜事”,在这个平台上将会爆发大量实时的数据。据调查,第40次《中国互联网络发展状况统计报告》数据显示,截至2017年6月,中国网民规模来到7.51亿,每天产生上亿条微博内容。是国内最有价值的社交平台之一。在营销方面,因为社交媒体上都是广大民众所思、所想、索要的信息,这是最珍贵的用户信息,传统的市场调查和市场营销是无法与之相提并论的。由于新浪微博用户量、信息的真实性、加上这种为用户提供全新的休闲娱乐和人际交往方式成为了一种在很多方面优于现有的媒体的营销平台。用户获取信息的成本得到极大的降低,传统的营销方式对用户的影响正在不断的减少。
在国外,h.kwak等分析了twitter网络,研究结果表明twitter网络是一个社会媒体与社交网络的混合体,但更倾向于社会媒体网络而不是社交网络。romero等分析了twitter不同类 型的主题微博传播机制,发现不同主题微博的曝光次数将不一样,含有政治内容的微博曝光次数越多越容易传播,而含有 一些新兴的词汇的微博曝光次数增多会导致传播下降。b.krishnamurthy等分析微博粉丝量与关注度之间的联系。cha等人针对微博用户的粉丝量、转发数、参考数三个微博特征进行了分析和对比。boyd d等人研究了 twitter的转发行为、转发动机、以及被转发的微博的主题进行了分析,但并没有预测。国外研究成果相对来说要比国内丰富,且有关用户行为的研究都集中在转发行为。
2. 研究的基本内容与方案
基本内容:
首先,分析研究文本分词技术,包括向量空间模型、中文分词技术、特征选择方法、特征权值计算方法。其次,研究文本分类算法,包括类中心向量算法、逻辑回归模型、knn 算法。第三,讨论了有关模糊集有关知识。
围绕阿里天池中平台提供的130万条训练数据,使用统计聚类的方法做分析:首先统计了数据集中转发、评论、点赞三个用户行为均为0的微博数量与至少有一个行为不为0的微博数量比例关系。转发、评论、点赞都不为0与至少有一个行为不为0的微博数量比例关系。将这两个比例关系作为第一个评价结果影响因子。其次分析了三种用户行为与微博数量分布的关系作为第二哥评价结果影响因子。;第三,分析了三种用户行为的聚类系数及平均距离的特点,从而论证了用户行为存在中心点。第四,分析了微博本身的特点,并结合 tfidf 理论、信息增益理论与模糊集理论分析了如何抽取微博特征词的问题;最后,从微博所创时间的角度分析了时间与微博用户行为的联系。
3. 研究计划与安排
第一阶段(2019年3月—3月15日左右):通过查阅论文及核心期刊、外文资料等了解与自己业设计相关的内容,研究内容为基于新浪微博的用户行为预测,并根据自己的题目,作深入探讨,着手调查,了解相关流程,并在此阶段上完成开题报告和英文资料的翻译。
第二阶段(2019年3月中旬—4月):学习和研究各种预测算法的模型及软件工程技术,进行需求分析,撰写需求分析报告。
第三阶段(2019年4月—4月十日左右):制定系统开发的概要设计和详细设计,熟悉开发环境。
4. 参考文献(12篇以上)
[1]magnus lie hetland. python基础教程.第2版[m]. 2014.
[2]mckinney w . 利用python进行数据分析[m]. 机械工业出版社, 2014.