社交网络用户画像技术与方法开题报告
2022-01-14 21:58:32
全文总字数:3692字
1. 研究目的与意义及国内外研究现状
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。随着用户画像技术的发展,其应用场景日益广泛,包括精准营销,用户征信,行业报告等领域。而社交网络作为互联网出现的短短数十年内,在全球拥有数十亿用户,已经渗透到人民生活的方方面面,因此对社交网络进行用户画像分析具有很大的实际价值。 社交网络(Social Network)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率。身处社交网络中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。在此背景下,用户生产、传播和接收信息更加便捷,使得之前相对集中的用户兴趣和行为变得更加碎片化和离散,因此社交网络中的用户模型的构建和应用也发生了巨大的变化。 在社交网络用户画像分析中,所用到的数据一般包括两大类:一类是社交网络的结构信息,一类是社交网络中用户自产生的数据,这些信息主要包括用户的部分已知的属性信息和行为信息等等。社交网络用户画像分析主要就是分析这两种数据,完善及扩充用户信息,从相对宏观的基础上把握社交网络生态环境,为后续的优化和发展提供方向性。例如通过对用户信息的聚类,能够对微博用户进行人群的划分,掌握不同人群的活跃程度,信息的传播和引爆方式,行为及兴趣偏好等等。进而可以支撑社交网络业务,比如基于兴趣的推荐提升用户价值,精准的广告投放提升商业价值,还是针对特定群体的内容运营。 虽然社交网络中有海量数据,但是社交网络用户画像分析也充满挑战。社交网络数据充满了噪声,数据清洗很有难度;另一方面,这些海量数据通常是没有经过人工标记的,用户提供的基本属性信息往往是不全面且不规范的。在这种情况下很多算法都难以进行有效学习并获得令人满意的性能。其次,社交网络中存在大量非结构化数据,比如文本以及用户的行为等等,对用户画像起着非常重要的作用。如何处理这些数据,并基于此构建合理的标签体系至关重要。 本选题的目的在于,研究社交网络中的用户自产生数据以及社交网络结构,构建合理的用户画像标签体系。利用用户提供的部分基础属性信息和用户的行为(如发微博,点赞,转发,评论等)来对用户进行建模,并实现对用户属性值的精准预测。国内外研究现状
随着用户画像信息在个性化搜索、精准营销、城市计算等方面的广泛应用,使得用户画像分析这个问题受到了巨大的关注。许多学者通过结合各种技术方法,对用户画像分析问题进行建模,提出了一系列的用户画像分析算法并成功解决了不同的实际问题,例如用户的性别推断、地理位置推断兴趣爱好推断、年龄推断等等。 用户画像问题通常被当作一个标记预测的问题,即在已知部分用户的属性信息以及用户的社交关系,去预测未知属性用户的属性信息。目前在国内外的研究论文中,用户画像分析方法根据其所使用的数据类型主要可以分为两大类:第一类研究方法重点关注如何通过分析用户自产生的数据去显式的估计用户画像信息;第二类研究方法重点关注如何通过分析用户的社交关系,从而建立合理的用户关系,进而去构建用户画像模型。第一类方法所涉及的用户自产生的数据一般包括用户的文本信息,图像信息以及互联网收集的用户的其他使用信息(例如GPS信息、浏览日志、搜索日志等等)。由于文本信息和图像信息本身蕴含了丰富的语义信息,所以可以很自然的将用户画像分析问题转换为文本分析问题或者图像分析问题。由于在自然语言处理领域和图像分析领域已经有了比较成熟完整的技术体系,所以利用这些领域的经典学习方法进行相应的改进和修改使之适用于用户画像场景下的用户自产生的多媒体数据成了很多用户画像分析的主要思路之一。除此以外,我们也很容易从用户的其他使用信息中提取特征,然后结合经典的分类或者回归模型进行用户画像分析。第二类方法关注的重点在于社交关系本身。基于物以类聚,人与群分这一普遍的社会现象。在社交网络分析领域有一些常见的假设、例如有相似属性的用户更容易成为好友,有好友关系的用户之间往往具有相似的属性。正是有了这些基本的假设,用户画像研究人员试图通过理解社交关系本身,去挖掘人与人之间的潜在联系,解释好友关系形成的潜在因素(例如,相似的教育背景,相近的地理位置,相似的兴趣爱好,同一所学校等等),进而根据这些潜在的联系做用户画像分析。在这类方法依赖的主流的社交网络分技术手段中,社区发现算法是最常用的算法之一。社区发现算法是社交网络分析中的一类重要问题,旨在揭示网络中潜在的社区结构,是理解网络性质的重要途径和方法。在这个领域中有很多现有的算法,比如凝聚类算法,这类算法是通过构建一个将小的类族合并为大的类簇的层次树得到的多层聚类算法。
2. 研究的基本内容
目前社交网络的用户群里非常巨大,如何分析每一个用户的特点特征,无论对于商业,还是舆情都有着非常大的意义,所以本文将从事社交网络的用户画像建立方面的工作,整个工作的具体内容大致如下:(1)数据获取 我们需要获取社交网络用户提供的基础属性信息,还有发文,转发,评论等行为信息。
(2)构建标签体系 一个用户可以从多个方面去刻画,用户模型也需要从多个维度来考虑和构建。
微博用户在平台上通过某些行为(如发微博、点击图片、播放视频、浏览信息流……)生产或获取信息,也通过其它一些行为(如转发、评论、赞……)将信息传播出去,信息的传播是通过用户之间的社交关系所进行的,并且在生产、消费、传播信息的过程中对信息的选择和过滤体现了用户在兴趣方面的倾向性。
3. 实施方案、进度安排及预期效果
4.1实施方案(1)数据获取社交网络的数据集如facebook,微博等有着一些公开的数据集,我们需要在这些数据集中挑选出用户信息和文本信息最丰富的作为用户的画像的实验数据集;或者利用api爬取数据。
(2)构建标签体系我们可以将微博用户模型按照四个维度进行划分,即属性维度(性别,地域等)、兴趣维度(爱好等)、社交维度(影响力等)和行为维度(用户成长,群体行为模式等)。
(3)用户打标签可以使用lda主题模型,tf-idf等进行文本中重要词的抽取,也可以尝试聚类,标签传播的方案进行标签的自动生成和补充。
4. 参考文献
[1]马超. 基于主题模型的社交网络用户画像分析方法[d].中国科学技术大学,2017.
[2]徐英楠. 基于文本挖掘的社交网络用户画像建模与应用[d].北京邮电大学,2016.
[3]q. v. le, t. mikolov, distributed representations of sentences and documents, in: proceedings of the 31 st international conference on 317 machine learning, vol. 4, 2014, pp. ii–1188.