豆瓣影视数据可视化分析毕业论文
2020-02-19 20:10:33
摘 要
随着互联网时代的到来,电影行业诞生了评分制度,评分一方面反映电影的质量,另一方面也反映了观众的喜好。中国电影评分网站-豆瓣网站从建立初到现在,积累了海量电影的信息和评分。如何利用使用和挖掘这些数据逐渐成为一个热门的研究方向。
因此本文通过借助python的爬虫技术爬取了瓣网站大量的电影信息和评分,通过excel和tableau对这些数据进行可视化分析。数据可视化可以更快更准确更精简的方式展现数据及其数据之间的相互关系,了解电影在近二十年在质量和数量上的发展,各种类型电影的分布状况,各个国家电影发展的现状;通过中美对比发现我们取得的进步和需要弥补的不足;通过分析国家间的合作窥视电影行业全球化的发展;通过建立模型归纳出了不同类型的电影评分分布。
通过一张张图表展示出来的规律与模式,有助于帮助电影上下游产业的投资决策者更充分和详尽地了解和分析电影市场、为广大电影消费者制作艺术和市场口碑俱佳的电影作品提供数据决策依据,为推动中国电影产业这一重要文化产业的发展做出一定的贡献。
关键词:电影评分;数据分析;豆瓣网
Abstract
With the advent of the Internet era, the film industry has created a scoring system. The score reflects the quality of the film on the one hand, and reflects the audience's preferences on the other hand. The Chinese film rating website - Douban website has accumulated a large number of movies from the beginning to the present. Information and scoring. How to use and mine these data has gradually become a hot research direction.
Therefore, this article uses python crawler technology to crawl a large amount of movie information and scores on the flap site, and visually analyze the data through excel and tableau. Data visualization can show the relationship between data and its data in a faster, more accurate and streamlined way, understand the quality and quantity of movies in the past two decades, the distribution of various types of movies, and the development of various national films. The status quo; through the comparison between China and the United States, we have found that we have made progress and needs to make up for it; we have analyzed the development of globalization of the film industry by analyzing cooperation among countries; and we have summarized the distribution of different types of film scores by establishing models.
Through the rules and patterns displayed in a single chart, it helps the investment decision-makers in the upstream and downstream industries to understand and analyze the film market more fully and thoroughly, and to create art and market-famous movie works for the majority of film consumers. Provide data decision-making basis and make certain contributions to promote the development of China's film industry, an important cultural industry.
KeyWords:FilmScoring;DataAnalysis;Douban
目录
学位论文原创性声明 I
学位论文版权使用授权书 I
摘要 II
Abstract III
目录 IV
1 绪论 1
1.1 研究背景 1
1.2 国内外研究现状 2
1.2.1 国内研究现状 2
1.2.2 国外研究现状 3
1.3 研究目的与意义 3
1.4 研究方法 4
1.5 主要结构 4
2 豆瓣 6
2.1 网站分析 6
2.2 评分模式 6
3 数据 8
3.1 数据获取 8
3.1.1 起始页面 8
3.1.2 逻辑设计 9
3.1.3 数据格式 10
3.2 数据预处理 10
3.2.1 数据清洗 10
3.2.2 数据整理 12
4 数据分析 14
4.1 工具介绍 14
4.2 基础分析 17
4.2.1 频率分析 17
4.2.2 时间分析 18
4.2.3 国家(地区)分析 19
4.2.4 类型分析 21
4.3 对比分析 22
4.3.1 不同分段国家(地区)分析 22
4.3.2 中美对比分析 22
4.4 关联分析 23
4.4.1 国家(地区)合作分析 23
5 评分分布模型 25
5.1 建立模型 25
5.2 模型归纳与分类 26
6 结论 29
6.1 总结与讨论 29
6.2 不足与改进 29
致谢 31
参考文献 32
绪论
研究背景
随着生活水平的提高,人们逐渐对文化娱乐生活有了更加丰富、更有深度的需求。在多种多样的文化娱乐产品和服务中,电影以其娱乐性与文化性共存、丰富性和技术性兼备的特点,为广大人民群众所青睐。尤其是近年来,无论是暑假全民狂欢的《战狼》,还是号称科幻崛起的《流浪地球》;无论是进口影片的热映,还是经典的重新审视;无论是进入影院支持,还是在视频网站观看,电影都逐渐成为人们茶余饭后密切关注的话题之一。
随着互联网时代的到来,电影行业也发生了一些巨大的改变。比如,电影数量的越来越多,其相关受众越来越广泛。人们不再仅仅满足于观看电影本身的内容,更是开拓出评论和排名的新花样,甚至成立了许多话题和社区,观众有了更多的选择。在这些创新中,最令人瞩目便是电影评分制度的诞生。
1990年IMDb互联网电影资料库的建立,标志着电影评分在互联网上的首次启动[[1]]。在IMDB上,人们不仅能够查询到大量电影的资料,还可以对电影发表自己的看法,给出自己心目中的分数。
近年来,受美国市场及其快餐文化的影响,中国也建立了许多电影评分网站。其中,发展历史比较悠久的很多,比如豆瓣电影、时光网与格瓦拉等网站。
2005年,豆瓣网与时光网相继成立,中国第一次有了电影网络的评论社区,而且豆瓣在5月上线电影评分功能。相对应的,格瓦拉电影网于2009年上线,更是兼具购票和评分两大功能。在中国电影市场票房快速攀升、电影和互联网异业融合不断加强的背景下,三大电影评分网站获得了迅速扩张和发展的机遇,它们通过基于用户体验功能深度开发,形成了各具特色的观影分享社区[[2]]。
随着越来越多的人参与进来,还有不断精进的算法研究,电影评分逐渐成为消费者在观看电影前的一种参考,这种参考功能对电影行业的影响力也在不断地增强。比如,2016年1月,《消费者报道》对195名消费者进行了电影评分态度的问卷调查,其结果显示:83.08%的消费者会在观影前参考电影评分,然后做出进一步选择,而所有被访者中,仅有4.32%的人完全不受电影评分的影响[[3]]。由此可见,电影评分已经越来越成为消费者心中的重要评价指标,也应该得到更广泛的关注和挖掘。
当然,电影评分网站不仅仅是观众了解电影的窗口,更让我们有机会去了解电影行业本身的运作过程,而且它还充当了了解观众的媒介。所以,电影评分也不仅仅是一个分数,很大程度上代表了电影的质量和观众对它的态度和心理反应。而这些网站上积累了有关电影的大量的基础数据和评论数据,也为我们进行详细的数据分析提供了丰富而且基本的数据来源。
国内外研究现状
国内研究现状
互联网与电影的结合虽然是近二十年才逐渐发展起来的新事物,但是国内外已经有很多的学者对它进行了详尽的研究,既有定量的,也有定性的。由于文章需要,因此,我们在这里仅讨论定量分析,并将其简单地归纳为以下几种分类:
首先,当前研究较多的一个方向,当属电影评分的分析与预测。北京电影学院的学生通过对豆瓣TOP250的电影运用多元回归分析手段,分析出影响豆瓣电影评分的各个要素及其影响力[[4]];上海大学和上海电影学院在融合了电影特征信息与电影文本信息后,提出了一种基于文本矢量特征的电影评分预测模型[[5]];研究者张红丽等人则是基于网络用户评论的建立了评分预测模型。
其次,是探索影视数据与票房的关系。研究者张律疏等人分析了21世纪以来北美上映的中国电影与国内外在线评分的相互关系,并讨论了二者对影片北美首周末票房、后续票房的影响[[6]]。
最后,就是基于影视数据的统计分析。2015年,李晋曾经采用定制网络爬虫的方式,抓取了格瓦拉电影网2011年至2016年的各类电影评分信息。在从受欢迎影片类型、流派、国别、演员和导演影响力等多个维度进行分析国内上映影片的市场格局,又从受众的视角分析影片网络评分的时间维度、国别维度、类别维度的分布后,提出了电影人包括导演和演员在观众中的美誉度的评价指标[[7]];许冰晗等人在Movielens的基础上,用可视化与可视分析的方法分析电影数据,设计出了一系列相互关联的可视化视图,这些视图可以从多个时间尺度、角度,分析电影流派的时间演变,并且通过增长率曲线图研究电影数量和经济的相关关系,还设计饼图集来发现高评分电影在时间、流派上的规律[[8]]。
而且,值得注意的是,有相当多的研究是关于基于协同过滤算法的电影推荐研究,但其实这属于算法研究的方向,与数据可视化关系并不强烈,所以我们省略介绍。
通过以上对前人研究的介绍,我们也会发现,这些研究大都偏向数据挖掘方向,而数据可视化方向探讨比较宏观。这个方向需要涉及到多个网站,同时数据量又会略显单薄,通常只分析Top250。因此,在这次的研究中,虽然只选取了豆瓣网这一个网站,但是爬取了数万条数据,以此来争取可以最大程度上反映实际情况,并且,此次研究还选用较为通俗易懂的图表来展示,使读者可以更加直观的看到结果。。
国外研究现状
在国外研究方面,也有不少基于IMDB电影数据的可视化研究。
Herr等人对IMDB的428440部电影进行了统计分析,建立了合作演员网络,演员根据他们共同演绎的电影进行连接,利用可视化提供整个电影和演员空间的全局概览,他们还探索了奥斯卡奖的演员的关系,并且使用折线图来将电影的发展进行可视化呈现。另外,也有不少研究者运用网络图的方法,来分析大量电影演员之间的关系[[9]]。比如,AdelAhmed等人将网络分析方法与可视化相结合,用于可视化和分析从互联网电影数据库(IMDB)派生的大型和复杂的时间多变量网络[[10]]。
Nemeth等人利用可视化针对一个电影设计它的特征地图,从而达到推荐符合用户兴趣的电影的目的[[11]]。JaehoonLee等人研究的内容,是观影人数和评论,他们通过可视化工具,使用规范化图形显示关系,从而来查找电影的情绪,并用统计图来分析观众和评论之间的相关关系[[12]]。
研究目的与意义
本文通过对数据的抓取、清洗和处理等操作,然后利用直观明了的统计图表展示复杂且多维的数据,从而在其中发现隐藏的规律。通过探索和总结这些规律,一方面可以了解到电影的总体状况,包括电影总体的评分分布、电影行业在二十年里数量和质量上的变化,以及多个国家(地区)电影的分布差异、其电影的类型比较,最后可以给电影制作者以建设性的意见。在另一方面,通过归纳和对比不同电影评分的模型,也可以为观众的观影选择提供进一步的参考意见。
如今,在信息时代的大背景下,每一个人都可以通过网络平台,发表自己的观后感和评分结果。这些评分不仅会通过影响消费者,从而影响票房,它们更是一种极好的宣传手段,也是一种电影观众对于电影行业的负反馈。因此,豆瓣影视数据可视化工作,不仅帮助我们更加清楚地了解到了电影行业的现状,也更让电影制作者们看到来自受众的反馈,如此一来,可以对市场的创作氛围提供很大的帮助和促进
研究方法
本文用到的主要研究方法主要是数量研究法、文献研究法和模型方法。
a) 数量研究法
数量研究法,指通过对研究对象的规模、速度、范围、程度等数量关系的分析研究,认识和揭示事物间的相互关系、变化规律和发展趋势,借以达到对事物的正确解释和预测的一种研究方法[[13]]。在本文中,我们爬取了豆瓣网站电影的相关数据,然后使用数量研究法进行分析,最后通过图表的方式在大量数据中寻找规律。
b) 文献研究法
文献研究法是根据一定的研究目的或课题,通过调查文献来获得资料,从而全面地、正确地了解掌握所要研究问题的一种方法。关于电影方面的数据可视化的研究成果非常多,本文参考了前人的经验,因此,此次研究可以更快地找到合适的图表来进行可视化分析。
主要结构
论文共由七个部分组成,主要的内容及安结构安排如下:
第一章,绪论,介绍课题的背景来源、研究意义和主要研究内容,并对相关研究现状做简要分析。
第二章,介绍豆瓣网站的基本情况,分析豆瓣的评分模式
第三章,数据准备,这一章主要介绍如何利用爬虫与数据库获取豆瓣所有电影的包括评分在内的数据,并进行合理的数据预处理。
第四章,数值分析,通过数据可视化工具,展示电影的时间、国家、类型这三个属性在评分方面的规律,探索电影制片国家(地区)之间的联系。
第五章,评分分布模型,建立评分分布模型,归纳不同的评分模型并讨论其实际含义。
第六章,总结,根据结果对涉及到的主体提出建设性的意见,总结收获的体会,同时指出工作的不足之处和需要改进的地方。
豆瓣
网站分析
在中国所有的电影评分网站中,豆瓣市场的占有率遥遥领先,它可以说是目前中国最大的电影分享与评论社区,其中有2500多家电影院加盟,覆盖超过一亿的用户,庞大的数据量吸引了许多研究者的目光,也是研究者们选择它作为基础数据来源的主要原因。其次,豆瓣平台的用户群体以白领及大学生等具有一定文化基础的客户为主,因此,豆瓣平台的评分结果不仅代表了绝大多数观众的意向,也在一定程度上避免了来自不懂电影的人的恶意评价。豆瓣给所有看电影的人提供了一个平台,观众可以在这个平台上对电影进行打分,对电影做出相关评价。
豆瓣评分和电影点评机制自成立以来,充分利用互联网的巨大,缩短了观众与电影的距离,为电影受众发表自己的意见创造了自由的空间。观众可以在豆瓣评分平台上表达自己的意见,有些评论能引发其他人的注意,引发一场讨论,甚至成为热门话题[[14]]。
评分模式
不同评分网站的评分机制不尽相同,本文主要从以下几个方面进行讨论。当然,主要介绍豆瓣网站,同时也给出其它网站作为参考。
一、 主体
豆瓣的评分主体可以是任意注册的用户,这一点和IMDB的模式相同。此外,市场上还有另外两种模式,一种是市场导向,即买过票的用户才能评分,如格瓦拉电影网;另一种是专业影评人,如烂番茄等。
二、 评分选项
豆瓣采取的是五星评分,用户根据观影感受对所选电影进行评分,评分范围是2-20之间的任意偶数。除此之外,还有IMDB十分制,Metacritics的百分制以及时光网的要素评分等。
三、 结果算法
豆瓣电影评分计算最终结果时,采用加权平均数的方式。网站根据用户的使用时长和参与程度,赋予每个参与者以不同的权威值,最终进行加权平均,然后得到影片的最终得分。同时,其它网站也大都是加权算法,但权值的确定方法不一样,值得一提的是,IMDB有一个著名的TOP250榜单,而这份榜单的算法采用的是大名鼎鼎的贝叶斯统计方法[[15]]。
图.1贝叶斯公式
其中v代表投票人数,m是进入IMDb的Top250榜单所需的最小票数,R是该电影的平均分(分数相加除以人数),C是IMDb据库所有电影的平均分。
数据
数据获取
在此次研究过程中,由于没有直接的数据来源,因此,需要通过浏览豆瓣电影网页,制作爬虫工具进行获取基础数据。爬虫是一种按照一定的规则,自动地抓取网页信息的程序或者脚本,一般选用python语言进行开发。这门技术自产生以来,就以其便捷性和灵活性而得以迅速地发展。同时,基于这个原理,市场上也产生了许多便捷的工具和插件,例如谷歌的插件XPathHelper,中文软件八爪鱼等,这些工具或插件大部分都是半开发式的,需要用户借助工具的同时,也要了解python爬虫的原理。
起始页面
第一个关键步骤,是选择恰当的爬取数据的起始页面,因为选对了页面对后面的爬取工作会起到很大的辅助作用。此次研究过程如下:首先,打开豆瓣电影的官方网站[图片]https://movie.douban.com/,然后,选择导航栏中的“分类”选项进入“分类”页面。本文将选择这个页面作为爬数据的起始页面。
为了只显示需要的数据,还需要在网页中进行以下操作:
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: