「长津湖」 为什么这么火爆?用Python分析了5w+影评

2021-11-06
↑ 关注 + 星标 ,每天学Python新技能

后台回复【大礼包】送你Python自学大礼包


要说十一档最热门的电影,那肯定是长津湖了,在十一档电影中评分排名第一。


并且刚刚上映两天,票房就已经突破了六亿,破了十一项记录!


本文通过爬取《长津湖》豆瓣短评,进行数据可视化分析后,来看看这部电影为什么这么受大家欢迎!


后台回复[长津湖]即可获得全部源码。


01

数据采集


我们进入豆瓣电影的短评页面,按F12打开开发者模式后,对页面进行观察后发现,评论数据是存在于源网页中的。


在上面,我们已经找到数据存储的网页和方式,那么只需要找到页面之间的联系,构造好循环,就可以批量开始爬取啦~


接下来对不同页面之间的URL进行观察


我们发现,每翻一页,start这个参数就增加20,其他参数不变,至此我们就可以开始构建爬虫了。


数据采集的核心代码:

import requests
import re
import openpyxl
for page in range(80):
try:

params = (

('start', str(page * 20)),
('limit', '20'),
('status', 'P'),
('sort', 'new_score'),
('comments_only', '1'),
('ck', 'qN8_'),
)

r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)

yonghumingchengs = re.findall('', r.json()['html'], re.S)
youyongshus = re.findall('(.*?)', r.json()['html'], re.S)
pinglunshijians = re.findall('', r.json()['html'], re.S)
pingluns = re.findall('(.*?)', r.json()['html'], re.S)



for i in range(20):
a = a + 1
sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],
pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])
print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")
except:
wb.save("全部.xlsx")
print(f"共爬取{page}页数据,存入{a}条数据....")
~~~



02

数据处理


01

 导入评论数据


用pandas读取合并后的影评数据并预览。


import pandas as pd
df = pd.read_excel('全部.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
df.head()


02

 删除重复数据


df.drop_duplicates()


03

 查看数据类型


df.info()

字段类型和缺失值对可视化分析的影响非常大,所以要在进行可视化分析前要对其进行查看。




字段类型和缺失值符合分析需要,无需另做处理。


03

可视化分析


现在对处理过的评论数据进行可视化分析。


01

 词云图展示


对评论进行词云图展示后,我们发现战争、历史、震撼、志愿军这几个词出现非常多,很符合这部剧的主题。


02

 各类星级占比



从图中,我们可以明显的看出,打4星的观众最多,占了36.3%,其次是3星和5星,分别占30.8%和25.6%。这样看来,观众还是非常肯定这部影片的。


03

 主演提及次数



吴京和易烊千玺的提及数最多,没想到提及最少的是段奕宏。


04

 评论发表时间分布



从图中,我们可以看出,大部分影评发表时间在17点、22点影院,所以可以适当增加这两个时间点的场次。


04

小结


1. 本文仅供学习研究使用,提供的评论仅供参考。

2. 本人对影视的了解有限,言论粗糙,还请勿怪。


推荐阅读










相关文章

Python这么火,要学吗?听听华为的工程师怎么说

2021-11-06
有人就有江湖,编程的江湖亦是如此.迅速崛起的Python,免不了要被拿来和其他语言比较.最近在华为工程师们也有讨论到Python的...

Python是个什么鬼?为何火遍国内外...

2021-11-06
Python又这么溜,这活生生的例子不就在我眼前吗?后来他给我甩了个链接,才发现是之前刷爆朋友圈的网红课——风变编程.广告词...

为什么“Python编程超级魔卡”这么火?

2021-11-06
Python语言在最近两个月的TIOBE排行榜里,与Java竞争激烈,不相上下,如果今年Python也能获得“年度编程语言”,就会成为连续...

15600+星的 Python Fire为什么这么火,用完你就知道了

2021-11-06
为什么这个项目这么火爆呢?俩字:『好用』......Github地址:https://github.com/google/python-fire获取方式:从 pypi 获取 `pip install ...

Python虽然很火,为啥找工作这么难

2021-11-06
在Python看起来还没今天那么火之前,它在技术圈其实就广为人知,特别适用于做 MVP(最小可行性)产品,运用在创业初期的产品...

Python是个什么鬼?为何火遍留德华人圈

2021-11-06
来源/全球化智库&智联招聘那么,我们留学生究竟靠什么拉高自己... Python进入小学课堂,各大高校也相继开设人工智能专业;腾讯、...

5天破10亿的哪吒,为啥这么火,Python来分析

2021-11-06
往期推荐49个Python学习资源:从初学者到高级玩家都有了Python正在慢慢失去魅力?Python这么慢,为啥大公司还在用?Python 开...

用Python爬取了《扫黑风暴》数据,并将其可视化分析后,终于知道它为什么这么火了~

2021-11-06
|用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行...

【实话实说】为啥Python都火到汽车圈了?

2021-11-06
短短时间阅读量突破3000后台索要资料包更是让小编回复到手软一个编程软件为什么会在汽车圈这么火?好奇的小编随机采访了几个圈...

执行效率太低又怎样? Python 照样火过 Java、C/ C++

2021-11-06
相较而言,Python 具有执行速度不够快、GIL 锁限制并发、版本间不能很好的兼容等缺陷.那么为什么近年来 Python 能够突破重围、...

随机推荐