Home / Life / 生活
Life · 生活

对三万六千部大电影的分析

H by Haofly
· 2017-09-21 · 49 views

最近年轻气盛、心血来潮、突发奇想地决定去分析一下特定类型电影的数据,我的爬虫技术自我感觉还算不错,但是爬取数据来具体该如何分析,我只能算是个新手。

练手的具体网站就不说了,总共有36956.avi条数据,总共发送约4000个请求,切换了上百个代理,不得不说,在同类型网站里面,该网站的的反爬策略算是中规中矩的。以下是我对本次爬取数据的基本描述与简单分析:

基本数据
statistics
总数量36956
总大小(G,我可不会下载)940
总时长(hour)9688.56
总观看量2,418,738,994
排行数据

观看量排名前十的影片:

观看量排名前十的影片

观看量排名后十的影片:

好评率排名前十的影片(这个指标基本上不能代表什么,该网站没人评分少的基本上都能很高,评分算法有问题):

时长排名前十的影片(强撸灰飞烟灭,应该没人看完):

词云

最后来一个词云(分析就不言而喻了,重口味,绝对的重口味)

总结
  1. 此次爬虫所使用的技术比较简单,Python3.6做主要的程序语言,requests做curl请求,jieba中文分词做标题分词提取,skydark/nstools的繁简转换,amueller/word_cloud做词云图片。
  2. 有些东西确实看得越多,越重口
  3. 我终于知道网上这类网站的分析为什么那么少了,我得去补补了。
Haofly · 豪翔天下 · 2017-09-21

评论 · Comments

评论由 Giscus 提供,需用 GitHub 账号登录;留言会同步到这个仓库的 Discussions 里。