对三万六千部大电影的分析

最近年轻气盛、心血来潮、突发奇想地决定去分析一下特定类型电影的数据,我的爬虫技术自我感觉还算不错,但是爬取数据来具体该如何分析,我只能算是个新手。

练手的具体网站就不说了,总共有36956.avi条数据,总共发送约4000个请求,切换了上百个代理,不得不说,在同类型网站里面,该网站的的反爬策略算是中规中矩的。以下是我对本次爬取数据的基本描述与简单分析:

基本数据
statistics
总数量 36956
总大小(G,我可不会下载) 940
总时长(hour) 9688.56
总观看量 2,418,738,994
排行数据

观看量排名前十的影片:

观看量排名前十的影片

观看量排名后十的影片:

好评率排名前十的影片(这个指标基本上不能代表什么,该网站没人评分少的基本上都能很高,评分算法有问题):

时长排名前十的影片(强撸灰飞烟灭,应该没人看完):

词云

最后来一个词云(分析就不言而喻了,重口味,绝对的重口味)

总结
  1. 此次爬虫所使用的技术比较简单,Python3.6做主要的程序语言,requests做curl请求,jieba中文分词做标题分词提取,skydark/nstools的繁简转换,amueller/word_cloud做词云图片。
  2. 有些东西确实看得越多,越重口
  3. 我终于知道网上这类网站的分析为什么那么少了,我得去补补了。
haofly wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!
坚持原创技术分享,您的支持将鼓励我继续创作!