最近年轻气盛、心血来潮、突发奇想地决定去分析一下特定类型电影的数据,我的爬虫技术自我感觉还算不错,但是爬取数据来具体该如何分析,我只能算是个新手。
练手的具体网站就不说了,总共有36956.avi条数据,总共发送约4000个请求,切换了上百个代理,不得不说,在同类型网站里面,该网站的的反爬策略算是中规中矩的。以下是我对本次爬取数据的基本描述与简单分析:
基本数据
| statistics | |
|---|---|
| 总数量 | 36956 |
| 总大小(G,我可不会下载) | 940 |
| 总时长(hour) | 9688.56 |
| 总观看量 | 2,418,738,994 |
排行数据
观看量排名前十的影片:

观看量排名后十的影片:

好评率排名前十的影片(这个指标基本上不能代表什么,该网站没人评分少的基本上都能很高,评分算法有问题):

时长排名前十的影片(强撸灰飞烟灭,应该没人看完):

词云
最后来一个词云(分析就不言而喻了,重口味,绝对的重口味)

总结
- 此次爬虫所使用的技术比较简单,
Python3.6做主要的程序语言,requests做curl请求,jieba中文分词做标题分词提取,skydark/nstools的繁简转换,amueller/word_cloud做词云图片。 - 有些东西确实看得越多,越重口
- 我终于知道网上这类网站的分析为什么那么少了,我得去补补了。