对三万六千部大电影的分析

最近年轻气盛、心血来潮、突发奇想地决定去分析一下特定类型电影的数据，我的爬虫技术自我感觉还算不错，但是爬取数据来具体该如何分析，我只能算是个新手。

练手的具体网站就不说了，总共有36956.avi条数据，总共发送约4000个请求，切换了上百个代理，不得不说，在同类型网站里面，该网站的的反爬策略算是中规中矩的。以下是我对本次爬取数据的基本描述与简单分析:

观看量排名前十的影片:

观看量排名后十的影片:

好评率排名前十的影片(这个指标基本上不能代表什么，该网站没人评分少的基本上都能很高，评分算法有问题):

时长排名前十的影片(强撸灰飞烟灭，应该没人看完):

最后来一个词云(分析就不言而喻了，重口味，绝对的重口味)

此次爬虫所使用的技术比较简单，Python3.6做主要的程序语言，requests做curl请求，jieba中文分词做标题分词提取，skydark/nstools的繁简转换，amueller/word_cloud做词云图片。
有些东西确实看得越多，越重口
我终于知道网上这类网站的分析为什么那么少了，我得去补补了。