前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
加企鹅群695185429即可免费获取,资料全在群文件里。资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等
生活三部曲:歌曲、小说、电影,为了找到我们心仪的电影,影评是我们寻找合自己心意电影的好方法,而通过词云,可以让电影的类型和好看程度一目了然,不管你是想看文艺的还是商业的,理想的还是现实的,又或者是好看或是不好看,不管什么类型,是否好看,结果都会显而易见的呈现在你的眼前,不来试一试嘛
先来看一下成果图:
下来我们就详细讲解一下如何高效快速完成爬取任务,文末附完整代码。
1、查找电影链接
在豆瓣网找到你想爬取的电影的链接(以《立春》为例):
2、寻找网页源码规律
通过检查源码发现其隐藏规律!
3、正则表达式提取影评
按检查网页可发现,所有的文字都放在了一个content的div标签中;这样就很方便我们来提取!
4、保存本地
既然都爬取的,如果不保存本地的话那将毫无意义。首先我们可以创建一个文件夹:
然后利用for循环遍历将我们刚刚提取的文字,保存至这个csv文件就OK了!
5、生成词云
6、总结
选取网页+爬取网页+提取信息+保存信息+绘制词云
部分代码