梦想橡皮擦:接到一个新的小任务,爬取新浪微博热搜之后,定时发送到指定邮箱,还不错,不会耗费太长时间,感恩的心~
写在前面
微博热搜对于很多练习爬虫编写的人来说,都是必爬数据之一,毕竟热搜是我们每天谈资的主要来源地,而且页面也比较规矩,数据量也不大,没那么多的反爬手段。50条数据,每天早上爬取一遍,发送到指定邮箱即可~
当看到源码是表格的时候,我差点把pandas又给拿过来,不过想想还是算了,我们换个稍微新鲜那么一点的东西吧。
本文涉及到三个模块,第一个requests
模块,爬取模块;第二个BeautifulSoup
模块,网页解析;第三个smtplib
邮件传输协议模块,除此之外还有一个和smtplib
配合的模块–email
模块,主要用于格式化邮件内容。