X同学发私信说想要微信读书上的书籍清单做测试用,吓我一跳,原以为是要爬取APP呢,刚换了新笔记本难道要配置新的开发环境,结果是爬取一个PC端的网站,虚惊一场。
爬虫百例教程导航链接 : https://blog.csdn.net/hihell/article/details/86106916
写在前面
本篇博客要爬取的页面是微信读书的PC端页面,不过并不是把书籍下载下来,只是抓取信息,所以整体实现难度不大,为了简化操作,我将书籍分类与书籍数目做成可输入项。
页面地址为:https://weread.qq.com/
要爬取的数据为:
点击具体某一分类榜单,地址为: https://weread.qq.com/web/category/100000 后面的数字ID是类别号,页面下拉刷新,加载的页面是