Python网络爬虫快速上手-物联网技术文章-傲云油气装备网

Python网络爬虫快速上手

日期：2020-10-14 浏览：90 评论：0

核心提示：环境准备：事先安装好，pycharm打开File——>Settings——>Projext——>Project Interpriter点击加号（图中红圈的地方）点击红圈中的按钮选中第一条，点击铅笔，将原来的链接替换为（这里已经替换过了）：https://pypi.tuna.tsinghua.edu.cn/simple/点击OK后，输入requests-html然后回车选中requests-html后点击Install Package等待安装成功，关闭通过解析网页

环境准备：

事先安装好，pycharm
打开File——>Settings——>Projext——>Project Interpriter

点击加号（图中红圈的地方）

点击红圈中的按钮

选中第一条，点击铅笔，将原来的链接替换为（这里已经替换过了）：
https://pypi.tuna.tsinghua.edu.cn/simple/
点击OK后，输入requests-html然后回车
选中requests-html后点击Install Package

等待安装成功，关闭

通过解析网页源代码

实例内容：
从某博主的所有文章爬取想要的内容。
实例背景：
从（https://me.csdn.net/weixin_44286745）博主的所有文章获取各文章的标题，时间，阅读量。

导入requests_html中HTMLSession方法，并创建其对象

from requests_html import HTMLSession
session = HTMLSession()

使用get请求获取要爬的网站,得到该网页的源代码。

html = session.get("https://me.csdn.net/weixin_44286745").html

找到所有文章

  allBlog=html.xpath("//dl[@class='tab_page_list']")

进入网站主页（本例： https://me.csdn.net/weixin_44286745）
文章空白处右键检查可以定位到这文章的标签
其他文章一样操作，然后找到所有文章共同的标记（这里所有文章的class都是‘my_tab_page_con’）
xpath 可以遍历html的各个标签和属性，来定位到我们需要的信息的位置，并提取。
网页分析获取标题，阅读量，日期。

for i in allBlog:
    title = i.xpath("dl/dt/h3/a")[0].text
    views = i.xpath("//div[@class='tab_page_b_l fl']")[0].text
    date = i.xpath("//div[@class='tab_page_b_r fr']")[0].text
    print(title +' ' +views +' ' + date )

网页分析：

因为有多篇文章，分别获取使用for循环，上述代码已得到所有文章所以i表示一篇文章
第二行代码获取文章标题，于获取文章类似，鼠标放到标题上右键检查，因为文章只有一个标题所以用绝对路径也可以按标签一层层进到标题位置。
xpath返回的是列表，我们要第一个所以要加下标（列表里也只有一个元素），要输出的是文本，所以,text获取文本。
阅读量和时间也是重复的操作
可以用相对路径也可以用绝对路径，一般都是用相对路径，格式仿照代码。
第五行代码，每得到一篇文章的信息就输出，遍历完就可以获得全部的信息。

完整代码：

from requests_html import HTMLSession
session = HTMLSession()


html = session.get("https://me.csdn.net/weixin_44286745").html

allBlog=html.xpath("//dl[@class='tab_page_list']")

for i in allBlog:
    title = i.xpath("dl/dt/h3/a")[0].text
    views = i.xpath("//div[@class='tab_page_b_l fl']")[0].text
    date = i.xpath("//div[@class='tab_page_b_r fr']")[0].text
    print(title +' ' +views +' ' + date )

可以自己爬其他东西，如文章图片，动手试试吧！！！
未完待续

通过html请求

自动化

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• Python爬虫动态获取Cookie	• 李航老师《统计学习方法》第二版第十章课后题答
• 别在折腾开发环境了，一劳永逸的 Python 环境搭	• 风格迁移StyleTransfer和Pytorch实现
• 对比 \| Python中超级好用的“列表解析式”、“	• 2006-京淘Day12

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现