python3爬虫入门(正则+requests 糗事百科多页图片爬取)

日期：2020-09-03 浏览：117 评论：0

核心提示：import requestsimport reimport osdef get_data(): global header url = https://www.qiushibaike.com/imgrank/page/%d/ number = int(input(输入需要爬取的总页数：)) for ye in range(1, number + 1): new_url = format(url % ye) page_text

import requests
import re
import os


def get_data():
    global header
    url = "https://www.qiushibaike.com/imgrank/page/%d/"
    number = int(input("输入需要爬取的总页数："))
    for ye in range(1, number + 1):
        new_url = format(url % ye)
        page_text = requests.get(url=new_url, headers=header).text
        # print(page_text)
        rex = '<img.*?src="(.*?)" alt=.*? width.*?'
        list = re.findall(rex, page_text)
        for link in list:
            link = "https:" + link
            data = requests.get(url=link, headers=header).content
            filename = link.split("/")[-1]
            pathname = "./tu/" + filename
            with open(pathname, "wb") as f:
                f.write(data)
                print("图片下载成功", pathname)
                print("图片下载地址为", link)


if __name__ == "__main__":
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/84.0.4147.105 Safari/537.36 "
    }
    if not os.path.exists("./tu") :
        os.mkdir("./tu")
    else:
        os.rmdir("./tu")
    get_data()

笔记思路入门参考

打赏

本文转载自：网络

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

推荐图文

推荐资讯中心

点击排行

最新信息

新手指南: 注册新用户

操作指南

常见问题

采购商服务: 找产品

找公司

找采购

看资讯

供应商服务: 企业商铺

VIP服务

认证服务

推广服务

交易安全: 买家防骗

卖家防骗

投诉举报

关注我们: 手机网站:

新浪微博:

微信关注:

13520258486

周一至周五 9:00-18:00
（其他时间联系在线客服）

24小时在线客服

• 用 Python 实现朋友圈中的九宫格图片	• 利用opencv提取目标区域实战【乳腺癌MRI】
• Python 读取Excel的一列并计算所有对象出现次数	• python tkinter 图片插入问题
• 数据可视化（pyecharts库的介绍）	• Python的基本语法

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现