python爬取“堆糖网”小姐姐图片-物联网技术文章-傲云油气装备网

python爬取“堆糖网”小姐姐图片

日期：2020-07-01 浏览：82 评论：0

核心提示：在堆糖网官网首页上搜索关键字：小姐姐我们往下翻，发现它的图片内容是通过瀑布流来动态加载的。静态网页中会有24张图片，查看源代码，也仅仅发现只有24张图片。初步分析，其他图片应该是通过数据包的形式去动态请求的。打开开发者工具，选择 Network->XHR鼠标滚轮往下滑，捕获到一个数据包：果不其然，它里面包含了我们需要的数据：该数据包的请求地址，太长了：我们仅仅需要的是图片，所以有很多参数我们不需要。所以，我们删减去一部分，只剩下kw和start即可，kw是我们搜索的关键字，s_堆糖

在堆糖网官网首页上搜索关键字：小姐姐

我们往下翻，发现它的图片内容是通过瀑布流来动态加载的。

静态网页中会有24张图片，查看源代码，也仅仅发现只有24张图片。

初步分析，其他图片应该是通过数据包的形式去动态请求的。

打开开发者工具，选择 Network->XHR

鼠标滚轮往下滑，捕获到一个数据包：

果不其然，它里面包含了我们需要的数据：

该数据包的请求地址，太长了：

我们仅仅需要的是图片，所以有很多参数我们不需要。

所以，我们删减去一部分，只剩下kw和start即可，kw是我们搜索的关键字，start是数据包中所包含数据的起始序号（它是24的倍数）

第一个数据包，是刚开始就加载的，它的start应该是0，第二个数据包的start是24，所以每个数据包包含了24张图片。

我们滑到最下方，点击第二页，再进行数据包的抓取：

可以看到，它的start是168

可想而知，不管页数怎么变化，我只要更改start参数的值，岂不是可以获取到该关键字（小姐姐）下搜索的全部图片。

那么，每一页究竟有多少个数据包，对应多少张图片呢？（如果我们有分页爬取的需求，就得知道这个）

很简单，回到第一页，再次打开开发者选项，鼠标滚轮滑到该页末尾，发现共获取到5个数据包：

我们大胆猜测一页共有6个数据包（其中一个是相当于静态加载的）。

那么一页就有6*24 共144张图片。

再看最后一个数据包的start ，它等于120

120+24 = 144 刚好印证了我们的猜想。

输入爬取几页，就爬取几页，按需爬取。

代码：

import os
import requests
import json
import jsonpath
from urllib.parse import quote
from urllib.request import urlretrieve

# 所请求的url ：https://www.duitang.com/napi/blog/list/by_search/?kw=%E5%B0%8F%E5%A7%90%E5%A7%90&start=24
headers = {'User-Agent': 'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'}
keyword = '小姐姐' #可自行指定
kw = quote(keyword)
page_num = input('您一共要爬取几页图片？（每页144张图片）：')
page_num = int(page_num)

def get_img_data(kw,start):
    savePath = './图片/{}/'.format(keyword)
    if not os.path.exists(savePath):
        os.mkdir(savePath)
    url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}'.format(kw,start)
    resp = requests.get(url,headers=headers)
    # 将json数据转化为字典格式
    data_dict = json.loads(resp.text)
    # 从字典中快速得到我们想要的信息($代表根结点下 ..代表任意层次)
    img_pathList = jsonpath.jsonpath(data_dict,'$..path')
    # 通过for循环进行下载
    num = start+1
    for path in img_pathList:
        # 有的图片的jpeg，有的图片是jpg
        img_type = os.path.splitext(path)[-1]#.jpeg .jpg
        # 有的图片是gif，但是识别到的却是 gif_jpeg，这种图片下载下载就不是动图了，而是10kb左右的低品质图
        if(img_type.find('gif_jpeg')!=-1):
            # 经过细心观察，发现它貌似所有的gif图片的真实路径后面都是thumb.400_0.gif为结尾
            path = path.replace('gif_jpeg','thumb.400_0.gif')
            img_type = '.gif'
        try:
            saveLocation = f'{savePath}{keyword}{num}{img_type}'
            urlretrieve(path,saveLocation)
            print('{}{}{} 下载成功...'.format(keyword,num,img_type) )
            num+=1
        except Exception as e:
            print(e)

def page_download(pageNum):
    offset = 24 #一个数据包24张图片
    onePage = 144 #每页有6个数据包
    for i in range(0,onePage*page_num,offset):
        get_img_data(kw,i)

page_download(page_num)

看到这里了，点个赞再走呗

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• 我用Python展示Excel中常用的20个操作	• 爬取妹子图片（简单入门）
• LeetCode 831. 隐藏个人信息	• 【Python实战】批量爬取微博素材，一分钟百张大
• python:进程、线程	• python核心知识汇总

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现

python爬取“堆糖网”小姐姐 图片

python爬取“堆糖网”小姐姐图片