爬虫百度百万高清美图源代码

日期：2020-09-22 浏览：97 评论：0

核心提示：@T爬虫百度百万高清美图源代码OC#! -- coding: utf-8 --Date:2020-09-20 16:52USER:gordon_lu使用正则表达式删选指定的 URL 链接。“”"oo0ooo8888888o88" . “88(| -- |)0\ = /0/ ‘—’ _.’ | |/ ‘./ \||| : |||// / ||||| -卍- ||||| | | \\ - /// | || _| ‘’\ — /’’

@T爬虫百度百万高清美图源代码OC

#! -- coding: utf-8 --

Date:2020-09-20 16:52

USER:gordon_lu

使用正则表达式删选指定的 URL 链接。

“”"
oo0oo
o8888888o
88" . “88
(| -- |)
0\ = /0
/ ‘—’ _
.’ | |/ ‘.
/ \||| : |||//
/ ||||| -卍- |||||
| | \\ - /// | |
| _| ‘’\ — /’’ | |
\ .-__ ‘-’ /-. /
， . ’ /–.--\ ’ ’
. ""￣￣ <’ '. _<|>/.’ '>￣￣ “” .
| | : ‘- \ .; ’ \ _ /’ ;, / - ’ : | |
\ \ '. _ __ \ / / . _.’ / /
===== '-.___ ‘.___ ___/.-’ _____.-’ =====
‘=—=’
“””
import requests
import re
import random

1,获取URL

word = input(“请输入你要爬虫的内容【暂时仅支持英文和字母】：”)
url = f’https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=&st=-1&fm=result&fr=&sf=1&fmq=1600592048477_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&sid=&word={word}’

def random_user_agent():
ulist=[
“Mozilla/5.0 (Windows NT 6.1;Win64;x86) AppleWebKit / 537.36 (KHTML, likeGecko) Chrome / 88.0.4183.102Safari / 537.36”,
“Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36”
“Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36”
]
return ulist[random.randint(0,len(ulist)-1)]

def get_image(url):
headers = {
“user-agent”: random_user_agent(),
“referer”: url,
}

result = requests.get(url,headers = headers).text
# print(result)

image_urls = re.findall('"objURL":"(.*?)"',result)  # 找大图的 URL 确实不好找，这个技巧需要慢慢总结


for image_url in image_urls:
    # print(image_url)
    # 设置名字

    image_name = image_url.split('/')[-1]
    print(image_name)

    image_end = re.search('(.jpg|.png|.jpeg|.gif)$',image_name)
    if image_end ==None:
        image_name = image_name + '.jpg'

    image = requests.get(image_url).content



    with open('./baidu_pic/%s'%image_name,'wb') as f:
        f.write(image)

get_image(url)

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• 计算机网络第一章知识点总结（根据b站方老师的	• 关于(C++)数据结构复数计算器作业的拓展
• Java——随机数的应用	• 2020生产实习——信诺达的
• 计算机二级公共基础知识	• C++计算机语言

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现

爬虫百度百万高清美图源代码

Date:2020-09-20 16:52

USER:gordon_lu

使用正则表达式 删选指定的 URL 链接。

1,获取URL

使用正则表达式删选指定的 URL 链接。