Python爬虫初学-urllib3

   日期:2024-01-17     浏览:114    评论:0    

学习爬虫中,从最近自己写的爬虫小程序中抓截一点代码。加深下记忆。

1.因为我已经安装了Python3,所以使用了urllib3库。

2.要根据对应网页的数据格式进行解码,有的是utf-8,有的是GB2312,当然可能还有其它。否则会报错。

   import urllib3   import time  

#因为我使用了Python3,所以使用urllib3库 http = urllib3.PoolManager() response=http.request('GET','https://www.cnblogs.com/')  http_data = response.data.decode('utf-8') #GB2312
#在抓取的网页数据中查找匹配的数据 User = "齐妙非凡" if (http_data.find(User,0,len(http_data)) != -1):     print("找到【%s】的随笔!"%User) else:     print("找不到【%s】的随笔!"%User)
#建立文件,保存每次抓取到的网页的内容 data_filename=r'LOG\%s_data.log'%(time.strftime('%Y%m%d%H%M%S')) web_data = open(data_filename,'w',encoding='utf-8') web_data.write(http_data) web_data.close()
 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服