Python爬取网易云音乐所有歌手的名称和链接-物联网技术文章-傲云油气装备网

Python爬取网易云音乐所有歌手的名称和链接

日期：2020-10-09 浏览：147 评论：0

核心提示：一、需求Python爬取网易云音乐所有歌手的名称和链接二、代码实现import requestsfrom lxml import etreefrom urllib import requestimport timeclass WangYiYun: def __init__(self, base_url): # 初始化tree self.html = self.request_url(base_url) self.parse_html(

一、需求

Python爬取网易云音乐所有歌手的名称和链接

二、代码实现

import requests
from lxml import etree
from urllib import request
import time


class WangYiYun:
    def __init__(self, base_url):
        # 初始化tree
        self.html = self.request_url(base_url)
        self.parse_html()

    def request_url(self, base_url):
        # 请求访问 生成树结构
        headers = { 
            'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
        }
        self.html = requests.get(url=base_url, headers=headers).content.decode('utf-8')
        self.tree = etree.HTML(self.html)
        return self.tree

    def parse_html(self):
        # 解析各类歌手url
        group_list = self.html.xpath('//div[@class = "blk"]')

        for group in group_list:
            # 连接分类
            href_list = group.xpath('.//a/@href')
            # 歌手分类
            group_name_list = group.xpath('.//a/text()')
            # print(group_name_list)
            for href, group_name in zip(href_list, group_name_list):
                full_href = request.urljoin('https://music.163.com', href)
                # print(full_href,group_name)
                html1 = requests.get(full_href).content.decode('utf-8')
                tree1 = etree.HTML(html1)
                # print(tree1)
                # 歌手分类对应的歌手列表页链接
                url_list = tree1.xpath('//ul[@class="n-ltlst f-cb"]/li[position()>1]/a/@href')
                # print(url_list)
                # 歌手列表页链接遍历
                for url in url_list:
                    full_url = request.urljoin('https://music.163.com', url)
                    single_letter = requests.get(full_url).content.decode('utf-8')
                    #
                    single_letter_tree = etree.HTML(single_letter)
                    # 歌手列表页获取歌手信息
                    li_list = single_letter_tree.xpath('//ul[@class="m-cvrlst m-cvrlst-5 f-cb"]/li')
                    for li in li_list:
                        # 从歌手列表页中遍历获取名字列表及对应的链接列表
                        name_list = li.xpath('//a[@class="nm nm-icn f-thide s-fc0"]/text()')
                        link_list = li.xpath('//a[@class="nm nm-icn f-thide s-fc0"]/@href')
                        for name, link in zip(name_list, link_list):
                            full_link = 'https://music.163.com' + link
                            print(name, full_link)
                            time.sleep(0.5)

if __name__ == '__main__':
    base_url = 'https://music.163.com/discover/artist'
    WangYiYun(base_url)

三、程序运行结果

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• 易班APP健康状态自动打卡	• 用Tkinter打造GUI开发工具（48）用Tkinter库tix
• python实现数据结构中双向循环链表操作	• 牛客IOI周赛19-普及组
• easygui安装	• python学习生涯 day3-5

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现