python从入门到放弃篇41（selenium库，requests库，lxml库，time库，os模块，jieba库，pyecharts库）实现爬取书籍信息，并进行可视化-物联网技术文章-傲云油气装备网

python从入门到放弃篇41（selenium库，requests库，lxml库，time库，os模块，jieba库，pyecharts库）实现爬取书籍信息，并进行可视化

日期：2020-08-09 浏览：95 评论：0

核心提示：我们这次的案例网址是：https://book.douban.com/tag/编程。最近在研究爬虫和数据可视化的结合，所以，时间上分配的有点不太宽裕。爬虫部分的完整代码：

我们这次的案例网址是：https://book.douban.com/tag/%E7%BC%96%E7%A8%8B。
最近在研究爬虫和数据可视化的结合，所以，时间上分配的有点不太宽裕。

爬虫部分的完整代码：

from selenium import webdriver
from lxml import etree
import requests
import time
import os

options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.52'
}
url = 'https://book.douban.com/tag/%E7%BC%96%E7%A8%8B'
driver.get(url)

books = driver.find_element_by_xpath('//*[@id="content"]/div/div[1]').text
#print(books)
with open('example_book.txt','a',encoding='utf-8') as f:
    f.write(books)

运行结果，去编辑器路径下面找到文件打开：

接着，我们就要用jieba库（第三方库），来进行分词，分词后进行词频统计，所以有：

import jieba
txt = open("D:/pycharm_project/example_book.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt,cut_all=True)
counts = {}
py_num = 0
book_num = 0
computer_num = 0
board_num = 0
for word in words:
    if len(word) == 1:
        continue
    elif word == "python编程" or word == "python":
        word1 = "python"
        py_num += 1
        counts[word1] = py_num
    elif word == "本书" or word == "书":
        word2 = "书"
        book_num += 1
        counts[word2] = book_num
    elif word == "计算机" or word == "算法":
        word3 = "计算机"
        computer_num += 1
        counts[word3] = computer_num
    elif word == "出版社" or word == "出版":
        word4 = "出版"
        board_num += 1
        counts[word4] = board_num
    else:
        continue
    
print(counts)

结果：

然后，我们再做修改，得到如下结果，这样我们就完成了分词和词频统计。

接下来就是数据可视化部分了。我们要用到pyecharts库（要在联网情况下操作）和OS系统模块来创建文件夹存放HTML文件，所以有：

from pyecharts.charts import Bar
import os
B = Bar()
B.add_xaxis(['出版','书','计算机'])
B.add_yaxis('词语出现次数',[42,13,19])
os.mkdir('E:/Example')
B.render('E:/Example/豆瓣图书爬取可视化.html')

我们现在去E盘的Example目录下面打开，效果如下：

这次案例还可以，第一次做全套，从数据爬取，到数据预处理，再到数据可视化，觉得还是很有收获的，pyecharts库很不错，这将是我陷入pyecharts不能自拔的开始！！

最后，感谢大家前来观看鄙人的文章，文中或有诸多不妥之处，还望指出和海涵。

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• python中如何使用多线程实现文件的copy	• python的第三方库安装教程详解
• 爬虫实战系列(五)：轻松获取B站弹幕	• python之文件读写，博主认为已经很详细了。。
• 手写SVM（SMO）实现对马疝病数据集的分类	• 【JVM系列1】深入分析Java虚拟机堆和栈及OutOfM

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现