八爪鱼采集器(数据挖掘教程篇)

   日期:2020-07-18     浏览:95    评论:0    
核心提示:本教程将介绍其中一种较为简单的数据采集方式,下面教大家如何采集湘潭市雨湖区政府领导人2020年1-7月的工作重心一、软件概述八爪鱼采集器是一款免费使用、操作简单、功能强大、高效采集的网页数据采集软件,可以将网页非结构化数据转换成结构化数据,以数据库或EXCEL等多种形式进行存储。二、下载软件1.进入八爪鱼官网:https://www.bazhuayu.com/download/windows点击下载2.下载后会在下载目录看到一个压缩包三、安装软件1.把之前下好的压缩包解压当前文件夹,会出

本教程将介绍其中一种较为简单的数据采集方式,下面教大家如何采集湘潭市雨湖区政府领导人2020年1-7月的工作重心

一、软件概述

八爪鱼采集器是一款免费使用操作简单功能强大高效采集的网页数据采集软件,可以将网页非结构化数据转换成结构化数据,以数据库或EXCEL等多种形式进行存储。

二、下载软件

1.进入八爪鱼官网:https://www.bazhuayu.com/download/windows
点击下载

2.下载后会在下载目录看到一个压缩包

三、安装软件

1.把之前下好的压缩包解压当前文件夹,会出现一个以exe结尾的文件,双击它打开

2.把默认安装路径的C盘改成D盘,只需改第一个字母即可,然后点击 安装

3.等待安装成功,然后点完成,会自动运行八爪鱼采集器

4.进入软件登录界面,假如没有账号进入官网注册一个,有账号直接登录

5.登录后的主界面

四、找好需要采集的网站链接

1.首先我们在百度搜索湘潭市雨湖区政府,很容易找到该政府网址
http://www.xtyh.gov.cn/

2.找到湘潭市雨湖区的领导人名字


3.在搜索栏搜索领导人名字,点击搜索

4.按时间排序,复制当前页面的网址
http://searching.hunan.gov.cn:8977/hunan/974104000/news?q=%E7%99%BD%E4%BA%91%E5%B3%B0&sm=1&searchfields=&timetype=timeqb&websiteName=&channelName=&whlx=&publishedYear=&site_name=&org_name2=&iszq=&aggr_iszq=

五、数据采集

1.打开八爪鱼采集器,把之前复制的网页粘贴在八爪鱼搜索栏,点击开始采集

2.得到当前页面,我们要对下方框框中的字段进行改动,删掉不要的字段,只留下标题,标题_链接,名称,时间四个字段

删除不需要的字段后得到下图

3.接下来我们要对字段进行排序,点击字段名前面的按钮左右拖动能改变字段的顺序
字段排序后如下图

4.修改字段名,把标题_链接改成文章地址,把名称改成频道如下图
5.翻页采集和滚动加载数据勾选上后,点击生成采集设置
6.点击采集下一级网页数据

选择文章地址,确定

7.假如没有识别出想要的数据,下方没有正文字段栏,需要手动让进行采集

点击没有要采集的数据

手动选择正文内容,然后点击采集该元素的文本

然后把字段名称改成内容

8.点击采集

9.启动本地采集

10.正在采集中

11.等到采集完2020年的数据时,停止采集

12.导出数据

导出为Excel格式

保存到想要保存的位置,然后点保存

导出成功

六、整理数据

1.打开雨湖区搜索.xlsx文件

2.把时间那一栏的格式改成指定格式,复制发布时间:2020,点击查找

替换

点击全部替换,把发布时间:2020替换成2020

3.删除2020年以前的数据,选中,右键,删除整行

4.删除无效数据,如下图,内容为空的数据

5.Ctrl + S保存文件

到此,数据采集已经完成了,如果你还想学习数据导出、清洗、预处理、建模型、生成报告等,三步教你大数据分析。
请微信搜索公众号:宇哥数据分析工具箱


对大数据感兴趣的朋友,扫描关注,谢谢大家的支持!

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服