本教程将介绍其中一种较为简单的数据采集方式,下面教大家如何采集湘潭市雨湖区政府领导人2020年1-7月的工作重心
一、软件概述
八爪鱼采集器是一款免费使用、操作简单、功能强大、高效采集的网页数据采集软件,可以将网页非结构化数据转换成结构化数据,以数据库或EXCEL等多种形式进行存储。
二、下载软件
1.进入八爪鱼官网:https://www.bazhuayu.com/download/windows
点击下载
2.下载后会在下载目录看到一个压缩包
三、安装软件
1.把之前下好的压缩包解压当前文件夹,会出现一个以exe结尾的文件,双击它打开
2.把默认安装路径的C盘改成D盘,只需改第一个字母即可,然后点击 安装
3.等待安装成功,然后点完成,会自动运行八爪鱼采集器
4.进入软件登录界面,假如没有账号进入官网注册一个,有账号直接登录
5.登录后的主界面
四、找好需要采集的网站链接
1.首先我们在百度搜索湘潭市雨湖区政府,很容易找到该政府网址
http://www.xtyh.gov.cn/
2.找到湘潭市雨湖区的领导人名字
3.在搜索栏搜索领导人名字,点击搜索
4.按时间排序,复制当前页面的网址
http://searching.hunan.gov.cn:8977/hunan/974104000/news?q=%E7%99%BD%E4%BA%91%E5%B3%B0&sm=1&searchfields=&timetype=timeqb&websiteName=&channelName=&whlx=&publishedYear=&site_name=&org_name2=&iszq=&aggr_iszq=
五、数据采集
1.打开八爪鱼采集器,把之前复制的网页粘贴在八爪鱼搜索栏,点击开始采集
2.得到当前页面,我们要对下方框框中的字段进行改动,删掉不要的字段,只留下标题,标题_链接,名称,时间四个字段
删除不需要的字段后得到下图
3.接下来我们要对字段进行排序,点击字段名前面的按钮左右拖动能改变字段的顺序
字段排序后如下图
4.修改字段名,把标题_链接改成文章地址,把名称改成频道如下图
5.翻页采集和滚动加载数据勾选上后,点击生成采集设置
6.点击采集下一级网页数据
选择文章地址,确定
7.假如没有识别出想要的数据,下方没有正文字段栏,需要手动让进行采集
点击没有要采集的数据
手动选择正文内容,然后点击采集该元素的文本
然后把字段名称改成内容
8.点击采集
9.启动本地采集
10.正在采集中
11.等到采集完2020年的数据时,停止采集
12.导出数据
导出为Excel格式
保存到想要保存的位置,然后点保存
导出成功
六、整理数据
1.打开雨湖区搜索.xlsx文件
2.把时间那一栏的格式改成指定格式,复制发布时间:2020,点击查找
替换
点击全部替换,把发布时间:2020替换成2020
3.删除2020年以前的数据,选中,右键,删除整行
4.删除无效数据,如下图,内容为空的数据
5.Ctrl + S保存文件
到此,数据采集已经完成了,如果你还想学习数据导出、清洗、预处理、建模型、生成报告等,三步教你大数据分析。
请微信搜索公众号:宇哥数据分析工具箱
对大数据感兴趣的朋友,扫描关注,谢谢大家的支持!