如何使用goose (gooseeker翻页采集教程)

1、介绍

GooSeeker爬虫不仅可以将网页上的文本、网址数据抓取下来,还可以批量*载下**图片到电脑。无论是列表页上还是详细页上的图片,只要能够获取图片网址都可以用GooSeeker爬虫来*载下**图片。下面就以途牛网的自助游页面为案例,介绍一下如何使用GooSeeker爬虫来自动*载下**图片。

2、操作步骤

第一步:打开网页

gooseeker生成的图怎么分析,gooseeker数据管家怎么采集图片

1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

注意:这里的截图和文字说明都是GS爬虫浏览器版 ,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台

1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。

Tips:为了能准确定位网页信息,点击“定义规则”会把整个网页定格住,不能跳转网页链接,再次点击定义规则,才会恢复回普通的网页模式。

第二步:标注需要采集的信息

2.1, 点击小图可以定位到它的IMG节点。我们不直接采集大图,因为大图是由小图放大的,并且只显示一张,也就只能抓到一张大图,但是小图可以全部抓到,最后用excel处理就能变成大图,所以,类似这种网页的情况抓小图就容易多了。

2.2,再双击展开IMG,就会在attributes下面找到@src,它就是存储图片网址的节点

2.3,右击@src,选择内容映射->新建抓取内容,再输入标签名“图片”

gooseeker生成的图怎么分析,gooseeker数据管家怎么采集图片

2.4,选中“小图网址”,打勾*载下**图片

注意:映射@src节点给标签“小图网址”后,只需打勾*载下**图片,不要勾高级设置->抓取特定内容->网页片段和图片网址,否则输出的图片网址就是错误的,无法*载下**到图片。

gooseeker生成的图怎么分析,gooseeker数据管家怎么采集图片

第三步:样例复制

3.1, 在整理箱里右击“小图网址”,添加新标签“列”,再移动位置使“列”包容“小图网址”。其中,标签“列”只是用来做样例复制的,因为网页上的旅游名称、价格信息只有一条,而小图是多张,所以,要单独对小图做样例复制。

gooseeker生成的图怎么分析,gooseeker数据管家怎么采集图片

4.2,选中“列”,勾上“启用”,找到第一个小图的网页节点LI映射给样例1,它的下一个LI映射给样例2。

gooseeker生成的图怎么分析,gooseeker数据管家怎么采集图片

第四步:存规则,爬数据

4.1,点击测试,只抓到第一张小图网址,其他的都抓空了,说明数据规则需要微调一下。通常调整定位,选择绝对定位就可以解决。

gooseeker生成的图怎么分析,gooseeker数据管家怎么采集图片

4.2,点击存规则、爬数据,采集成功后会在本地DataScraperWorks文件夹中生成xml文件和存储图片的文件夹。

gooseeker生成的图怎么分析,gooseeker数据管家怎么采集图片

5.3,最后把xml文件和图片导入到excel中进行匹配,可以调整图片大小。

gooseeker生成的图怎么分析,gooseeker数据管家怎么采集图片