右侧
当前位置:网站首页 > 钓鱼 > 正文

八爪鱼采集器(八爪鱼采集器下载)

作者:admin 发布时间:2023-04-08 21:30 分类:钓鱼 浏览:125 评论:0


导读:今天给各位分享八爪鱼采集器的知识,其中也会对八爪鱼采集器下载进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览:1、八爪鱼采集器可以看到预览数据采...

今天给各位分享八爪鱼采集器的知识,其中也会对八爪鱼采集器下载进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

八爪鱼采集器可以看到预览数据采集后是零

安装打开八爪鱼首页后,可以看到界面简洁,从上到下有搜索框、采集模板以及教程。采集时可以直接在搜索框输入目标网址,或者在左侧选择【新建】创建采集任务。

输入网址后进入采集界面,可以看到,初始页面分为①网页显示、②数据预览和③流程图三大区域。

其中点击版块①右上角的黄色图标,会打开【操作提示框】;

在版块②中可以对数据字段进行编辑、添加、删除等操作;

在版块③中,点击每个步骤框可以进入基础、高级选项设置页面,点击…按钮可对当前步骤进行删除等操作。此外,将鼠标移动到流程中的 ↓位置,会出现 + 按钮,点击可添加流程步骤。

那么什么是采集流程呢?它是指从特定网页上抓取数据的指令。由于每个网站的页面布局不同,因此采集流程不能通用,要根据具体需要自定义配置。

接下来我们以具体例子,了解如何采集列表数据、表格数据以及翻页采集详情页数据。

采集列表数据

步骤一:输入网址

在首页【输入框】中输入目标网址(以豆瓣读书为例),点击【开始采集】,八爪鱼会自动打开网页。

步骤二:建立采集流程-【循环提取数据】

观察可以发现,该网页上的图书信息以列表形式呈现,每个列表结构相同,都包含书名、出版信息、评分、评价数、图书简介等。那么如何让八爪鱼识别所有列表,并采集所需类型的数据呢?

在八爪鱼中,我们需要建立【循环提取数据】的流程:

第一,任意点击选中页面上的一个图书列表。选中后的列表会呈绿色框选状态,其中红色虚线框内的称为【子元素】。(需要注意的是,要确保待采集的所有内容都在绿色框内。)

第二,在弹出的黄色操作提示框中选择【选中子元素】。

此时当前列表数据的全部具体字段已被识别出来,并且八爪鱼还自动识别出了其他同类元素。

第三,在黄色操作提示框中,继续选择【选中全部】。

此时可以看到在下方的列表当中显示出了其他同类数据。

第四,在黄色操作提示框中,选择【采集数据】。此时,八爪鱼提取出列表中的字段。

步骤三:编辑字段

在下方的数据预览部分,对于列表中已提取出的所有字段,我们可以根据实际需求进行修改字段名称或删除等操作。

步骤四:启动采集

第一,以上设置完成后,依次点击右上方的【保存】和【采集】按钮,启动本地采集。

第二,采集完成后,选择合适的导出方式(Excel、CSV、HTML)导出数据。这里导出为Excel。

打开Excel文件,可以看到成功采集的数据~

采集表格数据

表格是一种很常见的网页样式,比如现在有一个新浪财经的网页 ,如何采集其中具体数据呢?

可以看到表格内每条股票信息各占一行,且一行股票中包含代码、名称、最新评级、评级机构、所属行业等多个字段信息。

那么如何将这些字段数据采集下来并以Excel形式保存呢?

接下来看具体操作:

步骤一:输入网址

在八爪鱼中采集数据的第一步基本都是输入目标网址,点击【开始采集】。

步骤二:建立采集流程

第一,选中页面上第一行第一个单元格,再点击操作提示框下方的TR,选中至一整行。

第二,在提示框中,选择【选中子元素】,这样第1个股票的具体字段会被选中。

同时可以看到,列表其他元素在红色线框内,说明八爪鱼还自动识别出了页面中其他股票列表中的同类【子元素】。

第三,在提示框中,选择【选中全部】。可以看到页面中所有股票列表中的子元素都呈绿框选中状态。

第四,在黄色操作提示框中,选择【采集数据】。

点击采集选项之后,可以看到数据预览区域显示出所有待采集字段的数据。

步骤三:编辑字段

接下来对列表中已提取出的所有字段,根据实际需求进行修改名称或删除等操作。

步骤4:启动采集

第一,以上设置完成后,依次点击右上方的【保存】和【采集】按钮,启动本地采集。

第二,采集完成后,选择以Excel格式导出,即可得到成功采集的数据。

采集详情页数据

在上面的操作中,我们采集的是主页面上的相关数据。但实际上,网页之间会有链接关系,如果我们对主页上某个条目感兴趣,会点击进入详情页进一步了解。那如何爬取多个同类详情页数据呢?

以百度学术对“知识交互作用”的检索页面为例,在八爪鱼首页输入目标网址后,开始建立采集流程。

建立采集流程—【循环-点击元素-提取数据】

第一,选中页面上第1个链接(会呈绿色实线框选状态)。

这时可以看到出现黄色操作提示框,提示我们发现了同类链接(红色虚线框选状态)。

第二,点击【选中全部】后,同类标题链接都被选中。

第三,在黄色操作提示框中,选择【循环点击每个链接】。(因为是按顺序依次采集每个详情页数据,所以需要循环点击链接。)

选择以后,会发现页面跳转到了第1个链接的详情页。

第四,按照需要提取数据。依次点击选中字段后,在黄色操作提示框选择【采集该元素文本】或其他。这里只提取文章标题、作者、摘要、关键词、被引量和年份。

八爪鱼采集器能免费用几次

八爪鱼采集器升级后可以一直免费使用。八爪鱼采集器为推广市场,只要用户升级八爪鱼采集器为最新免费版就可以一直免费使用,八爪鱼采集器是一款全网通用的互联网数据采集器,模拟人浏览网页的行为,通过简单的页面点选,生成自动化的采集流程,从而将网页数据转化为结构化数据,存储于EXCEL或数据库等多种形式。并提供基于云计算的大数据云采集解决方案,实现数据采集。

八爪鱼采集器如何设置翻页

一、点击 【下一页】按钮翻页

点击页面上的 【下一页】按钮翻页,是最常见的翻页方式。这个网站就是如此:

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

在八爪鱼中该如何实现翻页?以下为具体操作步骤。

步骤一、先创建1个任务

经过前几课的学习,我们已经学会了如何采集单个页面上的列表、表格、点击链接进入详情的数据。根据需求,先配置好1个采集1页数据的任务。

在这里,我以 采集列表数据 为例。先建立一个【循环-提取数据】步骤。

现在,第1页上的列表数据就全被采集下来了。接下来,我们想让八爪鱼自动翻页,去采第2页、第3页.....直到最后1页的数据。这就需要建立一个【翻页循环】。

步骤二、建立【翻页循环】

找到并点击页面中的【下一页】按钮,在自动弹出的【黄色操作提示框】中点击【循环点击下一页】。这样,用【下一页】按钮创建【循环翻页】的步骤就完成了。可以看到流程图中出现一个【循环翻页】的步骤,这就表明我们已经成功创建好了【循环翻页】,八爪鱼就能自动完成翻页了。

为什么要【循环点击下一页】?它的意思就是,让八爪鱼不断的多次点击 【下一页】进行翻页,以实现采集第2页,第3页......直到最后一页数据。这跟我们在浏览器中,不断点击【下一页】按钮翻页,逻辑是相同的。

特别说明:

a. 如果出现的不是【循环点击下一页】,而是【循环点击单个XXX】怎么办?【循环点击下一页】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【】【后页】,对应的八爪鱼操作提示框中出现的可能是【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的,都用于创建循环翻页。

步骤三、启动采集

1、点击【保存并启动】,选择【启动本地采集】。启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集,点击查看详细说明)

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

示例数据:

关于【循环翻页】的几个技巧分享:

1、可以先建【循环翻页】,也可先建【循环-提取数据】。

八爪鱼会自动判断并调整步骤在流程中的位置。对于点击【下一页】翻页,标准流程如下图所示,它的执行逻辑是:【打开网页】→【采集第1页列表数据】→【翻到第2页】→【采集第2页列表数据】......【翻到最后1页】→【采集最后1页列表数据】→【所有页数据采完,自动结束采集任务】。逻辑执行详情请查看 第8课:采集原理与流程执行逻辑。

2、可通过【限制翻页次数】,控制翻页的次数。

如果只需要采集前3页数据,则设置翻页次数为【3】。

二、其他特殊的翻页

除了点击【下一页】 进行翻页外,还有其他特殊的翻页方式。

1、点击【加载更多】、【再显示20条】等按钮进行翻页。

常见的网页有:搜狗微信首页、微博评论。

此类翻页解决方法请查看教程 点击【加载更多】或【再显示20条】等按钮翻页

2、无翻页按钮,需不断向下滚动页面,加载出新数据。

常见的网页有:百度图片搜索、今日头条首页。

此类翻页解决方法请查看教程 滚动加载数据采集方法

3、无翻页按钮,只有一排数字,需点击数字进行翻页。

此类翻页解决方法请查看教程 无【下一页】按钮,点击数字进行翻页

八爪鱼采集器时间设置

八爪鱼采集器时间设置。

1、打开八爪鱼采集器,点击网站简易采集模,式下的立即使用图标,选取需要采集的数据源,点击自定义任务。

2、更改任务名,将任务放置在合适的任务组当中,输入需要搜索的关键词更改时间。

3、点进页面后便是时间设置。

关于八爪鱼采集器和八爪鱼采集器下载的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

标签:


取消回复欢迎 发表评论:

钓鱼排行
最新留言
标签列表