八爪鱼采集器是一款专业免费的网络爬虫软件,支持用户从金融类、电商类、交易类、社交类等各个类型的网站网页中采集、获取自己所需的资料与数据,并将采集的数据导出到指定位置,方便整理查看。
八爪鱼采集器以分布式云计算平台为核心,拥有自动化采集、编辑、规范化等功能特色,并且支持拖拽式采集、定时自动采集、图文识别等功能,此外该软件使用也非常简便,只需三步即可完成采集工作,是教学科研和其它追求信息数据的相关行业的好助手。
八爪鱼采集器功能特色
1、海量数据稳定采集,拥有5000台云服务器,并且全天候稳定运行,无缝对接内部系统,让采集更精准,无错漏
2、智能采集功能,为用户带来丰富的采集策略与配套资源,让采集变得更加完整与稳定
3、文字图片、贴吧论坛、各种玩野全都能够采集,满足用户各种采集的需求
4、内置数百个网站数据源与海量的末班,包含了市面上的各个行业,让用户快速准确采集数据
5、零基础,30秒即可上手,三步完成采集操作,1分钟就能够拿到数据
6、支持多种格式一键导出或快速导入数据库
7、以分布式云计算平台为核心,多用户协作管理平台相支持,让用户灵活自由爬取海量数据
安装步骤
1、解压缩下载好的八爪鱼的安装包
2、运行setup、exe文件(部分电脑需要管理员身份运行),点击下一步
3、选择要安装文件夹,点击下一步
4、确认安装点击下一步
5、安装完成点击关闭
使用方法
1、先我们新建一个任务-->进入流程设计页面-->添加一个循环步骤到流程中-->选中循环步骤-->勾选上软件右方的URL 列表勾选框-->打开URL列表文本框-->将准备好的URL列表填写到文本框中
2、接下来往循环中拖入一个打开网页的步骤-->选中打开网页步骤-->勾选上使用当前循环里的URL作为导航地址-->点击保存。系统会在界面下方的浏览器中打开循环中选中的URL对应的网页
3、到这里,循环打开网页的流程就配置完成了,运行流程的时候,系统会逐个的打开循环中设置的URL。最后我们不需要配置一个采集数据的步骤,这里就不在多讲,大家可以参考从入门到精通系列1:采集单个网页 这篇文章。下图就是最终和流程
4、下面是流程最终的运行结果
更新内容
1、Bug修复(紧急修复8.0.14版本中问题)
2、解决本地采集中部分网站会在新窗口弹出网页的问题
3、解决自定义配置中重新编辑任务有些步骤XPath不显示的问题