一款全新的网页数据采集工具:爬山虎

2017-12-02 17:26:25 +08:00
 oness

前言

现在互联网上有这么多的采集器,我们为什么要开发爬山虎呢?

原因很简单,大部分已有的软件用起来不爽,于是我们就自己开发了一个。

特性

爬山虎采集器是一款全新的网页数据采集工具。作为一款工具软件,我们:

  1. 放弃了花哨的界面,换之以快速流畅的体验。
  2. 放弃了复杂的规则配置,开发了智能的自动提取算法。
  3. 在基于浏览器的可视化操作上,同时保留了快速的 HTTP 引擎架构。

爬山虎采集器在保持了用户体验、用户低学习成本的同时,兼顾了软件的数据抓取效率。

数据采集

爬山虎采集器能够采集互联网上的绝大部分网页,比如动态网页、静态网页、单页程序、表格数据、列表数据、文章数据、搜索引擎结果、下载图片等等。

发布数据

在采集到数据后,还可以发布到 CSV、Excel、MySQL、SQLite、Access、MSSQL、以及网站 API 接口上。

当然爬山虎采集器作为一个新上场的选手,跟前辈们相比,可能会有些缺点、问题。

欢迎您下载试用,并且给我们提供宝贵的意见。(如果你懒得下载,可以看下网站首页的演示视频:)

爬山虎采集器网站

编辑器

16595 次点击
所在节点    分享创造
81 条回复
zhangfeiwudi
2017-12-06 15:49:10 +08:00
可以爬指定人的淘宝订单吗
q99103248
2017-12-08 12:02:35 +08:00
不知道能不能通过 api 来动态修改爬取列表呢,在用八爪鱼,发现没有这个 api,只能手动提交链接,很是不爽
oness
2017-12-09 11:36:09 +08:00
@zhangfeiwudi 你有该指定人的账号密码,就可以
@q99103248 api 目前木有。不过你可以通过代码修改爬山虎采集器的任务 XML,来修改爬取列表。
zhangfeiwudi
2017-12-09 19:59:01 +08:00
@oness 验证码也能过? 淘宝的滑动验证码
oness
2017-12-09 23:55:57 +08:00
@zhangfeiwudi 目前登陆是手动登陆,所以是可以的。
但是只针对单个人的,批量账号就木办法了。
1ku
2017-12-11 15:06:29 +08:00
怎么去知乎提示浏览器版本过低,我最新版 Chrome
oness
2017-12-11 18:12:39 +08:00
@1ku 在第三步 设置里,修改下 UA
1ku
2017-12-12 09:15:39 +08:00
@oness 在第一步就是这提示的
oness
2017-12-12 09:35:55 +08:00
@1ku 额,先随便建个字段,到第三部设置,然后回到第二步清空字段,重新加载下网页。
目前浏览器设置放在第三步,可能有点不合理。
1ku
2017-12-12 09:49:33 +08:00
@oness 放在第三部超级不合理是其一;其二添加字段和修改字段名称的交互可以再吻合协调一下的,一左一右会逼死强迫症,对了,浏览器问题解决了,但是爬知乎的图片,没成功过一次,好尴尬;其三,官方的交流群没人吗?加了好几次了
oness
2017-12-12 10:31:06 +08:00
@1ku 谢谢建议,后续优化一下
hardman
2017-12-13 22:42:12 +08:00
这是用啥写的
oness
2017-12-14 20:37:54 +08:00
@hardman .net
taurenshaman
2017-12-19 14:00:38 +08:00
oness
2017-12-19 16:31:59 +08:00
测试了下,这个网站要手动选择下列表。
或者直接设置列表 XPath://*[@id="content"]/div[1]/table[2]/tbody[1]/tr//td[1]/p[1]
oness
2017-12-19 16:32:31 +08:00
taurenshaman
2017-12-20 10:01:26 +08:00
@oness
默认分类的第一页可以抓到了。
还有 2 个问题 -_-|||
1、它的 URL 是固定的,如果我想从左侧选择 [特殊食品] - [保健食品] ,怎么做?这种切换,URL 是固定、不变的,都是通过 POST 请求数据。载入网页后,左侧的导航无效,只能选择字段。
2、关于分页。目前,政府的网站正在大量使用 MmEwMD 特性(动态混淆 Javascript ),我试了手动设置分页然后点击 [下一页] ,运行的时候,只能抓到第一页的数据,第二页就没效果了。
dengyunxuan
2017-12-20 14:22:14 +08:00
如果可以,还请开个权限体验下,账号 yimosecai,谢谢
oness
2017-12-20 15:51:14 +08:00
@taurenshaman
1. 这个需求已经搞定,采集前执行脚本命令,这几天发布
2. 看了下,这个页面第一页和第二页的列表结构不同,可设置列表 Xpath://table/tbody[1]/tr//td[1]/p[1]
oness
2017-12-20 15:53:05 +08:00
@dengyunxuan 免费版可以使用大部分功能的。直接下载

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411413

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX