一款全新的网页数据采集工具：爬山虎

2017-12-02 17:26:25 +08:00

oness

前言

现在互联网上有这么多的采集器，我们为什么要开发爬山虎呢？

原因很简单，大部分已有的软件用起来不爽，于是我们就自己开发了一个。

特性

爬山虎采集器是一款全新的网页数据采集工具。作为一款工具软件，我们：

放弃了花哨的界面，换之以快速流畅的体验。
放弃了复杂的规则配置，开发了智能的自动提取算法。
在基于浏览器的可视化操作上，同时保留了快速的 HTTP 引擎架构。

爬山虎采集器在保持了用户体验、用户低学习成本的同时，兼顾了软件的数据抓取效率。

数据采集

爬山虎采集器能够采集互联网上的绝大部分网页，比如动态网页、静态网页、单页程序、表格数据、列表数据、文章数据、搜索引擎结果、下载图片等等。

发布数据

在采集到数据后，还可以发布到 CSV、Excel、MySQL、SQLite、Access、MSSQL、以及网站 API 接口上。

当然爬山虎采集器作为一个新上场的选手，跟前辈们相比，可能会有些缺点、问题。

欢迎您下载试用，并且给我们提供宝贵的意见。（如果你懒得下载，可以看下网站首页的演示视频：）

爬山虎采集器网站

编辑器

16595 次点击

所在节点

81 条回复

zhangfeiwudi

2017-12-06 15:49:10 +08:00

可以爬指定人的淘宝订单吗

q99103248

2017-12-08 12:02:35 +08:00

不知道能不能通过 api 来动态修改爬取列表呢，在用八爪鱼，发现没有这个 api，只能手动提交链接，很是不爽

oness

2017-12-09 11:36:09 +08:00

@zhangfeiwudi 你有该指定人的账号密码，就可以
@q99103248 api 目前木有。不过你可以通过代码修改爬山虎采集器的任务 XML，来修改爬取列表。

zhangfeiwudi

2017-12-09 19:59:01 +08:00

@oness 验证码也能过？淘宝的滑动验证码

oness

2017-12-09 23:55:57 +08:00

@zhangfeiwudi 目前登陆是手动登陆，所以是可以的。
但是只针对单个人的，批量账号就木办法了。

1ku

2017-12-11 15:06:29 +08:00

怎么去知乎提示浏览器版本过低，我最新版 Chrome

oness

2017-12-11 18:12:39 +08:00

@1ku 在第三步设置里，修改下 UA

1ku

2017-12-12 09:15:39 +08:00

@oness 在第一步就是这提示的

oness

2017-12-12 09:35:55 +08:00

@1ku 额，先随便建个字段，到第三部设置，然后回到第二步清空字段，重新加载下网页。
目前浏览器设置放在第三步，可能有点不合理。

1ku

2017-12-12 09:49:33 +08:00

@oness 放在第三部超级不合理是其一；其二添加字段和修改字段名称的交互可以再吻合协调一下的，一左一右会逼死强迫症，对了，浏览器问题解决了，但是爬知乎的图片，没成功过一次，好尴尬；其三，官方的交流群没人吗？加了好几次了

oness

2017-12-12 10:31:06 +08:00

@1ku 谢谢建议,后续优化一下

hardman

2017-12-13 22:42:12 +08:00

这是用啥写的

oness

2017-12-14 20:37:54 +08:00

taurenshaman

2017-12-19 14:00:38 +08:00

@oness
安装后，没玩好。它们家的数据怎么抓？
http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=120&tableName=TABLE120&title=%CA%B3%C6%B7%C9%FA%B2%FA%D0%ED%BF%C9%BB%F1%D6%A4%C6%F3%D2%B5(SC)&bcId=145275419693611287728573704379

oness

2017-12-19 16:31:59 +08:00

测试了下，这个网站要手动选择下列表。
或者直接设置列表 XPath://*[@id="content"]/div[1]/table[2]/tbody[1]/tr//td[1]/p[1]

oness

2017-12-19 16:32:31 +08:00

taurenshaman

2017-12-20 10:01:26 +08:00

@oness
默认分类的第一页可以抓到了。
还有 2 个问题 -_-|||
1、它的 URL 是固定的，如果我想从左侧选择 [特殊食品] - [保健食品] ，怎么做？这种切换，URL 是固定、不变的，都是通过 POST 请求数据。载入网页后，左侧的导航无效，只能选择字段。
2、关于分页。目前，政府的网站正在大量使用 MmEwMD 特性（动态混淆 Javascript ），我试了手动设置分页然后点击 [下一页] ，运行的时候，只能抓到第一页的数据，第二页就没效果了。

dengyunxuan

2017-12-20 14:22:14 +08:00

如果可以，还请开个权限体验下，账号 yimosecai，谢谢

oness

2017-12-20 15:51:14 +08:00

@taurenshaman
1. 这个需求已经搞定，采集前执行脚本命令，这几天发布
2. 看了下，这个页面第一页和第二页的列表结构不同，可设置列表 Xpath：//table/tbody[1]/tr//td[1]/p[1]

oness

2017-12-20 15:53:05 +08:00

@dengyunxuan 免费版可以使用大部分功能的。直接下载

第 3 页／共 5 页

上一页下一页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411413

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX