是否已经存在爬虫库交易网站, 类似极客网站

平台提供一套爬虫规则.
消费者可以提交站点规则.
生产者可以根据规则编写网站爬虫, 提交到平台中.
平台促成交易,并负责生成数据.
消费者认可数据后付费.

llhh

2014 年 10 月 30 日

希望早日出来这样的东东，见过卖数据的倒是。

oott123

2014 年 10 月 30 日

这…合法么…

luw2007

2014 年 10 月 30 日

看到 https://groups.google.com/d/topic/python-cn/O0oKyY7BqoE 里面提到了import.io. 才仔细考虑这个实现的可能性.
对于合法性. 数据生成环节打包给用户, 可以规避掉法律问题.

Saaee

2014 年 10 月 30 日

我记得火车头提供出售采集规则的服务。

puyo

2014 年 10 月 30 日

我给学校一个部门做一个爬取新闻数据的爬虫（用于在另一个小型 web 系统上，我打算假期用 node.js 重写，顺便学习一下 node.js ）。有个老师想让我做一个非编程人员使用的平台，通过相对简单的操作就可以爬取数据。有个叫做“火车头”的软件，不知道好不好用。

linzy

2014 年 10 月 30 日

规则编写很难统一吧

luw2007

2014 年 10 月 30 日

@linzy 规则编写是比较难统一, 目前没有想好如何实现, 但是一定不会太复杂.

初步构想:
包装下python, js , golang 下常用的爬虫库, 然后约定成相同的规则实现对应的框架. 开发提供的并非简单的文本描述, 而是根据框架提供的api完成爬取和整合数据的操作.

TimLang

2014 年 10 月 30 日

@linzy 用下火车头就知道怎么回事了。。

luw2007

2014 年 10 月 30 日

@mrytsr kmonolabs.com应该和import.io 差不多.
我只是想提供平台. 不想直接实现.
毕竟需要实现的网站太多了.

Doubear

2014 年 10 月 30 日

昨天用PHP写了个爬虫抓一个网站的数据，几千条几下搞完，还保存图片的但是还是感觉慢主要是写得慢~~~

luw2007

2014 年 10 月 30 日

@Doubear 平台提供的是交易和执行环境. 你爬了这个站. 其他人也想要, 怎么办. 通过平台, 你可以把你的爬虫买给他们. 他们自己去定制跑任务. 而不用自己去写爬虫爬取.

其实主要是集中爬虫. 避免大家都在重复写同样的内容.

linzy

2014 年 10 月 30 日

火车头对一般数据采集应该可以，不过需要一些学习成本。比较不可接受的是对页面js解析，我记得好像不可能，至少需要配合类似fiddler的。

ryan10107

2014 年 10 月 30 日

我也和楼主有过同样的想法，做的是平台，然后平台促成一个供求关系。例如求某个网站的数据，如淘宝某店铺所有商品数据到excel表，这份excel表就是客户需要的商品，然后有爬虫开发者根据平台提供的API写好抓取规则，例如某宝贝标题之类的，然后由平台根据开发者写好的抓取规则，去完成抓取的过程，再生成客户需要的excel表。

songxajh

2014 年 10 月 31 日

cool，but who care？

ziyunhx

2014 年 10 月 31 日

我们开源了一个基于规则的爬虫模块，使用C#实现，有兴趣的可以看下
https://github.com/TaikorInc/FalcoA
目前还在完善中，后期会有相关文档

ziyunhx

2014 年 10 月 31 日

输入的是一个xml的规则，输出json数组；目前支持的规则包含了
Get/Post/Login/Logout/click/dowmload/focus/input/mouseove/parse/parsefile
等绝大多数网络和浏览器操作的模拟。

ziyunhx

2014 年 10 月 31 日

@luw2007 另外规则的共享其实还是会重复消耗资源，最好就直接找数据服务商。

R4rvZ6agNVWr56V0

2014 年 11 月 1 日

只知道有搞数据的，好像国内还真没有爬虫服务和交易的
http://publish.datatang.com/
http://www.cnpameng.com/

wangleineo

2014 年 11 月 1 日

@luw2007 我觉得更有价值的是爬虫规则的人工维护。
写过爬虫的都知道，面对网页的结构调整和特征变化（比如元素id,className变了），爬虫很容易失效，解决这个问题有两个办法：1. 写出非常智能、健壮的爬虫；2. 人肉更新爬虫规则。现在看起来1似乎不太乐观，2可以用软件反复测试来发现失效，但是更新规则还是需要人的参与。所以如果有这样一个平台，提供爬虫源码（或者语言无关的抓取规则），同时鼓励所有用户自主更新已经失效的规则，用wikipedia众包的模式尽最大可能维持爬虫的有效性，还是蛮有价值的。
但是悖论在于，如果被爬的网站不希望被爬，那这个平台让爬虫变透明了，网站会故意打破抓取规则，最后变成‘看谁改的快’的游戏；如果网站希望自己被扒，那就开放API好了，爬取多麻烦。

luw2007

2014 年 11 月 3 日

@wangleineo @ziyunhx 很多网站不会提供api，同时也不阻止爬虫爬取。比如一些地方政府网站，或者一些公益网站。这些网站可能开发完毕之后就很少改动界面结构，但是数据内容却一直在不断更新。它们不会提供api给开发者，或者提供开发者友好的数据源。因此需要爬虫来整理数据。这些爬虫规则的维护成本不高，并且将开发成本转嫁给消费者，消费者提供一定的报酬的规则维护者。
说到底，只是提供交流的平台。具体维护还是需要各个开发自行去维护。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/142606

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.