是否已经存在爬虫库交易网站, 类似极客网站

2014-10-30 14:35:21 +08:00
 luw2007
平台提供一套爬虫规则.
消费者可以提交站点规则.
生产者可以根据规则编写网站爬虫, 提交到平台中.
平台促成交易,并负责生成数据.
消费者认可数据后付费.
6730 次点击
所在节点    奇思妙想
22 条回复
llhh
2014-10-30 15:03:07 +08:00
希望早日出来这样的东东,见过卖数据的倒是。
oott123
2014-10-30 15:15:13 +08:00
这…合法么…
luw2007
2014-10-30 15:28:40 +08:00
看到 https://groups.google.com/d/topic/python-cn/O0oKyY7BqoE 里面提到了import.io. 才仔细考虑这个实现的可能性.
对于合法性. 数据生成环节打包给用户, 可以规避掉法律问题.
Saaee
2014-10-30 15:29:43 +08:00
我记得火车头提供出售采集规则的服务。
puyo
2014-10-30 15:30:10 +08:00
我给学校一个部门做一个爬取新闻数据的爬虫(用于在另一个小型 web 系统上,我打算假期用 node.js 重写,顺便学习一下 node.js )。有个老师想让我做一个非编程人员使用的平台,通过相对简单的操作就可以爬取数据。有个叫做“火车头”的软件,不知道好不好用。
linzy
2014-10-30 15:31:04 +08:00
规则编写很难统一吧
luw2007
2014-10-30 15:36:46 +08:00
@linzy 规则编写是比较难统一, 目前没有想好如何实现, 但是一定不会太复杂.

初步构想:
包装下python, js , golang 下常用的爬虫库, 然后约定成相同的规则实现对应的框架. 开发提供的并非简单的文本描述, 而是根据框架提供的api完成爬取和整合数据的操作.
TimLang
2014-10-30 15:49:33 +08:00
@linzy 用下火车头就知道怎么回事了。。
luw2007
2014-10-30 16:33:35 +08:00
@mrytsr kmonolabs.com应该和import.io 差不多.
我只是想提供平台. 不想直接实现.
毕竟需要实现的网站太多了.
Doubear
2014-10-30 17:23:52 +08:00
昨天用PHP写了个爬虫抓一个网站的数据,几千条几下搞完,还保存图片的 但是还是感觉慢 主要是写得慢~~~
luw2007
2014-10-30 17:35:00 +08:00
@Doubear 平台提供的是交易和执行环境. 你爬了这个站. 其他人也想要, 怎么办. 通过平台, 你可以把你的爬虫买给他们. 他们自己去定制跑任务. 而不用自己去写爬虫爬取.

其实主要是集中爬虫. 避免大家都在重复写同样的内容.
linzy
2014-10-30 18:15:30 +08:00
火车头对一般数据采集应该可以,不过需要一些学习成本。比较不可接受的是对页面js解析,我记得好像不可能,至少需要配合类似fiddler的。
ryan10107
2014-10-30 19:34:03 +08:00
我也和楼主有过同样的想法,做的是平台,然后平台促成一个供求关系。例如求某个网站的数据,如淘宝某店铺所有商品数据到excel表,这份excel表就是客户需要的商品,然后有爬虫开发者根据平台提供的API写好抓取规则,例如某宝贝标题之类的,然后由平台根据开发者写好的抓取规则,去完成抓取的过程,再生成客户需要的excel表。
songxajh
2014-10-31 09:26:20 +08:00
cool,but who care?
ziyunhx
2014-10-31 09:44:55 +08:00
我们开源了一个基于规则的爬虫模块,使用C#实现,有兴趣的可以看下
https://github.com/TaikorInc/FalcoA
目前还在完善中,后期会有相关文档
ziyunhx
2014-10-31 10:06:43 +08:00
输入的是一个xml的规则,输出json数组;目前支持的规则包含了
Get/Post/Login/Logout/click/dowmload/focus/input/mouseove/parse/parsefile
等绝大多数网络和浏览器操作的模拟。
ziyunhx
2014-10-31 10:27:48 +08:00
@luw2007 另外规则的共享其实还是会重复消耗资源,最好就直接找数据服务商。
GeekGao
2014-11-01 00:52:08 +08:00
只知道有搞数据的,好像国内还真没有爬虫服务和交易的
http://publish.datatang.com/
http://www.cnpameng.com/
wangleineo
2014-11-01 01:47:00 +08:00
@luw2007 我觉得更有价值的是爬虫规则的人工维护。
写过爬虫的都知道,面对网页的结构调整和特征变化(比如元素id,className变了),爬虫很容易失效,解决这个问题有两个办法:1. 写出非常智能、健壮的爬虫;2. 人肉更新爬虫规则。现在看起来1似乎不太乐观,2可以用软件反复测试来发现失效,但是更新规则还是需要人的参与。所以如果有这样一个平台,提供爬虫源码(或者语言无关的抓取规则),同时鼓励所有用户自主更新已经失效的规则,用wikipedia众包的模式尽最大可能维持爬虫的有效性,还是蛮有价值的。
但是悖论在于,如果被爬的网站不希望被爬,那这个平台让爬虫变透明了,网站会故意打破抓取规则,最后变成‘看谁改的快’的游戏;如果网站希望自己被扒,那就开放API好了,爬取多麻烦。
luw2007
2014-11-03 11:30:30 +08:00
@wangleineo @ziyunhx 很多网站不会提供api,同时也不阻止爬虫爬取。比如一些地方政府网站, 或者一些公益网站。 这些网站可能开发完毕之后就很少改动界面结构, 但是数据内容却一直在不断更新。 它们不会提供api给开发者,或者提供开发者友好的数据源。因此需要爬虫来整理数据。这些爬虫规则的维护成本不高, 并且将开发成本转嫁给消费者, 消费者提供一定的报酬的规则维护者。
说到底, 只是提供交流的平台。 具体维护还是需要各个开发自行去维护。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/142606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX