这里是造数,正在写一个智能云爬虫给大家,快来玩耍

2016-11-09 15:28:32 +08:00
 GrahamCloud

hello ,大家好,我们是造数 https://www.zaoshu.io 如你所见是一个新生的网站,我们想试着让用户能最简单的使用爬虫技术,这个阶段,已经能够自动识别你想爬的数据类型了.

如果你有关于爬虫的使用创意,需求。 如果你使用中感到哪里不够合。 如果你操作中发现 bug 。 请一定要告诉我。

                                                                        热切期待新需求,和反馈问题的造数团队:
                                                                          grahamcloud@zaoshu.io
                                                                          www.zaoshu.io
17843 次点击
所在节点    推广
94 条回复
GrahamCloud
2016-11-09 17:11:33 +08:00
会推出一些 side project 方便需求,如果想试用也可以联系我。
crayonyi
2016-11-09 18:21:44 +08:00
对标的是这个网站吗? [https://www.import.io/]( https://www.import.io/)
GrahamCloud
2016-11-09 18:32:52 +08:00
@crayonyi 目标不一样,我们期待第一阶段做他们的功能,接下来做一些有意思的扩展。
wjm2038
2016-11-09 21:56:39 +08:00
不错
GrahamCloud
2016-11-09 22:20:17 +08:00
@wjm2038 有什么问题,或者有什么想法一定要告诉我。
mingyun
2016-11-09 23:34:26 +08:00
赞一个
sssdjiui
2016-11-10 01:35:20 +08:00
lyonbot
2016-11-10 01:49:31 +08:00
试玩了一下,目前感觉和 import.io 挺像的,感觉还凑合吧,希望后续能看到有趣的功能
strwei
2016-11-10 01:51:13 +08:00
不错哦
binux
2016-11-10 01:57:52 +08:00
上次就说过的,数据行都没有对其,图片价格张冠李戴,这怎么用啊。
给个例子: http://www.ikea.com/gb/en/search/?k=chair
lhx2008
2016-11-10 08:38:36 +08:00
安卓手机下有严重的错位。。
GrahamCloud
2016-11-10 11:05:59 +08:00
@lhx2008 现在刚开始做,手机适配还不行。
GrahamCloud
2016-11-10 11:07:05 +08:00
@binux 这个问题下周会上一个新版解决。
谢谢上次提出来。这两周 bug 比较多。
crayonyi
2016-11-10 11:31:02 +08:00
@GrahamCloud 如果升级下,感觉就和 https://scrapinghub.com/ 这个差不多。我也一直在做这个, 目前只完成通用爬虫部分: https://github.com/yijingping/unicrawler
Magic347
2016-11-10 13:40:43 +08:00
import.io 简单对比了一下,在页面异步加载数据的采集效果上还有待改进:
例如 https://item.taobao.com/item.htm?id=529572785771 淘宝商品详情页面的价格数据,
造数目前是没法采集到的,但是 import.io 是可以准确采集到的。
GrahamCloud
2016-11-10 14:19:54 +08:00
@Magic347 说得对,现在对这类支持的还是不够。
chendajun
2016-11-10 14:33:53 +08:00
@crayonyi
@GrahamCloud
提取网页正文用的什么方法, readability-lxml ?
GrahamCloud
2016-11-10 15:16:33 +08:00
@chendajun 目前只有勾选,没有提取正文。
GrahamCloud
2016-11-10 15:16:39 +08:00
@chendajun 目前只有自动勾选,没有提取正文。
crayonyi
2016-11-10 23:11:02 +08:00
@GrahamCloud 现在支持翻页吗?我在平台商没有找到,另外 a 链接地址也没有识别出来

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/319286

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX