关于云爬虫用户场景和需求的讨论帖

2016-12-06 13:00:41 +08:00

GrahamCloud

四周以来，几个小伙伴在做云爬虫易用性上下了很多功夫，功能和交互上都保持了每周两次 push 的节奏，不足还很多，现在问题是，大家对爬虫的应用场景有什么看法，我们下一步想要做定制，开放 api 。

想做到最好的造数，主页在这里 zaoshu.io

想想很欣慰，四周以前我们还是一团糟，现在已经基本功能比较清楚了，关于云爬虫的前景，应用场景，需求，希望大家都来聊聊。嘿嘿。欢迎合作

11071 次点击

所在节点

程序员

70 条回复

phantom1124

2016-12-13 12:14:23 +08:00

只能爬取当前页吗？如果我想爬取所有分页的数据怎么做？

xycool

2016-12-13 12:49:58 +08:00

分页的数据没办法爬，我就放弃了。还是继续做神箭手的付费用户吧。。还有什么云爬虫，求推荐。

iannil

2016-12-13 13:37:53 +08:00

http://www.gamersky.com/handbook/201507/618347_5.shtml

什么元素都选不了。

hanbing135

2016-12-13 13:45:53 +08:00

能不能特定的检测某个数据变化呢比如 epub.sipo.gov.cn 我想追踪每天发明专利公开和授权的数量变化设定了这个网页抓取不到数据啊

iannil

2016-12-13 13:46:55 +08:00

桌面版的开源程序： https://github.com/ferventdesert/Hawk

和造数功能接近，很好用，可以参考。

GrahamCloud

2016-12-13 14:28:31 +08:00

@phantom1124 爬取分页在你的工作台里设置规则可以做。

GrahamCloud

2016-12-13 14:29:07 +08:00

@hanbing135 我们可以把现在的 bug 修复以后专门帮你自定义。

GrahamCloud

2016-12-13 14:29:41 +08:00

@xycool 分页现在其实是完全可以爬的，在你的控制台的设置规则里。

GrahamCloud

2016-12-13 14:41:20 +08:00

@iannil 很强大，感谢。

imn1

2016-12-13 14:59:27 +08:00

爬虫这个问题，和 ad block 工具某些方面有点类似，其目的都是帮助用户舍弃“无效信息”，直接获取“有效信息”
但争议性非常大，建议还是低调，盈利以服务性质为主，而不能以内容作为衡量
做得好，还可美其名为“聚合”，做不好、做大了还是难免成为被告的

GrahamCloud

2016-12-13 15:09:44 +08:00

@imn1 是啊，说得有道理。

graetdk

2016-12-13 15:29:34 +08:00

为啥页数只能是 1-100 ？

GrahamCloud

2016-12-13 15:33:52 +08:00

@graetdk url 总量不能太大，目前

xycool

2016-12-13 16:01:50 +08:00

@GrahamCloud 不能用正则匹配吧？是不是需要复制所有的分页 Url 。

xycool

2016-12-13 16:04:40 +08:00

@GrahamCloud 哦哦。昨天那个设置页码的页面没有弹出来，我以为不能设置分页。现在可以弹出来了。。如果有文档就好了。

GrahamCloud

2016-12-14 11:18:22 +08:00

@xycool 分页现在除了总量有限制，要改进的看来还有很多。

tikazyq

2016-12-26 21:01:20 +08:00

神箭手

hcymk2

2016-12-29 14:06:50 +08:00

支持需要登录后才能爬取的页面么?

GrahamCloud

2016-12-29 14:09:01 +08:00

@hcymk2 现在还不支持。

GrahamCloud

2017-01-04 11:23:39 +08:00

@hcymk2
@xycool
@graetdk 新的界面要出来了，谢谢大家的意见。

第 3 页／共 4 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/325634

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.