造数发布详情页/二级页面通用采集功能咯,求探讨研究,求意见。

2017-02-27 12:55:10 +08:00
 GrahamCloud

来这里看新功能加持的 造数 zaoshu.io

撒花! 我们又在大家的意见中改进了 详情页爬取的功能,快来扔砖! 另外我们就之前的功能做了一个详细的讲解视频,欢迎大家看,知名声优配音哦。 欢迎更多的意见。

讲解视频在这里

3909 次点击
所在节点    推广
32 条回复
jijiwaiwai
2017-03-02 12:47:13 +08:00
@NirvanaCN JD 有防爬虫机制,可以切换代理
http://www.infosec-wiki.com/?p=344
jijiwaiwai
2017-03-02 12:47:51 +08:00
打造自己的云爬虫; http://www.infosec-wiki.com/?p=308
GrahamCloud
2017-03-02 12:53:06 +08:00
@jijiwaiwai 文章很有意思。
GrahamCloud
2017-03-02 13:00:02 +08:00
@jijiwaiwai 架构很有意思,求加微信: Zaoshuio
Reign
2017-03-03 13:42:39 +08:00
一直搞不懂这种云爬虫优势在什么地方,实际爬网站的时候遇到的情况千变万化,控制频率、切换代理、验证码、邮箱验证、手机验证、伪装 header 等等,各种网站反爬虫系列一个比一个厉害,遇到没 header 的,加入黑名单,遇到只请求内容不请求 css 的,加入黑名单,遇到 phantomjs 的,加入黑名单,请求次数太猛的,加入黑名单。如果真的是爬一个简单的新闻页面, chrome 一个 F12 ,几分钟就创建一个爬虫,还需要在页面上点过去点过来啊?
LittleWhiteMouse
2017-03-03 14:10:10 +08:00
@Reign +1

想爬的时候用它爬不成,不是工具不好,是肯定被各种反杀。

可视化选择很好,但是想选中合适的元素并不容易,除非可以自己定制选择器……

都这么麻烦了,自己写个油猴脚本也就把事情办了,效率是低了点,但是被杀的可能性也低了,工作量不是很大的情况已经足够用了
GrahamCloud
2017-03-03 14:21:06 +08:00
@Reign 说的有道理,目前解决一些 完全没编程基础的 分析人士基本采集数据的需求,还是反响不错的。
你说的反爬,验证,我们都会一个个完善的。
欢迎加团队微信: Zaoshuio
期待更多意见
GrahamCloud
2017-03-03 14:22:00 +08:00
@LittleWhiteMouse 就是因为有反杀的才有一点商业价值啊, v2 都是程序员背景为主,其实还有很多人还是最原始的方式抓取信息。
LittleWhiteMouse
2017-03-03 14:26:40 +08:00
@GrahamCloud #28

可以自己输入选择器么?作为高级功能,现在的可视选择很多情况下只是让人窝火
GrahamCloud
2017-03-03 19:57:53 +08:00
@LittleWhiteMouse 暂时不会支持选择器功能,以后可能会上。
Livid
2017-03-06 11:56:02 +08:00
duhai973
2017-04-22 15:17:54 +08:00
高不成,低不就

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/343490

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX