有没有能用或者说好用的 Chrome Spider?

2015-07-07 21:03:26 +08:00
 mywaiting
相信Spider用来收集信息已经是常态了吧? @binux 的 pyspider 成了日常收集信息的利器,但是也有了很多的问题

1、不断有各种JS、Cookie计算token来防止抓取,当然访问频次这个没有办法,只能不断地增加代理用的IP吧
2、Chrome的App已经足够强大

基于上述的两点,我想,是不是有一种基于Chrome的Spider,App形式,直接在Chrome里面搞定各种信息的抓取

有这样的App么?如果没有,来挖个坑如何?
2074 次点击
所在节点    问与答
6 条回复
nikola
2015-07-07 23:09:01 +08:00
mark
shierji
2015-07-07 23:15:48 +08:00
你说的是selenium吧
mywaiting
2015-07-08 08:51:26 +08:00
@shierji 类似吧。selenium跟phantomJS这样的差不多吧,我想说的是,或者说我想象的是Chrome Spider,就是一个Chrome的App,然后这个App的界面类似于pyspider的Web界面那样的,左侧是网页浏览,右侧上方是抓取脚本编辑器(Javascript),右侧下方是抓取日志输出

差不多就是chrome在右侧调用开发者工具的界面样子。
binux
2015-07-08 12:44:09 +08:00
爬取量大于100万之后,实际上分析请求的代价就小于使用完全渲染的代价了。
而且爬多了你就会发现,怎么抓这个问题,太容易解决了,根本没有必要付出那么大代价去开发什么 app
mywaiting
2015-07-08 15:03:48 +08:00
@binux 就是Cookie和Js的token计算防止抓取这方法处理起来略麻烦,觉得烦了就想着有没有chrome app这种完全渲染后抓取的实现

还好抓取量不大,就是检测几百个相关的微信公众号吧。目前我是写了个简单的chrome app的backgraound任务定时调用要抓取的url,用jQuery来提取渲染好的页面的内容。这个方法除了服务器限制抓取频率外,定时弹个图片验证码什么的,没有任何方法能够抵挡这种抓取,因为这算是真实的用户请求流量,绝对真实的
binux
2015-07-08 16:12:27 +08:00
@mywaiting 摸清楚就不麻烦。而且,爬取是要并行进行的,那么 cookie 怎么处理并发问题?最终的值以哪个为准?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/204043

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX