有没有能用或者说好用的 Chrome Spider？

相信Spider用来收集信息已经是常态了吧？ @binux 的 pyspider 成了日常收集信息的利器，但是也有了很多的问题

1、不断有各种JS、Cookie计算token来防止抓取，当然访问频次这个没有办法，只能不断地增加代理用的IP吧
2、Chrome的App已经足够强大

基于上述的两点，我想，是不是有一种基于Chrome的Spider，App形式，直接在Chrome里面搞定各种信息的抓取

有这样的App么？如果没有，来挖个坑如何？

nikola

2015-07-07 23:09:01 +08:00

mark

shierji

2015-07-07 23:15:48 +08:00

你说的是selenium吧

mywaiting

2015-07-08 08:51:26 +08:00

@shierji 类似吧。selenium跟phantomJS这样的差不多吧，我想说的是，或者说我想象的是Chrome Spider，就是一个Chrome的App，然后这个App的界面类似于pyspider的Web界面那样的，左侧是网页浏览，右侧上方是抓取脚本编辑器（Javascript），右侧下方是抓取日志输出

差不多就是chrome在右侧调用开发者工具的界面样子。

binux

2015-07-08 12:44:09 +08:00

爬取量大于100万之后，实际上分析请求的代价就小于使用完全渲染的代价了。
而且爬多了你就会发现，怎么抓这个问题，太容易解决了，根本没有必要付出那么大代价去开发什么 app

mywaiting

2015-07-08 15:03:48 +08:00

@binux 就是Cookie和Js的token计算防止抓取这方法处理起来略麻烦，觉得烦了就想着有没有chrome app这种完全渲染后抓取的实现

还好抓取量不大，就是检测几百个相关的微信公众号吧。目前我是写了个简单的chrome app的backgraound任务定时调用要抓取的url，用jQuery来提取渲染好的页面的内容。这个方法除了服务器限制抓取频率外，定时弹个图片验证码什么的，没有任何方法能够抵挡这种抓取，因为这算是真实的用户请求流量，绝对真实的

binux

2015-07-08 16:12:27 +08:00

@mywaiting 摸清楚就不麻烦。而且，爬取是要并行进行的，那么 cookie 怎么处理并发问题？最终的值以哪个为准?

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/204043

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.