跑在客户端的分布式爬虫？

但感觉 Amazon 的数据太难爬了，容易被封

所以，有没有可能把爬虫的一部分写到客户端，通过用户的浏览器去爬，然后返回一部分数据给我，这样我就不用去买 IP 了。。。。。

chengxiao

2018-12-18 23:12:55 +08:00

兄弟你这个跟肉鸡有什么区别？
哪天 high 了一波 DDOS 带走~

freed

2018-12-18 23:18:47 +08:00

你能做到这个肯定有比较大的控制权限了,还靠他来爬东西?

啥时候开始了告诉一声啊.我看看有没有达到量刑标准,要判几年

cqcn1991

2018-12-18 23:39:23 +08:00

@chwhsen
@chengxiao
@kruskal
我想的是跑在 js 里面...然后浏览器去爬某个网页，把数据返回给我。。。

gamexg

2018-12-18 23:51:03 +08:00

感觉比价插件是一个很好的分布式爬虫。
用户打开商品页面显示价格历史时自动将商品当前价格上传。

Trim21

2018-12-18 23:56:39 +08:00

你想问的是无头浏览器吗, 还是真的像楼上说的那样想用某些正常用户的浏览器爬数据

westoy

2018-12-18 23:57:07 +08:00

不可能，但是可以让用户通过类似 yahoo YQL 的方法给你提供数据，问题是验证数据真实性的成本可能比多搞一个 IP 池高......

freed

2018-12-19 00:08:11 +08:00

@gamexg 不一样,比价插件是用户自己打开某些网页读取到了数据的,楼主是想控制用户打开他指定的网页爬取数据再回传给服务器..

cqcn1991

2018-12-19 07:17:23 +08:00

@Trim21 对，我以为在浏览器里的 console 里写爬虫就行，类似在浏览器里挖矿

woshipanghu

2018-12-19 09:03:04 +08:00

electron nightmare 你去看看可能是你要的
没什么浏览器跨域的问题，直接往页面里面注入你的 js 都行

gamexg

2018-12-19 10:10:14 +08:00

@freed #11 浏览器插件也能做到后台悄悄的按照楼主需求去爬，不过这么做会不会被下架就不知道了....

boweixiaobang

2019-08-08 14:53:36 +08:00

小帮软件机器人，是做客户端软件数据的自动采集和写入的。
CS 的采集和写入小帮都有优势。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.