跑在客户端的分布式爬虫?

2018-12-18 21:48:40 +08:00
 cqcn1991

自己有一个小爬虫网站 ( http://learnbyreading.herokuapp.com/)

但感觉 Amazon 的数据太难爬了,容易被封

所以,有没有可能把爬虫的一部分写到客户端,通过用户的浏览器去爬,然后返回一部分数据给我,这样我就不用去买 IP 了。。。。。

2847 次点击
所在节点    问与答
20 条回复
chwhsen
2018-12-18 23:09:51 +08:00
木马爬虫?
chengxiao
2018-12-18 23:12:55 +08:00
兄弟 你这个跟肉鸡有什么区别?
哪天 high 了 一波 DDOS 带走~
kruskal
2018-12-18 23:18:29 +08:00
醒醒,把用户当肉鸡是违法行为
freed
2018-12-18 23:18:47 +08:00
你能做到这个肯定有比较大的控制权限了,还靠他来爬东西?

啥时候开始了告诉一声啊.我看看有没有达到量刑标准,要判几年
cqcn1991
2018-12-18 23:39:23 +08:00
@chwhsen
@chengxiao
@kruskal
我想的是跑在 js 里面...然后浏览器去爬某个网页,把数据返回给我。。。
orangeade
2018-12-18 23:43:40 +08:00
不如先爬免费的 IP 代理池
gamexg
2018-12-18 23:51:03 +08:00
感觉比价插件是一个很好的分布式爬虫。
用户打开商品页面显示价格历史时自动将商品当前价格上传。
t6attack
2018-12-18 23:52:37 +08:00
浏览器的 跨域限制 就是针对你的。
Trim21
2018-12-18 23:56:39 +08:00
你想问的是无头浏览器吗, 还是真的像楼上说的那样想用某些正常用户的浏览器爬数据
westoy
2018-12-18 23:57:07 +08:00
不可能, 但是可以让用户通过类似 yahoo YQL 的方法给你提供数据, 问题是验证数据真实性的成本可能比多搞一个 IP 池高......
freed
2018-12-19 00:08:11 +08:00
@gamexg 不一样,比价插件是用户自己打开某些网页读取到了数据的,楼主是想控制用户打开他指定的网页爬取数据再回传给服务器..
chinafeng
2018-12-19 00:10:08 +08:00
楼主大概需要什么量级的代理池呢?
agdhole
2018-12-19 01:03:00 +08:00
京价保插件不就是这个原理吗
onedayoneapple
2018-12-19 07:02:52 +08:00
@orangeade 这个怎么爬
cqcn1991
2018-12-19 07:17:23 +08:00
@Trim21 对,我以为在浏览器里的 console 里写爬虫就行,类似在浏览器里挖矿
wly19960911
2018-12-19 08:25:31 +08:00
js 的话浏览器跨域怎么解决
woshipanghu
2018-12-19 09:03:04 +08:00
electron nightmare 你去看看 可能是你要的
没什么浏览器跨域的问题,直接往页面里面注入你的 js 都行
zhchyu999
2018-12-19 09:30:21 +08:00
有 refer 的
gamexg
2018-12-19 10:10:14 +08:00
@freed #11 浏览器插件也能做到后台悄悄的按照楼主需求去爬,不过这么做会不会被下架就不知道了....
boweixiaobang
2019-08-08 14:53:36 +08:00
小帮软件机器人,是做客户端软件数据的自动采集和写入的。
CS 的采集和写入小帮都有优势。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/518771

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX