用强化学习/对抗生成,来做爬虫与反爬虫....?

2017-11-03 22:30:30 +08:00
 cqcn1991

发现自己写的 Amazon 爬虫被封了,因为没有 IP 资源,所以只得自己想办法反反爬 于是把 user agent 随机了一下继续爬,凑合用了 (Ruby,没有 Scrapy 那样的框架...)

不过想到

那么,是不是可以两个对抗生成比较好的爬虫 /反爬方法?

简单来说

最后是不是可以得到一个 model,非常接近人的行为?

不知道这个方法具体叫啥,感觉和对抗生成的思路有点像

4244 次点击
所在节点    奇思妙想
16 条回复
NullMan
2017-11-03 22:50:27 +08:00
我有个大胆的想法,实现一个 p2p 的爬虫代理。比如你想爬 amazon,那么就通过 p2p 网络,让 p2p 爬虫代理 A 帮助你爬 amazon 1 页面,p2p 爬虫代理 B 帮你爬 amazon 2 页面。

只要参与了这个 p2p 爬虫网络的人,都可以互相彼此代理爬取,这样就实现了分布式爬虫的效果。

你为人人,人人为用,这就是 p2p 的精神。
takato
2017-11-03 22:51:24 +08:00
恭喜爬虫币诞生- -
cqcn1991
2017-11-03 22:52:46 +08:00
@NullMan 所以还是直接分布式爬虫是吧,哈哈哈哈
NullMan
2017-11-03 22:55:01 +08:00
@cqcn1991 p2p 版的分布式爬虫可要比传统的分布式爬虫厉害多了,至少不用花钱,而且人数越多,越不可能会出现与之对抗的反爬虫手段。
shiny
2017-11-03 23:40:01 +08:00
@NullMan 架个蜜罐,封杀所有节点。
binux
2017-11-03 23:57:15 +08:00
结果是所有人都想爬 amazon
showgood163
2017-11-04 00:03:24 +08:00
这操作有意思。
davidqw
2017-11-04 10:33:42 +08:00
薅羊毛利器。。
SlipStupig
2017-11-04 10:38:26 +08:00
@takato 我也这么想过,算力取决于你抓取的性能证明....23333
i730
2017-11-04 14:15:13 +08:00
@shiny #5 你这个操作啊..........
soulmine
2017-11-04 16:52:26 +08:00
@NullMan 那和去网上扫点代理接口有什么区别 说到底不还是借别人的 IP 么 ww
fiht
2017-11-04 18:43:19 +08:00
@soulmine 这个区别就很高了啊,这个属于你偷着用别人的资源。
LukeChien
2017-11-04 19:05:36 +08:00
@NullMan 洋葱网络
diggerdu
2017-11-04 19:09:03 +08:00
日常流行名词造句
ZiLong
2017-11-04 22:54:57 +08:00
3G4G 配合现在的无限流量卡还是有搞头,手机的网络 ip,在重新进网(重启,飞行模式)的时候会换,而且不换也不怕,移动运营商分配给我们的是内网 IP,出口 IP 是大家共享的,对方也不敢封吧
PPPoE 每次拨号上网的 ip 也是要换的
silencefent
2017-11-05 09:05:15 +08:00
长城爬虫,强制万维网上所有站点每日提交更新报文并无偿贡献出来
不然就 firewall banlist

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/403377

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX