[阿里爬虫] 如何应对反爬?

2022-02-23 13:57:41 +08:00
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

13540 次点击
所在节点    程序员
158 条回复
yedanten
2022-02-24 10:26:58 +08:00
想想如果阿里起诉你,你和客户分别承担多少责任,在想想客户给你多少钱,自己权衡。
tLbf2p3UC4BM3H1N
2022-02-24 10:32:13 +08:00
证据明确,目标清晰,非法破坏计算机系统罪就差一步。
gongquanlin
2022-02-24 10:43:32 +08:00
@RickyC 我估计他只是把触发的阈值做的很低;他肯定是做很多个特征,然后计算阈值
mytsing520
2022-02-24 10:55:56 +08:00
和什么行业无关,既然人家做了反爬虫,楼主你就不要去爬。除非对方书面确认授权你爬取。
如果是个人行为,大概率你自己单独被抓,你供出客户,客户自己不承认就完事了,除非你有明确的书面证据。这样你和客户一起吃牢饭。
如果是公司行为,程序猿、公司法人、客户一起吃牢饭。
另外,行业里一般不会招吃过牢饭的人。
HiCoder
2022-02-24 10:56:54 +08:00
刑啊,这日子也越来越有判头了
byte10
2022-02-24 10:58:49 +08:00
哈哈,你去给我的视频点赞,我就给你方案嘿嘿。https://www.bilibili.com/video/BV1FS4y1o7QB ,我教你 nodejs 的 高级 浏览器,性能也满足。
jingslunt
2022-02-24 11:06:32 +08:00
爬虫已经入刑不知道吗
lakehylia
2022-02-24 11:18:54 +08:00
都劝了一页纸了,楼主还不回头,别劝了。。。
puzzle9
2022-02-24 11:37:14 +08:00
给上 上不听 卡
yundun2021
2022-02-24 11:44:41 +08:00
爬虫爬的好,牢饭吃到饱
chenmobuys
2022-02-24 11:44:53 +08:00
@SoulClinic 客户当然说没事了,你要问律师
mxT52CRuqR6o5
2022-02-24 11:51:36 +08:00
多雇点人,人肉爬,法律上很安全
lolizeppelin
2022-02-24 11:55:52 +08:00
楼主你就别搜知乎来证明不危险了
你觉得法官会看知乎来决定判不判你?

犯罪不犯罪是看告你的人怎么告,法官怎么判
天天有那么多人爬京东淘宝...很多还是出于学习目的测试的...淘宝京东也没兴趣每个都告

你值得不值得告的判断标准在别人手上...
被告了是不是犯罪...那得看法官律师,你觉得真要告你了,京东淘宝的律师水平怎么样?

你不怕就继续爬呗...反正一时半会肯定是不会出事的..出事了你也没心情这里发帖了
ctro15547
2022-02-24 12:37:59 +08:00
尽量国外服务器做这事
尽量不要在墙内留下你个人信息
国内有做爬虫被抓的案例 很刑的
SoulClinic
2022-02-24 13:13:14 +08:00
细思极恐,尤其是爬的时候又要登陆自己的淘宝账号,知道是谁在爬。。。

@zjddp 咱当然有收手的意思啊,至少我会问下客户,其实就是自己的好友,也不会有多少报酬(除非他因此赚到了),咱还疑惑这么多,主要是 Stay hungry, stay foolish. 好奇心和求知欲作怪
@lolizeppelin 在爬虫这一方面俺是新手,没看到多少这么可怕的案例新闻,很多都不知道。。

谢谢大家的忠言让咱悬崖勒马了,咱原本是想享受破解的过程,就像数学难题考试
听君一席言胜读十天书
faustina2018
2022-02-24 13:20:19 +08:00
建议你想办法联系管理员把帖子删掉
你可能不知道,v2ex 的所有帖子都是不能自主删除的

这个帖子会给你带来多严重的后果你看起来毫无概念
Nightmares13
2022-02-24 13:53:57 +08:00
直接跳脸京东,老哥,你有点东西啊。法律已经限制不住你了吗?
bzsh
2022-02-24 13:57:44 +08:00
@SoulClinic 单开服务,定期去生成 cookie ,放队列或者直接临时生成,话说你不怕吗,哈哈哈哈
SoulClinic
2022-02-24 13:58:05 +08:00
@Nightmares13 冤枉啊,无知者无罪啊,咱以为这是合法的才敢这样光明正大啊😹
figlu
2022-02-24 14:38:05 +08:00
反爬虫就是不做爬虫

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX