[阿里爬虫] 如何应对反爬?

2022-02-23 13:57:41 +08:00
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

13535 次点击
所在节点    程序员
158 条回复
icy37785
2022-02-24 08:51:48 +08:00
@2MO #75 不懂法可以闭嘴,别张嘴就来,用梯子翻墙一般都是行政处罚,就是签保证书和罚款完事,罚款也低,爬虫是刑事案件,真判下来基本上就是半年起跳了。
最怕的就是你们这些人,所以总有人被抓的时候都不知道自己怎么就被抓了。
shaojz2005
2022-02-24 08:57:53 +08:00
讨论技术问题的,上面很多人说了,淘宝的反爬很难绕过去,要绕过去可能需要花费成本来形成更多的”自然用户行为“。

其他公司的网站有这些信息,你也不知道具体是怎么来的,有可能真的是合作,也有可能爬了,但是对方有法务团队能应对这样的风险。

听你的意思,你是外包帮客户开发小程序来爬资源,找外包的客户会具备强大的法务团队吗?即使有,万一真的被告了,客户会帮你打官司吗?当然一般情况下被告入刑的可能性也没那么大。但你在公开论坛讨论这个东西,留下的痕迹就太多了,真被人注意上也不奇怪的。
magicyao
2022-02-24 09:02:14 +08:00
@deplivesb 真的假的,和对面一起测试在测试环境发送不合规数据还会被报警,对面的测试部门是吃翔的吗
winglight2016
2022-02-24 09:03:28 +08:00
做爬虫百分百违法,特别是,作为公司行为时。所以,不管这种岗位给多少,我是绝不考虑的,因为以前已经有过判例,程序员作为实现者,也会被判刑——在此之前,的确是可以作为“菜刀”免责。

淘宝这个滑块,我只要访问天猫店就必定出现,提示使用了 VPN——跟本地是否开了 VPN 无关,我猜测办公室网络出口有 VPN 之类的设备。
wowbaby
2022-02-24 09:21:53 +08:00
淘宝,天猫我正常访问都难,
RickyC
2022-02-24 09:30:00 +08:00
天热,开空调呀。
怕怕虫,加验证码呀。
RickyC
2022-02-24 09:31:16 +08:00
@gongquanlin 您说的是 web 端?
淘宝怎么判断是不是正常访问呢?即便登录了也可能是爬虫吧。
还没怎么见过 app 端加验证码的。
zjddp
2022-02-24 09:31:29 +08:00
挡人财路如杀人父母,楼上一众老哥请适可而止
RickyC
2022-02-24 09:37:34 +08:00
看错了。以为你是反爬虫,没想到你是黑客。
你这个,我想到 3 个解决方案:
方案一:雇人人工爬;如果你是盖茨,花个几千亿美元,雇个几亿人,应该能解决;
方案二:收购京东或阿里巴巴,让他们把数据交给你;
方案三:研究高级 AI 技术,模拟人类动作,破解验证码;

一般来讲,五百年内这个问题是有可能解决的。
RickyC
2022-02-24 09:39:23 +08:00
@zjddp 要你这么说,世界岂不和平了?没有战争了?
zjddp
2022-02-24 09:41:28 +08:00
@RickyC 劝了快 90 楼了你看 op 有收手的意思吗?还是说我理解错大家的初衷,只是为了给 op 以外看到帖子的人做普法教育?
JieGaLee
2022-02-24 09:47:40 +08:00
在这问一问各位,之前的工作中有写爬虫,并且现在爬虫还在公司部署着(但是具体的部署、定时、存储之类的的不是我管,我只负责写 spider 文件),这种情况下我要怎么规避法律风险。
RickyC
2022-02-24 09:52:01 +08:00
@JieGaLee 没办法吧
wensonsmith
2022-02-24 09:52:35 +08:00
爬虫写得好,牢饭吃到饱
qsnow6
2022-02-24 09:54:07 +08:00
没事,去爬嘛
itechnology
2022-02-24 09:58:13 +08:00
大家还是别劝了,反正这么多人都劝他,楼主还是认为可以爬,自己不会那么倒霉被抓
ElegantOfKing
2022-02-24 10:01:26 +08:00
@Te11UA 必须亚一爬啊
xqk111
2022-02-24 10:06:58 +08:00
瑟瑟发抖
deplivesb
2022-02-24 10:18:07 +08:00
@magicyao 信不信由你,反正这是我身边发生的我知道的时间最近的,就在今年过年前,我也是过年和同学一块聚知道的
cyrbuzz
2022-02-24 10:20:19 +08:00
君子不立于危墙之下。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX