[阿里爬虫] 如何应对反爬?

2022-02-23 13:57:41 +08:00
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

13503 次点击
所在节点    程序员
158 条回复
SoulClinic
2022-02-23 20:13:33 +08:00
@giiiiiithub 咱的意思是别人都光明正大这样干,人类是很擅长模仿的呀,不是恶意的啊
咱也是有些意外,本想请教技术难题,结果是让咱瑟瑟发抖的善意法律提醒警告,真是悬崖勒马啊
IvanLi127
2022-02-23 20:34:42 +08:00
那个啥,反爬不是害你,而是救你🤣
cnrting
2022-02-23 20:36:34 +08:00
楼主我支持你😬
ClericPy
2022-02-23 20:48:44 +08:00
看了上面的帖子们... 一言难尽

大家伙故意把你帖子从敏感区往休闲带, 带不动啊

PS: 万万没想到 <黑客与画家> 会这样被 Q 到...
icy37785
2022-02-23 20:48:48 +08:00
@ospider #36 回答你第一个问题,梯子被抓的多还是爬虫被抓的多,答案是做爬虫比卖梯子的和用梯子的被抓的多。回答第二个问题为什么唯独爬虫有这种警示,这个有两个原因,一个是梯子都知道违法,爬虫很多人不认为违法,第二个是,爬虫比卖梯子判得还要重,但是对做爬虫的重视比卖梯子要差太远了。
SoulClinic
2022-02-23 20:58:39 +08:00
@ClericPy 你是不是说反了?是把我的“技术交流”的休闲贴带到了“法律坐牢”的敏感贴啊。。。
justs0o
2022-02-23 21:07:42 +08:00
@SoulClinic
1 、阿里有一个威胁情报库,里面几乎囊括了市面上的代理 IP
2 、阿里网页内嵌了 SDK ,会收集数据
3 、AI 会根据 2 的数据和算法,对你进行打分判断,恶意用户就会弹验证码
zhw2590582
2022-02-23 21:10:49 +08:00
楼主认为:别人很多都是这样爬的,也没有被抓进去,为什么偏偏说我
ClericPy
2022-02-23 21:12:01 +08:00
@SoulClinic 他们也是想让你及时刹车吧, 有些灰色的东西不宜在公开场合讨论, 顶多一些小圈子群里交流讨论

除了法务问题, 也可能会影响灰产饭碗吧. 参考当年搜狗那个直接把公众号临时链接转永久链接的漏洞, 有个好心人直接开源丢到 Github 了, 估计被相关人员看到, "仅用了不到半年"就把漏洞补上了, 然后不少灰产成本直接起飞了

简单的说, 反爬本身就是人家表态的合理合法的行为, 无视君子协议本身就不太好, 公开讨论不管什么结果(给对方带来损失, 或者对方及时止损), 总有一方不开心的

现在找工作都尽量避开逆向和灰色的了, 又不是无路可走没必要冒一些没必要的风险

言尽于此且行且珍惜吧
gamexg
2022-02-23 21:15:10 +08:00
@SoulClinic #25

真的违法,
你不突破反爬虫限制,判起来还有争议。
但是突破反爬虫限制,直接就能按照入侵破坏计算机系统判了。
你破坏的就是反爬系统。
9c04C5dO01Sw5DNL
2022-02-23 21:19:46 +08:00
@SoulClinic 你跟我这么解释没用,看看那些已经被判的是不是在公堂上也这么解释的,是不是也有用。
vone
2022-02-23 21:23:43 +08:00
淘宝的反爬有个办法:用 hosts 文件把淘宝的域名强制指向到其他省份服务器上去。

这个原理是 ip 本来是就近分配的,你强制指定后,你访问的目标服务器整个可能就你一个是你所在省份的,你的这点数据量会被其他流量淹没,不会识别到你。
SoulClinic
2022-02-23 21:23:54 +08:00
@zhw2590582 这是咱的处女爬啊( 4 年前买了本《用 Python 写网络爬虫》还没看),之前也没去关注了解,这是本能反应哈

@ClericPy 是的,现在咱会三思而后行,总不能玩出事来啊😹。不过疑惑大家都没有谈到“房地产”领域,爬虫领域是可以一概而论的吗?估计程序员(包括咱)大都对房地产没兴趣~
SoulClinic
2022-02-23 21:51:18 +08:00
《爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?》: https://v2ex.com/t/666057
SoulClinic
2022-02-23 21:58:40 +08:00
网上搜了一下,没有这里大家说的那么恐怖,不过大都是 2019/2020 年的,是不是这几年对爬虫的法律管控越来越严格了呢?
https://www.zhihu.com/question/291554395
nziu
2022-02-23 23:01:20 +08:00
billly
2022-02-23 23:56:54 +08:00
加油,放手去做吧,反正大家劝了这么多,你还是这种态度
2MO
2022-02-24 01:32:16 +08:00
别管那么多,自己爬爬能怎么刑。要说刑的,你们这群翻墙的才是真的刑,不知道能进去几次了
NXzCH8fP20468ML5
2022-02-24 02:07:14 +08:00
@2MO 主要问题是,翻墙本身并不涉及明显利害关系,所以暂时来说还比较安全。
爬虫不一样,有明确的侵权方和被侵权方。被爬方有足够的利益和动机将爬虫作者送进监狱。
如果哪一天,查处翻墙服务被委托给某个公司,这构造了明显利害关系,那翻墙真的的是岌岌可危。
docx
2022-02-24 03:04:29 +08:00
OP 本来是想讨论技术问题的,万万没想到众网友的思想觉悟都很高。

建议:还是找个专门的论坛吧。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX