[阿里爬虫] 如何应对反爬?

2022-02-23 13:57:41 +08:00
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

11529 次点击
所在节点    程序员
158 条回复
opengps
2022-02-23 15:46:20 +08:00
淘宝的用户不会是 idc 来源,所以封掉机房 ip 段非常正常
淘宝的反爬跟亚马逊一个道理,从零起家的电商都深受其害,自然处理到位。
至于京东为什么好爬,可能是不在乎流量成本吧
yhxx
2022-02-23 15:55:16 +08:00
@ospider
两种都违法的前提下
我觉得可能是因为爬别人的数据用于盈利极不道德
而大部分工程师用梯子都是用在正途上的,比如加速一些开源镜像、比如用 google 解决问题,而不是去做一些不道德的事
dcsuibian
2022-02-23 16:05:09 +08:00
玩爬虫可以,先了解一下判几年
96412hj
2022-02-23 16:49:39 +08:00
很刑,我看刑
mrhhsg
2022-02-23 16:50:36 +08:00
@ospider 墙这个东西大家心里对它都有自己的判断
和爬虫不一样
aino
2022-02-23 16:59:45 +08:00
逆向只能在小圈子交流,这里不适合提问。
sgq1128
2022-02-23 17:01:01 +08:00
@opengps 这个是因为淘宝是卖流量给商家的,所以非常在意流量;而京东是自营为主,不在乎流量来自哪里
Te11UA
2022-02-23 17:16:37 +08:00
@ElegantOfKing #32 想问问是哪个博主呢?
westoy
2022-02-23 17:17:16 +08:00
@sgq1128

这个倒真不是, 京东一样防爬虫的, 最早十几年前价格什么的都是用图片生成的, 刘强东当年还公开把做返利导流的比作是劫道的, 只是后来心态变了吧..........现在频繁访问也会强制登录的, 不同帐号阈值可能不一样, 只是楼主爬的那块应该没覆盖......
IBN5100
2022-02-23 17:18:18 +08:00
总有错觉公开信息随便爬
SoulClinic
2022-02-23 18:20:44 +08:00
总结:三思而后行...
怀念 牛顿 /达芬奇 /图灵 他们,给我们分享那么宝贵的知识一分钱都没要
SoulClinic
2022-02-23 19:00:59 +08:00
刚也提到了,这个 海豚选房,yfbudong.com 里有大部分阿里那边的房产数据,难道他们有合作?
是不是不同种类的数据不一样,“房产拍卖”是公开的,是个特殊情况?
就好像有些考试是特殊情况“开卷”的。。。
playniuniu
2022-02-23 19:04:20 +08:00
@SoulClinic 别听客户的,这个事情很多时候连律师说了都不算,不是公开信息就可以随便爬的,尤其人家有反爬措施,妥妥的破坏计算机系统。爬虫这种现在是判罚重灾区,偷偷做可以,公开出来,风险还是相当高的。
Senorsen
2022-02-23 19:14:52 +08:00
@ospider 都是好心提醒,等 lz 进去了就晚了。
用梯子被抓,行政处罚;写爬虫被抓,几个月甚至几年铁窗泪。不能简单的用被抓次数纬度评价,而是要综合看后果等进行风险评估。
Senorsen
2022-02-23 19:17:09 +08:00
另外,参考 :
https://www.zhihu.com/question/291554395
(随便 Google 来的)
一般认为,对于“明显反爬”的网站,则不能爬,否则必定踩红线。所以像淘宝这种,肯定爬不得了。
miyunda
2022-02-23 19:25:39 +08:00
楼主啊,你去海淀法院网站搜索下,有惊喜,狱友爬的很多都是公开的信息
ragnaroks
2022-02-23 19:29:16 +08:00
说实话不知道爬淘宝能判多久,但是传奇发布站可以坐 5 年
wyx119911
2022-02-23 19:35:10 +08:00
robots.txt 了解一下? robots 声明是具有法律效力的,有很多案例。
giiiiiithub
2022-02-23 19:37:47 +08:00
大家别劝了,劝就是当人发财路。楼主意思是其他人没被告,他也不会被告。上次见胆大还自负的,已经出来了还写了心得体会。
westoy
2022-02-23 19:45:40 +08:00
@SoulClinic

你举例的这家背后是家新三板公司, 整个公司股东构成里有非常多创投圈的人, 这种行业背景路子野的很

https://apps.apple.com/us/app/%E8%8D%B7%E9%B2%81%E6%96%AF%E5%8F%B8%E6%B3%95%E6%8B%8D%E5%8D%96%E6%95%B0%E6%8D%AE/id1555004602

他家产品之一, 明目张胆告诉你数据来源自哪些平台, 你觉得是爬来的概率有多少?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX