[阿里爬虫] 如何应对反爬?

2022-02-23 13:57:41 +08:00
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

13559 次点击
所在节点    程序员
158 条回复
zhch602
2022-02-24 15:03:20 +08:00
@ospider 你说的很对啊,中国千万人用梯子,被抓的有几个?中国写爬虫的多少人?被抓的有几个?
zhch602
2022-02-24 15:05:27 +08:00
@herozzm 你看看今日头条什么时候火的,再看看爬虫违法是什么时候开始的,你现在再做一个今日头条试试,我看刑
lingo
2022-02-24 15:14:57 +08:00
听听楼上的。他不反爬,还能说是公开的,有点争议。。他反爬了你还爬,那就一点争议都没了。
SoulClinic
2022-02-24 15:27:27 +08:00
@figlu 咱主要是冲着技术学习上去的,闹着玩,没有利益化
SoulClinic
2022-02-24 15:34:52 +08:00
如果咱把爬到的数据只是内部用,不公开出去,这算是合法吗?也不会有很大量的请求(可能一个普通用户的请求都比不上,因为只会搜取关键的几个请求,不用图片等信息)
Nightmares13
2022-02-24 15:52:20 +08:00
@SoulClinic 这话你和网安说吧
dingyx99
2022-02-24 16:21:42 +08:00
@SoulClinic 你不会真觉得 技术学习 四个字是万能的吧
SoulClinic
2022-02-24 17:58:58 +08:00
@dingyx99 没有技术是万万不能的啊
collen
2022-02-24 19:22:22 +08:00
昨天到今天一天了,实在看不下去了 。 善意劝人如杀人父母,直接给京东发邮件让他进去好好学习一下,自用,公开,不商用,学习无止境好了.
collen
2022-02-24 19:25:53 +08:00
https://kknews.cc/zh-my/story/nxgn5r3.html 借用一下 第四种人当自己病魔侵身,四大离散,如风前残烛的时候,才悔恨当初没有及时努力,在世上空走了一回。好比第四等驽马,受到彻骨彻髓的剧痛,才知道奔跑。然而,一切都为时过晚了。 祝技术越来越好,国家饭越吃越饱.
SoulClinic
2022-02-24 19:58:46 +08:00
@collen 没有“善意劝人如杀人父母”吧,咱感谢了大家提醒,自己细思极恐啊
只是自己的好奇心还是会作怪把不理解或者没有经历过的疑问提出来,看来是应该跟 Google 提
总得来说动机不坏,原本是想挑战技术难题,没有考虑利益冲突,现在意识到了会改邪归正的
hallDrawnel
2022-02-24 20:28:33 +08:00
兄弟,这么多人说法律问题我就不多说了,违不违法如果你不确定,可以问问身边的律师朋友,或者看看各个地方法院的判例。你要锻炼技术也好做什么也罢,但你至少要确定一点,爬到的数据你有没有最终的控制权,以及失控后(比如说被其他团队商用了而你不知情)如果有一天淘宝京东法务过来告你们公司,你会不会是那个被推出来背锅的人。
2MO
2022-02-24 20:30:26 +08:00
一个技术交流贴这么多人不聊技术只聊法律,v2 直接改法律工作者论坛好了。
SoulClinic
2022-02-24 20:36:56 +08:00
@hallDrawnel 今天就把这里的讨论跟客户说了,他也是会改变策略的,会去确认一下是否合法或者是否可以内部使用的了
@2MO 是有点超乎咱想象的,发帖时以为大家会冲着爬虫 /破解技术兴趣讨论,没想到是超乎想象的好心提醒,磕头感谢大伙免了咱的牢狱之灾
2MO
2022-02-24 20:53:12 +08:00
@SoulClinic 还是去 52pojie 交流技术吧,V2 已经变味了。来这里摸鱼扯淡就好。
SoulClinic
2022-02-24 21:04:06 +08:00
咱初中就是数学拿满分 /第一,政治、历史不及格那种,对法律就是文盲
2MO
2022-02-24 21:14:34 +08:00
@icy37785 我都不怕要你怕?是不是太把自己当回事了。这个帖子是来交流技术还是交流法律的,自己先长不长眼,还我不懂法,爬取资料不破坏其服务器正常服务并不将爬取数据进行商用,对方公司干嘛找我?以为大产法务都很闲吗?你这么懂看来是法律专业的吧,那请你告诉我,爬取他人网站并唆使他人一起犯罪的判几年,你那么爱管事建议马上去把 B 站那些教爬虫的 UP 和那些打着爬虫技术培训班通通去举报掉,然后再开个贴弘扬一下你的战绩。
2MO
2022-02-24 21:31:07 +08:00
@xxfye 那些进去的前提是对方公司发现你侵犯他权益并且照成损失了的,我也说明了自己爬爬交流学习的能刑到哪去,B 站那些做统计的 UP 数据不也都是爬来的。况且帖子本来就是交流技术问题的,一群人只聊法律不聊技术,真的是看的无语了,来 V2 是为了看这些的吗。
icy37785
2022-02-24 22:01:28 +08:00
@2MO #137 前面还以为你是单纯的不懂法,不知道事情的严重性,所以在那里大放厥词。
看你这条回复算是明白了,原来是脑子不好在这里秀下限,那没事了。希望你小学毕业之后还这样想。
block 了,再见。
2MO
2022-02-24 22:11:15 +08:00
@icy37785 怎么,不长眼睛看我说的是自己爬爬么,非要跟我扯违法,我就不信你这辈子清清白白一点没触碰法律。来秀智商下线的分明是你,跑到技术贴下面来秀自己的法律知识,这个是小学有毕业的人干的事?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX