[阿里爬虫] 如何应对反爬?

2022-02-23 13:57:41 +08:00
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

13573 次点击
所在节点    程序员
158 条回复
SoulClinic
2022-02-24 23:10:07 +08:00
@icy37785 @2MO
有话好好说不要太过认真啊,虽然大多回复的是意料之外的有关法律的,但也是好言相劝忠言逆耳哈。
如果能顺带一些技术分享那当然就更好了 😊
2MO
2022-02-25 00:07:22 +08:00
@SoulClinic 见人说人话,见鬼就学鬼话咯。另外一个哥们回我帖我也是好声好气的。但看到他的,我脾气就不待见这些自以为是的人,拉黑还要跟对方说拉黑了,简直无语她妈夸无语——好无语,搞的好像我在意他拉黑一样。这么遵纪守法的人都不知道他们翻墙来干嘛的。不好好交流技术回答问题只会阴阳怪气『教别人做人』,先把自己舌头捋直再说吧。
lizhenda
2022-02-25 09:46:34 +08:00
有意思
hejw19970413
2022-02-25 10:21:01 +08:00
我劝你改一下你的文字,一定要遵守爬虫协议,以及人家网站的信息不要用于商用,否则会收到律师函的~
hejw19970413
2022-02-25 10:22:47 +08:00
@SoulClinic 个人用是可以的,只要是在公司就不行,贩卖也不行。不是危言耸听,是真的。
ww940521
2022-02-25 10:26:03 +08:00
爬虫这种技术不学也罢,通过损害他人利益牟利于情于理于法都不容。
ffw5b7
2022-02-25 11:28:55 +08:00
最近想做一个社区买菜比价,使用于学习。
也在看爬虫的法律问题。
现在有一个案例 电商比价应用:购物党
它的数据来源应该是爬虫的,为什么还存在。
有诱有过诉讼:http://lawyers.66law.cn/s2106025344063_i210080.aspx


更多的案例和涉及到的法律法规:
https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
SoulClinic
2022-02-25 12:14:47 +08:00
@ww940521 就是因为经常看到爬虫相关的文章,觉得自己好像一点都不懂就有点过时了一样。。。
咱们爬到主要是为人民服务,会有标签“京东”or“阿里”表面出处的
前面提了,看到已经有这类公开的 app (海豚选房法拍版),所以才以为这是“理所当然”的公开信息,想开发一个海豚的加强版
qq1340691923
2022-02-25 15:09:03 +08:00
你还是人吗
qq1340691923
2022-02-25 15:13:15 +08:00
我给京东发邮件了
golden0125
2022-02-25 15:45:50 +08:00
笑死,一群翻墙出来的居然大言不惭开始动之以情晓之以理讲法律了,还玩起 “这很刑 那很刑” 的梗,你们先把用什么软件翻墙出来的,有没有经过有关部门审批,除了这个论坛还去过哪些网站,说过哪些话都交代清楚吧,我看你们才是太刑了
WWwwMMmmMMmmWWww
2022-02-25 16:40:12 +08:00
爬虫真的有罪 企查查和天眼查应该早就关闭了。
wildplant
2022-02-25 19:57:40 +08:00
楼主的“咱”=“我”,这是哪个地方的方言?
SoulClinic
2022-02-25 20:04:52 +08:00
@wildplant 心中无我,请忘了“我”吧
colinlp
2022-02-26 00:07:01 +08:00
造枪是技术,种罂粟是技术,造纸币是技术,技术本来就存在各个角落,你能看得到的东西都有科学原理技术支持,既想犯罪又想拿技术当挡箭牌,这么别扭你觉得你能搜到正确的东西吗?你想犯罪就直接搜怎么犯罪,不用搜怎么学技术。
SoulClinic
2022-02-27 00:53:04 +08:00
@colinlp 这是搜索整理一下数据让用户更方便搜寻,没有涉及什么利益或者过量请求让对方服务器负担啊
按照你的看法,谷歌早就犯罪得下十八层地狱了吧?
mmg114514
2022-02-28 00:24:08 +08:00
我的话会用 selenium 尽量仿真人操作 自动换 cookie 也可以用其他库实现
SoulClinic
2022-03-01 15:27:19 +08:00
@mmg114514 这里用的 puppeteer 不更强吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX