求指路淘宝爬虫姿势

2021-10-21 21:20:15 +08:00
 sengxian
现在有个需求,需要爬某品类下不同商家的大量商品详情及图片,总量约十万级别,预算比较充足,请问现在有靠谱的方法吗,是不是会面临比较大的政策风险 = =

求指路,感激不尽
7318 次点击
所在节点    程序员
68 条回复
lsylsy2
2021-10-21 21:21:57 +08:00
你的预算和法务都很难比阿里更充足
x86
2021-10-21 21:29:09 +08:00
阿里法务部希望你在年前可以做出来,这样好冲下 KPI
Xusually
2021-10-21 21:41:53 +08:00
Prison Oriented Programming
ByZHkc3
2021-10-21 21:48:43 +08:00
这是留下犯罪证据吗
kiracyan
2021-10-21 21:56:48 +08:00
吃牢饭的姿势?
defunct9
2021-10-21 21:57:21 +08:00
慢速 + 疯狂换代理,应该可以
Kiriya
2021-10-21 21:58:16 +08:00
爬虫写的好,牢饭吃到饱狗🐶
xiadd
2021-10-21 22:04:21 +08:00
雇人人工保存🐶
ixuuux
2021-10-21 23:25:31 +08:00
方法是有的,但是你要合规那没有
mxT52CRuqR6o5
2021-10-21 23:28:51 +08:00
@xiadd 雇人工手爬是最法律安全的,不过还是可能被反爬虫
eason1874
2021-10-21 23:39:41 +08:00
《面向法律编程》

@xiadd @mxT52CRuqR6o5 人工仅仅是访问合规,还有用途合规,这才是重点。要是用来盈利的,不管怎么收集都不会是合规的
johnsonshu
2021-10-21 23:40:15 +08:00
借楼问一下,爬某个网站合不合法,是不是看 robots.txt 就行啊?
有没有什么判断标准啊?
Jooooooooo
2021-10-21 23:44:10 +08:00
预算充足就人工搞呗.

十万个 10 天, 一天搞 1w, 雇 100 个人, 一人搞 100.
eason1874
2021-10-22 00:09:04 +08:00
@johnsonshu #12 法律很灵活,主要看你的财力和法务团队的能力。今日头条的历史就是一部爬虫与法律关系史。

1 、今日头条发家的时候肆无忌惮地采集,根据不管 robots.txt ,一律抓取放到自己网站,被百度、腾讯、微博等很多大网站和报纸起诉,一些和解转为合作,一些赔点钱。
2 、后来反过来,有个小公司采集今日头条的视频,几个主要人员被判刑和罚款,全国首例“爬虫”技术侵入计算机系统案。
3 、今日头条被微博 robots.txt 拉黑,他们还反过来起诉微博不正当竞争,2017 一审胜诉,2021 二审才改判败诉。
caicaiwoshishui
2021-10-22 09:21:19 +08:00
@eason1874 血压上来了
lilihangzhou
2021-10-22 09:31:52 +08:00
劝退,曾经爬过一小阵子淘宝有好货的文案,那个时候做爬虫还没什么法律风险,但是淘宝的反爬很厉害,爬了几万数据就被堵上了,
oneisall8955
2021-10-22 09:53:09 +08:00
对接第三方吧?
supuwoerc
2021-10-22 10:00:41 +08:00
预算够的话直接上人工,手动保存,这样就没政策风险了🐶
lzs5240
2021-10-22 10:05:58 +08:00
阿里法务部已记录在案 希望你赶紧行动
shanghai1943
2021-10-22 10:30:52 +08:00
莫非这帖子是阿里法务的钓鱼贴?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/809639

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX