求指路淘宝爬虫姿势

现在有个需求，需要爬某品类下不同商家的大量商品详情及图片，总量约十万级别，预算比较充足，请问现在有靠谱的方法吗，是不是会面临比较大的政策风险 = =

求指路，感激不尽

lsylsy2

2021-10-21 21:21:57 +08:00

你的预算和法务都很难比阿里更充足

x86

2021-10-21 21:29:09 +08:00

阿里法务部希望你在年前可以做出来，这样好冲下 KPI

Xusually

2021-10-21 21:41:53 +08:00

Prison Oriented Programming

ByZHkc3

2021-10-21 21:48:43 +08:00

这是留下犯罪证据吗

kiracyan

2021-10-21 21:56:48 +08:00

吃牢饭的姿势?

defunct9

2021-10-21 21:57:21 +08:00

慢速 + 疯狂换代理，应该可以

Kiriya

2021-10-21 21:58:16 +08:00

爬虫写的好，牢饭吃到饱狗🐶

xiadd

2021-10-21 22:04:21 +08:00

雇人人工保存🐶

ixuuux

2021-10-21 23:25:31 +08:00

方法是有的，但是你要合规那没有

mxT52CRuqR6o5

2021-10-21 23:28:51 +08:00

@xiadd 雇人工手爬是最法律安全的，不过还是可能被反爬虫

eason1874

2021-10-21 23:39:41 +08:00

《面向法律编程》

@xiadd @mxT52CRuqR6o5 人工仅仅是访问合规，还有用途合规，这才是重点。要是用来盈利的，不管怎么收集都不会是合规的

johnsonshu

2021-10-21 23:40:15 +08:00

借楼问一下，爬某个网站合不合法，是不是看 robots.txt 就行啊？
有没有什么判断标准啊？

Jooooooooo

2021-10-21 23:44:10 +08:00

预算充足就人工搞呗.

十万个 10 天, 一天搞 1w, 雇 100 个人, 一人搞 100.

eason1874

2021-10-22 00:09:04 +08:00

@johnsonshu #12 法律很灵活，主要看你的财力和法务团队的能力。今日头条的历史就是一部爬虫与法律关系史。

1 、今日头条发家的时候肆无忌惮地采集，根据不管 robots.txt ，一律抓取放到自己网站，被百度、腾讯、微博等很多大网站和报纸起诉，一些和解转为合作，一些赔点钱。
2 、后来反过来，有个小公司采集今日头条的视频，几个主要人员被判刑和罚款，全国首例“爬虫”技术侵入计算机系统案。
3 、今日头条被微博 robots.txt 拉黑，他们还反过来起诉微博不正当竞争，2017 一审胜诉，2021 二审才改判败诉。

caicaiwoshishui

2021-10-22 09:21:19 +08:00

@eason1874 血压上来了

lilihangzhou

2021-10-22 09:31:52 +08:00

劝退，曾经爬过一小阵子淘宝有好货的文案，那个时候做爬虫还没什么法律风险，但是淘宝的反爬很厉害，爬了几万数据就被堵上了，

itechify

2021-10-22 09:53:09 +08:00

对接第三方吧？

supuwoerc

2021-10-22 10:00:41 +08:00

预算够的话直接上人工，手动保存，这样就没政策风险了🐶

lzs5240

2021-10-22 10:05:58 +08:00

阿里法务部已记录在案希望你赶紧行动

shanghai1943

2021-10-22 10:30:52 +08:00

莫非这帖子是阿里法务的钓鱼贴？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/809639

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.