求指路淘宝爬虫姿势

2021-10-21 21:20:15 +08:00
 sengxian
现在有个需求,需要爬某品类下不同商家的大量商品详情及图片,总量约十万级别,预算比较充足,请问现在有靠谱的方法吗,是不是会面临比较大的政策风险 = =

求指路,感激不尽
7350 次点击
所在节点    程序员
68 条回复
keventseng
2021-10-22 10:48:32 +08:00
做之前,先把“张三”请来当你的法律团队~
feelinglucky
2021-10-22 10:57:28 +08:00
这可真刑,真有判头
SmiteChow
2021-10-22 11:21:39 +08:00
爬虫写得好,牢饭吃得早。
tenserG
2021-10-22 11:24:39 +08:00
李四教会张三爬虫,张三爬取某大型网站非法获利被警方抓获,请问李四要承担什么责任⬅.⬅
chevalier
2021-10-22 11:29:41 +08:00
@tenserG 李四如果有指使张三爬某大型网站的行为,则是主犯,教唆犯
如果没有类似行为,则不需要承担责任
lithiumii
2021-10-22 11:31:56 +08:00
预算充足找第三方,直接百度搜,那几家都做广告的,对比一下。
ospider
2021-10-22 11:42:29 +08:00
V 站里竟然也有整楼都是玩儿梗的帖子,服了。

楼主这种情况可以说几乎没有法律风险。10 万数量不大,而且商品信息本来就是公开可访问的,不是用户隐私信息。

从某种程度上来说,像淘宝这种垄断平台,应该有把自己信息开放的义务,否则淘宝才是不正当竞争。楼上你们这些人冷嘲热讽,真不知道是什么心态,嫌国内的技术氛围太好吗?
thetbw
2021-10-22 11:54:04 +08:00
像喵喵折那种,我看它数据还是蛮全的,不知道是怎么实现的。他们有个浏览器插件,难道是用户当肉鸡,去爬分析用户当前浏览的数据,返回给他们服务器?
lazyyz
2021-10-22 12:32:47 +08:00
非常具有可邢性
huyu
2021-10-22 14:09:45 +08:00
我以前写过,10 万数据不是很难,就是需要时间
LING97
2021-10-22 14:19:23 +08:00
学 Python 的时候爬过京东,几乎没啥反爬机制。淘宝就是爬不成功,各种被检测,然后就放弃了,也不是吃这口饭的
gengchun
2021-10-22 14:37:25 +08:00
@ospider 你这说法有误导,这个最多只是没有刑事风险。

民事风险当然是有的。

> 应该有把自己信息开放的义务,否则淘宝才是不正当竞争

这个理由确实不错,真的合规的话,你应该进行预防性诉讼,先去起诉淘宝不正当竞争,赢了以后再爬。 除非你这么说没有任何意义。

你唯一说对的是,这个数量不大,阿里的法务应该懒得搭理,所以法律风险可以忽略不计。
doecho
2021-10-22 14:40:45 +08:00
爬虫是不能爬虫的,现在的淘宝限制得很死,单刚怎么干得过阿里的反爬团队
huanglongtiankon
2021-10-22 14:51:32 +08:00
只是爬 10 万难度应该不大,多换几个代理就是了
huanglongtiankon
2021-10-22 14:56:13 +08:00
而且这么点数量根本没什么法律风险的,阿里法务才没这么闲去管你
whusnoopy
2021-10-22 15:05:43 +08:00
@ospider 提一些反对意见,非杠

如果是未登录状态,不用几条就会遇上各种反爬的反制手段,不太确定技术上是否好解决
如果是登录状态,超出正常使用频度的访问应该也会被反爬,甚至暂时冻结账号,不知道有没准备足够的账号

信息的确应该开放互通,爬是一种办法,而且应该是迫不得已的办法,技术圈真正该做的是推动开放互通,有可以公开的获取渠道
aozhou
2021-10-22 15:23:47 +08:00
@ospider 终于有个说实在话的,不过国内这个环境确实太差了,太偏向大资本了。
ColinLi
2021-10-22 15:57:07 +08:00
能爬,但是刑不刑就看运气了
XD2333
2021-10-22 16:00:47 +08:00
预算充足的话不如去走接口吧,淘宝的爬虫的话,反爬太疯狂了,还有风险。
jabari
2021-10-22 16:07:38 +08:00
@ospider #27 赞同, 但是《非法侵入计算机信息系统罪》 了解一下
具有下列情形之一的程序、工具,应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”:   
(一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;   
(二)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权对计算机信息系统实施控制的功能的;   
(三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/809639

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX