高频爬取公开数据违法不?

2019-09-25 10:53:10 +08:00
 oma1989

RT 高频爬取公开数据违法不?比如商品价格,股票价格等等

7177 次点击
所在节点    问与答
40 条回复
Showfom
2019-09-25 12:19:14 +08:00
就算不违法也违反了网站的使用条款
Sapp
2019-09-25 12:22:36 +08:00
@swulling robots 协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私, 真的 ,你不懂就不要说好吗?
dobelee
2019-09-25 12:23:11 +08:00
@swulling 没有 robots 允许违了那条法?
Junn
2019-09-25 12:29:27 +08:00
主要看你获取数据的行为方式是否合法,

比如原本是需要注册用户通过账号密码登录获得授权才能获取的数据,你没有账号密码绕过去拿到了,就违法了。
再比如通过接口拿数据的,接口仅供自身 APP 使用,你通过伪造模拟等方式拿到数据,也是违法的。

而比如网站上公开的价格,通过合法方式请求到的数据,只是通过工具爬去节省工作量的行为,应该是不违法的。

当然你的“高频”行为可能涉及到“破坏计算机信息系统罪”
GeruzoniAnsasu
2019-09-25 12:36:15 +08:00
@wangxiaoaer 这种事没法完全依照法律。法律也没有定义爬数据算不算非法盗取计算机数据。公司法务之前还声称只要用户授权,爬个人信息是合法的呢,最近新闻抓进去的搞爬虫的哪个没让用户授权?

数据方 license 的作用是告诉你他不会追责。这才是最管用的。不然照国内的现状,想告你盗数据,怎么的都能把你搞进去
xiaogui
2019-09-25 12:41:52 +08:00
最近好像很多“做数据”的公司都翻车了,哪怕是公司行为也还是要注意下。
swulling
2019-09-25 12:44:36 +08:00
@Sapp
@dobelee
百度诉 360 爬取判例如下,法院一般会把 robots 认定为行业公认的规则,违反后虽然不一定就违法,但是出于相当不利的地位。


基于以上认定,法院在判决中做出如下认定:“在被告推出搜索引擎伊始,其网站亦刊载了 Robots 协议的内容和设置方法,说明包括被告在内的整个互联网行业对于 Robots 协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。被告网站在推出搜索引擎服务之初,为了对原告网站进行抓取以便向网络用户提供最全面的搜索结果,没有遵守行业内公认的、应当被遵守的商业道德,即在被告推出搜索引擎的伊始阶段没有遵守原告网站的 Robots 协议,其行为明显不当,应当承担相应的不利后果。”
wangxiaoaer
2019-09-25 12:50:08 +08:00
@GeruzoniAnsasu 所以我的意思是在这里听一堆法盲拿 robots 等来自己觉得是否违法是一件很可笑的事情。
mrobot
2019-09-25 13:43:05 +08:00
这其实是一个风险和收益之间的博弈 你爬对方的数据 对方利益受损较小 大概率没事 对方利益受损较大并且发现是你造成的 找你还可以追回部分损失 这时候你是否违法已经不重要了 因为你摊上事了 爬了会所嫩模 不爬下海干活
oma1989
2019-09-25 13:50:25 +08:00
@mrobot 哈哈,谢谢指点,我还是自己用手机 APP 多盯这点吧。。。。 。。。 不过确实可以爬下会所嫩模
dongcxcx
2019-09-25 15:46:19 +08:00
很多网站的开放平台都有接口,通过这种方式获取并使用数据违法吗?
最近好多数据公司都翻车了,感觉谈爬虫色变。。。
reus
2019-09-25 16:02:26 +08:00
@wangxiaoaer 当然认可,法盲。
reus
2019-09-25 16:05:31 +08:00
justforlook44444
2019-09-25 16:53:03 +08:00
@dobelee 虽然是约定俗称,没有法律效力,但是起码表明了一个事实和态度:我不希望你来爬取我的数据。
maplelin
2019-09-25 16:57:37 +08:00
@wangxiaoaer #28 按你这么来,开源协议也没写到法律里咯,所以只要代码放到网上就能随便拿来用?
kisshere
2019-09-25 17:23:46 +08:00
php 的 file_get_contents 就是史上最不要脸的一个函数
Greendays
2019-09-25 17:37:43 +08:00
感觉楼上有种观点很有意义。“爬取数据”这种行为法律可能不好判,但是如果爬数据的行为干扰了网站的正常工作,那肯定有办法从别的地方判你违法
TimePPT
2019-09-25 18:02:51 +08:00
别的不知道,美股行情数据是有版权的,纳斯达克曾经给国内某搜索引擎公司发过律师函,要求每年 400w 美刀使用费。
xiaoyazi
2019-09-25 19:03:30 +08:00
@wangxiaoaer 你又怎么知道别人没咨询过。
SSW
2019-09-26 15:13:43 +08:00
我记得之前在 v 站看到帖子说今日头条把爬他数据的起诉了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/603969

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX