关于爬虫的法律问题 - 知乎的用户信息的法律问题?

2020-11-27 20:25:04 +08:00
 beryl

爬知乎的用户的相关信息(姓名、简介),和回答标题,然后展示在网站上,跳转连接到知乎上去

不存储内容,只存储连接,和标题(可能还有摘要、点赞这些),但是会存储用户信息用户名这些

这种会有法律风险么,或者说即使有,但是会有被知乎起诉的风险么

也有可能是豆瓣


readhub 这种算爬虫么, 或者有法律风险么,大致可能和这种类似

2574 次点击
所在节点    程序员
20 条回复
imn1
2020-11-27 20:33:04 +08:00
是说隔壁那个展示某知乎用户做浏览器盈利的帖子么?🐶

此题,我觉得会
beryl
2020-11-27 20:34:22 +08:00
@imn1 不是不是,而且那个是影响了人家知乎的商业价值,我这个想到与是知乎的导引,最近内容还是要点连接,进入到知乎网站。类似搜索,但是是结构化搜索
woodensail
2020-11-27 20:37:49 +08:00
我决定你更应该考虑隐私问题,用户信息也是隐私
imn1
2020-11-27 20:38:56 +08:00
@beryl #2
嗯,1 楼歧义了,”此题“指的是你的正文,不是隔壁帖子
所以正式回复是,有法律风险的
locoz
2020-11-27 20:40:40 +08:00
看起来是数据分析类的?这种的话看情况,如果平台自己想做这种东西,那你不关站就死;但是如果平台自己不做,那你就随便搞,总之就是只要不触及到别人利益就可以活得好好的。
czfy
2020-11-27 20:43:22 +08:00
凡是爬虫都有一定法律风险的,差别只在于被爬的主体愿意花多少精力来应付这件事
爬虫,基本上不可避免的就是要处理反爬,这约等于违反被爬主体意愿获取其数据
zerofancy
2020-11-27 21:14:48 +08:00
这好像就是搜索引擎的做的事情啊……
那么我们看下 robots.txt

User-Agent: *
Disallow: /

很好^_^
cmostuor
2020-11-27 21:19:11 +08:00
会, 未经他人许可窃取他人数据
cmostuor
2020-11-27 21:20:24 +08:00
@cmostuor 如果是获得了作者和知乎豆瓣这些平台提供商的同意那不属于犯法属于业务合作.
cmostuor
2020-11-27 21:21:38 +08:00
@cmostuor 作者同意的话可以手抄一份再发不能在平台页面直接复制粘贴
kingfalse
2020-11-27 22:25:18 +08:00
你觉得你是在给知乎引流,但是知乎并不会这么觉得。不然淘宝为啥不让搜索引擎爬了呢!一样的道理
chevalier
2020-11-27 23:25:41 +08:00
取决于你有没有凭此获利
tuding
2020-11-28 00:09:44 +08:00
如果你做得不成气候,没意思。做得好,知乎做个差不多的,然后告你侵权?
Lemeng
2020-11-28 00:57:37 +08:00
这个东西目前还是比较隐晦。好像没有因此而入邢的吧。可能我孤陋了
说不好
laminux29
2020-11-28 01:03:19 +08:00
中立地说,大部分大佬早期都是走违法高风险来起步的。

只是这其中,有些大佬通过一些方法成功避险上岸,有些大佬太高调进去了而已。

爬虫目前在法律上的确是高风险,但是,目前这部分法律,是有漏洞的,是可以通过一些方法避险的,我只能点到这里,再具体下去,我就是在这里教唆违法了。不建议做,如果一定要做,你要认识到这是高风险,想好利益得失。
Jooooooooo
2020-11-28 01:13:05 +08:00
你感觉有风险

那就真的有风险

不要做
opengps
2020-11-28 01:26:27 +08:00
法律风险从来都有,因为法律问题可以从很多出发点发起。风险小不等于没有
爬虫本身就不是真人访客,给目标站带来的压力,带来的流量引导,可能都成为被告理由
muzuiget
2020-11-28 01:33:03 +08:00
这不是搜索引擎?
fdy1995
2020-11-29 02:16:04 +08:00
readhub 应该就是爬虫采集的,我看有好多重复性的不同网站的文章,他这个内容更类似把不同报纸内容,剪下来。但是,他这个采集的都不是特别热门的网站,反扒应该不是很厉害(猜测,没实际爬过不知道)。
不过,按照你的叙述,就是想提取一些热点回答以此吸引流量嘛?但是,这个跟他本身存在的一些热度推荐没啥差别把?如果你再做并以此获利,很大概率会被起诉把
yasaminekldkxf
2020-11-29 11:42:22 +08:00
看 robots.txt ,只要没有禁止,原则上就可以,频率别太高就行。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/729986

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX