爬虫问题:只爬取标题,url 是否构成侵权?

2020-12-03 11:12:35 +08:00
 baijiahei
1974 次点击
所在节点    问与答
19 条回复
baijiahei
2020-12-03 11:16:56 +08:00
咋都是进来瞄一眼就跑的啊,没人帮忙解答一下吗?

之前 RSS 很多被下架 原因都是什么
natashahollyz
2020-12-03 11:25:26 +08:00
个人觉得不构成。
流量还是回到源站的话,这没什么问题。
转载注明出处也没啥问题。源站注明拒绝转载除外。
baijiahei
2020-12-03 11:27:11 +08:00
@natashahollyz 我也是这么想的 但是 RSS 类的为啥被下架那么多呢 是因为不受控 有外网内容?
natashahollyz
2020-12-03 11:29:21 +08:00
@baijiahei 苹果说有违反中国法律的内容。。。大概能猜到是什么了
czfy
2020-12-03 11:29:21 +08:00
10 分钟一次,这个频率挺高了其实
只抓标题,理论上肯定比抓全文风险更低
natashahollyz
2020-12-03 11:32:20 +08:00
@baijiahei 抓全文可能涉及到版权,抓标题应该不涉及。如果源站不让抓,通知你一下,你不抓就是了。法律风险微乎其微
ztxcccc
2020-12-03 11:33:00 +08:00
看 robot.txt 做事
频率合理
只爬公开页面
不直接盈利

至少被告的时候还能抗诉下
westoy
2020-12-03 11:38:30 +08:00
通用搜索引擎并不是定向爬取+定向利用

定向爬取定向利用是有争议的, 对方是有机会搞你的

feed 是平台主动把数据展示给你

几个性质不一样的
baijiahei
2020-12-03 11:41:53 +08:00
@natashahollyz 大概是想象的样子 毕竟 rss 是用户自定义 不可控
baijiahei
2020-12-03 11:44:18 +08:00
natashahollyz
2020-12-03 11:50:45 +08:00
@baijiahei 时政别碰,搞不好喝茶。其它的不要怕
baijiahei
2020-12-03 11:53:58 +08:00
@natashahollyz 没这想法 很多东西是红线
opengps
2020-12-03 12:11:33 +08:00
爬虫现在没有明确边界,除了已经想到的问题,多关注这一行里的新闻及时调整吧
opengps
2020-12-03 12:12:44 +08:00
文中有看到类比百度,这是个不太合适的类比,毕竟百度给源站带去流量,可能是源站期望的效果。
jones2000
2020-12-03 14:26:20 +08:00
找个律师事务所咨询下不就可以了。
2088TXT
2020-12-03 17:23:41 +08:00
百度也是 看 robot.txt 协议吧
Ayersneo
2020-12-04 03:09:30 +08:00
@2088TXT 百度看 但是百度好像看不懂 User-agent:* Disallow: /
baijiahei
2020-12-04 09:41:41 +08:00
@Ayersneo 百度对一些站根本不鸟 robots
zerofancy
2020-12-04 10:29:42 +08:00
@baijiahei 不抓正文感觉问题不大吧。RSS 在中国流行不起来我感觉有一个重要原因是 RSS 是会被阅读器缓存的。假如微博热搜提供 RSS,那么怎么撤热搜?事实上现在提供 RSS 的基本也就是一些博客或者技术性的论坛了,这些基本都没有删文章的需求。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/731673

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX