V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
baijiahei
V2EX  ›  问与答

爬虫问题:只爬取标题,url 是否构成侵权?

  •  
  •   baijiahei · 2020-12-03 11:12:35 +08:00 · 1935 次点击
    这是一个创建于 1211 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 爬虫频率设置的很低 10 分钟一次 不对源站造成性能问题
    • 抓取标题 URL 本地存储 用户点击跳转到源站 是否构成侵权
    • 我知道这个是 百度(蜘蛛) 的做法,但是他们是大厂 个人这样做是否有问题
    • 麻烦大家帮我科普一下
    19 条回复    2020-12-04 10:29:42 +08:00
    baijiahei
        1
    baijiahei  
    OP
       2020-12-03 11:16:56 +08:00
    咋都是进来瞄一眼就跑的啊,没人帮忙解答一下吗?

    之前 RSS 很多被下架 原因都是什么
    natashahollyz
        2
    natashahollyz  
       2020-12-03 11:25:26 +08:00
    个人觉得不构成。
    流量还是回到源站的话,这没什么问题。
    转载注明出处也没啥问题。源站注明拒绝转载除外。
    baijiahei
        3
    baijiahei  
    OP
       2020-12-03 11:27:11 +08:00
    @natashahollyz 我也是这么想的 但是 RSS 类的为啥被下架那么多呢 是因为不受控 有外网内容?
    natashahollyz
        4
    natashahollyz  
       2020-12-03 11:29:21 +08:00
    @baijiahei 苹果说有违反中国法律的内容。。。大概能猜到是什么了
    czfy
        5
    czfy  
       2020-12-03 11:29:21 +08:00
    10 分钟一次,这个频率挺高了其实
    只抓标题,理论上肯定比抓全文风险更低
    natashahollyz
        6
    natashahollyz  
       2020-12-03 11:32:20 +08:00
    @baijiahei 抓全文可能涉及到版权,抓标题应该不涉及。如果源站不让抓,通知你一下,你不抓就是了。法律风险微乎其微
    ztxcccc
        7
    ztxcccc  
       2020-12-03 11:33:00 +08:00
    看 robot.txt 做事
    频率合理
    只爬公开页面
    不直接盈利

    至少被告的时候还能抗诉下
    westoy
        8
    westoy  
       2020-12-03 11:38:30 +08:00   ❤️ 1
    通用搜索引擎并不是定向爬取+定向利用

    定向爬取定向利用是有争议的, 对方是有机会搞你的

    feed 是平台主动把数据展示给你

    几个性质不一样的
    baijiahei
        9
    baijiahei  
    OP
       2020-12-03 11:41:53 +08:00
    @natashahollyz 大概是想象的样子 毕竟 rss 是用户自定义 不可控
    baijiahei
        10
    baijiahei  
    OP
       2020-12-03 11:44:18 +08:00
    natashahollyz
        11
    natashahollyz  
       2020-12-03 11:50:45 +08:00 via iPhone
    @baijiahei 时政别碰,搞不好喝茶。其它的不要怕
    baijiahei
        12
    baijiahei  
    OP
       2020-12-03 11:53:58 +08:00
    @natashahollyz 没这想法 很多东西是红线
    opengps
        13
    opengps  
       2020-12-03 12:11:33 +08:00
    爬虫现在没有明确边界,除了已经想到的问题,多关注这一行里的新闻及时调整吧
    opengps
        14
    opengps  
       2020-12-03 12:12:44 +08:00
    文中有看到类比百度,这是个不太合适的类比,毕竟百度给源站带去流量,可能是源站期望的效果。
    jones2000
        15
    jones2000  
       2020-12-03 14:26:20 +08:00
    找个律师事务所咨询下不就可以了。
    2088TXT
        16
    2088TXT  
       2020-12-03 17:23:41 +08:00
    百度也是 看 robot.txt 协议吧
    Ayersneo
        17
    Ayersneo  
       2020-12-04 03:09:30 +08:00 via Android
    @2088TXT 百度看 但是百度好像看不懂 User-agent:* Disallow: /
    baijiahei
        18
    baijiahei  
    OP
       2020-12-04 09:41:41 +08:00
    @Ayersneo 百度对一些站根本不鸟 robots
    zerofancy
        19
    zerofancy  
       2020-12-04 10:29:42 +08:00
    @baijiahei 不抓正文感觉问题不大吧。RSS 在中国流行不起来我感觉有一个重要原因是 RSS 是会被阅读器缓存的。假如微博热搜提供 RSS,那么怎么撤热搜?事实上现在提供 RSS 的基本也就是一些博客或者技术性的论坛了,这些基本都没有删文章的需求。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1409 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 23:45 · PVG 07:45 · LAX 16:45 · JFK 19:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.