首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
wellhome
V2EX  ›  问与答

为什么诸位老哥的爬虫的都是自己写的,不用 scrapy 呢?

  •  
  •   wellhome · 122 天前 · 3577 次点击
    这是一个创建于 122 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我研究了半天 scrapy 发现搞的太复杂了。 除非大规模的爬, 一般 爬个几个站 不若自己写的方便。 不知是不是我打开 scrapy 的方式有问题。 我看到大家都在推崇 scrapy。

    26 回复  |  直到 2019-09-18 17:11:26 +08:00
    forgottencoast
        1
    forgottencoast   122 天前 via iPhone
    标题和内容冲突啊?
    sanjusss
        2
    sanjusss   122 天前
    我用的.net core 写爬虫,和你差不多。总感觉 dotnetspider 框架太复杂,写个简单的功能要绕弯好远,有的功能直接不能实现。最后自己写,部分功能直接 copy 框架。
    gimp
        3
    gimp   122 天前
    设问句?
    nevin47
        4
    nevin47   122 天前 via Android
    我也觉得 scrapy 太复杂了,但是工程化开发肯定 scrapy 好,自己写点小东西随便用用 urllib 就完事儿了,但是大规模爬的时候吃力感就出来了
    sadfQED2
        5
    sadfQED2   121 天前 via Android
    你自己都说了,大规模爬虫用,另外你用熟了小项目用其实也很方便
    php01
        6
    php01   121 天前
    先问是不是,再问为什么。
    yinjy
        7
    yinjy   121 天前
    小项目也是 scrapy 方便啊,基础代码不用自己写
    qsnow6
        8
    qsnow6   121 天前 via iPhone
    如何定义小规模
    patx
        9
    patx   121 天前 via Android
    nodejs 写爬虫
    killerv
        10
    killerv   121 天前   ♥ 1
    简单的用 requests,
    稍微上点规模的就用框架了,自己造轮子多麻烦
    keith1126
        11
    keith1126   121 天前   ♥ 1
    因为直接用 requests 已经可以满足大部分需求了,而且简单快捷
    ljspython
        12
    ljspython   121 天前
    requests 已满足基本小需求了
    bonfy
        13
    bonfy   121 天前
    requests 就可以了,为什么要去学个重量级的框架呢,学习不要成本的么?
    tozp
        14
    tozp   121 天前
    我只用 Go
    wellhome
        15
    wellhome   121 天前
    @gimp 好多人推崇, 但是老哥们开的项目都是自己写的, 所以矛盾, 不知道是不是自己的打开方式不对。
    ClarkAbe
        16
    ClarkAbe   121 天前 via Android
    @tozp #14 同 go...设置好重复踢出然后一记狗肉挺,CPU 全核心多线程工作,简直不要太恐怖
    fank99
        17
    fank99   121 天前
    写到最后。。你会发现你写的东西越来越像“scrapy”
    这时候,你会问自己,我当时咋想的,为啥不直接用 scrapy 呢
    coolair
        18
    coolair   121 天前
    看文档的时间已经写好了。
    alphardex
        19
    alphardex   121 天前 via iPhone
    自己写了个小型框架 looter,比 scrapy 轻便多了,地址: https://github.com/alphardex/looter
    zqjilove
        20
    zqjilove   121 天前
    如果考虑到后期分布式的便携性。scrapy 是很好的选择,如果只是单机跑跑,其实上不上 scrapy 都可以
    chengxiao
        21
    chengxiao   121 天前
    小规模用 scrapy 才快吧......几句业务 就 ok 了
    BooksE
        22
    BooksE   121 天前
    我十几个站都用 scrapy 爬的。。scrapy 很好用
    WuMingyu
        23
    WuMingyu   121 天前
    可以写个 scrapy 的模版,用的时候 copy 下,再改改一些业务代码
    ClericPy
        24
    ClericPy   121 天前
    自己的 async await, 为什么要折腾 twisted, 后者作者倒是挺厉害... 能把 guido 老爹气出门去
    d5
        25
    d5   121 天前
    小折腾用 requests + pyquery 梭哈
    niknik
        26
    niknik   121 天前
    emmm,就我目前的站点数据,都用不上 scrapy。。。。直接脚本了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1667 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 33ms · UTC 00:36 · PVG 08:36 · LAX 16:36 · JFK 19:36
    ♥ Do have faith in what you're doing.