• 请不要在回答技术问题时复制粘贴 AI 生成的内容
HTSdTt3WygdgQQGe
V2EX  ›  程序员

请问 Python 爬虫,配合什么数据库效果最佳

  •  
  •   HTSdTt3WygdgQQGe · Nov 16, 2019 via Android · 5341 views
    This topic created in 2388 days ago, the information mentioned may be changed or developed.
    要爬的数据量比较大,机器配置还不高,请问怎么搭配最优
    22 replies    2019-11-18 07:49:01 +08:00
    renmu
        1
    renmu  
       Nov 16, 2019 via Android
    MongoDB 简单粗暴
    lhx2008
        2
    lhx2008  
       Nov 16, 2019 via Android
    文本追加
    eq06
        3
    eq06  
       Nov 16, 2019
    多线程吗?多线程弄 SQLite 拆几个数据库呢
    w2er
        4
    w2er  
       Nov 16, 2019 via iPhone
    搬好小板凳,听大佬讲课
    tomczhen
        5
    tomczhen  
       Nov 16, 2019
    哪个数据库熟悉用哪个,爬太快小心变成 DDOS/CC 直接进去包吃包住。
    ClutchBear
        6
    ClutchBear  
       Nov 16, 2019
    阿里云的 表格存储
    RicardoY
        7
    RicardoY  
       Nov 16, 2019 via Android
    配置不高就直接写文件 或者 MongoDB 现在 v2 一提到爬虫就是监狱警告..
    FaceBug
        8
    FaceBug  
       Nov 16, 2019
    配合消息队列先,再管数据库
    locoz
        9
    locoz  
       Nov 16, 2019
    数据量比较大是多大?配置不高是多高?爬完之后要做什么用?数据分析还是文本检索?啥都没有那只能说哪个熟悉用哪个了
    crclz
        10
    crclz  
       Nov 16, 2019   ❤️ 1
    只写过玩具爬虫。一点其他领域得来的拙见:如果存储空间够的话,postgres 的插入速度完全够用:用 N+1 个线程,N 个线程往 1 个 queue 里面写数据,1 个线程定期( 100ms )将数据 bulk insert 到数据库。普通的 insert 可能吃力。
    也建议了解 Cassandra。
    mongo 可能速度不够用。
    wangyzj
        11
    wangyzj  
       Nov 16, 2019
    kafka -> es
    scriptB0y
        12
    scriptB0y  
       Nov 16, 2019
    Mongo 最简单实用了,感觉到千万的数据都问题不大。再大可能要具体情况具体分析了。
    dbow
        13
    dbow  
       Nov 16, 2019
    选一个 Key-Value 数据库用, 比如 leveldb, rocksdb 啥的, 自建 Mysql 顶不住千万级写入。
    ClericPy
        14
    ClericPy  
       Nov 16, 2019
    这个不能闭着眼来啊...
    数据量大, 有多大? 不过单机放的下, 估计也不会有太大...
    数据类型是什么样的, 结构化? 半结构化? 非结构化? 文章那种段文本?
    用途是什么, 热数据还是冷数据, 给什么部门用, 怎么用

    你这问的有点宽泛了, 如果是跟我一样的羊毛机, mysql 可以涵盖多数需求了, 几百兆内存能跑起来一个
    HTSdTt3WygdgQQGe
        15
    HTSdTt3WygdgQQGe  
    OP
       Nov 16, 2019 via Android
    大家分析的好专业,暂定 mongo 谢谢各位
    wangxiaoaer
        16
    wangxiaoaer  
       Nov 16, 2019
    无脑用 MongoDB 的怕不是磁盘不要钱?
    0x400
        17
    0x400  
       Nov 16, 2019 via Android
    .csv
    sadfQED2
        18
    sadfQED2  
       Nov 16, 2019
    mongodb 后期做分析好用,另外容错率高,比如爬价格,Mysql 你用 int 存,但是某个数据可能给你返一个“100 以上”,然后你就 GG 了,如果 mysql 用 json 存,后期分析数据贼难用

    But,用 mongodb 可能机器配置要求比 mysql 高,装了 mongodb 的机器基本上没法干其他的了
    lc7029
        19
    lc7029  
       Nov 17, 2019
    MongoDB
    encro
        20
    encro  
       Nov 17, 2019
    分布式爬虫:
    缓存队列在 redis 部署开发方便,
    索引存 mysql 查询方便,
    内容存 leveldb 压缩比好
    onyourroad
        21
    onyourroad  
       Nov 18, 2019
    爬虫是犯法的知道吗?
    indicoliteplus
        22
    indicoliteplus  
       Nov 18, 2019 via iPhone
    postgres 吧,存 json 也无压力。mongodb 虽说对开发友好,但是对业务就有点恶心了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2641 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 70ms · UTC 05:54 · PVG 13:54 · LAX 22:54 · JFK 01:54
    ♥ Do have faith in what you're doing.