首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

请问 Python 爬虫,配合什么数据库效果最佳

  •  
  •   q409640976 · 23 天前 via Android · 2047 次点击
    要爬的数据量比较大,机器配置还不高,请问怎么搭配最优
    22 回复  |  直到 2019-11-18 07:49:01 +08:00
        1
    renmu   23 天前 via Android
    MongoDB 简单粗暴
        2
    lhx2008   23 天前 via Android
    文本追加
        3
    eq06   23 天前
    多线程吗?多线程弄 SQLite 拆几个数据库呢
        4
    w2er   23 天前 via iPhone
    搬好小板凳,听大佬讲课
        5
    tomczhen   23 天前
    哪个数据库熟悉用哪个,爬太快小心变成 DDOS/CC 直接进去包吃包住。
        6
    ClutchBear   23 天前
    阿里云的 表格存储
        7
    RicardoY   23 天前 via Android
    配置不高就直接写文件 或者 MongoDB 现在 v2 一提到爬虫就是监狱警告..
        8
    cepczkd   23 天前
    配合消息队列先,再管数据库
        9
    locoz   23 天前
    数据量比较大是多大?配置不高是多高?爬完之后要做什么用?数据分析还是文本检索?啥都没有那只能说哪个熟悉用哪个了
        10
    crclz   23 天前   ♥ 1
    只写过玩具爬虫。一点其他领域得来的拙见:如果存储空间够的话,postgres 的插入速度完全够用:用 N+1 个线程,N 个线程往 1 个 queue 里面写数据,1 个线程定期( 100ms )将数据 bulk insert 到数据库。普通的 insert 可能吃力。
    也建议了解 Cassandra。
    mongo 可能速度不够用。
        11
    wangyzj   23 天前
    kafka -> es
        12
    scriptB0y   23 天前
    Mongo 最简单实用了,感觉到千万的数据都问题不大。再大可能要具体情况具体分析了。
        13
    dbow   23 天前
    选一个 Key-Value 数据库用, 比如 leveldb, rocksdb 啥的, 自建 Mysql 顶不住千万级写入。
        14
    ClericPy   23 天前
    这个不能闭着眼来啊...
    数据量大, 有多大? 不过单机放的下, 估计也不会有太大...
    数据类型是什么样的, 结构化? 半结构化? 非结构化? 文章那种段文本?
    用途是什么, 热数据还是冷数据, 给什么部门用, 怎么用

    你这问的有点宽泛了, 如果是跟我一样的羊毛机, mysql 可以涵盖多数需求了, 几百兆内存能跑起来一个
        15
    q409640976   23 天前 via Android
    大家分析的好专业,暂定 mongo 谢谢各位
        16
    wangxiaoaer   23 天前
    无脑用 MongoDB 的怕不是磁盘不要钱?
        17
    0x400   23 天前 via Android
    .csv
        18
    sadfQED2   23 天前
    mongodb 后期做分析好用,另外容错率高,比如爬价格,Mysql 你用 int 存,但是某个数据可能给你返一个“100 以上”,然后你就 GG 了,如果 mysql 用 json 存,后期分析数据贼难用

    But,用 mongodb 可能机器配置要求比 mysql 高,装了 mongodb 的机器基本上没法干其他的了
        19
    lc7029   23 天前
    MongoDB
        20
    encro   22 天前
    分布式爬虫:
    缓存队列在 redis 部署开发方便,
    索引存 mysql 查询方便,
    内容存 leveldb 压缩比好
        21
    onyourroad   22 天前
    爬虫是犯法的知道吗?
        22
    indicoliteplus   22 天前 via iPhone
    postgres 吧,存 json 也无压力。mongodb 虽说对开发友好,但是对业务就有点恶心了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4463 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 24ms · UTC 02:20 · PVG 10:20 · LAX 18:20 · JFK 21:20
    ♥ Do have faith in what you're doing.