Comdex
V2EX  ›  问与答

网页定时爬取的问题

  •  
  •   Comdex · Sep 9, 2014 via Android · 3055 views
    This topic created in 4291 days ago, the information mentioned may be changed or developed.
    请教一下大家,假如我要做一个功能让别人输入一个网址和关键词,然后抓取关键词的数据,由于这些网页可能是不定时更新的,那自己写的爬虫该如何采取策略定时抓取更新?假设有多个用户要定时抓取更新的数据,这些数据一般一天更新一次,我是在用户每确定一个任务就开启一条线程每隔一天监控网页是否更新还是先把这些任务加入一个任务列表等到晚上某个时段定时器触发一并完成这些任务?
    5 replies    2014-09-10 19:00:44 +08:00
    icedx
        1
    icedx  
       Sep 9, 2014   ❤️ 1
    先把这些任务加入一个任务列表等到晚上某个时段定时器触发一并完成这些任务
    Comdex
        2
    Comdex  
    OP
       Sep 9, 2014
    @icedx 这样效率更高?就是在定时器触发时开启多线程处理任务列表中的任务这样效率更好?这样当任务多时同时执行压力不会很大么?
    icedx
        3
    icedx  
       Sep 10, 2014
    @Comdex
    你这不是大的项目 基本不用担心服务器压力
    反而是定时器更方便管理
    Comdex
        4
    Comdex  
    OP
       Sep 10, 2014 via Android
    @icedx 主要是担心cpu占用爆升导致机器重启锁定
    icedx
        5
    icedx  
       Sep 10, 2014
    @Comdex 你试试不就知道
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1041 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 19:05 · PVG 03:05 · LAX 12:05 · JFK 15:05
    ♥ Do have faith in what you're doing.