V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
my8100
V2EX  ›  分享创造

scrapydweb:实现 Scrapyd 服务器集群监控和交互, Scrapy 日志分析和可视化

  •  
  •   my8100 ·
    my8100 · 2018-10-09 13:02:35 +08:00 · 2554 次点击
    这是一个创建于 2019 天前的主题,其中的信息可能已经有所发展或是发生改变。

    功能特性

    • Scrapyd 服务器集群监控和交互

      • 支持通过分组和过滤选中特定服务器节点
      • 一次点击,批量执行
    • Scrapy 日志分析

      • 统计信息展示
      • 爬虫进度可视化
      • 关键日志分类
    • 支持所有 Scrapyd API

      • Deploy project, Run Spider, Stop job
      • List projects/versions/spiders/running_jobs
      • Delete version/project

    GitHub

    scrapydweb

    欢迎 Star 和提交 Issue

    安装

    通过 pip 安装:

    $ pip install scrapydweb
    

    启动

    通过命令行终端运行 "scrapydweb -h" 以查看帮助和选项. 第一次运行将在当前工作目录生成配置文件 "scrapydweb_settings.py",可用于自定义 Scrapyd 服务器列表等选项.

    $ scrapydweb
    

    通过浏览器访问 http://127.0.0.1:5000

    运行界面截图

    • 集群监控和交互 overview

    • 当前节点任务列表 dashboard

    • 日志分析

      • 统计信息展示 log_stats

      • 爬虫进度可视化 log_chart

      • 关键日志分类 log_extracted

    • 部署项目 deploy

    • 运行爬虫 run

    • 管理项目 manage

    第 1 条附言  ·  2018-10-25 21:03:00 +08:00

    更新截图

    • Overview overview

    • Dashboard dashboard

    • Log Analysis

      • Stats collection log_stats

      • Progress visualization log_charts

      • Logs categorization log_logs

    • Deploy a Project deploy

    • Run a Spider run

    • Manage Projects manage

    第 2 条附言  ·  2018-11-21 13:07:24 +08:00

    V2EX 文章发布后不能随时更新,图片容易挂,移步查看最新版本

    推荐阅读:如何简单高效地部署和监控分布式爬虫项目

    9 条回复    2018-11-13 17:52:17 +08:00
    achaocha
        1
    achaocha  
       2018-10-09 22:14:36 +08:00
    先 star 再说。
    my8100
        2
    my8100  
    OP
       2018-10-12 12:52:08 +08:00
    v0.9.4 Add basic auth for web UI
    my8100
        3
    my8100  
    OP
       2018-10-12 12:52:31 +08:00
    v0.9.5 Add Items page
    SpiderXiantang
        4
    SpiderXiantang  
       2018-10-14 13:37:18 +08:00
    star!
    my8100
        5
    my8100  
    OP
       2018-10-16 12:04:54 +08:00
    v0.9.6 Support accessing Scrapyd servers protected by basic auth
    my8100
        6
    my8100  
    OP
       2018-10-17 16:16:13 +08:00
    v0.9.7: Fix the bug that fails to read lastModifiedDate of egg file in Firefox and Safari
    my8100
        7
    my8100  
    OP
       2018-10-20 00:25:20 +08:00
    v0.9.8: Kill caching subprocess when main process is killed
    my8100
        8
    my8100  
    OP
       2018-10-25 01:02:43 +08:00
    v0.9.9: Add auto eggifying
    my8100
        9
    my8100  
    OP
       2018-11-13 17:52:17 +08:00
    v1.0.0rc1: Add Email Notice; Refactor codes
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3097 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:58 · PVG 18:58 · LAX 03:58 · JFK 06:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.