V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Rootcat
V2EX  ›  Python

爬虫,实时监控 900 家中国企业新闻动态!!!

  •  
  •   Rootcat · 2017-10-10 20:37:42 +08:00 · 5439 次点击
    这是一个创建于 2392 天前的主题,其中的信息可能已经有所发展或是发生改变。

    开源一个项目 https://github.com/NolanZhao/news_feed

    简介: 此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。

    原理: 采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。

    方法简单粗暴,没有摘取网页结构化数据,仅仅获取更新的链接和标题。优点:实时性可以保障

    第一个版本,功能尚不完善,欢迎吐槽、贡献代码~

    我的邮箱 [email protected]

    第 1 条附言  ·  2017-10-11 11:34:57 +08:00

    加个图:

    news feed

    17 条回复    2017-10-11 17:59:55 +08:00
    cxd44
        1
    cxd44  
       2017-10-10 20:39:07 +08:00 via Android
    谢谢分享
    Rootcat
        2
    Rootcat  
    OP
       2017-10-10 20:39:53 +08:00
    @cxd44 啊哈·
    luozic
        3
    luozic  
       2017-10-10 20:40:42 +08:00 via iPhone
    谢谢分享
    ospider
        4
    ospider  
       2017-10-10 21:24:03 +08:00
    直接比较源码有些暴力吧, 至少是抽取出文章来比较, 甚至是比较 simhash 比较好一点
    forestyuan
        5
    forestyuan  
       2017-10-10 21:59:56 +08:00
    这么多新闻,看得过来吗?
    Rootcat
        6
    Rootcat  
    OP
       2017-10-10 22:19:12 +08:00
    @forestyuan 加关键词过滤,就可以看你关注的。
    Tootopia
        7
    Tootopia  
       2017-10-10 22:21:29 +08:00
    怎么操作,链接失效
    yidinghe
        8
    yidinghe  
       2017-10-11 09:45:11 +08:00
    @forestyuan 你想多了,没人说爬出来的结果只能肉眼看而不能做进一步分析
    outmanone
        9
    outmanone  
       2017-10-11 10:33:27 +08:00
    @yidinghe 太厉害了,1024 个赞。希望以后能参与进来维护代码。
    outmanone
        10
    outmanone  
       2017-10-11 10:34:35 +08:00
    @Rootcat 太厉害了,1024 个赞。希望以后能参与进来维护代码。
    Wongz
        11
    Wongz  
       2017-10-11 13:51:24 +08:00
    正好有需要学习这个 比心
    zhangzixu
        12
    zhangzixu  
       2017-10-11 13:53:20 +08:00
    感谢!
    dsphper
        13
    dsphper  
       2017-10-11 14:53:12 +08:00
    既然是开源我也就不好 BB 啥了,我只想说虽然是第一版既然开源了能不能搞的开箱即用。。。。。。各种错误,各种补丁给你打上才跑起来.....
    Rootcat
        14
    Rootcat  
    OP
       2017-10-11 15:19:06 +08:00
    @dsphper 我在 ubuntu 部署很顺利,除了 Python3 环境有些麻烦之外,亲测没有留坑。。。
    dsphper
        15
    dsphper  
       2017-10-11 15:33:20 +08:00
    @Rootcat 我擦,我 SB 了,用的 python2.7
    itmyhome126
        16
    itmyhome126  
       2017-10-11 17:40:23 +08:00
    厉害了,顶一个
    dsphper
        17
    dsphper  
       2017-10-11 17:59:55 +08:00
    怎么抓到的都是 N 久前的文章:?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5830 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 02:22 · PVG 10:22 · LAX 19:22 · JFK 22:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.