V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
lzjun
V2EX  ›  Python

用 Python 把微博数据绘制成一颗“心”

  •  
  •   lzjun ·
    lzjun567 · 2017-02-17 21:10:14 +08:00 · 4603 次点击
    这是一个创建于 2618 天前的主题,其中的信息可能已经有所发展或是发生改变。

    把自己发的微博爬下来,用 numpy 和 matplotlib 绘制而成图片,图片中的文字是微博中出现频率最高的词语

    完整代码:https://github.com/lzjun567

    创意思路:http://mp.weixin.qq.com/ image

    9 条回复    2017-02-19 13:17:10 +08:00
    keisuu
        1
    keisuu  
       2017-02-17 21:21:49 +08:00
    不明觉厉
    zzcchh
        2
    zzcchh  
       2017-02-17 21:28:58 +08:00
    哥们,真 666
    qingshi
        3
    qingshi  
       2017-02-17 22:02:52 +08:00
    分词是怎么处理的?
    kuntang
        4
    kuntang  
       2017-02-17 22:05:43 +08:00
    @qingshi 看代码是结巴分词
    lzjun
        5
    lzjun  
    OP
       2017-02-17 22:41:52 +08:00
    @kuntang 是用的结巴分词,不过它的局限在在于没法处理 HTML 标签。论英文分词还是 Java 中的 Lucene 牛
    willhunger
        6
    willhunger  
       2017-02-17 22:59:59 +08:00
    挺有想法的
    coolloves
        7
    coolloves  
       2017-02-18 14:09:24 +08:00 via iPhone
    马克下
    yanzixuan
        8
    yanzixuan  
       2017-02-19 09:02:16 +08:00
    @lzjun 为啥要处理 HTML ,用 bs4 直接 text 过滤掉啊。
    mingyun
        9
    mingyun  
       2017-02-19 13:17:10 +08:00
    $ python heart.py
    Traceback (most recent call last):
    File "heart.py", line 9, in <module>
    from scipy.misc import imread
    File "d:\python3\lib\site-packages\scipy\__init__.py", line 61, in <module>
    from numpy._distributor_init import NUMPY_MKL # requires numpy+mkl
    ImportError: cannot import name 'NUMPY_MKL'


    这个怎么办?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2853 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 277ms · UTC 14:33 · PVG 22:33 · LAX 07:33 · JFK 10:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.