V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
wisefree
V2EX  ›  Python

4 月份开始写的爬虫文章,今天做一个总结

  •  
  •   wisefree · 2017-09-15 19:05:46 +08:00 · 4481 次点击
    这是一个创建于 2427 天前的主题,其中的信息可能已经有所发展或是发生改变。

    2017 年 4 月份开始写爬虫系列文章,不知不觉到了 9 月份,时间过的真快,写毕业论文,毕业了,找工作,然后辞职,然后接着奋斗

    4 月份开始写,一直断断续续,今天给爬虫文章收一个尾。

    文章放到了的个人网站上:www.zhouww.com

    Python_爬虫总结

    补充了如下内容

    • 多进程
    • 代理池
    • json 处理
    • 数据存储
    • 手机抓包

    有些文章需要些基础,有些文章只讲讲心得。欢迎大家指正,欢迎投稿。

    28 条回复    2017-09-17 08:45:48 +08:00
    cxd44
        1
    cxd44  
       2017-09-15 21:58:32 +08:00 via Android
    谢谢,可以写一些对没啥基础的人的教程吗?
    chrisliu1314
        2
    chrisliu1314  
       2017-09-15 22:18:17 +08:00 via Android   ❤️ 1
    写的很系统。可以加一些爬虫框架,比如,pyspider
    a87150
        3
    a87150  
       2017-09-15 22:36:22 +08:00
    写爬虫的时候总觉得有点不好意思,感觉给别人添麻烦了
    a1044634486
        4
    a1044634486  
       2017-09-15 22:40:37 +08:00
    为啥你的站打开好慢,我的天。
    ila
        5
    ila  
       2017-09-15 22:43:03 +08:00 via Android
    @chrisliu1314 能否讲讲他和 scrapy 的差异吗
    chrisliu1314
        6
    chrisliu1314  
       2017-09-15 23:12:49 +08:00 via Android
    @ila 没有过 scrapy。。。
    chrisliu1314
        7
    chrisliu1314  
       2017-09-15 23:13:10 +08:00 via Android
    @ila 没有用过
    wisefree
        8
    wisefree  
    OP
       2017-09-15 23:31:59 +08:00
    @chrisliu1314 一直没用过框架,有机会去接触下
    wisefree
        9
    wisefree  
    OP
       2017-09-15 23:32:35 +08:00
    @a1044634486 不会吧,国内 ip 我分流到了 coding 的 pages 上,国外的是 github 的 pages 上
    wisefree
        10
    wisefree  
    OP
       2017-09-15 23:35:21 +08:00
    @cxd44 我的文章需要的基础会在前面说明的,如果加入基础,文章会很长
    wisefree
        11
    wisefree  
    OP
       2017-09-15 23:35:45 +08:00
    @a87150 还好吧,>_<
    26888
        12
    26888  
       2017-09-15 23:43:09 +08:00 via Android
    遇到中文网页不是用 utf8 编码(比如是 gb2312)这样的页面,存到数据库里(数据库是 utf8),一般怎么处理?什么时候转码啊?
    a1044634486
        13
    a1044634486  
       2017-09-16 00:09:18 +08:00
    wisefree
        15
    wisefree  
    OP
       2017-09-16 09:02:42 +08:00
    @26888 页面——》 Python ——》数据库,python 可以处理的。用 Python 把页面的内容解析出来,存入数据库。
    taochunfan
        16
    taochunfan  
       2017-09-16 09:03:23 +08:00   ❤️ 1
    老哥您的网站打不开啊!!
    wisefree
        17
    wisefree  
    OP
       2017-09-16 09:03:30 +08:00
    @a1044634486 好吧,感谢反馈。说实话,coding,有时候不稳定,我也会遇到,>_>
    wisefree
        18
    wisefree  
    OP
       2017-09-16 09:06:50 +08:00
    @taochunfan coding 的 pages 和 github 的 pages,应该没有问题啊,我刚刚又试了一遍。(虽然说 coding 有时候不稳定)
    taochunfan
        19
    taochunfan  
       2017-09-16 09:08:49 +08:00   ❤️ 1
    @wisefree 现在又可以了
    wisefree
        20
    wisefree  
    OP
       2017-09-16 09:43:05 +08:00
    @taochunfan 真心尴尬,具体原因我也不太清楚,抱歉哈
    wisefree
        21
    wisefree  
    OP
       2017-09-16 09:45:30 +08:00
    博客使用的是 coding.netgithub.com 的 pages 功能
    工具:hexo + next 主题
    域名是万网,做了一下 ip 分流,国内 ip 访问 coding,国外 ip 访问 github
    至于打不开的话,我也找不到好的方法处理,建议多试几次,>_>。(抱拳)
    yuluofanchen
        22
    yuluofanchen  
       2017-09-16 10:35:38 +08:00   ❤️ 1
    用代理打开了
    wisefree
        23
    wisefree  
    OP
       2017-09-16 11:33:54 +08:00
    @yuluofanchen 好尴尬哈,至今没有排查出问题。抱歉哈
    shingle
        24
    shingle  
       2017-09-16 12:20:05 +08:00   ❤️ 1
    你的网站厉害了, 走代理才能打开
    wisefree
        25
    wisefree  
    OP
       2017-09-16 12:51:24 +08:00
    @shingle 抱拳,pages 功能可能不稳定
    yuluofanchen
        26
    yuluofanchen  
       2017-09-16 15:48:50 +08:00   ❤️ 1
    现在不走代理也可以打开了!
    scriptB0y
        27
    scriptB0y  
       2017-09-17 01:50:01 +08:00   ❤️ 1
    同行,顺路也推一下自己的爬虫入门文章

    https://www.kawabangga.com/posts/2277
    wisefree
        28
    wisefree  
    OP
       2017-09-17 08:45:48 +08:00
    @scriptB0y 厉害!谢啦
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1019 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 1143ms · UTC 20:43 · PVG 04:43 · LAX 13:43 · JFK 16:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.