V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
intohole
V2EX  ›  Python

继续推荐自己的爬虫,我会一直不断更新这个工程;

  •  
  •   intohole · 2017-05-10 10:29:59 +08:00 · 4003 次点击
    这是一个创建于 1546 天前的主题,其中的信息可能已经有所发展或是发生改变。
    上链接:
    https://github.com/intohole/xspider


    希望大家多关注,我会慢慢完善这个工程的,有需求可以给我提出 issue,谢谢大家
    21 条回复    2017-05-11 10:09:33 +08:00
    guonning
        1
    guonning   2017-05-10 10:40:30 +08:00 via iPhone
    整个 Google play 的爬虫
    Morriaty
        2
    Morriaty   2017-05-10 10:51:20 +08:00   ❤️ 1
    如果你的项目有明显优于`scrapy`的地方,那请重点介绍这个优点;

    如果你只是想深入了解爬虫架构,那请配合分享你的开发博客,《深入理解爬虫架构》;

    否则,你的这个项目,除了自己练手,没有任何可分享的意义。
    yanzixuan
        3
    yanzixuan   2017-05-10 11:04:44 +08:00
    不是很推荐用 xpath 来提取信息,麻烦得很。用 beautifulsoup 或 pyquery 都好点。
    xvx
        4
    xvx   2017-05-10 11:17:12 +08:00 via iPhone
    难道 lz 这个还能智能爬不成?不用每个网站都搞个爬虫规则。
    intohole
        5
    intohole   2017-05-10 14:25:24 +08:00
    @xvx 可以看我另外个工程 sixgod 也在这个 github, 里面可以自动提取正文;如果有提取其它元素的话,可以提 issue
    intohole
        6
    intohole   2017-05-10 14:25:57 +08:00
    @yanzixuan 这里面支持 beautifulsoup ; 我只是没写文档
    intohole
        7
    intohole   2017-05-10 14:27:09 +08:00
    @Morriaty 谢谢意见,这个是我在做一个信息爬取工程,里面正在改进;文档 我会慢慢丰富起来
    intohole
        8
    intohole   2017-05-10 14:27:48 +08:00
    @guonning 谷歌市场?可以用这个里面写的,只需要你会写 xpath css selector 就可以了
    intohole
        9
    intohole   2017-05-10 14:28:21 +08:00
    @yanzixuan 后续我会加入 pyquery 的 ,谢谢你这个建议
    3b295
        10
    3b295   2017-05-10 15:21:49 +08:00
    @yanzixuan 我倒是觉得有时用 xpath 也很方便, 直接在浏览器中右键复制节点的 xpath, 在稍微改改就写出来了。
    IanPeverell
        11
    IanPeverell   2017-05-10 15:53:57 +08:00
    楼主加油,不过……

    感觉是在重复造轮子,因为功能不完善所以很轻,很多情况都没考虑到

    scrapy 和 pyspider 已经很出色,再加上很多分支,已经很完美了,requests 也足够满足轻型 spider 的需求,所以除非以学习为目的,这种重复造轮子很浪费时间
    intohole
        12
    intohole   2017-05-10 16:01:31 +08:00
    @IanPeverell 肯定有些不同的,比如我现在抓取的时候 面临资源不足的情况,有自己的解决方案 ;
    mikezhang0515
        13
    mikezhang0515   2017-05-10 16:31:54 +08:00
    MSpider 也很好
    IanPeverell
        14
    IanPeverell   2017-05-10 16:42:19 +08:00
    @intohole,然而资源不足只是 spider 很小的问题,更多的问题则在于反爬上,如果楼主能在这方面下功夫那这个框架的肯定不可小觑

    anyway,还是很支持楼主将一个框架由小做大的,希望楼主能坚持下去
    intohole
        15
    intohole   2017-05-10 16:42:21 +08:00
    @mikezhang0515 我会参考这个工程的 ,thx
    intohole
        16
    intohole   2017-05-10 16:42:47 +08:00
    @IanPeverell 谢谢,我会加油的
    faywong8888
        17
    faywong8888   2017-05-10 16:47:23 +08:00
    技术这个行业,过去一个话题的开始是写一个:hello, world。
    这个行业的现在变成了:从零写一个爬虫。
    intohole
        18
    intohole   2017-05-10 17:09:55 +08:00
    @faywong8888 什么项目不是从 0 开始的呢? 还有你觉得写爬虫架构很好写,写个队列,写个抓取器就完活了? 谢谢关注
    Yc1992
        19
    Yc1992   2017-05-10 17:22:36 +08:00 via Android
    加上一句,make the world a better place
    xvx
        20
    xvx   2017-05-11 09:08:20 +08:00 via iPhone
    @intohole sixgod 比较块密度进行爬取,这个思路以前看过,对结构简单的网站比较适用,复杂的还是很难搞吧。
    intohole
        21
    intohole   2017-05-11 10:09:33 +08:00
    @xvx 首先你的业务是什么? 每个人的业务都不一样,只能是大体通用 , 智能提取算法 , 你可以自己找找 paper
    关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   984 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:35 · PVG 04:35 · LAX 13:35 · JFK 16:35
    ♥ Do have faith in what you're doing.