V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
qmqy
V2EX  ›  问与答

请问如何抓取知乎专栏?

  •  
  •   qmqy · 2014-07-29 17:16:16 +08:00 · 8851 次点击
    这是一个创建于 3558 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我并不打算盗用文章,只是想做成rss供自己阅读,不打算大范围传播.....
    知乎专栏用了ajax技术,市面上的采集工具都试过,不好使...
    请大神指教!
    22 条回复    2014-07-30 13:58:34 +08:00
    ttph1oc
        1
    ttph1oc  
       2014-07-29 17:31:00 +08:00   ❤️ 1
    方案1 PhantomJS
    方案2 打开控制台看看知乎专栏的API,抓取和处理http://zhuanlan.zhihu.com/api/columns/xxx/posts、http://zhuanlan.zhihu.com/api/columns/xxx/posts/xxx这类的东西等等
    PotatoBrother
        2
    PotatoBrother  
       2014-07-29 19:47:03 +08:00   ❤️ 1
    这是 @faceair 大大写的知乎日报网页版: http://www.zhihudaily.net,源代码在这 https://github.com/faceair/zhihudaily

    还有@RIcter 大大自制的的 RSS 源: http://www.ricter.me/articles/153
    PotatoBrother
        3
    PotatoBrother  
       2014-07-29 19:47:31 +08:00
    连接没发好,楼主见谅
    PotatoBrother
        4
    PotatoBrother  
       2014-07-29 19:48:40 +08:00
    连接->链接
    airyland
        5
    airyland  
       2014-07-29 19:48:55 +08:00
    @PotatoBrother 楼主是问 专栏 不是 日报 吧。
    PotatoBrother
        6
    PotatoBrother  
       2014-07-29 19:50:10 +08:00
    @airyland http://www.zhihudaily.net/sections 这里面有专栏,楼主也可以去看看源代码的实现
    PotatoBrother
        7
    PotatoBrother  
       2014-07-29 19:50:33 +08:00
    @airyland 好吧我看错了......是专栏不是专题
    PotatoBrother
        8
    PotatoBrother  
       2014-07-29 19:51:25 +08:00   ❤️ 1
    最近老是看错主楼的要求,常常回答一些不相干的东西,罪过罪过
    以后可要认真审题
    TangMonk
        9
    TangMonk  
       2014-07-29 19:59:00 +08:00   ❤️ 1
    windows的话弄个 fiddler 来抓取数据呗。(mac 上貌似没有比这货还好用的)
    airyland
        10
    airyland  
       2014-07-29 20:03:14 +08:00   ❤️ 1
    zhxhwyzh14
        11
    zhxhwyzh14  
       2014-07-29 20:21:16 +08:00
    有一个软件叫做知乎助手
    zhxhwyzh14
        12
    zhxhwyzh14  
       2014-07-29 20:22:00 +08:00   ❤️ 1
    ccbikai
        13
    ccbikai  
       2014-07-29 20:27:15 +08:00 via Android   ❤️ 1
    qmqy
        14
    qmqy  
    OP
       2014-07-29 22:22:37 +08:00
    @ttph1oc
    非常感谢!不过我毕竟不是程序员,第二个方案时间成本有些高,第一个方案PhantomJS确实是个神器(同时发现了另一个神器CasperJS ),google了一大堆文档,自己也写了相关js,抓是抓到了文章,但是考虑到还要避免文章重复、文章远程发布、contab定时任务、图片保存等等问题......算了,这不是我的专长T_T......
    no13bus
        15
    no13bus  
       2014-07-29 22:28:20 +08:00   ❤️ 1
    @qmqy 你都知道这些概念了。百度下就行了
    qmqy
        16
    qmqy  
    OP
       2014-07-29 22:30:16 +08:00
    @PotatoBrother
    无论如何,谢谢你啦~13楼给出了解决方案。

    @zhxhwyzh14
    谢谢!这个软件真是意外收获~

    @ccbikai
    Wow!早知道你写好了我就不用费那么大劲折腾了T_T........请问你的服务会一直开下去吗?推广开后可以考虑适当收费啊~
    qmqy
        17
    qmqy  
    OP
       2014-07-29 22:32:03 +08:00
    @no13bus
    行,最近忙着找工作,等时间稳定了再研究研究。谢谢了!
    PotatoBrother
        18
    PotatoBrother  
       2014-07-29 22:33:03 +08:00 via iPhone
    @qmqy 我是添乱的😢
    ccbikai
        19
    ccbikai  
       2014-07-30 09:58:17 +08:00 via Android   ❤️ 1
    @qmqy 不敢保证一直,不过尽量会坚持下去
    qmqy
        20
    qmqy  
    OP
       2014-07-30 10:33:22 +08:00
    @ccbikai
    请问下,你有接口调用这方面的教程呢?我看了一下你给的api地址,一大坨东西,关是概念就很难理解....或者能说一下你调用的过程吗?谢谢!
    ccbikai
        21
    ccbikai  
       2014-07-30 11:41:56 +08:00
    @qmqy 没有教程。API返回的是JSON格式的数据,你先了解下 JSON
    qmqy
        22
    qmqy  
    OP
       2014-07-30 13:58:34 +08:00
    @ccbikai
    好的,谢谢!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3800 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 00:51 · PVG 08:51 · LAX 17:51 · JFK 20:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.