V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
charlesjq
V2EX  ›  PHP

[造轮子]爬取搜狗微信公众号文章

  •  
  •   charlesjq · 2016-11-21 13:20:56 +08:00 · 3514 次点击
    这是一个创建于 2718 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景:想做一个公众号文章资源 APP ,发现搜狗有搜索公众号文章功能,果断开撸。 http://wxiread.com (用 CMS 搭了个简易的站)。 详情点击 http://www.jianshu.com/p/6bd1b08bd903

    8 条回复    2016-12-06 12:14:46 +08:00
    Tyrion
        1
    Tyrion  
       2016-11-21 14:10:08 +08:00
    暖贴,你这个还是很好玩的,哈哈,不过属于根据搜狗的推荐去爬了,要是能够制定微信公众号去爬更好吧~?
    charlesjq
        2
    charlesjq  
    OP
       2016-11-21 14:15:55 +08:00
    @Tyrion 嗯,是的;回头看下 =_=
    levon
        3
    levon  
       2016-11-21 14:31:44 +08:00
    不错
    ylsc633
        4
    ylsc633  
       2016-11-21 14:50:05 +08:00
    没点进去看... 我记得那个传送门 好像也是扒取的 推荐的 不能定制抓取制定的..(现在不知道还是不是,不过那个网站现在排行非常靠前.且收录量特别大...).. 我曾试过... 有串加密 就没研究了...

    祝好运 如果可以 求解决办法
    mingyun
        5
    mingyun  
       2016-11-21 23:39:43 +08:00
    厉害了,居然用的 php ,赞
    gouchaoer
        6
    gouchaoer  
       2016-11-22 12:20:18 +08:00
    服务器去取图片的地方,我试了一下你似乎给图片加了缓存?
    charlesjq
        7
    charlesjq  
    OP
       2016-11-22 12:36:41 +08:00
    @gouchaoer 没有哈,避免防盗链,图片走 api.php, 直接把原图输出的。
    wangyzj
        8
    wangyzj  
       2016-12-06 12:14:46 +08:00
    请问如何解决从搜狗爬取公众号文章时无法获取文章原始地址的问题,从搜狗爬取的文章都是临时地址,在页面源码里面的 msg_link 变量多数为空,但从微信进入的公众号文章源码里面 msg_link 是有值的,且就是公众号文章的原始地址
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2307 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 09:19 · PVG 17:19 · LAX 02:19 · JFK 05:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.