[造轮子]爬取搜狗微信公众号文章

2016-11-21 13:20:56 +08:00
 charlesjq

背景:想做一个公众号文章资源 APP ,发现搜狗有搜索公众号文章功能,果断开撸。 http://wxiread.com (用 CMS 搭了个简易的站)。 详情点击 http://www.jianshu.com/p/6bd1b08bd903

3530 次点击
所在节点    PHP
8 条回复
Tyrion
2016-11-21 14:10:08 +08:00
暖贴,你这个还是很好玩的,哈哈,不过属于根据搜狗的推荐去爬了,要是能够制定微信公众号去爬更好吧~?
charlesjq
2016-11-21 14:15:55 +08:00
@Tyrion 嗯,是的;回头看下 =_=
levon
2016-11-21 14:31:44 +08:00
不错
ylsc633
2016-11-21 14:50:05 +08:00
没点进去看... 我记得那个传送门 好像也是扒取的 推荐的 不能定制抓取制定的..(现在不知道还是不是,不过那个网站现在排行非常靠前.且收录量特别大...).. 我曾试过... 有串加密 就没研究了...

祝好运 如果可以 求解决办法
mingyun
2016-11-21 23:39:43 +08:00
厉害了,居然用的 php ,赞
gouchaoer
2016-11-22 12:20:18 +08:00
服务器去取图片的地方,我试了一下你似乎给图片加了缓存?
charlesjq
2016-11-22 12:36:41 +08:00
@gouchaoer 没有哈,避免防盗链,图片走 api.php, 直接把原图输出的。
wangyzj
2016-12-06 12:14:46 +08:00
请问如何解决从搜狗爬取公众号文章时无法获取文章原始地址的问题,从搜狗爬取的文章都是临时地址,在页面源码里面的 msg_link 变量多数为空,但从微信进入的公众号文章源码里面 msg_link 是有值的,且就是公众号文章的原始地址

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/322058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX