分享一个我写的用 Python 批量下载微信公众号文章的开源项目

2019-08-12 20:55:00 +08:00
 explorer123
有的微信公众号文章很多,如果能批量下载下来会方便很多,我花时间做了些研究,有些小心得,想到可能有别的朋友也需要,就开源出来吧,我 python 水平一般,努力从小白的角度教大家怎么去理解和使用这个工具。
第一次做开源项目,想通过这个项目多认识些朋友,请大家多提提意见,谢谢啦。
https://github.com/LeLe86/vWeChatCrawl
5356 次点击
所在节点    Python
30 条回复
joson1205
2019-08-13 11:04:02 +08:00
@qwjhb 卖个鸡腿,尊重一下原创吧
qwjhb
2019-08-13 11:26:15 +08:00
@joson1205 所以我前几年打包公众号合集 mobi 的源码也没放 最多讲讲思路,然而在做这个生意的站好几个了=-=
omph
2019-08-13 13:11:49 +08:00
@qwjhb 流程确实是这样,但用 Mitmproxy 抓不到 https 的流量,导致得不到 header
但用 Fiddler 却没问题,目前怀疑是证书的问题
omph
2019-08-13 13:14:36 +08:00
@qwjhb header 里的参数大概几分钟后就会失效,还要重新获取
qwjhb
2019-08-13 13:45:06 +08:00
@omph
安装下证书

sleep 不用太久 几秒一次这样爬 header 不会失效的。至少几个小时没问题。个人用本来也不是每时每刻都要爬。之前我基本月底扫一遍几个公众号订成合集看一遍。
explorer123
2019-08-13 17:51:27 +08:00
@omph key 半小时失效,对于抓取文章列表时间足够了。
fuckshit
2019-08-13 18:45:31 +08:00
必须用代理吗? 我也也写了一个抓取微信文章的工具,不过原理不是这样的。 我是通过微信网页版 api 实现的微信机器人,关注公众号,然后公众号有新的文章推送的时候,微信机器人会收到消息,然后自动将文章采集下来。 详情可以看下这里: [https://mlog.club/topic/22]( https://mlog.club/topic/22) 我的也是开源的呢。
explorer123
2019-08-13 19:54:01 +08:00
@fuckshit 你这个没法下载历史消息啊。另外你的源码在哪?找了一圈没找到。
fuckshit
2019-08-14 09:51:49 +08:00
@explorer123 项目地址: https://github.com/mlogclub/mlog-wxbot 我这个确实是没法下载历史的文章,微信公众号对于这个限制的很严格, 你的项目也是利用代理拦截才能取到历史数据。
explorer123
2019-08-14 12:40:48 +08:00
@fuckshit 如果微信没啥限制人人都能下那我这个项目就没有必要存在了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/591302

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX