分享一个我写的用 Python 批量下载微信公众号文章的开源项目

有的微信公众号文章很多，如果能批量下载下来会方便很多，我花时间做了些研究，有些小心得，想到可能有别的朋友也需要，就开源出来吧，我 python 水平一般，努力从小白的角度教大家怎么去理解和使用这个工具。
第一次做开源项目，想通过这个项目多认识些朋友，请大家多提提意见，谢谢啦。
https://github.com/LeLe86/vWeChatCrawl

joson1205

2019-08-13 11:04:02 +08:00

@qwjhb 卖个鸡腿,尊重一下原创吧

qwjhb

2019-08-13 11:26:15 +08:00

@joson1205 所以我前几年打包公众号合集 mobi 的源码也没放最多讲讲思路，然而在做这个生意的站好几个了=-=

omph

2019-08-13 13:11:49 +08:00

@qwjhb 流程确实是这样，但用 Mitmproxy 抓不到 https 的流量，导致得不到 header
但用 Fiddler 却没问题，目前怀疑是证书的问题

omph

2019-08-13 13:14:36 +08:00

@qwjhb header 里的参数大概几分钟后就会失效，还要重新获取

qwjhb

2019-08-13 13:45:06 +08:00

@omph
安装下证书

sleep 不用太久几秒一次这样爬 header 不会失效的。至少几个小时没问题。个人用本来也不是每时每刻都要爬。之前我基本月底扫一遍几个公众号订成合集看一遍。

explorer123

2019-08-13 17:51:27 +08:00

@omph key 半小时失效，对于抓取文章列表时间足够了。

fuckshit

2019-08-13 18:45:31 +08:00

必须用代理吗？我也也写了一个抓取微信文章的工具，不过原理不是这样的。我是通过微信网页版 api 实现的微信机器人，关注公众号，然后公众号有新的文章推送的时候，微信机器人会收到消息，然后自动将文章采集下来。详情可以看下这里： [https://mlog.club/topic/22]( https://mlog.club/topic/22) 我的也是开源的呢。

explorer123

2019-08-13 19:54:01 +08:00

@fuckshit 你这个没法下载历史消息啊。另外你的源码在哪？找了一圈没找到。

fuckshit

2019-08-14 09:51:49 +08:00

@explorer123 项目地址： https://github.com/mlogclub/mlog-wxbot 我这个确实是没法下载历史的文章，微信公众号对于这个限制的很严格，你的项目也是利用代理拦截才能取到历史数据。

explorer123

2019-08-14 12:40:48 +08:00

@fuckshit 如果微信没啥限制人人都能下那我这个项目就没有必要存在了。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/591302

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.