现在的公众号还能爬到信息吗

2020-09-28 18:57:13 +08:00
 gongfuxiongmao

想学习一下爬虫,爬点公众号的文章,大佬们有什么建议吗,只需要大概的可行的方向就行,剩下的自己去研究。

网上搜到的方法都是比较老的信息,一般都不能用了

2967 次点击
所在节点    程序员
13 条回复
kof21411
2020-09-28 19:27:03 +08:00
爬虫写得好,坐牢坐得早,别惹南山必胜客!
pandait
2020-09-28 19:37:29 +08:00
搜狗的微信搜索,有入口。
crclz
2020-09-28 21:51:07 +08:00
几个月之前爬过,方法是用 pc 微信客户端,打开某个公众号,然后人工用鼠标往下滚动,然后右键-查看源代码,然后保存为文件,用 python 解析 dom,就可以找出地址列表。有时候请求多了,会封禁那个入口 24 小时,换个号就行了。

搜狗的微信搜索能够搜索到的极其有限。
mlhadoop
2020-09-28 23:32:27 +08:00
@crclz

```
try {
const maxScroll = Number.MAX_SAFE_INTEGER;
let lastScroll = 0;
const interval = setInterval(() => {
window.scrollBy(0, 100);
const scrollTop = document.documentElement.scrollTop;
if (scrollTop === maxScroll || scrollTop === lastScroll) {
clearInterval(interval);
//resolve();
} else {
lastScroll = scrollTop;
}
}, 1000);
} catch (err) {
console.log(err);
//reject(err.toString());
}
```

不用手滑
wangyzj
2020-09-28 23:56:57 +08:00
最好的办法是逆向
其次用 appium
0o0O0o0O0o
2020-09-29 00:49:32 +08:00
/t/708599

逆向微信违法,所以只提供一个方法,你可以提交需要爬的公众号,然后爬我的(
locoz
2020-09-29 01:35:01 +08:00
要么自动化测试,要么逆向。如果只是玩玩,那就自动化测试一把梭就行,最多十分钟就完事了。
sweat89
2020-09-29 08:38:33 +08:00
@pandait 村里刚通网?
zsdroid
2020-09-29 09:07:18 +08:00
公众号都凉透了。。。
pandait
2020-09-29 09:20:46 +08:00
@sweat89 差不多,刚出来。
Achiii
2020-09-29 09:38:49 +08:00
曾经想分析一个公众号里面的投票数据,先在 pc 上面滚轮加载完他的页面,保存 html 再正则。算是比较低效的方法吧
qsnow6
2020-09-29 09:41:03 +08:00
@0o0O0o0O0o #6 牛逼,真手动扒
gongfuxiongmao
2020-09-29 19:01:20 +08:00
看了大家的回复,我估计要放弃了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/711351

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX