新浪微博反爬 封掉 huginn 的问题

2021-10-28 21:26:44 +08:00
 terryxuwen

用 huginn 爬取新浪微博,原来好好的,快多半年后,突然发现爬取不到任何东西。检查发现竟然是被新浪微博封了,但是奇怪的是,就 huginn 不行,而普通的下载工具,甚至 autoit 等脚本,随随便便就能把新浪微博爬取下来,太奇怪了。比如下面的链接: https://s.weibo.com/weibo?q=%E4%B8%AD%E5%9B%BD%E8%87%AA%E5%BC%BA&typeall=1&suball=1×cope=custom:2021-08-01:&Refer=g&scope=ori 用 huginn 不行,其他的下载工具随随便便都可以。 换了其他地方的机器,电脑和 ip 不同,huginn 照样无法正常爬取。 huginn 里面设置了 user-agent 也不行,怪了,huginn 有什么特征能够被识别吗

1854 次点击
所在节点    微博
6 条回复
terryxuwen
2021-10-28 21:29:07 +08:00
补充一下,我是不登录爬取,不存在用户名被封的情况
ch2
2021-10-28 22:19:55 +08:00
@terryxuwen #1 其实你登录一个小号,即使被封了也反而比不登录权限要高
malagebidi
2021-10-28 22:49:44 +08:00
试了下,Phantom Js Cloud Agent 渲染不出微博的页面了
terryxuwen
2021-10-29 16:30:04 +08:00
@ch2 匿名能看到微博的搜索结果呀。 现在情况是不知道为什么 普通下载脚本能下到内容页,而 huginn 不行,唉
terryxuwen
2021-10-29 16:30:40 +08:00
@malagebidi 你试试普通的脚本下载,应该能下载看到网页内容。
foxben
2022-11-23 14:55:17 +08:00
@malagebidi 我发现很多网站 phantomjs 很多网站都渲染不出

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/811361

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX