请教一个关于爬虫的思路

2022-04-05 21:04:59 +08:00
 EgT

我想采集 app 里面的图片,这个 app 是类似一个机器人 通过按钮点击就直接返回一张图片,但是这个图片地址每天都会更新一次,这种情况有什么好的解决办法

图片 url 示例:http://xxxxx.com/spic_data/20220405/7EB2D469A634CAAD683B7334E2D387A5.jpg

2985 次点击
所在节点    Python
10 条回复
4rfv5tgb
2022-04-05 21:44:39 +08:00
简单点可以直接用 requests 请求整个网页下来,复杂点你就用 selenium+chrome driver,直接模拟人的点击,然后分析网页 page_source
EgT
2022-04-05 21:58:06 +08:00
@4rfv5tgb 是手机 app 就是因为抓包没看到其他请求,只有点击按钮的时候会返回一条图片的 url
cnbattle
2022-04-05 22:28:18 +08:00
可以参考下我抓抖音的方式 github.com/cnbattle/douyin 🙈
EgT
2022-04-05 22:38:05 +08:00
@cnbattle 好的 谢谢 我去看看
zoranz
2022-04-06 17:28:19 +08:00
可以考虑 appnium 思路 最快肯定还是抓到接口
Skiro
2022-04-06 17:35:19 +08:00
抓包+逆向通常可以解决你遇到的 90%以上的问题。
EgT
2022-04-06 19:29:04 +08:00
@zoranz 就是因为抓包没看到其他请求,只有点击按钮的时候会返回一条图片的 url ,现在换了个思路 看看他图片命名规则是什么加密的
EgT
2022-04-06 19:29:42 +08:00
@Skiro 好的,抓包没有看到请求,等会儿学学逆向看看
zoranz
2022-04-14 09:41:42 +08:00
解决了吗 抓包没看到请求是因为现在大部分 app 弄了个啥东西 你用 fiddler 挂了代理之后他就不给你访问了吧好像
EgT
2022-04-14 12:07:01 +08:00
@zoranz 没有 换了其他方式来做了,这个机器人走的 tcp 协议

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/845080

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX