使用 Python 抓取当前网站加载的 JS 地址问题

2019-06-12 12:50:00 +08:00
 hu5ky

方案有两个:方案一是打开网站->读取源代码->匹配 SRC 内的 JS 地址(但是这样做的话实际上并没有完全抓取到) 方案二打开网站->监听浏览器 network->匹配内容存在.js 的地址(因为部分网站的 JS 后面还存在一串字符 test.js457244asd24 这样)

目前的问题是浏览器 network 怎么监听呢?

1195 次点击
所在节点    问与答
5 条回复
c4f36e5766583218
2019-06-12 13:49:40 +08:00
<script ></script>
这样吗?
x66
2019-06-12 17:28:03 +08:00
如果你用 selenium 来爬的话,selenium-wire 是你想要的
Jirajine
2019-06-12 17:36:25 +08:00
mitm 抓包不好吗?
hu5ky
2019-06-12 19:44:28 +08:00
@Jirajine 已经在着手了
hu5ky
2019-06-12 19:44:52 +08:00
@x66 O 了,我去了解一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/573142

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX