关于爬虫的一个问题

2023-03-28 11:15:36 +08:00

0x663

我用的 Java 的 Webmagic 去爬取一个页面，我如果用浏览器直接打开的话这个页面会跳到一个新页面是一个文档请求但是如果我用 webmagic 去获取这个页面的 html 的话发现是通过 window.location.href='./页面 id' 而不会去跳转到这个页面，如果我想获取这个页面，应该怎么去写呢

1314 次点击

所在节点

问与答

4 条回复

theOneMe

2023-03-28 11:18:41 +08:00

那就用跳转后的那个路径不就行了

centralpark

2023-03-28 11:26:37 +08:00

建议补充一些前端基础常识再来写爬虫

0x663

2023-03-28 11:34:11 +08:00

@theOneMe 这个路径是上个爬虫获取到的列表路径，然后通过这个列表路径再去创建新的爬虫

xlh001

2023-03-29 10:11:15 +08:00

获取当前网站路径拼接一下啊

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927782

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.