Python 爬虫

2018-01-02 13:52:17 +08:00
 linhanqiu

想问一下大家 python 的 urllib 库怎么爬取跳转的链接, 我大概想了跳转链接分两类,一种是直接跳转:304 另一种是响应 200,然后自动 js 跳转的, 想问一下,是怎么实现的,需要请求 js 的 url 吗 ps:python3 环境下

2337 次点击
所在节点    Python
12 条回复
p2pCoder
2018-01-02 13:58:33 +08:00
js 自动跳转的,你请求到包含 js 页面的就可以了
WoodenRobot
2018-01-02 14:56:44 +08:00
为什么不用 Requests?
Flobit
2018-01-02 15:24:51 +08:00
胶水语言,不要局限在一个库里面,不行就换,多试试其他的。
dirls
2018-01-02 15:26:38 +08:00
1# 正解
wh01096045
2018-01-02 17:24:16 +08:00
你也可以分析 js,得到跳转的 url,然后请求
ray8888
2018-01-02 17:42:37 +08:00
为什么不用 scrapy
Ginson
2018-01-02 17:51:21 +08:00
我一般是分析 JS,拿到跳转后的链接;或者直接用能执行 JS 的库去请求,比如 selenium webdriver
linhanqiu
2018-01-04 22:30:20 +08:00
@p2pCoder
但是请求到的是包含 js 的 html 文件,并没有跳转
linhanqiu
2018-01-04 22:31:33 +08:00
@WoodenRobot Requests 怎么能够自动跳转,之前看到 urllib 库可以获取跳转后的链接,不知道 requests 可不可以
linhanqiu
2018-01-04 22:32:08 +08:00
@wh01096045 好吧,我也打算这么做
linhanqiu
2018-01-04 22:33:19 +08:00
@Ginson 好的,
WoodenRobot
2018-01-05 10:34:16 +08:00
@linhanqiu 直接重定向的 requests 可以自动实现重定向,在返回数据中获取重定向后的 URL。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/419361

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX