Python 爬虫如何抓取 JavaScript 渲染后的内容呢?

2016-01-08 22:30:32 +08:00
 RqPS6rhmP3Nyn3Tm

大家好,我就是上次发虫 https://www.v2ex.com/t/245894 的那个,现在想写个新的爬虫,但是遇到了一些问题,特来求助。
原因是这样的,这次想看的漫画在上次那个网站没有,于是想再写一个。漫画的图片是通过 JavaScript 渲染的,因此没法直接抓到。
Google 了一圈,文档很多都很老……
如何解决呢?

8084 次点击
所在节点    问与答
26 条回复
shyling
2016-01-09 11:19:19 +08:00
@aprikyblue 马克是谁
aprikyblue
2016-01-09 12:23:54 +08:00
@shyling
....表卖萌
chrisbarry
2016-01-09 13:26:23 +08:00
selenium+PhantomJS 挺好用,就是有点点慢。
from selenium import webdriver
driver = webdriver.PhantomJS(executable_path='.......')
shyling
2016-01-09 20:17:31 +08:00
@aprikyblue 请告诉我
wangzy
2016-01-09 22:17:33 +08:00
以前写过一个爬虫,也是爬漫画网站,也是 js 渲染,我用的 java ,然后用的 java 自带的 js 解析器,做解析后分析然后找出链接下载, python 有没有类似的 js 解析器不清楚,如果有的话应该没问题或者看能否调用 nodejs 这类东东
RqPS6rhmP3Nyn3Tm
2016-01-16 15:23:50 +08:00
@icedx 有一点小 bug ,不过感谢思路

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/249404

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX