Python 爬虫如何抓取 JavaScript 渲染后的内容呢？

2016-01-08 22:30:32 +08:00

RqPS6rhmP3Nyn3Tm

大家好，我就是上次发虫 https://www.v2ex.com/t/245894 的那个，现在想写个新的爬虫，但是遇到了一些问题，特来求助。
原因是这样的，这次想看的漫画在上次那个网站没有，于是想再写一个。漫画的图片是通过 JavaScript 渲染的，因此没法直接抓到。
Google 了一圈，文档很多都很老……
如何解决呢？

8654 次点击

所在节点

问与答

26 条回复

shyling

2016-01-09 11:19:19 +08:00

@aprikyblue 马克是谁

aprikyblue

2016-01-09 12:23:54 +08:00

@shyling
....表卖萌

chrisbarry

2016-01-09 13:26:23 +08:00

selenium+PhantomJS 挺好用，就是有点点慢。
from selenium import webdriver
driver = webdriver.PhantomJS(executable_path='.......')

shyling

2016-01-09 20:17:31 +08:00

@aprikyblue 请告诉我

wangzy

2016-01-09 22:17:33 +08:00

以前写过一个爬虫，也是爬漫画网站，也是 js 渲染，我用的 java ，然后用的 java 自带的 js 解析器，做解析后分析然后找出链接下载， python 有没有类似的 js 解析器不清楚，如果有的话应该没问题或者看能否调用 nodejs 这类东东

RqPS6rhmP3Nyn3Tm

2016-01-16 15:23:50 +08:00

@icedx 有一点小 bug ，不过感谢思路

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/249404

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.