求推荐几个爬取 js 生成的动态网页的教程?PhantomJS?其他?

2016-06-14 09:51:26 +08:00
 hippoboy
最近在看动态网页爬虫,
网上搜来搜去都没有很系统的教程,
求老司机给我指条明路,
谢谢
2878 次点击
所在节点    Python
7 条回复
mingyuejingque
2016-06-14 10:16:58 +08:00
仔细看 phantomjs 官网自带的 example 基本可以完成小需求了。
gimp
2016-06-14 10:30:51 +08:00
https://blog.ishell.me/a/python-selenium-phantomjs.html
之前用 phantomjs 抓取时写的笔记

https://blog.ishell.me/a/selenium-with-xvfb.html
后来发现 Linux 下也可以用 Firefox/Chrome 等浏览器

http://www.seleniumhq.org/docs/03_webdriver.jsp
当然,看官网教程肯定是最好的

动态网页可以先尝试找数据接口,如果找到接口模拟请求数据效率会高很多。找不到,或者模拟不了,那就用 selenium+浏览器 的方式处理吧,简单粗暴,只是效率低点
brucedone
2016-06-14 11:40:10 +08:00
http://brucedone.com/archives/560

你只是需要借助渲染的环境,你可以尝试 splash
Yc1992
2016-06-14 13:31:11 +08:00
splash 是一个轻量级的渲染服务,可以执行简单 js
practicer
2016-06-14 17:41:21 +08:00
强烈推荐 《 Python 网络数据采集》,从第十章和十一章专门讲解如何爬取 JS 动态内容和图像识别,本书用一个爬取 flash 电子书的例子来说明,强烈推荐给题主。
coolloves
2016-06-14 21:46:26 +08:00
马克
suduo1987
2016-06-15 10:04:40 +08:00
一般都用 GAS 爬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/285532

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX