求问: scrapy 解析 js 有什么好的方案?

2015 年 10 月 24 日
 bytenoob
现在只能解析静态的网页内容,想请教各位 scrapy 对于动态的内容有什么好的方案?
3001 次点击
所在节点    Python
12 条回复
bdbai
2015 年 10 月 24 日
简单的 AJAX 分析一下请求即可,涉及到算法的可以尝试将 JavaScript 代码用 Python 表达。实在懒的话直接操控浏览器,不过效率很低。
est
2015 年 10 月 24 日
pyexecjs phantomjs
Victor215
2015 年 10 月 24 日
千年老问题,快成月经贴了……楼上的方法是通用的。
ljbha007
2015 年 10 月 24 日
有个办法是遇到 script 标签和 js 文件 就用正则匹配 url 这样不用去管程序逻辑到底是怎样的
bytenoob
2015 年 10 月 24 日
@ljbha007 有些情况这样可以,但是很多情况比如把链接放到 function 中或者 onload 这种情况就不行了
bytenoob
2015 年 10 月 24 日
@bdbai 感谢回复,我研究下~
bytenoob
2015 年 10 月 24 日
@est 谢谢
ljbha007
2015 年 10 月 24 日
@Yc1992 那你把 onload 也加上啊
leavic
2015 年 10 月 24 日
ajax 基本都可以查到实际查询的位置,查处后用 request 单独请求一次这个数据就行。
PythonAnswer
2015 年 10 月 25 日
不要效率的话,模拟浏览器也没啥。对服务器也温柔。
gaotongfei
2015 年 10 月 25 日
selenium
berry10086
2015 年 10 月 25 日
selenium + phantomjs

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/230759

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX