如何抓取瀑布流式布局的网页全文?

2014-11-25 16:08:26 +08:00
 assiadamo
举个栗子,googleplay在加载时只加载一部分,剩下的要把滚动条脱到低端才会显示出来,现在要写程序来获取全部加载完的字符串,HtmlUnit和phantomjs都用了下,感觉不是很简单,可能对这两者还是研究的不够透彻,请问各位有什么基于这两种或者是其他更好的方法吗?
4738 次点击
所在节点    问与答
10 条回复
williamwu
2014-11-25 16:15:16 +08:00
crab
2014-11-25 16:23:10 +08:00
googleplay 可以直接post请求(指定开始页,多少页数。)
icedx
2014-11-25 16:23:58 +08:00
你俩是干啥
assiadamo
2014-11-25 16:24:06 +08:00
@williamwu 这个很简单,你是如何抓取到这个网页的就去抓取文章的url很容易得到正文啊,文章标题都会有相同的class吧,通过class可以获取url
assiadamo
2014-11-25 16:25:16 +08:00
@crab 我找到了post,但是response没有带样式看不出来。。
abelyao
2014-11-25 16:48:26 +08:00
直接用正则表达式匹配 response 中你要的内容。
我的站就是滚动无限加载的图片站,莫非楼主要抓我的…
learnshare
2014-11-25 16:52:40 +08:00
直接抓 API 地址
halfcrazy
2014-11-25 16:55:27 +08:00
分析js找接口
cdxem713
2014-11-25 20:55:44 +08:00
直接对api发请求就好了,这类异步网站都可以
tingsoft
2014-11-26 12:56:00 +08:00
@cdxem713 比如QQ空间呢?貌似没有API?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/149175

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX