Scrapy 如何爬瀑布流的站点?

2015-06-05 12:54:44 +08:00
 rphoho

RT,Scrapy如何爬瀑布流的站点?

7937 次点击
所在节点    Python
16 条回复
est
2015-06-05 13:01:03 +08:00
我遇到了这个问题,解决办法是自己写。
mthli
2015-06-05 13:11:02 +08:00
瀑布流有"page="吧,试试找找看看?
kisshere
2015-06-05 13:34:47 +08:00
抓包,提取网址,实在不会用casperjs吧
mahone3297
2015-06-05 13:36:39 +08:00
@est 自己写是什么意思?
nikoukou
2015-06-05 14:03:12 +08:00
casper.js可以试一试,就是速度比较慢,相当于cli的按键精灵。。
rphoho
2015-06-05 14:12:01 +08:00
@nikoukou
@kisshere
所以只用scrapy是没办法实现的吗,一定要模拟浏览器行为?
有或者有什么爬虫框架适合做这个吗?
ericls
2015-06-05 14:13:58 +08:00
@rphoho 你分析浏览器请求。
alexapollo
2015-06-05 14:22:58 +08:00
上内核做渲染!
duobei
2015-06-05 14:37:54 +08:00
@alexapollo 这个建议不错
kisshere
2015-06-05 16:16:14 +08:00
@rphoho 刚都说了,叫你chrome F12键抓包,一般如果他的MySQL不是cursor分页的话,可以直接按照pageid递增就抓取了,遇到瀑布流是好事,这样更容易抓取
kisshere
2015-06-05 16:18:08 +08:00
瀑布流一般都会ajax加载json,更容易抓取和解析
allen3921
2015-06-05 19:19:04 +08:00
直接分析js
ChiangDi
2015-06-05 19:23:44 +08:00
当然是看他的 js 代码,有时候可能爬虫都不要写就是一个 json API
alexapollo
2015-06-06 00:35:06 +08:00
@duobei 其实这是最标准的方法。。应该。。
onlyice
2015-06-06 20:21:56 +08:00
如果不是瀑布流,你会怎么抓?
其实是不是瀑布流跟 scrapy 没什么关系,只跟网站的 HTTP 接口是怎样的有关系。
mingyun
2015-06-07 10:20:24 +08:00
casper.js没用过,有这方面的案例吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/196307

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX