Scrapy 如何爬瀑布流的站点?

2015 年 6 月 5 日

rphoho

RT，Scrapy如何爬瀑布流的站点？

8696 次点击

所在节点

Python

16 条回复

est

2015 年 6 月 5 日

我遇到了这个问题，解决办法是自己写。

mthli

2015 年 6 月 5 日

瀑布流有"page="吧，试试找找看看？

kisshere

2015 年 6 月 5 日

抓包，提取网址，实在不会用casperjs吧

mahone3297

2015 年 6 月 5 日

@est 自己写是什么意思？

nikoukou

2015 年 6 月 5 日

casper.js可以试一试，就是速度比较慢，相当于cli的按键精灵。。

rphoho

2015 年 6 月 5 日

@nikoukou
@kisshere
所以只用scrapy是没办法实现的吗，一定要模拟浏览器行为？
有或者有什么爬虫框架适合做这个吗？

ericls

2015 年 6 月 5 日

@rphoho 你分析浏览器请求。

alexapollo

2015 年 6 月 5 日

上内核做渲染！

duobei

2015 年 6 月 5 日

@alexapollo 这个建议不错

kisshere

2015 年 6 月 5 日

@rphoho 刚都说了，叫你chrome F12键抓包，一般如果他的MySQL不是cursor分页的话，可以直接按照pageid递增就抓取了，遇到瀑布流是好事，这样更容易抓取

kisshere

2015 年 6 月 5 日

瀑布流一般都会ajax加载json，更容易抓取和解析

allen3921

2015 年 6 月 5 日

直接分析js

ChiangDi

2015 年 6 月 5 日

当然是看他的 js 代码，有时候可能爬虫都不要写就是一个 json API

alexapollo

2015 年 6 月 6 日

@duobei 其实这是最标准的方法。。应该。。

onlyice

2015 年 6 月 6 日

如果不是瀑布流，你会怎么抓？
其实是不是瀑布流跟 scrapy 没什么关系，只跟网站的 HTTP 接口是怎样的有关系。

mingyun

2015 年 6 月 7 日

casper.js没用过，有这方面的案例吗

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/196307

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.