一般情况下,写爬虫怎么抓取 AJAX 这种动态网页?

2014-04-08 22:59:41 +08:00
 LetFoxRun
比如,我想写个爬虫登录北邮人论坛,地址: http://bbs.byr.cn/

我抓包发现登录地址为: http://bbs.byr.cn/user/ajax_login.json

为什么这个登录地址状态码为200,但是网页打开后是空白?

如果我想爬虫登录此网站,应该怎么处理?

不会JS/AJAX,需要学的比较多,谢谢。
12728 次点击
所在节点    问与答
23 条回复
inaction
2014-04-08 23:28:46 +08:00
先登录,导出 cookie,将cookie附在请求中,再继续抓取。
LetFoxRun
2014-04-08 23:34:48 +08:00
@inaction 你好,谢谢。普通的网站(未使用AJAX等技术的),我知道怎么登录,表单+Cookie基本上就可以了,但是我看BYR论坛里的登录地址( http://bbs.byr.cn/user/ajax_login.json)打开是空白的,但是之前未使用AJAX的网页打开不是空白的,这个登录方法一样吗?

感谢已发送。
FreDom
2014-04-08 23:47:41 +08:00
@LetFoxRun 地址请求返回404,看来是对请求进行了ajax请求判断,你觉得你可以修改一下报头,模拟ajax请求就好了
sb
2014-04-09 00:00:07 +08:00
直接POST登录就可以了
POST http://bbs.byr.cn/user/ajax_login.json
不是GET请求
复制一段header来看看

POST /user/ajax_login.json HTTP/1.1
这里写的比较清楚了 POST过去
Host: bbs.byr.cn
Connection: keep-alive
Content-Length: 37
Accept: application/json, text/javascript, */*; q=0.01
Origin: http://bbs.byr.cn
X-Requested-With: XMLHttpRequest
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.154 Safari/537.36
Content-Type: application/x-www-form-urlencoded; charset=UTF-8
DNT: 1
Referer: http://bbs.byr.cn/index
Accept-Encoding: gzip,deflate,sdch
Accept-Language: zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4,ja;q=0.2,nl;q=0.2
Cookie: nforum[UTMPUSERID]=guest; nforum[UTMPKEY]=7346893; nforum[UTMPNUM]=23586; __utma=217424581.1890372499.1396972428.1396972428.1396972428.1; __utmb=217424581.1.10.1396972428; __utmc=217424581; __utmz=217424581.1396972428.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); login-user=1

参数为:id=XXXX&passwd=XXXX&mode=XX&CookieDate=XX
LetFoxRun
2014-04-09 00:13:27 +08:00
@sb 非常感谢,感谢已发送。我有一点不解的是mode=XX&CookieDate=XX 这个参数你是怎么发现的呢?

谢谢。
LetFoxRun
2014-04-09 00:21:40 +08:00
@FreDom 你好,感谢已发送,有个小问题,我前面说了不会AJAX,这里请教下:

1.对请求进行了ajax请求判断,这句话是什么意思,就是ajax请求判断是干啥的?
2.模拟ajax请求,这个用python怎么办到?需要使用phantomjs这种吗?

问题有点多,感谢回复。
FreDom
2014-04-09 00:38:38 +08:00
@LetFoxRun

1.服务器端可以通过request headers的信息来判断请求是否属于ajax请求,好像:
X-Requested-With: XMLHttpRequest
这就是ajax请求特有的header信息

2.懂了上面那一点,你就应该知道怎么用python模拟ajax请求了,你也可以google一下,应该有很多答案。还有如果你要抓取的页面太多ajax请求(如淘宝商品页面),使用phantomjs也是一种办法。
txlty
2014-04-09 02:55:08 +08:00
方法就两种:模拟HTTP请求。模拟浏览器。
第一种,分析js代码,把需要的参数都发过去。尽可能的模拟真实http请求。一个http请求就搞定,执行效率较高。
第二种,全面模拟浏览器抓取,这就自动生成一堆http请求了,而且解析html,并执行页面里的js。这种方法执行效率较低。但编写的时候更省事。
java可以用htmlunit,c#可以用WebClient。至于各种脚本语言,可以调用phantomjs。

楼上说得对,那个地址做了ajax请求判断。假装自己是ajax产生的请求就能访问了。
tinyhill
2014-04-09 07:55:24 +08:00
用 nodejs 跑
Elethom
2014-04-09 08:05:11 +08:00
nForum 有 API 的...
sb
2014-04-09 08:15:16 +08:00
@LetFoxRun Chrome 按下F12/右键 打开审查元素 在network选项卡有数据包看的
ushuz
2014-04-09 09:02:50 +08:00
不需要模拟ajax,直接抓包,爬虫post相同的headers和body。
LetFoxRun
2014-04-09 09:30:56 +08:00
@txlty 你好,弱弱的问,你打开网址里面貌似有些json串内容,为什么我打开登录网址确实空白的?

我猜你是假装AJAX访问吧,那你图中用的是什么插件呢?

感谢已发送,谢谢。
anewg
2014-04-09 09:34:51 +08:00
Selenium
LetFoxRun
2014-04-09 09:42:28 +08:00
@sb 恩,谢谢,我也是这样做的,但是发现表单里只有id=XXXX passwd=XXXX ,没有你说的mode和CookieData。
sb
2014-04-09 10:55:25 +08:00
@LetFoxRun 我是直接打开http://bbs.byr.cn/index页面进行提交的 就有这两个参数了
binux
2014-04-09 11:00:41 +08:00
打开开发者工具,切换到 Network
LetFoxRun
2014-04-09 11:17:04 +08:00
@binux 这个我是知道的,谢谢回复,但是我想问大神师兄一个问题,我知道有selenium、phantomjs等工具模拟浏览器引擎来执行JS,但是如果我不想使用上面那几款工具,但页面包含少部分JS生成的代码,有什么解决办法吗?

谢谢,感谢已发送。
binux
2014-04-09 11:27:41 +08:00
@LetFoxRun 你关心的是数据而不是页面对吗?即使页面是 JS 生成的,它也依赖某个数据来源,直接获得它。
txlty
2014-04-09 23:45:23 +08:00
@LetFoxRun 任何可以伪造http请求头的插件都可以。我用的这个扩展就叫“修改HTTP请求头”。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/107743

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX