douban 的 www 域名 request 抓不到吗?

2014-04-29 14:26:20 +08:00
 firhome
在cnodejs 上发过,没人回复,再到这里问下.


看了很多例子都是拿douban做爬虫的例子..

然后我也试试.

发现
request('http://movie.douban.com/') 有用

request('http://www.douban.com/') 没用

是什么原因呢?
2938 次点击
所在节点    Node.js
8 条回复
khowarizmi
2014-04-29 14:34:33 +08:00
var request = require('request');
request.get({
url: 'http://www.douban.com',
headers: {
'User-Agent': 'request'
}
}, function(err, res, body){
console.log(body)
})
rails3
2014-04-29 16:31:11 +08:00
require 'net/http'
Net::HTTP.get('www.douban.com','/')

毫无鸭梨
firhome
2014-04-29 17:06:37 +08:00
@rails3 能说说为什么吗.
firhome
2014-04-29 17:07:05 +08:00
@khowarizmi 能告诉我为什么吗? www 的不行
dorentus
2014-04-29 17:12:01 +08:00
@rails3 你这明明是 ruby 的代码……


@firhome 什么叫「www 的不行」,有什么错误信息么?
khowarizmi
2014-04-29 17:23:13 +08:00
@firhome 豆瓣认为你是爬虫,直接爬就403了呗 。加上user-agent,装成浏览器。。
firhome
2014-04-29 17:56:22 +08:00
@khowarizmi 感谢, 那么我以后怎么判断/分析 是这个原因呢?
YouXia
2014-04-29 18:04:29 +08:00
@firhome 可以参考下HTTP协议的状态码。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/110480

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX