搞定 robots,你有什么好的建议吗?

2014-07-28 19:14:34 +08:00
 thinkmore
最近在做一个关于爬虫的小东西,但是需要解析robots.txt(网站根目录下,例如:www.v2ex.com/robots.txt或者是www.baidu.com/robots.txt),该协议定义了网站哪些目录下的文件可以被爬取,哪些不能爬取,当然我还是有自知之明的,知道全部解析是不可能的,只是想要解析
User-agent:*
Disallow:*
那一段。
拿v2ex举例吧!
User-agent: *

Disallow: /backstage/
Disallow: /signin
Disallow: /signout
Disallow: /settings

该网站表示上面四个目录下的任何东西不允许被爬取

baidu比较叼,对于不出名的爬虫,任何目录都不准爬取
User-agent: *
Disallow: /

但是这个要解析文本,大家有什么好的建议,或者是解析工具嘛?能够解析的代码也行
自己手写也行,也不是很麻烦,只是网上搜了,感觉这方面的不是很多

最后感谢各位v2er们!
3098 次点击
所在节点    程序员
7 条回复
14
2014-07-28 19:25:14 +08:00
Python 标准库就有解析器。。。
https://docs.python.org/2/library/robotparser.html
imn1
2014-07-28 19:26:13 +08:00
首先说什么语言,python就有robotparser可以用
thinkmore
2014-07-28 23:11:55 +08:00
@14
@imn1
我想要知道的是Java有吗?
14
2014-07-28 23:19:41 +08:00
thinkmore
2014-07-29 09:28:55 +08:00
@14 如果你是建议我在谷歌搜索的话,真心的这个地址速度太慢了
http://203.211.0.7/这个挺快的
我去google试一试,thanks
thinkmore
2014-07-29 11:06:14 +08:00
@14
@imn1
Crawler-Commons怎么使用?可以给出一个小例子或者文档嘛?
thinkmore
2014-07-29 14:56:12 +08:00
已经搞定了,stackoverflow果然强大

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/124922

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX