搞定 robots，你有什么好的建议吗？

最近在做一个关于爬虫的小东西，但是需要解析robots.txt(网站根目录下,例如:www.v2ex.com/robots.txt或者是www.baidu.com/robots.txt),该协议定义了网站哪些目录下的文件可以被爬取，哪些不能爬取，当然我还是有自知之明的，知道全部解析是不可能的，只是想要解析
User-agent:*
Disallow:*
那一段。
拿v2ex举例吧！
User-agent: *

Disallow: /backstage/
Disallow: /signin
Disallow: /signout
Disallow: /settings

该网站表示上面四个目录下的任何东西不允许被爬取

baidu比较叼，对于不出名的爬虫，任何目录都不准爬取
User-agent: *
Disallow: /

但是这个要解析文本，大家有什么好的建议，或者是解析工具嘛？能够解析的代码也行
自己手写也行，也不是很麻烦，只是网上搜了，感觉这方面的不是很多

最后感谢各位v2er们！

thinkmore

2014-07-29 09:28:55 +08:00

@14 如果你是建议我在谷歌搜索的话，真心的这个地址速度太慢了
http://203.211.0.7/这个挺快的
我去google试一试，thanks

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.