最近在做一个关于爬虫的小东西,但是需要解析robots.txt(网站根目录下,例如:
www.v2ex.com/robots.txt或者是www.baidu.com/robots.txt),该协议定义了网站哪些目录下的文件可以被爬取,哪些不能爬取,当然我还是有自知之明的,知道全部解析是不可能的,只是想要解析User-agent:*
Disallow:*
那一段。
拿v2ex举例吧!
User-agent: *
Disallow: /backstage/
Disallow: /signin
Disallow: /signout
Disallow: /settings
该网站表示上面四个目录下的任何东西不允许被爬取
baidu比较叼,对于不出名的爬虫,任何目录都不准爬取
User-agent: *
Disallow: /
但是这个要解析文本,大家有什么好的建议,或者是解析工具嘛?能够解析的代码也行
自己手写也行,也不是很麻烦,只是网上搜了,感觉这方面的不是很多
最后感谢各位v2er们!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/124922
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.