知乎、新浪微博、各种号、各大厂的人：请至少允许互联网档案馆（Internet Archive）抓你们的数据

今天发一个特殊一点的工单。

最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》，指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因，很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面；而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容，百度不能抓取，等同于说腾讯垄断了这些内容，百度无奈之下只能另起炉灶，搞了“百家号”。

这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统，让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为，保证了腾讯自己的利益，却侵害了整个互联网的内容循环。

十年前，互联网上涌现的新内容，无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛，所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住，实在让人无奈。

最近发现，知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料，涵盖了大多数常用的搜索引擎的爬虫，但是一些新兴搜索引擎（比如 Duckduckgo ）的爬虫则没有包含在内。

但除了新兴搜索引擎之外，还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆（ Internet Archive，https://archive.org ）的爬虫。

可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”，字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。

除了带人们回到 20 年前之外，互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站，并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭，或是 URL 因为网页改版失效，而这时互联网档案馆成了能找到这些网页的唯一方法。

对于国内网站，互联网档案馆还担负了另一个重要作用：保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机，没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说，读到这里大家都明白。

其他也有一些存档网站（比如 archive.is ），他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆，且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年，“翻车”的可能性几乎为零；而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构，每年收支基本稳定，可见的将来是倒不下的。

除了网站存档之外，互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。

希望各大网站有权限的工作人员，在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot。谢谢各位。

FInt1620

2019-01-27 18:06:43 +08:00

“微信公众号只允许跟腾讯旗下的搜狗抓取其中内容，百度不能抓取，等同于说腾讯垄断了这些内容，百度无奈之下只能另起炉灶，搞了‘百家号’。”
即使限制所有搜索引擎抓取，文章尚且能在未经授权的情况下被他人自由转载，更不用说文章内容随意被搜索引擎自由抓取和收录了。
如果腾讯不限制其他搜索引擎抓取公众号发表的内容，完全允许搜索引擎收录任何创作的内容，一旦有人编写出自动抓取搜索引擎收录内容的工具并将这些文章转载于其他内容创造平台，这将给内容创作者和创作平台带来不可预计的损失。不仅著作权更容易遭受侵害，网站的访问流量也将直线下滑。对于国内的搜索引擎所属企业，权益受损方尚可以起诉并要求停止侵权并索赔；但如果是国外的搜索引擎，维护自身权益就不那么容易了。
更重要的一点是，限制搜索引擎的无限制抓取，在一定意义上可以维护和提升社区的创作及互动氛围。如果任何内容都能被搜索引擎抓取并收录，访问者就不会再轻易通过内容创作平台提供的特定媒介访问这些同样有意义的不可见内容。典型例子如酷安，假如访问者在网页端就能通过某个应用页的评论轻易获取有关此应用有价值的评论信息（如评论者给出的去广告、破解版等版本评论内容），那么受损的将是酷安（网页被收录方）的根本利益。
另外，你强调
“对于国内网站，互联网档案馆还担负了另一个重要作用：保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机，没有规律可言”
一篇发布的文章被删除，它既可能是创作者本人所为，也可能是创作平台所为。但是，请你牢记：诋毁污蔑、造谣诽谤、挑唆离间、混淆是非、辱骂攻击、恶意侵害他人正当利益的行为都是绝不可被接受的。这一定律适用于任何人。如果你是一个内容创作者或在一个内容收录平台工作，你必须对你所有的创作文章或收录文章负责，并在必要时为之承担相应的一切法律责任。
@Livid 请考虑将这一主题移动至“ Chamber ”节点。