知乎、新浪微博、各种号、各大厂的人:请至少允许互联网档案馆(Internet Archive)抓你们的数据

2019-01-27 16:16:02 +08:00
 ChineseTeacher

今天发一个特殊一点的工单。

最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》,指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因,很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面;而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容,百度不能抓取,等同于说腾讯垄断了这些内容,百度无奈之下只能另起炉灶,搞了“百家号”。

这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统,让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为,保证了腾讯自己的利益,却侵害了整个互联网的内容循环。

十年前,互联网上涌现的新内容,无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛,所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住,实在让人无奈。

最近发现,知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料,涵盖了大多数常用的搜索引擎的爬虫,但是一些新兴搜索引擎(比如 Duckduckgo )的爬虫则没有包含在内。

但除了新兴搜索引擎之外,还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆( Internet Archive,https://archive.org )的爬虫。

可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”,字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。

除了带人们回到 20 年前之外,互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站,并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭,或是 URL 因为网页改版失效,而这时互联网档案馆成了能找到这些网页的唯一方法。

对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说,读到这里大家都明白。

其他也有一些存档网站(比如 archive.is ),他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆,且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年,“翻车”的可能性几乎为零;而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构,每年收支基本稳定,可见的将来是倒不下的。

除了网站存档之外,互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。

希望各大网站有权限的工作人员,在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot。谢谢各位。

19568 次点击
所在节点    全球工单系统
88 条回复
tiaod
2019-01-27 17:58:04 +08:00
这不是这些公司能决定的。
gadflysu
2019-01-27 18:01:11 +08:00
无视 robots.txt 的 archive.is ( archive.fo ) 最近都无法存档他们的网页了,你开个工单就想让他们允许自动被存档?别幻想了。
gadflysu
2019-01-27 18:03:23 +08:00
另外,由于审查撤下的稿件,依赖 archive.org 自动抓取太慢了。这方面本来就讲究时效。
CruelMoon
2019-01-27 18:04:07 +08:00
感觉楼主猪队友...archive.org 确实很不错,偶最近几年每年都响应募捐邮件捐款来着
trait
2019-01-27 18:06:25 +08:00
反对,主动删除的东西再被检索出来很恶心,个人网站屏蔽了这些网站的机器人
FInt1620
2019-01-27 18:06:43 +08:00
“微信公众号只允许跟腾讯旗下的搜狗抓取其中内容,百度不能抓取,等同于说腾讯垄断了这些内容,百度无奈之下只能另起炉灶,搞了‘百家号’。”
即使限制所有搜索引擎抓取,文章尚且能在未经授权的情况下被他人自由转载,更不用说文章内容随意被搜索引擎自由抓取和收录了。
如果腾讯不限制其他搜索引擎抓取公众号发表的内容,完全允许搜索引擎收录任何创作的内容,一旦有人编写出自动抓取搜索引擎收录内容的工具并将这些文章转载于其他内容创造平台,这将给内容创作者和创作平台带来不可预计的损失。不仅著作权更容易遭受侵害,网站的访问流量也将直线下滑。对于国内的搜索引擎所属企业,权益受损方尚可以起诉并要求停止侵权并索赔;但如果是国外的搜索引擎,维护自身权益就不那么容易了。
更重要的一点是,限制搜索引擎的无限制抓取,在一定意义上可以维护和提升社区的创作及互动氛围。如果任何内容都能被搜索引擎抓取并收录,访问者就不会再轻易通过内容创作平台提供的特定媒介访问这些同样有意义的不可见内容。典型例子如酷安,假如访问者在网页端就能通过某个应用页的评论轻易获取有关此应用有价值的评论信息(如评论者给出的去广告、破解版等版本评论内容),那么受损的将是酷安(网页被收录方)的根本利益。
另外,你强调
“对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言”
一篇发布的文章被删除,它既可能是创作者本人所为,也可能是创作平台所为。但是,请你牢记:诋毁污蔑、造谣诽谤、挑唆离间、混淆是非、辱骂攻击、恶意侵害他人正当利益的行为都是绝不可被接受的。这一定律适用于任何人。如果你是一个内容创作者或在一个内容收录平台工作,你必须对你所有的创作文章或收录文章负责,并在必要时为之承担相应的一切法律责任。
@Livid 请考虑将这一主题移动至“ Chamber ”节点。
laoyur
2019-01-27 18:11:31 +08:00
楼上有做管理员的资质
Jex
2019-01-27 18:13:40 +08:00
有什么样的网民,就有什么样的互联网,百度最适合他们
yksoft1ex
2019-01-27 18:14:41 +08:00
archive.org 现在是很多老机模拟器用的资源的避风港。被墙多年了。
jacketma
2019-01-27 18:14:57 +08:00
APP 化之后,时光机也没什么大用了,Facebook twitter snapchat 包括大量音视频信息都没有办法 wayback。
agagega
2019-01-27 18:31:52 +08:00
破坏开放互联网的行为,商业上可以理解,但是强行从用户利益角度去洗,真是思路清奇。

另外,互联网档案馆又不是没被告过。用法律手段就行。因噎废食的道理,到这就不适用了?
ryanlid
2019-01-27 18:32:40 +08:00
隐私权 VS 知情权
laqow
2019-01-27 18:46:45 +08:00
@FInt1620 需要维权的东西就不应该以网页的形式发表,很多发公众号的人也只是文章没地方发,要不是
dacapoday
2019-01-27 19:09:34 +08:00
互联网早就不是互联的了。
whypool
2019-01-27 19:10:24 +08:00
相反,即使小网站也不会允许这玩意抓取

一旦涉及到非法信息,敏感信息,或者版权,这都是历史副本证据
shyangs
2019-01-27 19:12:40 +08:00
网际网络早就不是互联的了

未来会建造墙中墙
H0TSp1RnG
2019-01-27 19:16:01 +08:00
不知道你哪里来的自信 小站没什么办法就算了 大站你还想为所欲为
chen006
2019-01-27 19:17:23 +08:00
@asdqaz 腾讯有搜狗股份的,只有搜狗能搜微信内容。
wtdd
2019-01-27 19:19:31 +08:00
说实话,这股风气是 facebook 为了和 google 竞争带起的吧,然后 alibaba 和 tencent 发扬光大,已经积重难返了
hxt
2019-01-27 19:54:24 +08:00
找被删网页内容还是用 his.sh 靠谱点,各大主流搜索引擎的爬虫肯定比 archive 爬虫触及更深。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/531025

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX