知乎、新浪微博、各种号、各大厂的人:请至少允许互联网档案馆(Internet Archive)抓你们的数据

2019-01-27 16:16:02 +08:00
 ChineseTeacher

今天发一个特殊一点的工单。

最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》,指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因,很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面;而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容,百度不能抓取,等同于说腾讯垄断了这些内容,百度无奈之下只能另起炉灶,搞了“百家号”。

这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统,让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为,保证了腾讯自己的利益,却侵害了整个互联网的内容循环。

十年前,互联网上涌现的新内容,无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛,所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住,实在让人无奈。

最近发现,知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料,涵盖了大多数常用的搜索引擎的爬虫,但是一些新兴搜索引擎(比如 Duckduckgo )的爬虫则没有包含在内。

但除了新兴搜索引擎之外,还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆( Internet Archive,https://archive.org )的爬虫。

可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”,字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。

除了带人们回到 20 年前之外,互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站,并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭,或是 URL 因为网页改版失效,而这时互联网档案馆成了能找到这些网页的唯一方法。

对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说,读到这里大家都明白。

其他也有一些存档网站(比如 archive.is ),他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆,且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年,“翻车”的可能性几乎为零;而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构,每年收支基本稳定,可见的将来是倒不下的。

除了网站存档之外,互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。

希望各大网站有权限的工作人员,在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot。谢谢各位。

19517 次点击
所在节点    全球工单系统
88 条回复
loli
2019-01-27 16:32:35 +08:00
对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说,读到这里大家都明白。
????????????????
你其实是。。。
BigbyWolf
2019-01-27 16:36:59 +08:00
楼主过于坦诚,/水深火热见(/ω\)
agagega
2019-01-27 16:50:31 +08:00
我以前看到过一个叫「自由微博」的东西,原理是不是跟它差不多?
rockss
2019-01-27 16:59:15 +08:00
这事不是工作人员能做的吧
rayhy
2019-01-27 17:03:01 +08:00
archive.org 可以帮忙保存易被和谐的内容”,就这一点,国内公司反而会主动屏蔽 archive.org
suhongbo
2019-01-27 17:03:57 +08:00
主管都不一定能做主
hwcj123
2019-01-27 17:08:51 +08:00
这就是传中说的队友吗
crab
2019-01-27 17:09:40 +08:00
知乎 谷歌快照都不能正常看。
asdqaz
2019-01-27 17:11:17 +08:00
搜狗什么时候变成腾讯旗下了?
我穿越了?
asdqaz
2019-01-27 17:12:48 +08:00
真按你说的
现场被墙
baiduer123
2019-01-27 17:14:25 +08:00
@asdqaz 早就被收购了
Daming
2019-01-27 17:16:14 +08:00
archive.org 不是已经被墙了吗?
May725
2019-01-27 17:19:10 +08:00
第一次了解到还有这类爬虫,十分有意义。
luckytanka
2019-01-27 17:19:53 +08:00
涉政......
yihaomizhijia
2019-01-27 17:27:23 +08:00
看了一下,已经被屏蔽
junjieyuanxiling
2019-01-27 17:28:44 +08:00
duck duck go 不是用的谷歌吗?怎么还需要爬虫
just1
2019-01-27 17:29:05 +08:00
有时候会喜欢看快照,但其实就算是我自己的个人网站,我也并不愿意被存档
WDD
2019-01-27 17:33:46 +08:00
我也没设置什么,但是 archive 一直不保存我网站上的内容
azh7138m
2019-01-27 17:35:32 +08:00
zz 原因导致的删稿子,还想存下来,小伙子怕不是要月底加急了
Hsinyao
2019-01-27 17:37:03 +08:00
前两天还倒回去看 apple.com.cn 以前的网页来着,很有感觉

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/531025

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX