知乎、新浪微博、各种号、各大厂的人:请至少允许互联网档案馆(Internet Archive)抓你们的数据

2019-01-27 16:16:02 +08:00
 ChineseTeacher

今天发一个特殊一点的工单。

最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》,指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因,很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面;而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容,百度不能抓取,等同于说腾讯垄断了这些内容,百度无奈之下只能另起炉灶,搞了“百家号”。

这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统,让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为,保证了腾讯自己的利益,却侵害了整个互联网的内容循环。

十年前,互联网上涌现的新内容,无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛,所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住,实在让人无奈。

最近发现,知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料,涵盖了大多数常用的搜索引擎的爬虫,但是一些新兴搜索引擎(比如 Duckduckgo )的爬虫则没有包含在内。

但除了新兴搜索引擎之外,还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆( Internet Archive,https://archive.org )的爬虫。

可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”,字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。

除了带人们回到 20 年前之外,互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站,并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭,或是 URL 因为网页改版失效,而这时互联网档案馆成了能找到这些网页的唯一方法。

对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说,读到这里大家都明白。

其他也有一些存档网站(比如 archive.is ),他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆,且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年,“翻车”的可能性几乎为零;而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构,每年收支基本稳定,可见的将来是倒不下的。

除了网站存档之外,互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。

希望各大网站有权限的工作人员,在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot。谢谢各位。

19654 次点击
所在节点    全球工单系统
88 条回复
wjm2038
2019-01-27 20:32:01 +08:00
@hxt 主要问题是网页快照时效性不高
asdqaz
2019-01-27 21:30:52 +08:00
@chen006
@baiduer123
感谢打脸
腾讯只占 45%
不算旗下吧
sosilver
2019-01-27 21:58:28 +08:00
"因为中文互联网上的资源很多集中在了微信公众号里面",source ?
JoostShao
2019-01-27 22:43:05 +08:00
不好意思,我带个节奏!
每天用着百毒,还想着给他们立贞洁牌坊。

是真的年轻!
dongxiaozhuo
2019-01-28 01:05:46 +08:00
其实从 iPhone 的 App Store 模式开始,就已经确定了内容不共享的模式,每个 App 之间是相互独立的,顶部的流量分发就是应用商店。用户进入 App 之后就不再有机会跳转到其他地方,这当然是内容方最想要的结果了,后来有了 App 间跳转,这也不代表厂商就愿意把流量给其他 App,再后来索性某些服务干脆不提供 Web 了,这才是搜索引擎残废的原因。

现在做互联网服务的,愿意把 App 做的美如画,也不愿意做个像样的 Web 站点。
kernel
2019-01-28 07:06:34 +08:00
人家微信微博用尽各种手段防止你扒人家内容,被你档案馆一索引,人家都扒档案馆了,你让人家怎么愿意
Wicked
2019-01-28 07:15:51 +08:00
微博微信上的被重重审查过的低劣内容,不看也罢
sharkrice
2019-01-28 07:58:43 +08:00
@wtdd #40 我觉得还是苹果的 AppStore 起了决定性作用
hanbing135
2019-01-28 08:36:11 +08:00
有些人给腾迅洗地简直是
passerbytiny
2019-01-28 09:10:58 +08:00
我只想说,你说的哪些厂,屏蔽了最好,开放了还得想办法不去抓它。既然叫 archive/互联网档案馆,那么这些即时消费的东西,存个屁的档。
MonkeyCoder
2019-01-28 09:53:59 +08:00
理想很好,情怀也好,在利益面前是根本不可能的
Track13
2019-01-28 10:02:01 +08:00
你举例的这些我巴不得不在搜索结果里
Lostars
2019-01-28 10:08:29 +08:00
互联网之子死了
cyspy
2019-01-28 10:28:29 +08:00
没事,国安总能找到他们的历史资料的
hoyixi
2019-01-28 10:38:45 +08:00
知不知道还是装不知道?
删了贴,这些 Archive 能同步删除吗?
lyshine
2019-01-28 10:45:50 +08:00
如果百度不做那么多恶事, 我们或许会同情百度. 但是看到你的洗地, 我只能暗暗高兴, 终于百度要为自己的行为付出代价了
liyuhang
2019-01-28 11:11:49 +08:00
微信公众号真是让人又爱又恨
lihongjie0209
2019-01-28 11:15:41 +08:00
想多了, 这种不可控并且是国外的服务是不可能的
mayorbryant
2019-01-28 11:30:02 +08:00
国内:首先要可控,不然就是白扯
CRight
2019-01-28 11:45:43 +08:00
像自由微博这样,原作者都不能控制的保存下来,不会让原作者很烦恼吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/531025

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX