有一个 Archive 的想法(坑)

2018-07-19 17:26:54 +08:00
 scuxhy

今天下午又看了看 deepin 的 CTO 王勇离职的帖子,然后就去简书看了人家的心路历程,突然萌发了个想法:互联网企业总有兴衰,网络上的东西保质期都不长,经常可以看到论坛中 7,8 年的链接 404 了;前几天“荒野无灯”的 github 也被删了,所以觉得自己数据真的应该自己掌握。于是想把一些很不错的文章爬下来,存到自己的本地硬盘里,视频太大了占硬盘太多就算了。

目前想到了一点需要的技术:

  1. Python 的网络爬虫,针对不同网站爬不同文章。
  2. 数据库的支持,后期文章多了难免检索困难。
  3. 搞一个独立 ip,弄个小网站方便自己随时看之类的。
  4. 大概还需要一个检索能力比较好的开源搜索引擎?

还请 v 友评价一下这个想法,如果可行的话,还欠缺什么技术。现在本科大二,时间充足,啥都能学。

1120 次点击
所在节点    问与答
1 条回复
lostvincent
2018-07-19 21:39:54 +08:00
这网站不知道是不是你想要的 http://web.archive.org/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/472422

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX