使用 p2p 网络获取 sci-hub 上的论文

2021-07-12 07:27:38 +08:00
 Trim21

reddit发起了一个项目,备份了目前 sci-hub 所有的论文。

所以现在所有的 sci-hub 论文在 p2p 网络中都有一份了,理论上可以通过一个 bt 客户端去获取。 但是因为打包的时候是把 1000 篇论文打包在同一个种子文件中,所以还需要一些额外的步骤。

我正在尝试写一个客户端,可以直接通过 doi,在 p2p 网络中获取到对应的论文文件。

目前的进度是刚写完种子解析,下一步开始写一个 zip 文件的索引生成器,然后再实现一个剪切过的 bt 客户端,针对性的在 p2p 网络上获取数据块。

只要拥有索引和对应的种子文件,就能反查出一个 doi 对应 p2p 网络中的哪一个或者哪几个 bt 数据块,再从别的 peer 获取数据,最终解压出对应的论文文件。

https://github.com/Trim21/sci-hub-p2p

有想法,或者感兴趣想一起实现的可以邮件我,联系方式见 github

3549 次点击
所在节点    奇思妙想
16 条回复
Trim21
2021-07-12 07:50:18 +08:00
不过好像这个备份不是单纯的把文件直接 zip 在一起来着,虽然下了两个种子在做种但是没解压尝试。

希望不要最后发现每篇论文的数据是离散的…
xarthur
2021-07-12 08:22:25 +08:00
不用这么麻烦,sci-hub 有支持 ipfs 的计划,如果放到 ipfs 之后就可以直接浏览了,不需要全部下载。
Trim21
2021-07-12 08:33:51 +08:00
@xarthur 大概我能比 ipfs 先上线()
Trim21
2021-07-12 08:37:15 +08:00
@Trim21 正经一点说,ipfs 上线了之后估计这个备份的项目应该也不会停掉。
相比单纯占用硬盘空间,能多一个数据获取的方法应该也不算什么坏事
tousfun
2021-07-12 08:41:47 +08:00
先 star 了
12345tiger
2021-07-12 09:05:56 +08:00
想法很有意义,干了我想干没干的事,star 之
codehz
2021-07-12 09:19:16 +08:00
ipfs 不也是 p2p 的。。。
嘛,非要用 gateway 的话那确实是中心化的,但是也不是不可以嵌入一个 ipfs-lite
Trim21
2021-07-12 09:27:42 +08:00
@codehz 主要是 ipfs 现在不还没影吗,bt 虽然传统但是这个情况下已经足够用了。

要是我进展的快的话,等 ipfs 上线了还能额外再嵌入一个 ipfs (开始做梦)
xarthur
2021-07-12 14:37:37 +08:00
@Trim21 那倒也行(
Akkuman
2021-07-15 09:23:15 +08:00
NeedforV2
2021-07-16 17:23:39 +08:00
star 为敬!
threebr
2021-07-18 23:23:40 +08:00
想法实在太棒了
ppddtt
2021-07-19 10:03:55 +08:00
这不就是 emule 能干的事情吗
yujiang
2021-07-20 21:20:06 +08:00
这玩意我咋记得似乎在哪个地方看过?
lc1450
2021-07-23 14:06:04 +08:00
用这个原理是不是可以只下载视频的精彩部分?
ukuyu
2021-07-27 13:17:27 +08:00
先 star 为敬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/788918

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX