搞一个分布式的爬取平台如何呢

2018-06-14 16:42:35 +08:00
 cy97cool
背景:现在能访问到的东西可能即将凉凉 https://www.v2ex.com/t/463124

自然想用去中心化来进行技术对抗咯,人无远虑必有近忧嘛

实现一个去中心化的网络,规则编写者提供爬取规则(如 youtube-dl ),矿工负责爬取内容以及存储内容获得 token (吃灰的 vps 可以用来挖矿了 hhh ),读取内容或者请求爬取新内容需要支付 token

也不一定局限在视频、游戏,比如做成去中心化的 web archiver,在 404 之前爬取全网更新

问问这个领域现在有没有人已经做过了,退而求其次呢——搞个中心化的网站,网站提供客户端(实现安全性),用户自愿提供计算资源跑这个客户端挂机挣钱,需求者编写代码并支付费用——有没有现成的平台开源代码啊
2945 次点击
所在节点    奇思妙想
10 条回复
airyland
2018-06-14 17:26:02 +08:00
可能没有出来的产品。我实施了一点,要保证安全性,屏蔽恶意客户端,任务通过服务端来协调分发,客户端任务通过定期轮循来获取,有抓取需求的可以向服务端直接发布 n 个任务,进入服务端队列后,通过 webhook 来接收相应 url 数据,数据的抓取速度就取决于有多少客户端了,另外对于不同站要有不同策略。另外基本原则是:只抓取公开数据。
rainsun
2018-06-14 17:49:43 +08:00
怎么验证爬回来的东西是正确的呢
cy97cool
2018-06-14 17:59:55 +08:00
@rainsun 参考高考阅卷? 初期都没权重的时候两个客户端执行相同的爬取,有冲突则引入第三个
后期积累起信用后 高权重用户的结果直接采信,以人工检查、举报机制辅助
ctsed
2018-06-14 18:00:49 +08:00
让你的去中心化爬虫去爬去中心化网络的快照
Foolt
2018-06-14 18:04:52 +08:00
我打开帖子看,这帖子没有创新,歪歪斜斜的每段上都写着“去中心和”几个字。我横竖看不爽,仔细看了半晌,才从字缝里看出字来,满本都写着三个字是“ P2P ”!

去中心化存储,那就是 P2P,有人了种,下载的人越多可供上传的人就越多,可用的“服务器”就越多。
Foolt
2018-06-14 18:06:57 +08:00
#5 更正,把“去中心化”打成了“去中心和”。不过不影响表述,楼主你说的就是 P2P,已经非常成熟的技术,国人电脑下片都在用,现在肯定也有 STEAM 的种子,不过可能不够全,你想要全就自己做种好了。
cy97cool
2018-06-14 18:29:30 +08:00
@Foolt 问题不在 p2p 而在于安全保障、任务调度、可持续性
安全保障:执行别人的代码怎么保证人家的代码没有恶意 BOINC 可以通过研究机构声誉来实现
任务调度:如果没有中心化的 tracker 如何做调度
可持续性:现在的 Anti404 要求至少要有一个人及时保存了页面并愿意分享出来,如果能实现一个完整的平台来自动化地做这个事情,并发币甚至上交易所来保证整个社区的活跃性

就算有 steam 的种子也需要有发布组来发布,发布了种子还要有人愿意来保种,如果能把发布过程也自动化(自动爬取发布),并且用奖励机制保证冷门种子的可访问性。。。
Foolt
2018-06-14 19:05:43 +08:00
@cy97cool

你说的就是 P2P 其中一种实现 —— Private Tracker,根据用户贡献奖励积分,贡献可以是上行和做种。对 PT 来说,自动做种也不是什么新鲜事,很多大学都有这种东西。
cy97cool
2018-06-14 19:51:01 +08:00
@Foolt https://www.v2ex.com/t/405767
我真的在说 pt 嘛 也许吧
wingyiu
2018-06-15 10:42:45 +08:00
不上区块链吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/463137

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX