V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
yanyuan2046
V2EX  ›  程序员

有没有人交流一下 BT 搜索引擎

  •  
  •   yanyuan2046 ·
    btfak · Jul 4, 2016 · 5514 views
    This topic created in 3593 days ago, the information mentioned may be changed or developed.

    现在爬虫写完了, golang 写的,参考了若干开源代码,最后效果是每天约 350G 出口流量,每秒 12k 左右 UDP 请求,每天能记录千万级的唯一 infohash 值。然后问题来了,通过 infohash 获取文件 metadata 效率太低,从各个种子库查询,只能找到大概 3%,也就是每天只能索引几十万资源。有没有人有更好的办法,特别是实现了 bep0009 的同志能不能分享一下经验?

    11 replies    2016-07-05 12:02:24 +08:00
    kslr
        2
    kslr  
       Jul 4, 2016 via Android
    首先,每天保持足够的更新就好了,否则只是烂数据
    yanyuan2046
        3
    yanyuan2046  
    OP
       Jul 4, 2016
    @lzhr 这个实现也是从种子库查的
    geeglo
        4
    geeglo  
       Jul 4, 2016 via iPhone
    要种子干嘛? 磁力和 资源名你已经可以获得了。
    yanyuan2046
        5
    yanyuan2046  
    OP
       Jul 4, 2016
    @geeglo DHT 网络只能获取到磁力,只有一个字符串。得找到文件名,大小这些信息,这些东西种子里有
    yanyuan2046
        6
    yanyuan2046  
    OP
       Jul 4, 2016
    @kslr 更新不是问题,量大量小而已
    kaner
        7
    kaner  
       Jul 4, 2016
    @yanyuan2046 不是的。我记得能获取到名字的,因为以前也玩过,我去找找看,还有没有代码。

    我明确记得名字可以,大小,和文件列表应该没有。
    GPU
        8
    GPU  
       Jul 5, 2016
    @kaner 可以获取是应为有些磁力 链接 在后面 & 加上了文件名字的 。


    @geeglo 如果只有 磁力和资源名 ,同类产品太多 没有什么特点 。 当然了带有文件名与大小信息的网站也不小了。
    yanyuan2046
        9
    yanyuan2046  
    OP
       Jul 5, 2016
    @GPU 这东西量不是最大的问题,主要看搜索精度,排在前面的得下载速度最快才行
    fising
        10
    fising  
       Jul 5, 2016
    已经有人做磁力搜索被抓了
    yanyuan2046
        11
    yanyuan2046  
    OP
       Jul 5, 2016
    @fising 有新闻出来没有?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4971 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 09:56 · PVG 17:56 · LAX 02:56 · JFK 05:56
    ♥ Do have faith in what you're doing.