V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ris
V2EX  ›  程序员

轻松合理的获取数据 | 基于标记语言的开源爬虫框架(Trico cloud 云原生)

  •  
  •   ris · 362 天前 · 776 次点击
    这是一个创建于 362 天前的主题,其中的信息可能已经有所发展或是发生改变。

    写在前面

    名词解释

    • Trico 框架名。
    • Trico script 官方脚本代码。
    • Salyut 脚本虚拟机 负责语法解析,表达式解析。
    • Trico cloud Trico 生态,将脚本调度和虚拟机在云端部署。

    Trico 的诞生

    Trico起初是为了满足公司大量的数据提取需求(当然是公开可获取的:)),最早我们是使用 Java+Jsoup+selenium 来完成的。但是随着维护的网站数量越来越多,网站的改版等等异常将会产生大量的工作量,于是我们就想能不能有个轻量级的脚本,既可以热更新(快速的解决 Bug )又可以提供一些带有复合功能的元语 来提高开发效率。于是 Trico 就诞生了。

    如何使用 Trico

    Trico 是一个基于标记语言的脚本语言,词法相对都比较简单,学习曲线相对降低,一般的程序员 1 ~ 2 天即可以完全上手。当然我们也希望对于不是程序员背景也能使用 Trico,把他当作一个数据的提供者或者了解编程概念的语言。

    看到这里想必你对 Trico 或多或少有一些兴趣,我们也开源了 Salyut 引擎,方便的话请给我们个 Star,给我们个鼓励。🌟

    https://github.com/taofen8/salyut

    Trico 目前状态

    目前 Trico 服务于公司内部,中型互联网公司,国内外创业公司和独立开发者。Trico 的脚本市场正在在建设中。

    Trico cloud

    我们希望有更多的开发者加入到 Trico 生态中,贡献更多的脚本,让有获取数据需求的开发者能够快速经过原型阶段,把精力放在体验优化上。另外所有提交到 Trico cloud 的脚本都会通过系统或是人工审核,来保证公开的脚本都是允许获取的公开数据,并且 Trico cloud 会根据目标网站的体量来控制爬取速率,不影响网站本身的运行,净化数据爬取环境。

    特性

    • 云端部署,无需负担任何机器成本,快速的推进业务。
    • 国内外主节点全覆盖,动态调度。
    • 开放脚本社区,构建数据生态。
    • 遵循 Robts 协议和用户隐私,安全绿色的获取公开信息。
    目前尚无回复
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2909 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 11:59 · PVG 19:59 · LAX 04:59 · JFK 07:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.