ysn2233
V2EX  ›  Hadoop

有什么好的办法可以用 Flink/Spark 高效率并行处理大量大小不一的压缩数据

  •  
  •   ysn2233 · Mar 11, 2020 · 4180 views
    This topic created in 2277 days ago, the information mentioned may be changed or developed.

    数据格式都是 gzip 压缩,都没法切分,只能一个线程读一个文件,很多时候小文件早就处理完了,但大文件会非常慢。有没有什么好的办法可以让 gzip 变得 splittable

    2 replies    2020-03-12 09:33:25 +08:00
    alya
        1
    alya  
       Mar 11, 2020
    换 snappy
    kex0916
        2
    kex0916  
       Mar 12, 2020
    可以先将大文件解压缩后放到 hdfs 上后再做计算,或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2794 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 11:41 · PVG 19:41 · LAX 04:41 · JFK 07:41
    ♥ Do have faith in what you're doing.