这是一个创建于 1460 天前的主题,其中的信息可能已经有所发展或是发生改变。
背景大概是这样的,有实时日志会定时打到 AWS 的 S3 存储上,现在想自启服务端将 S3 上存储的日志拉下来。
但是 S3 本身不支持查询过滤,如何去获取最新未被处理的日志文件呢?
自己想了两种方案:
1. 本地做记录:每次都 list 一下所有文件(考虑初始化时全部 list,后续定量 list ),对于处理过的日志计算一个主键放到本地的数据库里,然后对比找出没有处理过的日志再处理
2. 修改云存储:每次获取云存储上所有文件,处理完成后回调将处理过的文件移动到其他文件夹下,这样维护读取的目录一直是未处理的文件
有没有大佬有什么其他的好办法?