突然发现一个自动的邮件系统数据有偏差。邮件系统是通过 Python 写的调用 Elasticsearch 的 Python Library 然后通过 JSON 的 Query 文件读取数据。跑在 AWS 的 Lambda 上面。
最近发现这个跑出来的数据总会比 Kibana 上面的数据少。对比了 Query 文件和 Kibana 上的 Request ,基本上是一样的,但是就是数据不对,总会少一些。
前期怀疑是时间区间问题,但是后来发现应该没有关系,现在怀疑是跑得数据集( indices )数量不够,是不是 Python 的那边有一个什么地方设置跑全部还是跑部分的??
PS :数据会从几个不同的 indices 中提取然后最后综合起来。