当需要数据聚合查询的时候,你们是选择用数据库的聚合,还是数据库查出来使用 pandas 聚合?

2024-05-18 18:06:47 +08:00
 wxiao333
最近在写一个基于 MongoDB 的项目(第一次用,之前主要用 Mysql ),涉及到聚合查询的时候,搜了一下发现聚合查询需要用 pipeline, 因为项目的数据有点复杂,写聚合 pipeline 特别别扭,也容易出错,然后突然想起来我用的既然是 python ,岂不是可以先从数据库把数据查出来,再用 pandas 做聚合?试了一下,各种复杂聚合果然很快就实现了,有一种思维打开的感觉。
效率方面没有实际验证过,但感觉上数据库原生聚合 效率会比 查出来再 pandas 要高一点的,不过太复杂的聚合可能数据库不一定能完全实现,这时候用 pandas 就方便多了。
你会怎么选呢?
1419 次点击
所在节点    Python
2 条回复
ruanimal
2024-05-18 18:47:58 +08:00
看数据量啊
LeeReamond
2024-05-18 18:57:33 +08:00
数据库屎在完整性和一致性约束,实现本身还是高效的。pandas 的屎就是纯屎了,慢而已。你对性能有需求自然不会选择这种方案,你在考虑这种方案说明你对性能没需求,那用啥不行?如果不能决定我建议抽个签

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1041871

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX