一个统计学问题

2020-05-26 15:18:04 +08:00
 dapengzhao

经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]

这些数表示某件事情发生的次数,实际上这个数组长度是百万级别的。由于像 1,2,3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了,还是把 100 以下的数不要。

1233 次点击
所在节点    问与答
9 条回复
wysnylc
2020-05-26 15:33:20 +08:00
你的业务我们怎么知道?
dolphintwo
2020-05-26 15:36:11 +08:00
我帮你决定吧,把一万一下的不要了,比较清爽
andy12530
2020-05-26 15:36:33 +08:00
25 分位数,75 分位
across
2020-05-26 15:40:49 +08:00
条件是不是少了···
比如你数字都在 10000 以内,直接建个数组统计一遍就得了
black11black
2020-05-26 19:04:47 +08:00
百万级远没到计算机性能瓶颈,问了白问,我感觉你这个问题改成百亿级还有点讨论的价值。。
JackieMe
2020-05-26 21:31:50 +08:00
找个分布拟合一下,泊松分布二项分布什么的,然后切掉最小的 5%?
dbw9580
2020-05-26 21:58:52 +08:00
时间序列?和滑动平均数比较
Jooooooooo
2020-05-26 22:01:54 +08:00
其实是找异常点, 建议你用四分法和 LOF 一起搞一下, 基本上就差不多了
CopenhagenCat
2020-05-27 10:32:47 +08:00
四分位距 IQR,可以尝试一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/675627

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX