斗胆问个问题,不要引战,在做技术选型 ClickHouse 和 StarRocks

2022-04-12 19:20:13 +08:00
 dtgxx
网上看了好多文章,StarRocks 在各种维度 更新啊、扩容啊、不依赖大宽表啊。。。优势远远高于 clickhouse 。

我的场景是海量数据聚合分析,明细数据根据索引查询。

想问问用过的大佬,选哪个比较好。
6377 次点击
所在节点    程序员
24 条回复
jones2000
2022-04-12 19:49:45 +08:00
不考虑 TiDB 吗?
bootvue
2022-04-12 19:52:08 +08:00
海量数据的话 感觉 flink spark 这些来干更好
xinyewdz
2022-04-12 20:17:45 +08:00
如果运维能力比较强,无脑选择 clickhouse 。starrocks ,性能不行。
dtgxx
2022-04-12 21:48:37 +08:00
@jones2000 TiDB 之前了解了一下,了解不深,感觉性能是介于 MySQL 和 Clickhouse 之间,我大约有几百亿的数据,不知道性能是不是可以达到。

@bootvue 嗯呢,数据处理在 spark ,最终需要聚合查询的数据比较大,想通过这种 MPP 库来实现。
@xinyewdz 我之前做性能对比,当时是叫 doris ,也发现 doris 比 clickhouse 慢,但是我看网上的好多文章,都在说 StarRocks 快,所以我就蒙了,而且感觉各方面都比 clickhouse 好,实际上我感觉 clickhouse 比较好,但是有没证据- -
zhenjiachen
2022-04-12 22:36:21 +08:00
我也想知道是 clickhouse 好还是 doris 好
haah
2022-04-12 22:40:10 +08:00
有钱就用商业 oracle ,其他的水分太大!
jenlors
2022-04-12 22:46:47 +08:00
看 StarRocks 和 ClickHouse 官方对比完虐 ClickHouse ,但我感觉还是得自己导一些数据进去测试一下
zmal
2022-04-12 22:53:09 +08:00
选成熟的经过验证的方案
ericls
2022-04-12 22:55:22 +08:00
Benchmark 一下吧
littlewing
2022-04-12 23:09:04 +08:00
@dtgxx

"我之前做性能对比,当时是叫 doris ,也发现 doris 比 clickhouse 慢"

纠正一下,Apache Doris 从未改名叫 StarRocks ,StarRocks 只是 fork 了 Apache Doris 代码的创业项目
gtx990
2022-04-12 23:17:57 +08:00
不要信官网的测试,都是 cherry picked
我相信 clickhouse 应该更好一些
如果不想运维的话,建议 snowflake ,redshift 或者 bigquery
liprais
2022-04-12 23:19:36 +08:00
这俩功能都不一样
怎么比
noparking188
2022-04-12 23:29:06 +08:00
回答可能不完全切题,看描述像是 HTAP 场景,TiDB 应该是比较合适的,Clickhouse 没了解过,不过 TiDB 的 AP 部分执行器用的是 Clickhouse 的
TiDB 生态周边是比较全的,运维友好一些
“明细数据根据索引查询” 走 TiKV (行存),“明细数据根据索引查询” 走 TiFlash (列存)
TiDB 对机器配置要求比较高,因为尽可能地走下推计算
可以尝试到 AWS 上用 TiDB Cloud 测一波性能
noparking188
2022-04-12 23:31:19 +08:00
@noparking188 #13 -> “海量数据聚合分析” 走 TiFlash (列存)
dayeye2006199
2022-04-13 01:14:11 +08:00
性能是一方面。还要考虑生态成熟度和运维难度。

性能再好一出问题两手一滩搞不定,温度有付费的支持服务,属于神仙难救
xupefei
2022-04-13 06:03:34 +08:00
当然是上 databricks ,巨量数据 tpcds 性能世界第一😂
haah
2022-04-13 08:27:50 +08:00
你先把硬件考虑清楚,再选择软件工具!
不然这问题的意义何在呢?
mortalbibo
2022-04-13 08:49:13 +08:00
看能否接受商业付费, 目前 Clickhouse 和 Doris 是纯开源,StarRocks 是基于 Doris 拉出来的一个分支,号称开源,但背后有商业运营公司, Clickhouse 运维成本更高一些,但目前对复杂结构和分析函数支持都优于 Doris(比如 Doris 还不支持 map),而对多表 Join 处于劣势, 看你数据的结构, 如果大部分都是基于单表查询或者单表 join 小维表,选 clickhouse. Doris 是百度开源的,百度系公司用的多, clickhouse 是 yandex 开源的,目前腾讯阿里都有在用,字节属于极其重度用户,节点超过一万五千个, StarRocks 去年刚宣布开源,具体用户不太清楚
sss495088732
2022-04-13 09:31:10 +08:00
TIDB+ES...
gotonull
2022-04-13 11:04:25 +08:00
我们项目用的 starrocks 。当时也对比了 ck ,主要是看重了 starrocks 的 join 性能和运维简单选的。没选 doris 选 starrocks 是因为当时的 doris 还不支持向量化,性能和 starrocks 差距有点大。starrocks 用起来就感觉稳定性还是差点,偶尔会挂掉。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/846587

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX