公司想搭建一个类似数据中心的东西，有什么实现思路和方式，还有工具推荐么

tomczhen

2020 年 11 月 10 日

性能指标，功能指标，预算指标啥没有，就用云架构吧。

tabris17

2020 年 11 月 10 日

碰到过好几次 es 掉数据了。不是很可靠的数据存储后端。

tabris17

2020 年 11 月 10 日

另外 es 基本上没什么业务处理能力。不如考虑下 pgsql 或 hive 吧

Renco

2020 年 11 月 10 日

@tomczhen 现在暂且是简单选型，和调研，具体指标方面都还没列

snappyone

2020 年 11 月 10 日

es 做搜索，存储用 hadoop 这种，计算用 spark 。一年经验确实难为你了

huifer

2020 年 11 月 10 日

基础技术选型: Spark/Hive/Flink 这类提供查询方式的. 并不一定是 ES , es 提供全文搜索, 更适合于文档. 非结构化数据.
确定技术选型后需要制作 ETL 即各类数据源数据收集处理, 转换成数据中心(数据仓库)的数据对象(数据结构)
数据转移完成后进行数据分类, 此时接入 ES 或者 MONGODB 我认为相对合适. 此时接入 ES 主要是进行归档数据存储,
后续对外暴露服务可以通过 Spark sql + es 搜索等技术进行暴露服务, 编码语言等不做限制,

ssssshi

2020 年 11 月 10 日

直接搜数据中台技术架构 ,照着大厂的架构挑对自己公司有用的来,选型的时候多结合自己公司的业务和各产品特点,比如 CK 查询快,redis 数据新,计算用 hive spark flink 之类的,存储 hdfs,抽取 flume 等等...
一开始的时候架构分层要清晰,不要各种生命周期的数据混在一起

huifer

2020 年 11 月 10 日

就针对数据处理而言可能需要采用 MQ 或者主从数据库等形式来尽可能减少对线上环境的影响....考虑不是很全面. 请多指教

Renco

2020 年 11 月 10 日

感谢！

Renco

2020 年 11 月 10 日

@huifer
@ssssshi 感谢回复建议！

silentt

2020 年 11 月 10 日

给你一条生产上的建议，选型一定要选 SQL 语法支持完备的数据库做数仓。你会发现绝大部分大数据的工作都是写 SQL 。

Renco

2020 年 11 月 10 日

@silentt 好谢谢！

GBdG6clg2Jy17ua5

2020 年 11 月 10 日

要是我说上 oracle，大家会不会打我

rapperx2

2020 年 11 月 10 日

ClickHouse

bxb100

2020 年 11 月 10 日

@angryfish #13 确实是好的选择, 但是太贵了

evil0harry

2020 年 11 月 10 日

clickhouse + kafka

levelworm

2020 年 11 月 10 日

我们用 vertica 和 kafla，但是不知道你具体情况不好推荐。。。

zorui

2020 年 11 月 10 日

阿里云的话 dla 可以满足

jadec0der

2020 年 11 月 10 日

ES 和数据湖是两个场景，数据湖里的数据做分析，是不在数据库端做条件查询的。比如一个 data scientist 用 Spark 分析订单数据，他会取全量的订单数据放到 Spark 里，然后写 Spark SQL 在内存里对数据进行查询。既然在数据库端不需要做查询，那就不需要对存储的数据做索引，数据存 csv 格式放对象存储里就行了。所以关键看数据怎么用，你得先把这个搞清楚。

zyuu2

2020 年 11 月 10 日

postgresql+clickhouse 。clickhouse 存量大的、日志型数据，postgresql 存量小的、聚合后的数据。