IceMimosa 最近的时间轴更新
IceMimosa

IceMimosa

V2EX 第 529009 号会员,加入于 2021-01-18 13:31:11 +08:00
IceMimosa 最近回复了
不允许 join 的话,只能 xxxname 做 like 处理,查出对应的 id 。然后回主表用 xxxid in (刚刚查出的 id),注意控制好数量。
178 天前
回复了 vision1900 创建的主题 Linux 写了个 bash 脚本用于 3P 互查
奇怪的词语又增加了。。
吓到不敢说话
178 天前
回复了 asanelder 创建的主题 问与答 2021 年了, 学习英文语法好的资料或工具?
@franc3567 硬核
179 天前
回复了 morimi2026 创建的主题 程序员 服务端用 Kotlin 开发的多不多?
谁用谁知道,爽的飞起。。
181 天前
回复了 ty1999 创建的主题 问与答 求解: hadoop 运行官方案例时报错
@ty1999 应该是系统少装了啥命令行工具,直接贴错误堆栈。
181 天前
回复了 JellyDong 创建的主题 问与答 大数据经验咨询
1. 数据接收模块:多节点,可以自己写个 web 程序,简单处理下数据和规范格式,然后将数据以日志的方式落地。
2. 日志收集模块:简单点可以用 flume 收集日志,然后发到 kafka
3. kafka 消费模块:用 sparkstreaming,flink 之类的处理框架,将数据落到 hive 中( hdfs )
4. 离线处理:然后起离线任务去处理,可以用 spark,hive 之类的。后面就是数仓干的一些活,每天定时任务可以用 airflow 之类的进行调度。
5. 数据展示模块:将每天调度出来的统计数据,通过 spark 或者 sqoop 之类的导出的关系型数据库,或者干脆直接上 olap 框架。最后对接一些 bi 系统,比如 metabase,superset 等。

总之里面技术比较杂乱,还得考虑每个技术版本的兼容性问题。整个环境搭建起来也挺费事的,当然也有整体的解决方案比如 cdh,hdp 之类的。

相关课程的话,B 站应该有培训的视频,涉及面挺广的,不过学习周期就特别长了。。最好还是有个经验的人带着搞,不然到处都是坑😂
看着不错,赞一个。
关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3459 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 03:34 · PVG 11:34 · LAX 20:34 · JFK 23:34
♥ Do have faith in what you're doing.