V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yellowmarlboro
V2EX  ›  Hadoop

公司要做个数仓,单机 hadoop 是否没什么意义,但是又想自己动手做一下。求给建议!

  •  
  •   yellowmarlboro · 2020-05-25 18:10:11 +08:00 · 3153 次点击
    这是一个创建于 1402 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景

    • 在之前公司轻微接触过 hive,es 等(之前公司是分布式,机器还不少),不过本职是抓数据入 kafka 以及部分从 MySQL,MongoDB 之类的数据库做数据处理,一般只是给研究部门用。所以对于数仓之类的操作也只是见同事用,自己操作次数为个位数,各种工具的概念也只是一知半解,我觉得这样的就称之为不会。

    • 现公司是传统公司,在一个互联网部门,并且各种氛围个人觉得较老套,技术流程什么的相对不那么'互联网'(不过好处就是项目不那么着急,准时上下班)。所以整个公司就只有一台 linux 服务器(都用 Windows 服务器),还是我申请来的..不过没那么重要了,有的 linux 用就很满足了(来之后一直在用 windows,还不是特别习惯)。

    需求

    • 领导想要把公司各个业务的数据汇一起,做个数据仓库,短期需求就是各个业务部门从这里取数据,只取历史速度要求不高。长期希望做一些大数据应用。

    • 数据量的话,目前业务大多使用 sqlserver 和 oracle,也没什么问题(明天问一下 dba )。大概不是很大。

    想法和问题

    • 想自己动手搭起来但是苦于几个问题:

      1.有无必要用 hadoop 生态的东西,而且是单机,没必要的话我也想自己试着动手(反正项目也不急,而且之前的工作太简单了,觉得太无聊了。项目用什么技术领导也不懂也无所谓),或者有没有其他的工具?

      2.一直主要用 python,java 只知皮毛,当然能借此学 java 进步一下也可。但是有没有 python 比较紧密的工具?

    总之就是想用这个机会学习动手点新东西而且做好,但是这个架构什么的对我来说还是比较难,所以想得到各位大佬的建议

    8 条回复    2020-05-26 11:45:00 +08:00
    xcstream
        1
    xcstream  
       2020-05-25 19:14:11 +08:00
    玩玩可以, 单机随便装个数据库都差不多
    MinQ
        2
    MinQ  
       2020-05-25 19:22:40 +08:00
    玩玩可以+1,但是现实意义不大。大数据也是一样,挺多公司都想搞大数据的,结果不是数据量少得可怜,就是数据量少得可怜的同时质量也不行,各种缺项。再说 sql server 啥的一样搞大数据啊,python 找个 driver 登上去取数据导入到 pandas 里就是了
    VoidChen
        3
    VoidChen  
       2020-05-25 19:23:21 +08:00
    单机意义不大。。而且数仓是一整套的东西,不是说把数据丢进去就算了。。我觉得你们要是只是一个历史数据存放而已,hdfs 直接放格式化的文件就可以了。还是那句话,hadoop 最少还是给 3 台吧
    diggzhang
        4
    diggzhang  
       2020-05-25 19:31:15 +08:00
    可以从 clickhouse 或 greenplum 开始?轻量搞起来试错。
    limbo0
        5
    limbo0  
       2020-05-26 02:52:53 +08:00 via iPhone
    意义确实不大,单机还不如在自己机器上搭建呢
    est
        6
    est  
       2020-05-26 10:33:23 +08:00
    单机 hadoop 性能不如直接 grep 吧。
    yellowmarlboro
        7
    yellowmarlboro  
    OP
       2020-05-26 11:16:37 +08:00
    @xcstream @MinQ 我也是想试一下,但是又担心跑在( 8g,机械盘)上边会慢的要死。不知道多大数据量会多大速度
    MinQ
        8
    MinQ  
       2020-05-26 11:45:00 +08:00
    @yellowmarlboro 我估计跟 SQL Server 查询速度差不多?不过我也是用的公司集群,自己电脑上只是小数据量做测试用的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5450 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 08:31 · PVG 16:31 · LAX 01:31 · JFK 04:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.