V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
swordspoet
V2EX  ›  程序员

数据挖掘岗位的 C++用得多吗?

  •  
  •   swordspoet · 2017-02-20 20:09:15 +08:00 · 3448 次点击
    这是一个创建于 2622 天前的主题,其中的信息可能已经有所发展或是发生改变。
    学习数据挖掘快一年了,用的语言是 python 和 R ,但是我看许多公司招聘的时候都需要会 C++, C++对于数据挖掘行业有那么重要吗?还是只是衡量应聘者能力的尺子?
    13 条回复    2017-02-21 09:48:38 +08:00
    wangxn
        1
    wangxn  
       2017-02-20 20:11:59 +08:00 via Android
    感觉 C++是算法实现的时候才需要用到的。
    loryyang
        2
    loryyang  
       2017-02-20 20:19:37 +08:00
    不多吧,不过有些 ML 框架是 C++实现的,如果公司用了这些框架,那可能会要求
    Cbdy
        3
    Cbdy  
       2017-02-20 20:27:24 +08:00 via Android
    c++可能是用来刷人的。。。
    swordspoet
        4
    swordspoet  
    OP
       2017-02-20 20:29:46 +08:00
    @wangxn 嗯,但是 Python 实现数据挖掘的算法也还可以,不懂为什么一定要 C++
    swordspoet
        5
    swordspoet  
    OP
       2017-02-20 20:30:04 +08:00
    @loryyang 有道理
    hd7771
        6
    hd7771  
       2017-02-20 20:38:38 +08:00
    数据岗怎么样也要条件高一点把,要是就学框架那和 web 不就一样了,每个月多拿那么多钱是有原因的。
    menc
        7
    menc  
       2017-02-20 21:05:17 +08:00   ❤️ 2
    多, V2 上像我这样的初级 DATA 方向的 RD 太多了,公司 pv 不大的项目都是 py ,一旦 pv 上去了,都要用 c++重写,各种现有库全都是。

    线上 pipeline 也全是 cpp 的。
    用 py 做 pipeline ?那就只能像知乎这种公司一样,吹嘘“我们的 anti spam 流水线从过去的 5s 降低到现在的 500ms 了”,竟然还存在需要运行 5s 的 pipeline ?
    我们的 pipeline ,拿到特征,多模型召回, ranking 加起来不到 200ms ,这就是 cpp 的作用。

    好在离线训练还是可以 python ,可以只用 CPP 重写 prediction 代码,包括模型文件的解析和模型的 predict 。
    swordspoet
        8
    swordspoet  
    OP
       2017-02-20 23:39:26 +08:00 via iPhone
    @hd7771 不错,现在一般都用的现成的工具,虽然说自己有实现过算法,但是根据需求来编写代码的能力还是不够
    swordspoet
        9
    swordspoet  
    OP
       2017-02-20 23:40:08 +08:00 via iPhone
    @menc 谢谢!
    phrack
        10
    phrack  
       2017-02-20 23:48:41 +08:00
    @swordspoet python 实现数据挖掘的算法那效率只怕惨不忍睹。

    python 里那些数据处理的库,背后是 c/c++这些做支撑的,不是一定要会的,会的话加分。
    wdlth
        11
    wdlth  
       2017-02-20 23:49:01 +08:00
    用 CUDA 、 OpenCL 这类需要 C 、 C++功底。
    swordspoet
        12
    swordspoet  
    OP
       2017-02-21 09:47:52 +08:00
    @phrack 嗯,这个倒是,不知道是哪个人说的, python 虽然是慢了一点,但如果不是海量数据的话,那几秒钟差别又怎么会察觉出来呢?大公司不一样,还得要兼顾效率,几毫秒的差别也得考虑
    swordspoet
        13
    swordspoet  
    OP
       2017-02-21 09:48:38 +08:00
    @wdlth 也就是有的公司需要重写库?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2986 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:33 · PVG 21:33 · LAX 06:33 · JFK 09:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.