首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Java

海量数据广告点击数据怎么同步

  •  
  •   90928yao · 116 天前 · 1402 次点击
    这是一个创建于 116 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在原始数据公司是腾讯云的 flume 直接入云服务器上的 mysql,然后很蠢的 spring 切数据源的方式,先查腾讯云上的 mysql 数据,然后稍微加工下,入库内网。现在公司投放大了,已经扛不住了,定时任务是 10 分钟一次,但是数据可能要 20 分钟跑完。有什么洋气点的 高效方法吗

    11 回复  |  直到 2019-08-12 11:05:43 +08:00
        1
    nolo   116 天前 via iPhone
    实时计算,flink
        2
    snappyone   116 天前
    上大数据全家桶了,不过数量级大概有多少呢,找下瓶颈在哪里
        3
    tomowang   116 天前
    flume 试过可以直接用 hdfs sink 写入 google cloud storage,不知道 oss 支不支持。日志这种就别放 MySQL 了,oss 肯定是最方便的
        4
    90928yao   116 天前
    没必要去 hdfs 的。。。。就是广告数据 给头条这些运营商匹配点击算广告费的。。。
        5
    90928yao   116 天前
    我看人家同步数据用什么订阅 binlog 会不会快点
        6
    jk1030   115 天前
    有大数据平台吗 用那个吧,这种点击数据为什么还会放在 mysql?
        7
    az422   115 天前 via Android
    查数据、入库这些改为批量操作试下。另外这里涉及到从云数据库到内网的转换?是的话,定时任务是部署在内网么?要是我搞的话将它部署到云,将最后一步入库,改为入云的 Kafka,再内网起多个 Kafka 消费者入库(洋气高效:加机器)。
    最后记得问下运维办公网和服务器网是否隔离,内网服务器带宽是否足够
        8
    lihongjie0209   115 天前
    定时任务是 10 分钟一次,但是数据可能要 20 分钟跑完。有什么洋气点的 高效方法吗
    ???? 没看懂

    你现在的需求是

    A. 定时任务会出现并发执行的问题, 需要找一个解决方案

    B. 你想把 20 分钟的定时任务在 10 分钟内执行完成

    C. 你不想用定时任务了, 想做实时计算?


    先选完再讨论
        9
    90928yao   115 天前
    @lihongjie0209 想知道其余公司是这么处理这种广告匹配的任务的、游戏公司,会投大量的广告。一天有将近 E 的点击数据,然后去匹配游戏账号的激活注册信息。回掉给头条这种广告公司
        10
    airfling   115 天前
    点击数据造假呗,反正只是需要知道一个大概趋势就可以了
        11
    lihongjie0209   115 天前
    @90928yao #9 只能异步放在消息队列中慢慢做, 量大了就增加消费者节点
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4307 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 23ms · UTC 01:47 · PVG 09:47 · LAX 17:47 · JFK 20:47
    ♥ Do have faith in what you're doing.