海量数据广告点击数据怎么同步

2019-08-12 09:25:14 +08:00
 90928yao

现在原始数据公司是腾讯云的 flume 直接入云服务器上的 mysql,然后很蠢的 spring 切数据源的方式,先查腾讯云上的 mysql 数据,然后稍微加工下,入库内网。现在公司投放大了,已经扛不住了,定时任务是 10 分钟一次,但是数据可能要 20 分钟跑完。有什么洋气点的 高效方法吗

3195 次点击
所在节点    Java
11 条回复
nolo
2019-08-12 09:29:04 +08:00
实时计算,flink
snappyone
2019-08-12 09:32:58 +08:00
上大数据全家桶了,不过数量级大概有多少呢,找下瓶颈在哪里
tomowang
2019-08-12 09:36:58 +08:00
flume 试过可以直接用 hdfs sink 写入 google cloud storage,不知道 oss 支不支持。日志这种就别放 MySQL 了,oss 肯定是最方便的
90928yao
2019-08-12 09:38:53 +08:00
没必要去 hdfs 的。。。。就是广告数据 给头条这些运营商匹配点击算广告费的。。。
90928yao
2019-08-12 09:40:59 +08:00
我看人家同步数据用什么订阅 binlog 会不会快点
jk1030
2019-08-12 10:19:30 +08:00
有大数据平台吗 用那个吧,这种点击数据为什么还会放在 mysql?
az422
2019-08-12 10:28:00 +08:00
查数据、入库这些改为批量操作试下。另外这里涉及到从云数据库到内网的转换?是的话,定时任务是部署在内网么?要是我搞的话将它部署到云,将最后一步入库,改为入云的 Kafka,再内网起多个 Kafka 消费者入库(洋气高效:加机器)。
最后记得问下运维办公网和服务器网是否隔离,内网服务器带宽是否足够
lihongjie0209
2019-08-12 10:44:29 +08:00
定时任务是 10 分钟一次,但是数据可能要 20 分钟跑完。有什么洋气点的 高效方法吗
???? 没看懂

你现在的需求是

A. 定时任务会出现并发执行的问题, 需要找一个解决方案

B. 你想把 20 分钟的定时任务在 10 分钟内执行完成

C. 你不想用定时任务了, 想做实时计算?


先选完再讨论
90928yao
2019-08-12 10:53:32 +08:00
@lihongjie0209 想知道其余公司是这么处理这种广告匹配的任务的、游戏公司,会投大量的广告。一天有将近 E 的点击数据,然后去匹配游戏账号的激活注册信息。回掉给头条这种广告公司
airfling
2019-08-12 11:01:54 +08:00
点击数据造假呗,反正只是需要知道一个大概趋势就可以了
lihongjie0209
2019-08-12 11:05:43 +08:00
@90928yao #9 只能异步放在消息队列中慢慢做, 量大了就增加消费者节点

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/591059

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX