关于 kafka 丢数据

2022-09-06 21:24:35 +08:00
 badboy17

为什么 kafka 会在生产消息时可能丢数据,kafka 不是基于 tcp 协议的吗,又为什么消费者拉数据则不会丢数据呢,知乎同问,求大佬解答 https://www.zhihu.com/question/502982361

1192 次点击
所在节点    Kafka
5 条回复
falsemask
2022-09-06 21:38:49 +08:00
1.生产者的消息不是立即写到磁盘里的,是写到操作系统的 buffer 里,操作系统会定期刷盘
2.多节点的情况下,ack 不是-1 ,写入主节点之后如果发生选举,也会导致丢数据
tonymua
2022-09-07 09:11:34 +08:00
https://juejin.cn/post/7135101805179961352 这个写的挺简洁明了的
Znemo
2022-10-03 16:31:13 +08:00
这和是否使用 tcp 协议没关系,这里说的消息丢失不是丢在网络链路里了,而是在复杂的分布式环境中为了保障高可用而出现的问题,1 楼说的就是基于此种原因造成的问题。另外,还有可能是配置问题,比如消息体大小超过了 Kafka 的限定而导致消息拒收。
badboy17
2022-10-03 19:13:53 +08:00
@Znemo 也就是应用层的丢消息,这样理解对吗?也就是 tcp 能保证数据能够传输到目标主机的网卡里,但是并不保证后续的数据是不是被应用层读取,这么理解对吗
Znemo
2022-10-04 14:18:56 +08:00
@badboy17 粗粒度的看我觉得可以这么理解吧,Kafka 是有一些配置和处理方式可以让消息尽可能足够安全传递,可以参考《 Kafka 权威指南》第六章。分布式环境下没有免费的午餐,想要得到一些东西就必然要牺牲其他东西。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/878185

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX