V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
akmonde
V2EX  ›  Kafka

kafka 多线程消费是否必须手动提交 offset/partion 才能避免竞争

  •  
  •   akmonde · 2021-07-27 21:59:20 +08:00 · 1494 次点击
    这是一个创建于 1192 天前的主题,其中的信息可能已经有所发展或是发生改变。

    rt,我这边遇到个问题,需要 kafka 多线程消费数据。

    已知同一个 groupid,能控制多个消费者竞争问题,不会出现同一条数据被多个消费者重复读取。

    但是多个线程同时去读,是否必须手动提交 offset,auto_commit 不知道能否满足要求?

    我在网上看到的 case,基本上是让本地建个临时 sqlite 库,根据 partion 和线程对应去消费,手动提交 offset 。

    比如:https://www.cnblogs.com/lshan/p/11647485.html

    我不知道最佳实践是怎样的?

    各位大佬,很急在线等!

    5 条回复    2021-07-28 20:20:36 +08:00
    billlee
        1
    billlee  
       2021-07-28 01:01:15 +08:00
    每个 partition 只能被一个线程读取。自动提交 offset 只对非正常退出时丢数据有影响。
    akmonde
        2
    akmonde  
    OP
       2021-07-28 08:30:16 +08:00
    @billlee 嗨,大佬,那我之前提出的记录 offset 和 partion 有必要么,还是每次手动提交 offset 就行。
    JKeita
        3
    JKeita  
       2021-07-28 09:58:25 +08:00
    一个消费者多个线程?不同线程对应一个分区?这种应该只能手动控制了吧
    akmonde
        4
    akmonde  
    OP
       2021-07-28 18:04:18 +08:00
    @JKeita 我就在琢磨,要是每次手动控制 offset,那每个 partion 的初始的 offset 咋设置?也不能 auto_offset_reset 每个都设置 0-100 随机来个?
    billlee
        5
    billlee  
       2021-07-28 20:20:36 +08:00
    @akmonde 就是两个模式嘛。如果用 kafka 提供的 commit 功能,不管是手动 commit 还是自动 commit,就不需要自己记录。如果自己维护,就要自己分配那个线程读取哪些 partition, 并做好 partitition id 和 offset 的记录。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1323 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 194ms · UTC 23:37 · PVG 07:37 · LAX 16:37 · JFK 19:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.