有懂 spark 跟 hbase 的同学吗

2019-05-22 16:05:11 +08:00
 snappyone

准备 spark 连 hbase,但是查了一下各种 connector,发现一个 hbase-spark 项目,貌似不维护了但是 maven 上居然有新版本的 jar,另一个是 sparkonhbase 项目也是版本不太全貌似,所以我的选择是自己写一套 spark 的 datasource 还是怎么搞比较好,有经验的 v 友求指导

1383 次点击
所在节点    程序员
8 条回复
yangxin0
2019-05-22 16:12:59 +08:00
别瞎用,要你是随机读会出问题的。data source connector 是最不要紧的你应该关注 hbase 的 rowkey 咋设计的,按 key range 读取效率才高。
bsidb
2019-05-22 16:16:10 +08:00
如果你的 Row key 分布的很平均,直接按照 Key range 切分任务,然后并行读取试试?
snappyone
2019-05-22 16:29:33 +08:00
@yangxin0 我现在是按照 time range 做 scan, 直接读取最近 1 小时新增的数据这样
snappyone
2019-05-22 16:30:05 +08:00
@bsidb 按照 time range scan 读新增数据,key 应该没法 range 切分了
atomstar
2019-05-22 16:32:27 +08:00
https://github.com/unicredit/hbase-rdd 2 年前用过这个 hbase-rdd
LemonButSweet
2019-05-22 16:35:15 +08:00
话说 Spark 里面有一个 HbaseContext 可以操作 HBase,用起来比较方便 不管是读写 写的话是有个 bulkLoad
snappyone
2019-05-22 16:35:34 +08:00
@atomstar 这个版本比较老了,应该用不了咯
snappyone
2019-05-22 16:35:51 +08:00
@LemonButSweet 好的,我去看看这个,谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/566612

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX