请教: hadoop 不会将大表格分割为 block

2019-09-27 09:02:45 +08:00
 hiouyuu
不是 dba,只是用户。

我之前使用的集群,在 sqoop 导入、create、insert 等操作,都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时,永远是在原文件上 append,导致文件越来越大,hdfs dfs ls 查看到表格仅由单个文件组成,个别表格文件大小甚至可能超过数十 GB。

我个人也不知道是否因为这个原因导致速度非常差。

请问是否有配置需要修改?有没有可能对现有表格进行分割?
3563 次点击
所在节点    Hadoop
3 条回复
suixn
2019-09-27 09:41:41 +08:00
dfs.block.size 设置的多大?
id4alex
2019-09-27 09:45:07 +08:00
你在 hdfs 上看到一个文件, 底层是多个 block 分布在不同节点.
hiouyuu
2019-09-27 11:09:20 +08:00
谢谢两位,发现文件的确是分割为 blocks 了。

这样看起来速度慢仍然是需要靠分区来搞定,我回头和 DBA 那边说说吧。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/604646

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX