请教： hadoop 不会将大表格分割为 block

不是 dba，只是用户。

我之前使用的集群，在 sqoop 导入、create、insert 等操作，都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时，永远是在原文件上 append，导致文件越来越大，hdfs dfs ls 查看到表格仅由单个文件组成，个别表格文件大小甚至可能超过数十 GB。

我个人也不知道是否因为这个原因导致速度非常差。

请问是否有配置需要修改？有没有可能对现有表格进行分割？

id4alex

2019-09-27 09:45:07 +08:00

你在 hdfs 上看到一个文件, 底层是多个 block 分布在不同节点.

hiouyuu

2019-09-27 11:09:20 +08:00

谢谢两位，发现文件的确是分割为 blocks 了。

这样看起来速度慢仍然是需要靠分区来搞定，我回头和 DBA 那边说说吧。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/604646

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.