优化 hdfs 对小文件的支持

2015-05-30 09:32:32 +08:00
 ivanchou
现在有一个任务是这样的,采用 HDFS+Hbase 的方式优化 HDFS 对小文件的支持,方案大概是:
小于阀值的文本文件直接存入 Hbase,待到小文件数量足够时,合并成一个文件存入 HDFS,其中最基本的要求是访问文件的 URI 不变。

那么,问题来了。我的设想是写一个类似后台服务的程序,检测所有在终端输入的 shell 命令,如果有 hdfs dfs -put 等读写文件的命令就将命令截获并经过程序的黑匣处理(小于阀值的文件存 hbase 等操作)。以及当用户在编写 hadoop 程序的时候,代码里访问 hdfs://localhost:9000/filepath 也能够正确返回 hbase 里存储的小文件。技术上有没有实现的可能性呢?要求是用户感知不到的,不知道有没有更简单并且更好的实现方法。

看过一些关于优化 hdfs 的小文件存储的论文以及专利,感觉在工程方面说的还是不够清楚,有些技术细节不知道通过什么方式实现。
2018 次点击
所在节点    问与答
2 条回复
ivanchou
2015-05-30 16:57:08 +08:00
求关注
ivanchou
2015-05-30 19:54:15 +08:00
@sunjourney 莫非是课友?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/194840

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX