熟悉 java 内存机制的同学们来帮我瞅瞅我的内存问题吧。

kaneg

2015 年 1 月 12 日

以下是我的一点看法：
1. 你这里用的是Float对象，并不是float基本类型，基本类型是4个byte，而一个Float对象则要大得多。每个对象都与一个引用，64位jvm，每个应用要8个字节，加上float本身的存储，就已经是3倍了。索尼你不要用Float，直接用float
2. 其次你使用了ArrayList，你只初始化了一个维度的长度，另一个维度的没有，那它就需要不断动态调整，这样也有额外的内存消耗。这里你既然已经知道了长度，就应该用数组，不要用ArrayList

buptlee

2015 年 1 月 12 日

@kaneg 可是ArrayList<float> K_L_item = new ArrayList<float>();
ArrayList<ArrayList<float>> K_L = new ArrayList<ArrayList<float>>(12000);
都不被允许啊。
还有就是数组和ArrayList有本质的区别吗，或者说，什么原因使得ArrayList比数组低效了呢？

buptlee

2015 年 1 月 12 日

@kaneg 我其实也是想直接用float的，但是在声明的时候，
ArrayList<float> K_L_item = new ArrayList<float>();会出错，必须要包装类型才可以。

kaneg

2015 年 1 月 12 日

基本类型是不能用泛型的，所以ArrayList<float>不支持。
数组是Java原生提供的数据结构，ArrayList是一个普通的类，不考虑性能的话，ArrayList是很好用，但考虑性能最好老老实实用数组，除非你不在乎内存消耗
float[][] data = new float[12000][12000];

songco

2015 年 1 月 12 日

我记得java有8 byte的object header, 另外你用Float的话, 还有reference的开销. 还有内存对齐的padding, 我记得java对象是按8 byte对齐的. 这些加起来估计比你算的4 byte多很多.
具体的情况还是弄个heap dump看看吧.

这种原始数据如果需要全部加载, 建议用primitive type的多维数组, 或者用c之类的写, 当然如果能根据业务优化一下不要全部加载进来就更好了.

buptlee

2015 年 1 月 12 日

@kaneg 我重新写一下程序。用惯了ArrayList，对原生态数组表示有点生疏了，thanks,it's so kind of you.

buptlee

2015 年 1 月 12 日

@songco 嗯，总是被java的内存折磨，看来primitive type数组才是真爱，不该贪图方便一股脑ArrayList。谢谢你。

mfaner

2015 年 1 月 12 日

ArrayList<Float> K_L_item = new ArrayList<Float>();
这里也要指定capacity，觉得应该会影响很大

ericson

2015 年 1 月 12 日

也有支持primitve type的高性能集合库:

* [fastutil](http://fastutil.di.unimi.it/)
* [OpenHFT](https://github.com/OpenHFT/Koloboke)
* [hppc](http://labs.carrotsearch.com/hppc.html)
* [trove](http://trove.starlight-systems.com/)

songco

2015 年 1 月 12 日

@mfaner 增长策略是每次增长一半，然后拷贝……

msg7086

2015 年 1 月 12 日

典型的内存密集型操作，托管语言的短板之一啊。
用C系应该会好得多。

mfaner

2015 年 1 月 12 日

再来补充下，split方法是正则匹配，而且内部也是一个无参构造的ArrayList。

coolcfan

2015 年 1 月 12 日

token那块老老实实indexof或者找个高效的库处理吧。。。

icespace

2015 年 1 月 13 日

有两个思路值得考虑
1.使用内存型数据库管理数据
2.使用内存映射文件

thinkmore

2015 年 1 月 13 日

数据量过大了,就算你使用基本类型数组提高也不大，当然是肯定有提升的,毕竟ArrayList内部就是使用的基本类型数组罢了，建议你可以一次性读1W行(不一定是1W,找一个比较合理的数据)

buptlee

2015 年 1 月 13 日

@icespace redis算是您说的第一个条中的一种吗？

buptlee

2015 年 1 月 13 日

@thinkmore 不可以呢，我需要全局操作，不能只读一部分数据，业务使然。thanks very much！

buptlee

2015 年 1 月 13 日

@icespace 内存映射文件是指什么呢，能不能具体点？

buptlee

2015 年 1 月 13 日

@msg7086 确实是这样。就算是我用了数组去做，还是要消耗接近3G的内存，不过好歹能把所有数据读进去了。

buptlee

2015 年 1 月 13 日

@coolcfan 比如什么高效的库呢？学习一下。