C++的 set 爆内存，求助

如题，本来想写个小程序，对比一下 c++,python,golang 处理日志文件的效率。找了个 600MB 的日志文件试水，结果因为本人水平有限，导致 c++的实现出现了大量的内存消耗，运行不完就被 kill 了。

程序的思路是逐行读取日志文件，用空格切分，第一个字段作为 key，剩下的字段去重后作为 value。

先贴一下 python 的实现

big_dict = {}
with open("data/test_log.txt") as f_in:
    for line in f_in:
        items = line.strip().split(' ')
        key = items[0]
        if key not in big_dict:
            big_dict[key] = set([])
        for i in items[1:]:
            big_dict[key].add(i)

print "total keys:", len(big_dict)

再贴一下 golang 的：

package main

import (
    "bufio"
    "fmt"
    "io"
    "os"
    "strings"
)


func process(fname string, big_dict map[string]map[string]int) {
    fin, err := os.Open(fname)
    defer fin.Close()
    if err != nil {
        fmt.Println("Open file error ", err)
        return
    }

    buf := bufio.NewReader(fin)
    line_count := 0
    for ; ; line_count++ {
        line, err := buf.ReadString('\n')
        if err != nil {
            if io.EOF == err {
                break
            }
            fmt.Println("Error in ReadBytes: ", err)
            return
        }
        items := strings.Split(line, " ")
        key := items[0]

        elem, ok := big_dict[key]
        if false == ok {
            big_dict[key] = make(map[string]int)
        }
        elem = big_dict[key]
        for i := 1; i < len(items); i++ {
            elem[items[i]] = 1
        }
    }
    fmt.Println("Total Line Count: ", line_count)
}

func main() {
    const fname = "data/test_log.txt"
    big_dict := make(map[string]map[string]int)
    process(fname, big_dict)
    fmt.Println("Total Key Count: ", len(big_dict))
}

最后贴一下 c++的。

#include <iostream>
#include <fstream>
#include <string>
#include<unordered_map>
#include<unordered_set>

using namespace std;

// data/test_log.txt 文件是一个 600MB 的日志文件
const string IN_FNAME = "data/test_log.txt";
unordered_map<string, unordered_set<string *>* > big_dict;

void process_file(const string fname, unordered_map<string,unordered_set<string*> *> & big_dict) {
    ifstream f_in;
    f_in.open(fname, ios::in);
    string line = "";
    int total_line = 0;
    size_t start =0, end = 0;
    while(getline(f_in, line)) {
        ++total_line;
        start =0, end = 0;// c++没有内建 string 的分割，自己 diy 个
        end = line.find_first_of(' ',start);
        string key = line.substr(start,end);
        // 寻找是否存在 key
        if(big_dict.find(key) == big_dict.end()) {
            unordered_set<string*> *p = new unordered_set<string*>;
            big_dict[key] = p;
        }

        start = end+1;
        while(start<line.size()) {
            end = line.find_first_of(' ',start);
            if(string::npos == end) end = line.size() - 1;
            string value = line.substr(start,end);
            big_dict[key]->insert(&value);//大部分的时间都在这个 insert 上了
            //这里我存的是 string 的指针，实际上无法得到去重的效果
            //但是我如果直接存 string 对象，会直接爆内存
            start = end + 1;
        }
    }
    f_in.close();

}

int main() {

    process_file(IN_FNAME, big_dict);

    cout<<"Total Keys:"<<big_dict.size()<<endl;

    return 0;
}

c++的实现中，big_dict[key]->insert(&value);大部分的时间都在这个 insert 上了，这里我存的是 string 的指针，实际上无法得到去重的效果。但是我如果直接存 string 对象，会直接爆内存。我存指针可以解决内存的问题，但是执行速度上依然是 go 快过 python，最慢的是 c++。

希望有大神能指点下，看我的 c++代码哪里出了问题。

wevsty

2017-10-25 11:24:56 +08:00

这个 cpp 写的。。。
line.substr(start,end)这里的问题前面已经有人指出来了，end 不应该是结束为止的标号，而是复制的长度。
同理 end = line.size() - 1;一样是有问题的。
unordered_map<string, unordered_set<string>* > big_dict;
这个定义是一个 key 指向一个不会重复的 string 指针，big_dict[key]->insert(&value);实际是插入了 value 这个 string 的指针，然而 value 在循环结束的时候就因为生存周期结束而销毁了，所以你才觉得这样不会爆内存。

不要用那么多指针来掩饰，你程序里想表达的数据结构实际上就是：
unordered_map<string,unordered_set<string> >
在 map 里套 set，那么 key 至少存在 2 次，存在重复查找，重复存放一堆问题，效率能高才怪了
比如日志中某一行是
“ key value1 value2 ”那么运行完成以后数据结构实际上是
{'key'：{'key':'value2'}}
而你的 python 代码对应的结果应该是
{'key':['value1','value2']}
从结果上看，不要谈效率，代码的实现完全都是不对的。