V2EX 首页   注册   登录
 billion 最近的时间轴更新

billion

给时光以生命。
  •   BigOne Lab / 软件工程师
  •   V2EX 第 143564 号会员,加入于 2015-10-20 23:52:28 +08:00,今日活跃度排名 9135
    82 S 26 B
    billion 最近回复了
    我有处理 40G 文本文件的经验。

    我的文本文件每一行都是一个 JSON,用 Python 读取出来,再把每一行的 JSON 转成字典并插入到 MongoDB 中。使用 Python 的 readline()一行一行读,凑够了 10000 个字典以后一次性插入 MongoDB,亲测单线程单进程 4 个小时不到就跑完了。
    3 天前
    回复了 ManjusakaL 创建的主题 推广 Python 北京开发者活动第一期:讲者招募
    如果想过来听讲的话,又怎么报名呢?
    bt sync 的地址
    11 天前
    回复了 billion 创建的主题 Python 如何对比多个文件,从而发现新插入的内容
    @ChristopherWu
    用字典存的话,是按照{'语文': 89, '数学': 30}这种方式,全部遍历完成以后看次数为 100 的就是 0.txt 的内容了。然后再通过任何一个文件里面的内容来确定顺序。这种算法没有问题。
    11 天前
    回复了 billion 创建的主题 Python 如何对比多个文件,从而发现新插入的内容
    补充说明:同一条内容可以插入多个文件的不同位置,但是同一条内容最多插入 99 个文件,所以在 100 个文件都出现的内容显然就是原始数据。所以问题是,如果在避免两两对比的情况下,分别找到原始数据和新插入的数据?

    为了增加难度,把 100 个文件改成 100 亿个文件,每个文件 100 亿行以上。
    11 天前
    回复了 billion 创建的主题 Python 如何对比多个文件,从而发现新插入的内容
    @gstqc 我想问的点是如何最高效地对比 100 个文件,如果使用 diff 的话,两两对比要进行 9900 次,太耗费时间和资源。
    11 天前
    回复了 billion 创建的主题 Python 如何对比多个文件,从而发现新插入的内容
    @gstqc Python 有这个库叫做 difflib。但是不太好用。
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   533 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.7.5 · 55ms · UTC 20:37 · PVG 04:37 · LAX 13:37 · JFK 16:37
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1