400M 的数据库, 1 亿 9 千行用什么索引比较好

2016-04-04 19:52:27 +08:00
 Andy1999
直接 TXT 按照 hash 划分可以嘛?
14604 次点击
所在节点    程序员
116 条回复
moeeducn
2016-04-05 17:24:28 +08:00
servom@126.com ,请楼主好心分享一份
hongcha
2016-04-05 18:04:11 +08:00
同 es 楼主好人 ibixiong@qq.com
xngnln
2016-04-05 18:12:50 +08:00
同求,楼主好人, xngnln@gmail.com
BooksE
2016-04-05 18:41:04 +08:00
lz 好人。
2352926988@qq.com
gancl
2016-04-05 18:45:57 +08:00
这是求种吗? 为什么都留 email
keysona
2016-04-05 18:50:55 +08:00
楼主来一份学习
keypython@gmail.com
谢谢了!
cstj0505
2016-04-05 18:51:47 +08:00
lz 好人,同求一份 tonytao0505@outlookcom
thisisvoa
2016-04-05 19:50:14 +08:00
lz 好人,同求一份 shanghaivip1@gmail.com @_@
dphdjy
2016-04-05 19:52:36 +08:00
话说楼上那么要数据的人?要来干嘛?既然没正规用途?为何要要?只是留以备用吗~¯\_( •́ω•̀ )_/¯
xlrtx
2016-04-05 21:03:32 +08:00
100M 条, 400M 字节..是不是多看了一个零
https://transfer.sh/yqU6x/adddb.py
3dwelcome
2016-04-05 21:56:42 +08:00
@xlrtx
我们也下了资源、一般来说、纯文本 400m,数据量在 1900 万条是合理范围。也许楼主用的是压缩过的特殊格式。
3dwelcome
2016-04-05 21:59:51 +08:00
对了、我们是按照首字符分组、然后去重复排序、用二分查找的、效率还行。不过数据量要大不少、 400m 应该是很强的压缩技术了。
Andy1999
2016-04-05 22:34:11 +08:00
@3dwelcome 我去密码了
Braid
2016-04-06 08:54:48 +08:00
多谢楼主,建议看看 http://www.coreseek.cn/,我打算用这个测试下你的 400M 数据
276562578
2016-04-07 16:28:46 +08:00
@Andy1999 想知道你是怎么去重的?用 sort 么?
northisland
2016-06-27 07:02:18 +08:00
一直怀疑字符串 hash 会占额外的空间,但一直没摸到 hash 的瓶颈。

曾经用 python hash 索引过 20m 数量的文件名,木有问题~~

楼主 100m ,能给个反馈么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/268512

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX