打算整一个社工库自用,方案求解

2019-03-16 10:21:16 +08:00
 pimin
高中大学时候当过几年脚本小子
后来编程学了点,c/c++/asm,打算做逆向的中途放弃
前两年心血来潮学了一阵 Python,能简单写个 blog 之类

那时候认识一个小兄弟,一直有联系,逢年过节会打电话问候那种;现在也是为人父母了,他灰产接触比较多,有社工库需求,找我帮忙,目标数据量应该在 500G ;

做了下前期工作,目前初步方案是数据索引 elasticsearch,查询用 Python+flask ;自用随便整个页面就可以了;

想咨询下有没有更好的方案,或者这套方案有没有大的短板;
还有就是数据清洗有没有成熟的方案还是只能自己写个脚本导入
10671 次点击
所在节点    问与答
27 条回复
stiekel
2019-03-16 10:30:15 +08:00
实时查询 elasticsearch 是比较好的方便,合理规划好索引和字段,问题不大,不过机器配置别太差。
这种数据除了自己抽取入库,还能有什么办法?如果是单纯的格式好的文件,可以用 logstash。
locoz
2019-03-16 10:35:40 +08:00
ES 这个量级一点问题都没有,机器性能别太差就行,数据清洗还是自己写脚本处理吧,之前看过一个库,内容乱的一批,应该不存在通用的处理方案。(好奇数据源哪来
ZavierXu
2019-03-16 10:38:38 +08:00
500G 的社工库?我觉得应该至少再加个 0 才对
WordTian
2019-03-16 10:39:34 +08:00
现在网上泄漏的数据库太多了,有心人很容易就能下载到,很担心以后自己的数据安全问题。不过担心也没用,唉
ZavierXu
2019-03-16 10:39:55 +08:00
如果真的是 500G 这个量级的,根本不用 elasticsearch,直接用 MySQL,hash/密码 /邮箱做个索引,查询基本是毫秒级
pimin
2019-03-16 11:55:42 +08:00
@stiekel
自己的台式机只有 i5 4430+ 16G 内存,应付这个数据量有问题大么?
x86
2019-03-16 11:56:41 +08:00
国外大盘鸡
pimin
2019-03-16 11:57:43 +08:00
@locoz
数据源部分是网上公开的,通过搜索之类就能找到的
还有一部分是小圈子交流存下来的
pimin
2019-03-16 11:59:13 +08:00
@ZavierXu
我目前只准备了 200G,打算先跑起来
至于后续数据,看他能提供的量了
xunmima
2019-03-16 12:04:03 +08:00
我的做法跟楼上一样,用 mysql 全部数据导入一个表,然后就做这个表索引。

2 亿数据 1 秒出结果
misaka19000
2019-03-16 12:07:52 +08:00
好奇楼主是通过哪些手段获取这些社工数据的呢?
limbo0
2019-03-16 13:15:09 +08:00
es 干这个不太适合,上数据库是比较好的选择
Soutxx
2019-03-16 13:26:35 +08:00
@ZavierXu 我也觉得,再加个 0,才叫社工库
stiekel
2019-03-16 13:52:26 +08:00
@pimin 一看你最终的数据条数,二看你文档的大小,三看字段的格式。
不过 200G 的数据,如果全存下得话,最终到 elasticsearch 里肯定大于 200G。
普通搜索,查询文档,这配置够了。
fcoolish
2019-03-16 14:31:23 +08:00
我社工库手动分文件查,哈哈哈
yu1u
2019-03-16 14:52:43 +08:00
以前用 php 直接在几个 g 的文本中查找。。。。
bakabie
2019-03-16 15:28:42 +08:00
500g 级别的,mysql 就能搞定吧
pimin
2019-03-16 15:45:37 +08:00
@bakabie
我简单看了下 es 官方文档,没觉得会比 MySQL 麻烦
idcspy
2019-03-16 18:14:22 +08:00
你这不算自用,悠着点啊。
glfpes
2019-03-16 18:55:47 +08:00
es 界面都不用开发,有 kibana

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/545203

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX