求一个每月4亿日志的处理方法,谢谢

2013-11-18 11:41:22 +08:00
 Sdhjt
问题是这样的,服务器会产生大量的日志,每月大概4亿条左右。日志insert后基本不会update,而是大量的查询操作。数据库目前的配置是Microsoft SQL Server 2008,4核+8G的1U服务器。
1、数据库至少要保存6个月的数据(大概24亿条左右),数据库能搞定吗?
2、请问这个规模的日志如何解决频繁查询的效率问题(查询性能优化)

另外,请问像这种大量插入与查询,很少更新的数据库用NoSQL会有优势吗?

求大神们解答,谢谢!
9935 次点击
所在节点    问与答
32 条回复
ms2008
2013-11-18 16:25:08 +08:00
这么多数据都是有效数据吗?怎么不考虑下压缩问题:将同类日志压缩为一条记录,更新timestamp(firstoccurrence and lastoccurrence)和tally
Actrace
2013-11-18 16:33:27 +08:00
MYSQL够了,MYISAM引擎的表,索引规划好,再使用延迟写入,性能上够用了.
plan9
2013-11-18 18:18:54 +08:00
试试fluentd
bengtuo
2013-11-18 18:23:00 +08:00
大数据啊 当然必须 hadoop hive 之类啊



喷我把....
pfipdaniel
2013-11-18 19:38:19 +08:00
如果楼主的厂子不太缺金的话可以考虑splunk,这个数据量基本轻松搞定,之前给运营商上过一套这玩意,他们数据量可大多了。
如果用开源软件的话,可以试试fluentd+mongodb+kibana,用开源软件的话还是建议应用栈尽可能简单一些,不然维护成本比较高,给自己找麻烦了
halfbloodrock
2013-11-18 20:12:00 +08:00
@pfipdaniel +1....splunk好贵。。。但是的确好用。。。
plprapper
2013-11-18 21:25:17 +08:00
还是觉得hadoop比较合适。
统计类的需求太灵活了,常规的DB index 不是什么好的选择。
liushuaikobe
2013-11-19 08:46:48 +08:00
@cloudqq redis明显不合适~
feilaoda
2013-11-19 11:41:40 +08:00
lz和我原来的公司,业务好像。

曾经用hadoop/lucene/katta(这玩意可以换成solr)/Cassanda(后来被换成mongodb,最后被换成hbase)做的。

前端收集日志,是改写的nginx,跑在nginx上的log server。

当时storm还没出来,实时统计做的不够好。
cloudqq
2013-11-19 16:31:29 +08:00
@misaka @liushuaikobe 请问两位,reids不适合的原因在哪里, 请赐教。
Sdhjt
2013-11-19 18:07:55 +08:00
目前正在测试Infobright,大数据神马的之后有时间研究研究,毕竟最近火的快成灰了:)
richiefans
2013-12-12 17:58:32 +08:00
@Sdhjt 想问下楼主 Infobright 方案使用情况如何?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/89667

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX