求一个每月4亿日志的处理方法，谢谢

问题是这样的，服务器会产生大量的日志，每月大概4亿条左右。日志insert后基本不会update，而是大量的查询操作。数据库目前的配置是Microsoft SQL Server 2008，4核+8G的1U服务器。
1、数据库至少要保存6个月的数据（大概24亿条左右），数据库能搞定吗？
2、请问这个规模的日志如何解决频繁查询的效率问题（查询性能优化）

另外，请问像这种大量插入与查询，很少更新的数据库用NoSQL会有优势吗？

求大神们解答，谢谢！

ms2008

2013-11-18 16:25:08 +08:00

这么多数据都是有效数据吗？怎么不考虑下压缩问题：将同类日志压缩为一条记录，更新timestamp（firstoccurrence and lastoccurrence）和tally

Actrace

2013-11-18 16:33:27 +08:00

MYSQL够了,MYISAM引擎的表,索引规划好,再使用延迟写入,性能上够用了.

pfipdaniel

2013-11-18 19:38:19 +08:00

如果楼主的厂子不太缺金的话可以考虑splunk，这个数据量基本轻松搞定，之前给运营商上过一套这玩意，他们数据量可大多了。
如果用开源软件的话，可以试试fluentd+mongodb+kibana，用开源软件的话还是建议应用栈尽可能简单一些，不然维护成本比较高，给自己找麻烦了

plprapper

2013-11-18 21:25:17 +08:00

还是觉得hadoop比较合适。
统计类的需求太灵活了，常规的DB index 不是什么好的选择。

feilaoda

2013-11-19 11:41:40 +08:00

lz和我原来的公司，业务好像。

曾经用hadoop/lucene/katta(这玩意可以换成solr)/Cassanda(后来被换成mongodb，最后被换成hbase）做的。

前端收集日志，是改写的nginx，跑在nginx上的log server。

当时storm还没出来，实时统计做的不够好。

cloudqq

2013-11-19 16:31:29 +08:00

@misaka @liushuaikobe 请问两位，reids不适合的原因在哪里，请赐教。

Sdhjt

2013-11-19 18:07:55 +08:00

目前正在测试Infobright，大数据神马的之后有时间研究研究，毕竟最近火的快成灰了:)

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/89667

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.