请问 V2er, 类似于 cnzz 这种大流量的统计工具, 大概的系统构架是什么样的呢? 有相关的开源项目吗?

2016-03-08 09:04:24 +08:00
 deben
接了个小项目, 做一系列网站的流量统计, 流量比较大(相对单一网站), 全部加起来每天千万 PV 差不多, 那么整个系统的构架大概应该是什么样呢?

或者哪位同学用过或者了解过有关的开源项目吗?

PS: 由于某些特殊原因, 无法使用目前市面上的公用统计服务.
3374 次点击
所在节点    问与答
6 条回复
zrj766
2016-03-08 09:18:24 +08:00
piwik
deben
2016-03-08 09:39:05 +08:00
@zrj766 piwik 如果是多用户多站点支持, 貌似 piwik 改起来有点儿工作量, 不过看看 piwik 的源码来学习的确是非常好的思路.
jugelizi
2016-03-08 09:45:04 +08:00
自己做广告平台吗

piwik 还是不错的 随便改过一点
你还需要 Hadoop
deben
2016-03-08 10:08:42 +08:00
@jugelizi 请问, 千万 PV, 就需要 Hadoop 了吗? 我的想法比较简单, 用 Nginx 分发到几个服务器能解决问题吗? 另外, 这个级别的数据存储用 MySQL 就不行了吧, 需要上 noSQL 的数据库了吧?
lecher
2016-03-08 11:02:49 +08:00
日千万 PV ,第一个问题在写入量上面,但是算下来就是峰值一秒顶多就是一千的日志, MySQL 绝对可以扛得住,至于接收日志的 Web 处理如果单台的性能不行,分几台服务器可以扛得住。用 NoSQL 撑写入量在数据管理上更容易做分布式。
其次是分析计算,这个重计算的事情,看业务有多复杂了,如果计算模型很复杂用 spark 、 Hadoop 这类的计算框架来节省开发成本也不错。如果不是很复杂就是简单的统计汇总可以不用那么重型的计算框架,自己写。
deben
2016-03-08 12:08:07 +08:00
@lecher 非常感谢, 受益匪浅!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/261824

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX