Juno 监控中心

https://gocn.vip/topics/10596
在行业内越来越多的公司需要开发人员懂得服务器基础架构、操作系统、网络、语言特性、业务整体架构、面对线上问题快速分析快速定位、还包括服务性能调优,对这些方面的要求就是 Google 倡导的 SRE(站点可靠性工程师)。这项工作依赖于很多工具才能顺利完成,例如日志系统、发布系统、监控系统等等。
在斗鱼微服务管理系统 Juno,其中的监控中心的设计就是为协助开发人员进行高效的服务稳定性维护工作,完成对微服务系统的健康支持:



水位瓶颈,在斗鱼进行全链路压测,通过监控系统可以找到服务链路中的瓶颈,了解核心项目的具体水位;
故障预防,采用环比和同步数据进行服务健康波动分析,进行一定程度上的异常预防;
故障排查,线上故障快速定位,给出服务调用链路,从监控异常数据开始分析,排查影响范围,定位问题触发点。

为什么需要监控中心



在行业内越来越多的公司需要开发人员懂得服务器基础架构、操作系统、网络、语言特性、业务整体架构、面对线上问题快速分析快速定位、还包括服务性能调优,对这些方面的要求就是 Google 倡导的 SRE(站点可靠性工程师)。这项工作依赖于很多工具才能顺利完成,例如日志系统、发布系统、监控系统等等。
在斗鱼微服务管理系统 Juno,其中的监控中心的设计就是为协助开发人员进行高效的服务稳定性维护工作,完成对微服务系统的健康支持:



水位瓶颈,在斗鱼进行全链路压测,通过监控系统可以找到服务链路中的瓶颈,了解核心项目的具体水位;
故障预防,采用环比和同步数据进行服务健康波动分析,进行一定程度上的异常预防;
故障排查,线上故障快速定位,给出服务调用链路,从监控异常数据开始分析,排查影响范围,定位问题触发点。



主流产品差异性
只针对市场上的免费解决方案进行分析,目前分析的 Zabbix、Nagios 都比较偏向于基础运维监控工具。Juno 监控中心是 Grafana 和 Prometheus 的最佳实践之一,更偏向于业务监控。



优点 缺点

Zabbix



  • 数据采集方式多样

  • 可用性高

  • 历史数据可查询


  • 安全审计



  • 性能瓶颈

  • 二次开发难度

  • housekeeping 的数据库压力
    Nagios

  • 配置灵活


  • 多样性的报警条件设置



  • 无历史数据存储

  • 配置复杂

  • 控制台功能较弱



https://gocn.vip/topics/10596



negroni
https://github.com/urfave/negroni


Category golang