监控知识体系

by 夏泽民 Jun 28, 2020

https://zhuanlan.zhihu.com/p/26369145

徐亮伟，江湖人称标杆徐，曾负责大规模集群架构自动化运维工作。擅长自动化运维，并且在分布式、Python自动化、云计算虚拟化等领域有较深入研究。个人博客：徐亮偉架构师之路

笔者Q:552408925、572891887 架构师群:471443208

0 监控目标
我们先来了解什么是监控，监控的重要性以及监控的目标，当然每个人所在的行业不同、公司不同、业务不同、岗位不同、对监控的理解也不同，但是我们需要注意，监控是需要站在公司的业务角度去考虑，而不是针对某个监控技术的使用。

1.对系统不间断实时监控:实际上是对系统不间断的实时监控(这就是监控)

2.实时反馈系统当前状态:我们监控某个硬件、或者某个系统，都是需要能实时看到当前系统的状态，是正常、异常、或者故障

3.保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行

4.保证业务持续稳定运行:如果我们的监控做得很完善，即使出现故障，能第一时间接收到故障报警，在第一时间处理解决，从而保证业务持续性的稳定运行。

1 监控方法
既然我们了解到了监控的重要性、以及监控的目的，那么下面我们需要了解下监控有哪些方法。

1.了解监控对象:我们要监控的对象你是否了解呢？比如CPU到底是如何工作的？
2.性能基准指标:我们要监控这个东西的什么属性？比如CPU的使用率、负载、用户态、内核态、上下文切换。

3.报警阈值定义:怎么样才算是故障，要报警呢？比如CPU的负载到底多少算高，用户态、内核态分别跑多少算高？

4.故障处理流程:收到了故障报警，那么我们怎么处理呢？有什么更高效的处理流程吗？

2 监控核心
我们了解了监控的方法、监控对象、性能指标、报警阈值定义、以及故障处理流程几步骤，当然我们更需要知道监控的核心是什么？

1.发现问题:当系统发生故障报警，我们会收到故障报警的信息

2.定位问题:故障邮件一般都会写某某主机故障、具体故障的内容，我们需要对报警内容进行分析，比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太高导致长时间无法连接，又或者某开发触发了防火墙禁止的相关策略等等，我们就需要去分析故障具体原因。

3.解决问题:当然我们了解到故障的原因后，就需要通过故障解决的优先级去解决该故障。

4.总结问题:当我们解决完重大故障后，需要对故障原因以及防范进行总结归纳，避免以后重复出现。

3 监控工具
下面我们需要选择一款合适公司业务的监控工具进行监控,这里我对监控工具进行了简单的分类

老牌监控:

MRTG（Multi Route Trffic Grapher）是一套可用来绘制网络流量图的软件，由瑞士奥尔滕的Tobias Oetiker与Dave Rand所开发，以GPL授权。

MRTG最好的版本是1995年推出的，用perl语言写成，可跨平台使用，数据采集用SNMP协议，MRTG将手机到的数据通过Web页面以GIF或者PNG格式绘制出图像。

Grnglia是一个跨平台的、可扩展的、高性能的分布式监控系统，如集群和网格。它基于分层设计，使用广泛的技术，用RRDtool存储数据。具有可视化界面，适合对集群系统的自动化监控。其精心设计的数据结构和算法使得监控端到被监控端的连接开销非常低。目前已经有成千上万的集群正在使用这个监控系统，可以轻松的处理2000个节点的集群环境。

Cacti（英文含义为仙人掌）是一套基于PHP、MySQL、SNMP和RRDtool开发的网络流量监测图形分析工具，它通过snmpget来获取数据使用RRDtool绘图，但使用者无须了解RRDtool复杂的参数。提供了非常强大的数据和用户管理功能，可以指定每一个用户能查看树状结构、主机设备以及任何一张图，还可以与LDAP结合进行用户认证，同时也能自定义模板。在历史数据展示监控方面，其功能相当不错。

Cacti通过添加模板，使不同设备的监控添加具有可复用性，并且具备可自定义绘图的功能，具有强大的运算能力（数据的叠加功能）

Nagios是一个企业级监控系统，可监控服务的运行状态和网络信息等，并能监视所指定的本地或远程主机状态以及服务，同时提供异常告警通知功能等。

Nagios可运行在Linux和UNIX平台上。同时提供Web界面，以方便系统管理人员查看网络状态、各种系统问题、以及系统相关日志等

Nagios的功能侧重于监控服务的可用性，能根据监控指标状态触发告警。

目前Nagios也占领了一定的市场份额，不过Nagios并没有与时俱进，已经不能满足于多变的监控需求，架构的扩展性和使用的便捷性有待增强，其高级功能集成在商业版Nagios XI中。

Smokeping主要用于监视网络性能，包括常规的ping、www服务器性能、DNS查询性能、SSH性能等。底层也是用RRDtool做支持，特点是绘制图非常漂亮，网络丢包和延迟用颜色和阴影来标示，支持将多张图叠放在一起，其作者还开发了MRTG和RRDtll等工具。

Smokeping的站点为：http://tobi.oetiker.cn/hp

开源监控系统OpenTSDB用Hbase存储所有时序（无须采样）的数据，来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集，支持永久存储，可以做容量规划，并很容易地接入到现有的告警系统里。

OpenTSDB可以从大规模的集群（包括集群中的网络设备、操作系统、应用程序）中获取相应的采集指标，并进行存储、索引和服务，从而使这些数据更容易让人理解，如Web化、图形化等。

王牌监控

Zabbix是一个分布式监控系统，支持多种采集方式和采集客户端，有专用的Agent代理，也支持SNMP、IPMI、JMX、Telnet、SSH等多种协议，它将采集到的数据存放到数据库，然后对其进行分析整理，达到条件触发告警。其灵活的扩展性和丰富的功能是其他监控系统所不能比的。相对来说，它的总体功能做的非常优秀。

从以上各种监控系统的对比来看，Zabbix都是具有优势的，其丰富的功能、可扩展的能力、二次开发的能力和简单易用的特点，读者只要稍加学习，即可构建自己的监控系统。

小米的监控系统：open-falcon。open-falcon的目标是做最开放、最好用的互联网企业级监控产品。

OWL是TalkingData公司推出的一款开源分布式监控系统OWLgithub地址

三方监控:

现在市场上有很多不错的第三方监控，比如：监控宝、监控易、听云、还有很多云厂商自带监控，但是在这里我们不打算着重介绍，如果想了解三方监控可自行上官网咨询。（避免说广告植入）

1.数据采集:Zabbix通过SNMP、Agent、ICMP、SSH、IPMI等对系统进行数据采集

2.数据存储:Zabbix存储在MySQL上，也可以存储在其他数据库服务

3.数据分析:当我们事后需要复盘分析故障时，zabbix能给我们提供图形以及时间等相关信息，方面我们确定故障所在。

4.数据展示:web界面展示、(移动APP、java_php开发一个web界面也可以)

5.监控报警:电话报警、邮件报警、微信报警、短信报警、报警升级机制等（无论什么报警都可以）

6.报警处理:当接收到报警，我们需要根据故障的级别进行处理，比如:重要紧急、重要不紧急，等。根据故障的级别，配合相关的人员进行快速处理。

5 监控指标
我们上面了解了监控方法、目标、流程、也了解了监控有哪些工具，可能有人会疑惑，我们具体要监控写什么东西，那么我在这里进行了分类整理:

硬件监控

系统监控

应用监控

网络监控

流量分析

日志监控

安全监控

API监控

性能监控

业务监控

https://zhuanlan.zhihu.com/p/26369145
https://uavorg.github.io/documents/uavdoc_useroperation/71.html

https://www.jianshu.com/p/1f04b7b0ef99

https://www.jianshu.com/p/a31f9d9ee813

https://www.cnblogs.com/WeaRang/p/12421842.html

Category linux