集群监控Zabbix和Prometheus
集群监控Zabbix和Prometheus
一、Zabbix入门概述
1、Zabbix概述
Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能
2、Zabbix 基础架构
3、Zabbix部署
3.1 前提环境准备
1 | # 如果集群开启,先关闭集群。因为安装Zabbix前,需要重启虚拟机。如果之前弄过了就不需要了 |
3.2 安装Zabbix
1 | # 在hadoop102、hadoop103、hadoop104三台节点分别执行以下安装命令 |
3.3 配置Zabbix
1 | # 创建zabbix数据库 |
3.4 启动停止Zabbix
1 | # 102启动与停止 |
然后连接Zabbix_Web数据库,浏览器访问http://hadoop102/zabbix/
,然后按照步骤填写
最后登陆,用户名:Admin 密码:zabbix
二、Zabbix的使用与集成
1、Zabbix常用术语
-
主机(Host)
一台你想监控的网络设备,用IP或域名表示
-
监控项(Item)
你想要接收的主机的特定数据,一个度量数据
-
触发器(Trigger)
一个被用于定义问题阈值和“评估”监控项接收到的数据的逻辑表达式
-
动作(Action)
一个对事件做出反应的预定义的操作,比如邮件通知
2、Zabbix实战
2.1 创建Host
- 进入UI界面点击配置/主机/创建主机
- 配置主机(Host),主机名称填写hadoop102,群组填写hadoop(自动新增),填写agent所在ip,保存,重复以上步骤,再创建hadoop103、hadoop104主机
2.2 创建监控项(Items)
文档资料:https://www.zabbix.com/documentation/5.0/zh/manual/config/items/itemtypes/zabbix_agent
在一台主机(例如hadoop102)点击监控项(Items),点击创建监控项(Create Item),配置监控项(Item)这里我以查询datanode的进程数为例,配置完成后即可查看监控项最新数据
2.3 创建触发器(Trigger)
- 点击配置/主机/触发器
- 点击创建触发器,编辑触发器
2.4 创建报警媒介类型(Media type)
点击管理/报警媒介类型/Email,编辑Email
然后在用户设置里Email绑定收件人
2.5 创建动作(Action)
点击配置/动作/创建动作,编辑动作(Action)
2.6 测试
1 | # 关闭集群中的HDFS,会有如下效果 |
2.7 Zabbix模板创建
里面可以发现有很多已经内置好的模板,可以直接拿来使用。如果要自己创建,点击配置/模板/创建模板,配置模板名称/群组,配置监控项,配置触发器;然后配置动作,将这几个触发器连接到动作。最后去主机为hadoop103应用模板
3、集成Grafana入门
3.1 部署Grafana
官方仓库:https://dl.grafana.com/oss/release/grafana-7.4.3-1.x86_64.rpm
国内镜像:https://repo.huaweicloud.com/grafana/7.4.3/grafana-7.4.3-1.x86_64.rpm
1 | wget https://repo.huaweicloud.com/grafana/7.4.3/grafana-7.4.3-1.x86_64.rpm |
3.2 集成Zabbix
使用Grafana与其他系统集成时,需要配置对应的DataSource
1 | # 搜索无法找到,需要先自行下载zabbix插件 |
下面举例一个集成案例,在Zabbix中为hadoop102主机应用一个Zabbix内置的Linux系统监控模板,选择主机hadoop102,点击模板,搜索linux,并选择Template OS Linux by Zabbix agent;下一步集成Grafana,展示模板中的系统监控项,选择要展示的监控项