【2023】Prometheus-Alertmanager高可用集群

news/2024/5/19 1:19:43 标签: prometheus, linux, 运维, alertmanager, 集群

本次实验准备了三个节点,分别为laert-01~03

目录

  • 1.安装Alertmanager
  • 2.配置启动文件
  • 3.验证集群
  • 4.关于集群的配置项

1.安装Alertmanager

这部分内容在三个节点上都要执行

  • 下载安装包,将安装包解压至/data目录下
wget https://github.com/prometheus/alertmanager/releases/download/v0.25.0/alertmanager-0.25.0.linux-amd64.tar.gz
mkdir /data
tar -xf alertmanager-0.25.0.linux-amd64.tar.gz -C /data
ln -s /data/alertmanager-0.25.0.linux-amd64/ /data/alertmanager

2.配置启动文件

  • alert-01配置:

        vi /usr/lib/systemd/system/alertmanager.service 
    
[Unit]
Description=Prometheus Alertmanager Service daemon
After=network.target

[Service]
Type=simple
User=root
Group=root
ExecStart=/data/alertmanager/alertmanager\
          --config.file=/data/alertmanager/alertmanager.yml\
          --storage.path=/data/alertmanager/data/\
          --data.retention=120h\
          --web.external-url=http://192.168.10.3:9093\
          --web.listen-address=:9093 \
          --cluster.listen-address=192.168.10.3:9094
          
Restart=on-failure

[Install]
WantedBy=multi-user.target
systemctl daemon-reload 
systemctl start alertmanager.service 
systemctl enable alertmanager.service 
systemctl status alertmanager.service 
  • alert-02配置

      vi /usr/lib/systemd/system/alertmanager.service 
    
[Unit]
Description=Prometheus Alertmanager Service daemon
After=network.target

[Service]
Type=simple
User=root
Group=root
ExecStart=/data/alertmanager/alertmanager\
          --config.file=/data/alertmanager/alertmanager.yml\
          --storage.path=/data/alertmanager/data/\
          --data.retention=120h\
          --web.external-url=http://192.168.10.4:9093\
          --web.listen-address=:9093 \
          --cluster.listen-address=192.168.10.4:9094 \
          --cluster.peer=192.168.10.3:9094

Restart=on-failure

[Install]
WantedBy=multi-user.target
systemctl daemon-reload 
systemctl start alertmanager.service 
systemctl enable alertmanager.service 
systemctl status alertmanager.service 
  • alert-03配置

      vi /usr/lib/systemd/system/alertmanager.service
    
[Unit]
Description=Prometheus Alertmanager Service daemon
After=network.target

[Service]
Type=simple
User=root
Group=root
ExecStart=/data/alertmanager/alertmanager\
          --config.file=/data/alertmanager/alertmanager.yml\
          --storage.path=/data/alertmanager/data/\
          --data.retention=120h\
          --web.external-url=http://192.168.10.5:9093\
          --web.listen-address=:9093 \
          --cluster.listen-address=192.168.10.5:9094 \
          --cluster.peer=192.168.10.3:9094

Restart=on-failure

[Install]
WantedBy=multi-user.target
systemctl daemon-reload 
systemctl start alertmanager.service 
systemctl enable alertmanager.service 
systemctl status alertmanager.service 

3.验证集群

在这里插入图片描述

  • 当某节点挂了,还由其他节点可使用
    在这里插入图片描述

4.关于集群的配置项

# 当前实例集群服务监听地址,为空则禁用高可用功能
--cluster.listen-address="0.0.0.0:9094"
# 表示集群节点对其他节点发布的地址,其他节点可以用这个地址与该地址通信
--cluster.advertise-address=CLUSTER.ADVERTISE-ADDRESS
# 用来设置该 Alertmanager 节点的集群对等体,将告警数据同步其他节点
--cluster.peer=CLUSTER.PEER
# 对等超时时间,默认15秒
--cluster.peer-timeout=15s
# 集群消息传播时间,默认200ms
--cluster.gossip-interval=200ms
# 定义了多个 Alertmanager 实例之间的信息同步频率
--cluster.pushpull-interval=10ms
# 评估通知之前等待集群连接建立的最长时间
--cluster.tcp-timeout=10s
# 在标记节点不正常之前等待确认的时间
--cluster.probe-timeout=500ms
# 随机节点探测之间的间隔
--cluster.probe-interval=1s
# 用来设置集群状态稳定的超时时间的参数
--cluster.settle-timeout=10ms
# 尝试重新连接到丢失的对等设备之间的间隔时间
--cluster.reconnect-interval=10s
# 尝试重新连接到丢失的对等设备的间隔时间
--cluster.reconnect-timeout=6h0m0s
# 用于在 Alertmanager 集群模式中配置 TLS 证书
--cluster.tls-config=""
# 允许节点发送不加密的广播请求,从而允许其他节点发现它的地址。
# 这条最好不用
--cluster.allow-insecure-public-advertise-address-discovery

http://www.niftyadmin.cn/n/56948.html

相关文章

TCP、UDP网络编程面试题

TCP、UDP、Socket、HTTP网络编程面试题 什么是网络编程 网络编程的本质是多台计算机之间的数据交换。数据传递本身没有多大的难度,不就是把一个设备中的数据发送给其他设备,然后接受另外一个设备反馈的数据。现在的网络编程基本上都是基于请求/响应方式…

【论文】基于AI边缘计算的铁路行车视频监控智能识别研究

本文转载自《科技与创新》2022年第01期 作者:李博, 杨欣 单位:中国铁路武汉局集团有限公司麻城车务段 摘要 随着铁路信息化建设的不断推进,视频监控设备应用到越来越多岗位中,运用智能化手段管理工作人员必将成为一…

Postgresql源码(100)Portal与事务的关系(顶层事务与子事务)

1 总结 portal与事务有强绑定的关系,由portal->createSubid变量记录关联关系。如果为1表示顶层事务,关联的是子事务。 不论是顶层事务还是子事务,提交、回滚时只会处理自己创建出来的portal。 顶层事务会清理非活跃状态的Portal&#xff…

VScode 结合clangd 构建linux源代码阅读环境

1、背景介绍上一篇文章:VScode 结合Global构建linux源代码阅读环境 ,介绍了在VS Code工具中通过remote-ssh远程登陆到Linux远程服务器,使用Global构建linux源代码阅读环境,对linux kernel代码进行解析,实现全局搜索、自…

Spring 中 ApplicationContext 和 BeanFactory 的区别

文章目录类图包目录不同国际化强大的事件机制(Event)底层资源的访问延迟加载常用容器类图 包目录不同 spring-beans.jar 中 org.springframework.beans.factory.BeanFactoryspring-context.jar 中 org.springframework.context.ApplicationContext 国际…

2月面经:真可惜...拿了小米的offer,字节却惨挂在三面

我是2月份参加字节跳动和华为的面试的,虽然我只拿下了小米的offer,但是我自己也满足了,想把经验分享出来,进而帮助更多跟我一样想进大厂的同行朋友们,希望大家可以拿到理想offer。 自我介绍 我是16年从南京工业大学毕…

基于comsol软件弯曲单模光纤模拟仿真

在本节中,主要基于实验室实际光纤单模圆柱光纤进行模拟,与comsol案例库文件在分析过程和建模有些差异: 模拟主要通过以下三个步骤进行:模型的几何构建、物理场的添加研究、结构处理分析来进行。 下面是第一步骤:几何…

Maven_第五章 核心概念

目录第五章 其他核心概念1、生命周期①作用②三个生命周期③特点2、插件和目标①插件②目标3、仓库第五章 其他核心概念 1、生命周期 ①作用 为了让构建过程自动化完成,Maven 设定了三个生命周期,生命周期中的每一个环节对应构建过程中的一个操作。 …