【云原生 Prometheus篇】Prometheus架构详解与核心组件的应用实例(Exporters、Grafana...)

news/2024/5/19 1:32:37 标签: 云原生, prometheus, 架构, kubernetes, 运维, grafana, yaml

Prometheus Part1

  • 一、常用的监控系统
    • 1.1 简介
    • 1.2 Prometheus和zabbix的区别
  • 二、Prometheus
    • 2.1 简介
    • 2.2 Prometheus的主要组件
      • 1)`Prometheus server`
      • 2)`Exporters`
      • 3)`Alertmanager`
      • 4)`Pushgateway`
      • 5)`Grafana`
    • 2.3 Prometheus的工作流程
    • 2.4 Prometheus数据采集配置
  • 三、二进制部署Prometheus
    • 3.1 初始化操作
    • 3.2 下载Prometheus源码包并解压
    • 3.3 Prometheus添加到系统服务中
    • 3.4 访问测试
  • 四、Exporters部署实例
    • 4.1 实例一:部署 Node Exporter 监控系统级指标
      • Step1 准备源代码包
      • Step2 将node-expoter添加到系统服务中
      • Step3 加入到 Prometheus 监控中
      • 补充:常用的各指标
    • 4.2 实例二:通过mysql exporter监控 MySQL
      • Step1 部署mysql exporter
      • Step2 修改Mysql的配置
      • Step3 启动mysqld_exporter服务
      • Step4 添加Mysql到Prometheus监控中
      • Step5 查看Prometheus web界面
    • 4.3 实例三:监控Nginx
      • Step1 安装nginx
      • Step2 修改nginx的配置文件,启动nginx
      • Step3 解压 nginx-exporter并启动
      • Step4 将nginx加入到Prometheus监控中
      • Step5 访问Prometheus web页面
  • 五、部署 Grafana平台进行展示
    • 5.1 下载和安装
    • 5.2 配置数据源
    • 5.3 导入grafana监控面板

一、常用的监控系统

1.1 简介

在这里插入图片描述

老牌传统的:Zabbix 、Nagios、Cacti …

云时代的:Prometheus、夜莺 … …

1.2 Prometheus和zabbix的区别

Zabbix:更适用于传统业务架构的物理机、虚拟机环境的监控,对容器的支持比较差;数据存储主要采用的是关系型数据库,会随着监控节点数量的增加,关系型数据库的压力也会变大,监控数据的读写也会变的很慢;对大规模集群监控的性能比Prometheus要弱一些,可适用于单集群不超过2000节点的场景。

Prometheus:还能支持云环境、Kubernetes容器集群的监控,是目前容器监控最好的解决方案;数据存储采用的是时序数据库,大大的节省了存储空间,并且提升了查询效率;单集群支持的节点规模更大,通常超过2000台节点、业务服务数量大于1000个的时候建议直接上Prometheus。

二、Prometheus

Prometheus 官网地址:https://prometheus.io

Prometheus github 地址:https://github.com/prometheus

2.1 简介

Prometheus 是一个开源的监控系统 + 时间序列数据库数据模型是 指标度量名称{键值对标签} 的时间序列数据格式。

2.2 Prometheus的主要组件

在这里插入图片描述

1)Prometheus server

Prometheus服务的核心组件

通过http pull拉取的方式采集监控指标数据(时间序列数据);

作为时序数据库持久化存储监控指标数据;

根据告警规则生成告警通知推送给alertmanager;

内建service discovery动态服务发现功能(支持文件、consul、K8S等自动发现方式)

2)Exporters

指标暴露器,用于对原生不支持prometheus直接采集监控指标数据的系统或应用,收集监控指标数据并转换格式给prometheus server拉取采集。

常用的exporters描述
Node-Exporter用于收集服务器节点的物理指标状态数据,如平均负载、CPU、内存、磁盘、网络等资源信息的指标数据,需要部署到所有运算节点。
mysqld-exporter/nginx-exporter用于监控特定服务,比如mysql/nginx
Kube-State-Metrics用于为 Prometheus 采集 K8S 资源数据
cAdvisor用来监控容器内部使用资源的信息,比如 CPU、内存、网络I/O、磁盘I/O
blackbox-exporter监控业务容器存活性

3)Alertmanager

接收prometheus server发来的告警通知,负责对告警通知去重、分组,并路由给接收人(电子邮件、钉钉、企业微信等方式)

4)Pushgateway

作为中转站,接收一些短期任务或只会push推送数据的任务发来的监控指标数据,用于临时存储监控指标数据并统一给prometheus server拉取采集

5)Grafana

外置的监控数据展示平台,接入prometheus数据源,通过promQL查询,并以图形化形式展示

2.3 Prometheus的工作流程

在这里插入图片描述

1)prometheus server通过http pull拉取的方式从监控目标target(exporter或pushgateway暴露的http接口)拉取监控指标数据;

2)prometheus server将采集到的监控指标数据通过时序数据库持久化存储在本地磁盘或外置存储中;

3)prometheus server将采集到的监控指标数据与本地配置的告警规则进行计算比对,如果触发告警则会生成告警通知推送给alertmanager;

4)alertmanager接收到prometheus server发来的告警通知后,对告警通知去重、分组,再通过电子邮件/钉钉/企业微信等方式发送给接收人;

5)prometheus支持原生的web UI或grafana接入prometheus数据源,通过promQL查询,并以图形化形式展示。

prometheus支持使用influxdb等作为外置时序数据库,实现长期存储历史数据。

prometheus可基于thanos实现prometheus集群的高可用(主要方式是在K8S上部署,通过边车模式与prometheus部署在同一个Pod里共享监控数据)

2.4 Prometheus数据采集配置

yaml">#这是一个模板
scrape_configs:
- job_name: XXX              #自定义监控任务的名称
  metrics_path: "/metrics"   #指定获取监控指标数据的URL路径,一般都是 /metrics
  scheme: "http"             #指定拉取监控指标数据的协议,http(默认值)|https
  static_configs:            #定义静态配置的监控目标
  - targets:                   #指定监控目标的IP和exporter的端口
    - <IP1>:<exporter的端口>
    - <IP2>:<exporter的端口>
    labels:                    #自定义监控目标的标签
	  <标签key>: <标签value>

三、二进制部署Prometheus

3.1 初始化操作

systemctl stop firewalld
setenforce 0

3.2 下载Prometheus源码包并解压

上传 prometheus-2.45.0.linux-amd64.tar.gz 到 /opt 目录中,并解压

#建立工作目录
mkdir -p /opt/prometheus

#上传源码包
cd /opt/prometheus
tar xf prometheus-2.45.0.linux-amd64.tar.gz

#方便补全
mv prometheus-2.45.0.linux-amd64 /usr/local/prometheus

在这里插入图片描述

Prometheus配置清单文件详解

yaml">cat /usr/local/prometheus/prometheus.yml | grep -v "^#"

global:					#用于prometheus的全局配置,比如采集间隔,抓取超时时间等
  scrape_interval: 15s			#采集目标主机监控数据的时间间隔,默认为1m
  evaluation_interval: 15s 		#触发告警生成alert的时间间隔,默认是1m
  # scrape_timeout is set to the global default (10s).
  scrape_timeout: 10s			#数据采集超时时间,默认10s

alerting:				#用于alertmanager实例的配置,支持静态配置和动态服务发现的机制
  alertmanagers:
    - static_configs:
        - targets:
          # - alertmanager:9093

rule_files:				#用于加载告警规则相关的文件路径的配置,可以使用文件名通配机制
  # - "first_rules.yml"
  # - "second_rules.yml"

scrape_configs:			#用于采集时序数据源的配置
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: "prometheus"		#每个被监控实例的集合用job_name命名,支持静态配置(static_configs)和动态服务发现的机制(*_sd_configs)

    # metrics_path defaults to '/metrics'
    metrics_path: '/metrics'    #指标数据采集路径,默认为 /metrics
    # scheme defaults to 'http'.

    static_configs:				#静态目标配置,固定从某个target拉取数据
      - targets: ["localhost:9090"]

3.3 Prometheus添加到系统服务中

#配置系统启动文件
cat > /usr/lib/systemd/system/prometheus.service <<'EOF'
[Unit]
Description=Prometheus Server
Documentation=https://prometheus.io
After=network.target

[Service]
Type=simple
ExecStart=/usr/local/prometheus/prometheus \
--config.file=/usr/local/prometheus/prometheus.yml \
--storage.tsdb.path=/usr/local/prometheus/data/ \
--storage.tsdb.retention=15d \
--web.enable-lifecycle
  
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure

[Install]
WantedBy=multi-user.target
EOF

启动

#启动 Prometheust
systemctl enable prometheus --now

netstat -natp | grep :9090

在这里插入图片描述

3.4 访问测试

浏览器访问:http://192.168.2.108:9090 ,访问到 Prometheus 的 Web UI 界面。
在这里插入图片描述

点击页面的 Status -> Targets;

如看到 Target 状态都为 UP,说明 Prometheus 能正常采集到数据。
在这里插入图片描述
在这里插入图片描述

浏览器访问:http://192.168.2.108:9090/metrics ,可以看到 Prometheus 采集的指标数据。

其中 Help 字段用于解释当前指标的含义Type 字段用于说明数据的类型

在这里插入图片描述

四、Exporters部署实例

4.1 实例一:部署 Node Exporter 监控系统级指标

Step1 准备源代码包

上传 node_exporter-1.3.1.linux-amd64.tar.gz 到 /opt 目录中,并解压。

tar xf node_exporter-1.3.1.linux-amd64.tar.gz

mv node_exporter-1.3.1.linux-amd64/node_exporter /usr/local/bin

Step2 将node-expoter添加到系统服务中

配置启动文件

cat > /usr/lib/systemd/system/node_exporter.service <<'EOF'
[Unit]
Description=node_exporter
Documentation=https://prometheus.io/
After=network.target

[Service]
Type=simple
ExecStart=/usr/local/bin/node_exporter \
--collector.ntp \
--collector.mountstats \
--collector.systemd \
--collector.tcpstat

ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure

[Install]
WantedBy=multi-user.target
EOF

启动

systemctl enable node_exporter --now

netstat -natp | grep :9100

在这里插入图片描述

浏览器访问:http://192.168.2.108:9100/metrics ,可以看到 Node Exporter 采集到的指标数据。
在这里插入图片描述

Step3 加入到 Prometheus 监控中

修改Prometheus配置文件

vim /usr/local/prometheus/prometheus.yml
#在尾部增加如下内容
  - job_name: nodes
    metrics_path: "/metrics"
    static_configs:
    - targets:
	  - 192.168.2.108:9100
	  - 192.168.2.100:9100
	  - 192.168.2.102:9100
      labels:
        service: kubernetes

在这里插入图片描述

重新载入配置

#方法一
systemctl reload prometheus

#方法二
curl -X POST http://192.168.2.108:9090/-/reload 

测试

浏览器查看 Prometheus 页面的 Status -> Targets
在这里插入图片描述
在这里插入图片描述

补充:常用的各指标

●node_cpu_seconds_total
●node_memory_MemTotal_bytes
●node_filesystem_size_bytes{mount_point=PATH}
●node_system_unit_state{name=}
●node_vmstat_pswpin:系统每秒从磁盘读到内存的字节数
●node_vmstat_pswpout:系统每秒钟从内存写到磁盘的字节数

更多指标介绍:https://github.com/prometheus/node_exporter

4.2 实例二:通过mysql exporter监控 MySQL

注:切换到Mysql服务器部署

Step1 部署mysql exporter

解压mysql exporter源码包

tar xf mysqld_exporter-0.14.0.linux-amd64.tar.gz

mv mysqld_exporter-0.14.0.linux-amd64/mysqld_exporter /usr/local/bin/

配置启动文件

cat > /usr/lib/systemd/system/mysqld_exporter.service <<'EOF'
[Unit]
Description=mysqld_exporter
Documentation=https://prometheus.io/
After=network.target

[Service]
Type=simple
ExecStart=/usr/local/bin/mysqld_exporter --config.my-cnf=/etc/my.cnf

ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure

[Install]
WantedBy=multi-user.target
EOF

Step2 修改Mysql的配置

修改Mysql的配置文件

vim /etc/my.cnf
[client]
......
host=localhost
user=exporter
password=abc123

在这里插入图片描述

授权 exporter 用户

#登录收据库
mysql -uroot -p123123

#授权
GRANT PROCESS, REPLICATION CLIENT, SELECT ON *.* TO 'exporter'@'localhost' IDENTIFIED BY 'abc123';

#刷新
flush privillages

在这里插入图片描述

重启mysqld服务

systemctl restart mysqld

在这里插入图片描述

Step3 启动mysqld_exporter服务

systemctl enable mysqld_exporter --now

netstat -natp | grep :9104

在这里插入图片描述

Step4 添加Mysql到Prometheus监控中

切换到Prometheus 服务器上操作。

修改 prometheus 配置文件,加入到 prometheus 监控中

yaml">vim /usr/local/prometheus/prometheus.yml
#在尾部增加如下内容
  - job_name: mysqld
    metrics_path: "/metrics"
    static_configs:
    - targets:
          - 192.168.2.106:9104
      labels:
        service: mysqld

在这里插入图片描述

重新载入配置

systemctl reload prometheus

Step5 查看Prometheus web界面

浏览器查看 Prometheus 页面的 Status -> Targets
在这里插入图片描述

4.3 实例三:监控Nginx

nginx-exporter下载地址:https://github.com/hnlq715/nginx-vts-exporter/releases/download/v0.10.3/nginx-vts-exporter-0.10.3.linux-amd64.tar.gz

nginx 下载地址:http://nginx.org/download/

nginx 插件下载地址:https://github.com/vozlt/nginx-module-vts/tags

Step1 安装nginx

下载并解压nginx插件包

cd /opt

tar xf nginx-module-vts-0.1.18.tar.gz
mv nginx-module-vts-0.1.18 /usr/local/nginx-module-vts

安装nignx

#安装依赖
yum -y install pcre-devel zlib-devel openssl-devel gcc gcc-c++ make
#管理用户
useradd -M -s /sbin/nologin nginx

#解压代码包
cd /opt
tar xf nginx-1.24.0.tar.gz

#编译安装
cd nginx-1.24.0/
./configure --prefix=/usr/local/nginx \
--user=nginx \
--group=nginx \
--with-http_stub_status_module \
--with-http_ssl_module \
--add-module=/usr/local/nginx-module-vts

make & make install

Step2 修改nginx的配置文件,启动nginx

修改nginx配置文件

vim /usr/local/nginx/conf/nginx.conf
http {
    vhost_traffic_status_zone;					#添加
    vhost_traffic_status_filter_by_host on;		#添加,开启此功能,在 Nginx 配置有多个 server_name 的情况下,会根据不同的 server_name 进行流量的统计,否则默认会把流量全部计算到第一个 server_name 上
	......
	server {
	......
	}
	
    server {
        vhost_traffic_status off;		#在不想统计流量的 server 区域,可禁用 vhost_traffic_status
        listen 8080;
        allow 127.0.0.1;
        allow 192.168.2.108;			#设置为 prometheus 的 ip 地址

        location /nginx-status {
            stub_status on;
            access_log off;
        }

        location /status {
            vhost_traffic_status_display;
            vhost_traffic_status_display_format html;
        }
    }
}

#假如 nginx 没有规范配置 server_name 或者无需进行监控的 server 上,那么建议在此 vhost 上禁用统计监控功能。否则会出现 127.0.0.1、hostname 等的域名监控信息。

在这里插入图片描述

在这里插入图片描述

ln -s /usr/local/nginx/sbin/nginx /usr/local/sbin/

nginx -t

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将nginx添加到系统服务中

cat > /lib/systemd/system/nginx.service <<'EOF'
[Unit]
Description=nginx
After=network.target

[Service]
Type=forking
PIDFile=/usr/local/nginx/logs/nginx.pid
ExecStart=/usr/local/nginx/sbin/nginx
ExecReload=/bin/kill -s HUP $MAINPID
ExecStop=/bin/kill -s QUIT $MAINPID
PrivateTmp=true

[Install]
WantedBy=multi-user.target
EOF

启动

systemctl enable nginx --now

在这里插入图片描述

浏览器访问:http://192.168.2.107:8080/status ,可以看到 Nginx Vhost Traffic Status 的页面信息
在这里插入图片描述

Step3 解压 nginx-exporter并启动

源码包

cd /opt/
tar -zxvf nginx-vts-exporter-0.10.3.linux-amd64.tar.gz

mv nginx-vts-exporter-0.10.3.linux-amd64/nginx-vts-exporter /usr/local/bin/

添加到系统服务

cat > /usr/lib/systemd/system/nginx-exporter.service <<'EOF'
[Unit]
Description=nginx-exporter
Documentation=https://prometheus.io/
After=network.target

[Service]
Type=simple
ExecStart=/usr/local/bin/nginx-vts-exporter -nginx.scrape_uri=http://localhost:8080/status/format/json

ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure

[Install]
WantedBy=multi-user.target
EOF

启动nginx-exporter服务

systemctl enable nginx-exporter --now

netstat -natp | grep :9913

在这里插入图片描述

Step4 将nginx加入到Prometheus监控中

切换到 Prometheus 服务器。

修改 prometheus 配置文件

yaml">vim /usr/local/prometheus/prometheus.yml
#在尾部增加如下内容
  - job_name: nginx
    metrics_path: "/metrics"
    static_configs:
    - targets:
          - 192.168.2.107:9913
      labels:
        service: nginx

在这里插入图片描述

重新载入配置

systemctl reload prometheus

Step5 访问Prometheus web页面

浏览器查看 Prometheus 页面的 Status -> Targets
在这里插入图片描述

五、部署 Grafana平台进行展示

5.1 下载和安装

#下载地址
https://grafana.com/grafana/download
https://mirrors.bfsu.edu.cn/grafana/yum/rpm/
yum install grafana-enterprise-8.5.9-1.x86_64.rpm

在这里插入图片描述

systemctl enable grafana-server --now

netstat -natp | grep :3000

在这里插入图片描述

浏览器访问:http://192.168.2.108:3000默认账号和密码为 admin/admin
在这里插入图片描述
在这里插入图片描述

5.2 配置数据源

Configuration -> Data Sources -> Add data source -> 选择 Prometheus

HTTP -> URL 输入 http://192.168.2.108:9090

点击 Save & Test

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

点击 上方菜单 Dashboards--->Import 所有默认模板

Dashboards -> Manage ,选择 Prometheus 2.0 Stats 或 Prometheus Stats 即可看到 Prometheus job 实例的监控图像

在这里插入图片描述
在这里插入图片描述

grafana_721">5.3 导入grafana监控面板

浏览器访问:https://grafana.com/grafana/dashboards

在页面中搜索 node exporter ,选择适合的面板,点击 Copy ID 或者 Download JSON

在这里插入图片描述
在这里插入图片描述

grafana 页面中,+ Create -> Import ,输入面板 ID 号或者上传 JSON 文件,点击 Load,即可导入监控面板

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述


http://www.niftyadmin.cn/n/5208775.html

相关文章

python pymodbus库使用教程(以Modbus RTU为例)

文档&#xff1a; https://pymodbus.readthedocs.io/en/latest/ 源码&#xff1a; https://github.com/riptideio/pymodbus/ 文章目录 Python PyModbus库使用教程&#xff1a;以Modbus RTU为例介绍安装PyModbus配置串行连接导入必要的模块创建Modbus客户端实例 建立连接连接…

QT 中的元对象系统

作为一名十几年的 C 程序员&#xff0c;最近一段时间使用 QT 开发程序&#xff0c;发现 QT 中还是有许多值得深入理解的技术。QT 不仅仅是一个应用程序开发框架&#xff0c;还有一些对标准 C 的扩充。本文和大家一起探讨 QT 中的元对象系统。 在分析 QT 中的元对象系统之前&…

MAV3D:从文本描述中生成三维动态场景

Singer U, Sheynin S, Polyak A, et al. Text-to-4d dynamic scene generation[J]. arXiv preprint arXiv:2301.11280, 2023. MAV3D 是 Meta AI 研究者们提出的一种从文本描述生成三维动态场景的方法。从所提供的文本生成的动态视频输出可以从任何摄像机位置和角度查看&#xf…

微服务实战系列之Feign

前言 不知不觉&#xff0c;“微服务实战系列”已完成了六篇&#xff0c;每篇都聚焦一个主题&#xff0c;目的是便于各位盆友能够快速、全面地接收和消化。 博主从服务注册到服务监控&#xff0c;从服务路由到服务安全&#xff0c;从身份认证到加密技术均有涉猎。凡此均有关微服…

第十五届蓝桥杯(Web 应用开发)模拟赛 1 期-大学组(详细分析解答)

目录 1.动态的Tab栏 1.1 题目要求 1.2 题目分析 1.3 源代码 2.地球环游 2.1 题目要求 2.2 题目分析 2.3 源代码 3.迷惑的this 3.1 题目要求 3.2 题目分析 3.3 源代码 4.魔法失灵了 4.1 题目要求 4.2 题目分析 4.3 源代码 5.燃烧你的卡路里 5.1 题目要求 5.2…

Co-DETR:DETRs与协同混分配训练论文学习笔记

论文地址&#xff1a;https://arxiv.org/pdf/2211.12860.pdf 代码地址&#xff1a; GitHub - Sense-X/Co-DETR: [ICCV 2023] DETRs with Collaborative Hybrid Assignments Training 摘要 作者提出了一种新的协同混合任务训练方案&#xff0c;即Co-DETR&#xff0c;以从多种标…

Python+jieba+wordcloud实现文本分词、词频统计、条形图绘制及不同主题的词云图绘制

目录 序言&#xff1a;第三方库及所需材料函数模块介绍分词词频统计条形图绘制词云绘制主函数 效果预览全部代码 序言&#xff1a;第三方库及所需材料 编程语言&#xff1a;Python3.9。 编程环境&#xff1a;Anaconda3&#xff0c;Spyder5。 使用到的主要第三方库&#xff1a;…

针对MySql知识的回顾

MySql虽然是一个相对简单的关系型数据库&#xff0c;但也是一个最常用的数据库&#xff0c;也是一个非常经典的数据库&#xff0c;很多云产品也是基于MySql做了二开&#xff0c;从而变得非常强大&#xff0c;其中MySql最常用的是Innodb引擎&#xff0c;因为该引擎支持事务&…