现象 测试节点失联自恢的程序时发现一个异常现象,失联的节点cpu使用率超过60%,实际上测试节点什么程序都没跑,cpu使用率接近0。 原因 该节点每分钟刮取一次监控数据,5分钟取得5个数据点,计算CPU使用率使用的公式是5分钟均值: 1 - (rate(node_cpu_seconds_total{mode="idle",instance="192.168.1.1"}[5m])) 节点从失联到自恢用了3-4分钟,这样5分钟之内每分钟少一个数据,除法的分母减1,得到的商就会变大,将计算区间从5m改成2m误差就小了。