prometheus丢数据调试与处理

阅读量：

背景：

influxdb数据旁路一份到prometheus后，prometheus的图有时延时很大，主要是在业务忙的时候，闲的时候是可以处理到数据的。而influxdb的数据是可以正常显示的。而且这时牛逼的google并帮不了忙，各种关键字去搜索都找不到相关的问题。

架构

调试过程

先去prometheus的web控制台看图。初看这个图感觉是没有问题的，数据是连续的。

仔细看，其实直线那段是没有数据有。用grafana配到同一个prometheus来看一下grafana的图长这样

在grafana是可以明显看到中间是丢了一段时间的。而且prometheus的图却是连续的。最开始我没有看出来。
把生产环境的docker部到自己的电脑，看控制台是没有问题的。所以猜想是生产环境的数据量过大，prometheus没处理过来引起的。
上去生产环境抓包，
先找一下prometheus和influxdb_exporter的ip。

复制代码

    docker exec -it prometheus ip addr show

输出如下：

prometheus用了eth0端口，ip:172.17.0.102

同样找出influxdb_exporter的ip:172.17.0.99

我们只抓这两台机器的包，免得其他的干扰：

复制代码

    tcpdump -i docker0 host 172.17.0.102 and 172.17.0.99

在13:32:28.162的时候prometheus发起握手，完了之后，发请求到influxdb_exporter拉数据
在13:32:32.112的时候influxdb_exporter发了数据包。然后prometheus接着就回了一下rst的包了。后面influxdb_exporter应该是还没收到prometheus的rst包，继续发第二段包。所以这个包prometheus是没有收到的。

找到prometheus的配置：

scrape_configs:
- job_name: ‘prometheus’
scrape_interval: 5s
static_configs:
- targets:
- “influxdb_exporter:9122”

配置了5s去influxdb_exporter抓一次数据。而prometheus发rst包的时候，差不多在4s的时间隔上。prometheus的5s配置包括了收包前后的处理和收包的过程，在13:32:32.112的时候就回rst，以免雪崩。
把配置改成10s，重新拉起服务。可以看数据正常了。

全部评论 (0)

还没有任何评论哟~

prometheus丢数据调试与处理

背景： influxdb数据旁路一份到prometheus后，prometheus的图有时延时很大，主要是在业务忙的时候，闲的时候是可以处理到数据的。而influxdb的数据是可以正常显示的。而且这时...

pandas处理丢失数据 None与np.nan

pandas处理丢失数据None与np.nan 有两种丢失数据： None np.nanNaN importnumpyasnp importpandasaspd frompandasimportSer...

Python数据处理015：Pandas 处理丢失数据

创建含NaN的矩阵有时候我们导入或处理数据,会产生一些空的或者是NaN数据,如何删除或者是填补这些NaN数据就是我们今天所要提到的内容. 建立了一个6X4的矩阵数据并且把两个位置置为空. dates...

Prometheus-09 prometheus的不足之处以及近实时性/数据丢失情况

prometheus的不足之处 Prometheus是一个功能强大的监控系统，但它也有一些不足之处。以下是一些常见的Prometheus不足之处: 1. 存储和水平扩展：Prometheus使用本地磁...

pandas（二）pandas处理丢失数据

[]http://localhost:8888/treedashboard Logout2pandasmissingvaluesLastCheckpoint:06/13/2018unsavedchan...

pandas-处理丢失的数据（dropna）

DataFrame.dropnaaxis=0,how='any',thresh=None,subset=None,inplace=False 参数解释： axis：参数确定是否删除包含缺失值的行或列 ...

Parallel.ForEach处理List导致数据丢失

是同一个dt，但执行之后的结果行数不同，代码如下： List<logisticsfreightbilltblinsertList1=newList<logisticsfreightbilltbl; f...

【Unity】ComputeShader丢失处理数据的bug

项目场景：提示：这里简述项目相关背景：在大量数据查找中总是莫名其妙地少了某些数据。问题描述提示：这里描述项目中遇到的问题： Dispatch调用问题解决方案：提示：这里填写该问题的具体解决...

redis数据丢失你怎么处理？

1\.两种数据丢失的情况主备切换的过程，可能导致数据丢失； 1.1.异步复制导致的数据丢因为masterslave的复制是异步的，所以可能有部分数据还没复制到slave，master就宕机了，此时...

网关数据丢失分析处理

0.防火墙问题如果系统是因为防火墙而丢包，表现的行为一般是所有的报文都无法正常接收,要排查的业务中只是部分相对少量丢包，认为非防火墙问题。（当然不排除防火墙只drop一部分报文的可能性。

是否确定退出登录?

prometheus丢数据调试与处理

背景：

架构

调试过程

全部评论 (0)

相关文章推荐

prometheus丢数据调试与处理

pandas处理丢失数据 None与np.nan

Python数据处理015：Pandas 处理丢失数据

Prometheus-09 prometheus的不足之处以及近实时性/数据丢失情况

pandas（二）pandas处理丢失数据

pandas-处理丢失的数据（dropna）

Parallel.ForEach处理List导致数据丢失

【Unity】ComputeShader丢失处理数据的bug

redis数据丢失你怎么处理？

网关数据丢失分析处理