flink-user-zh mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "972684638" <daiji...@qq.com>
Subject 回复:Prometheus pushgateway 监控 Flink metrics的问题
Date Tue, 12 May 2020 02:21:53 GMT
我不清楚这算不算BUG,但是你说的问题,我确实遇到过,并经历了一段时间的排查,最终得以解决。
这跟metrics.reporter.promgateway.randomJobNameSuffix没有关系,建议你详细阅读一下pushgateway的官方文档,搞清楚推送方式GET和POST的区别。
然后去flink-metrics-prometheus包下面找到org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter#report这个方法,将它推送方式修改一下,重新打包,就可以了。很高兴能帮到你。
详细排查过程,参考我的文章:
https://daijiguo.blog.csdn.net/article/details/105453643






------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;"李佳宸"<lijiachen218@gmail.com&gt;;
发送时间:&nbsp;2020年5月12日(星期二) 上午8:57
收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;

主题:&nbsp;Prometheus pushgateway 监控 Flink metrics的问题



您好!

我在使用prometheus监控flink时发现一个问题不知是不是bug,反映如下

版本信息
Flink 1.9.1
Prometheus 2.18
pushgateway 1.2.0

问题:
配置
metrics.reporter.promgateway.randomJobNameSuffix为false后,部分metrics不能正确的push到pushgateway里。具体表现是,部分metrics(主要是jobmanager相关,如
flink_jobmanager_Status_JVM_CPU_Load
),无法持久的存在pushgateway中,频繁刷新发现指标一会儿消失,一会儿又出现。还有部分指标直接丢失了,如
flink_jobmanager_job_fullRestarts。

metrics.reporter.promgateway.randomJobNameSuffix设置为true时,功能是正常的。

以下是我的相关配置:
metrics.reporter.promgateway.class:
org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
metrics.reporter.promgateway.host: localhost
metrics.reporter.promgateway.port: 9091
metrics.reporter.promgateway.jobName: cluster1
metrics.reporter.promgateway.randomJobNameSuffix: *false*
metrics.reporter.promgateway.deleteOnShutdown: *false*

望能解决我的疑惑,谢谢~~~~
Mime
  • Unnamed multipart/alternative (inline, 8-Bit, 0 bytes)
View raw message