可观测新能力:Pulsar 支持接入 Prometheus 监控

导语

本文给大家带来 Pulsar 在可观测性方向的重要能力——支持接入 Prometheus 监控。

通过阅读这篇文章,您将能了解到以下内容:

● 什么是 Prometheus?

● Pulsar 为什么要对接 Prometheus?

● 对接 Prometheus 的技术方案

● 如何使用该能力查看监控指标

什么是 Prometheus?

Prometheus 是一套开源的完整监控解决方案,不同于传统的运维监控工具,Prometheus 是面向容器和微服务的监控系统,采用基于时间序列的存储方式,监控采集更加精确,监控频率更高,和容器和微服务兼容性更好。随着目前容器和微服务的使用日趋广泛,Prometheus 的应用范围将会越来越广。

Prometheus 具有如下优势:

● 监控数据的精细程度高,采集精度可以达到1~5s。

● 集群部署速度和监控脚本制作快,大大缩短监控搭建的时间成本。

● 开源软件更新快,bug 修复快,周边插件丰富,到手即用,支持多种客户端开发语言。

● 本身基于数学计算模型,直接使用数学公式和数学函数,可以实现很复杂的业务逻辑监控。

● 结合 Grafana 展示图形,效果美观实用。

● 特别针对目前流行容器监控适配,采集深度大。

Pulsar 为什么要支持对接 Prometheus?

TDMQ Pulsar 专业集群商业化已一年有余,凭借其丰富的功能、出色的稳定性,赢得了众多用户的青睐。用户在使用的过程中,也提出了进一步的监管需求。大规模业务运行的客户,通常有一套自己的统一监控系统,而不会通过腾讯云的控制台查看集群运行情况。同时,客户也期望可以通过 Prometheus 的监控数据,对业务 Workload 进行及时地 HPA,使得整体线上运维更加自动化。

对此我们分析需求场景后,决定 Pulsar 专业集群需要支持外部 Prometheus 来采集监控数据。来达到以下两个产品化目标:

1、标准的 Prometheus 监控数据格式,实现后可以用自己的 Prometheus 通过我们提供的 Exporter 获取数据;

2、如通过 Grafana 配置 Prometheus 数据源,K8s 获取 Prometheus 数据来进行 Workload HPA 等。

设计方案

在设计层面,后续 TDMQ Pulsar 在监控方面将提供两种方案:

1.  原有的腾讯云一体的监控方案,TDMQ Pulsar 控制台监控 + 可观测平台配置告警。

2.  本次新增的 Prometheus 监控方案,在实现层面跟原有的方案完全不同。主要体现在两个方面:监控数据的采集链路和指标聚合。

腾讯云一体的监控方案中,监控指标的数据是在各数据流组件上报到统一的 Barad 监控平台,在该平台中进行了计算汇总,而后展示到了控制台,链路会更长,因为延迟会更大一些。 而在 Prometheus 监控方案,直接打通了用户 VPC 等网络,以实现用户可直接通过接入层提供的 Exporter 地址来抓取监控数据,链路更短,但需要用户来进行汇聚计算。

可观测新能力:Pulsar 支持接入 Prometheus 监控

使用指引

1.  登录 TDMQ 控制台。

2. 在左侧导航栏选择集群管理,单击目标集群实例的“ID”,进入实例基本信息页面。

3. 点击进入监控信息 Sheet 页。

4.  在右上角点击 Prometheus 监控入口获取 按钮的获取监控目标,选择相应的网络类型及网络配置。

可观测新能力:Pulsar 支持接入 Prometheus 监控

5.  单击提交,获取一组监控目标。

可观测新能力:Pulsar 支持接入 Prometheus 监控

6.  修改配置文件 prometheus.yml,增加 node_exporter 抓取任务。

job_name: prometheus-tdmq-pulsar
honor_timestamps: true
scrape_interval: 60s
metrics_path: /tencent-cloud-metrics/
scheme: http
static_configs:
- targets:
  - 10.x.x.x:1000110.x.x.x:10002

● honor_timestamps,设置为 true 时,Prometheus 将使用 Exporter 提供的指标时间戳,而不是使用 Prometheus 服务器接收到指标的时间戳。

● scrape_interval,为抓取监控度量数据的频率,目前的监控指标是分钟级的。

● metrics_path,获取监控指标的路径,请设置为 /tencent-cloud-metrics/。

● scheme,配置访问资源的协议,当前仅支持 http。

7.  访问相应可视化界面,查看配置监控指标。

原文链接:https://juejin.cn/post/7358446362574733322 作者:腾讯云中间件

(0)
上一篇 2024年4月17日 下午5:09
下一篇 2024年4月18日 上午10:00

相关推荐

发表回复

登录后才能评论