云原生时代如何用Prometheus_观测器市场

当前位置： 观测器 >> 观测器市场 >> 云原生时代如何用Prometheus

云原生时代如何用Prometheus

发布时间:2022/7/14 14:07:20

作者：拂衣

什么是性能压测可观测

CloudNative

可观测性包括Metrics、Traces、Logs个维度。可观测能力帮助我们在复杂的分布式系统中快速排查、定位问题，是分布式系统中必不可少的运维工具。

在性能压测领域中，可观测能力更为重要，除了有助于定位性能问题，其中Metrics性能指标更直接决定了压测是否通过，对系统上线有决定性左右，具体如下：

Metrics，监控指标

系统性能指标，包括请求成功率、系统吞吐量、响应时长

资源性能指标，衡量系统软硬件资源使用情况，配合系统性能指标，观察系统资源水位

Logs，日志

施压引擎日志，观察施压引擎是否健康，压测脚本执行是否有报错

采样日志，采样记录API的请求和响应详情，辅助排查压测过程中的一些出错请求的参数是否正常，并通过响应详情，查看完整的错误信息

Traces，分布式链路追踪用于性能问题诊断阶段，通过追踪请求在系统中的调用链路，定位报错API的报错系统和报错堆栈，快速定位性能问题点

本篇阐述如何使用Prometheus实现性能压测Metrics的可观测性。

压测监控的核心指标系统性能指标

压测监控最重要的个指标：请求成功率、服务吞吐量(TPS)、请求响应时长(RT)，这个指标任意一个出现拐点，都可以认为系统已达到性能瓶颈。

这里特别说明下响应时长，对于这个指标，用平均值来判断很有误导性，因为一个系统的响应时长并不是平均分布的，往往会出现长尾现象，表现为一部分用户请求的响应时间特别长，但整体平均响应时间符合预期，这样其实是影响了一部分用户的体验，不应该判断为测试通过。因此对于响应时长，常用99、9、90分位值来判断系统响应时长是否达标。

另外，如果需要观察请求响应时长的分布细节，可以补充请求建联时长(ConnectTime)、等待响应时长(IdleTime)等指标。

资源性能指标

压测过程中，对系统硬件、中间件、数据库资源的监控也很重要，包括但不限于：

CPU使用率

内存使用率

磁盘吞吐量

网络吞吐量

数据库连接数

缓存命中率

......

详细可见《测试指标》[]一文。

施压机性能指标

压测链路中，施压机性能是容易被忽略的一环，为了保证施压机不是整个压测链路的性能瓶颈，需要

转载请注明:http://www.aideyishus.com/lkjg/887.html

------分隔线----------------------------

上一篇文章： ECMO凝血功能的监测及管理
下一篇文章：天然气使用安全常识永年人,报警器及

热点文章

没有热点文章

云原生时代如何用Prometheus

最新文章

热点文章

推荐文章