观测器

云原生时代如何用Prometheus

发布时间:2022/7/14 14:07:20   

作者:拂衣

0

什么是性能压测可观测

CloudNative

可观测性包括Metrics、Traces、Logs个维度。可观测能力帮助我们在复杂的分布式系统中快速排查、定位问题,是分布式系统中必不可少的运维工具。

在性能压测领域中,可观测能力更为重要,除了有助于定位性能问题,其中Metrics性能指标更直接决定了压测是否通过,对系统上线有决定性左右,具体如下:

Metrics,监控指标

系统性能指标,包括请求成功率、系统吞吐量、响应时长

资源性能指标,衡量系统软硬件资源使用情况,配合系统性能指标,观察系统资源水位

Logs,日志

施压引擎日志,观察施压引擎是否健康,压测脚本执行是否有报错

采样日志,采样记录API的请求和响应详情,辅助排查压测过程中的一些出错请求的参数是否正常,并通过响应详情,查看完整的错误信息

Traces,分布式链路追踪用于性能问题诊断阶段,通过追踪请求在系统中的调用链路,定位报错API的报错系统和报错堆栈,快速定位性能问题点

本篇阐述如何使用Prometheus实现性能压测Metrics的可观测性。

压测监控的核心指标系统性能指标

压测监控最重要的个指标:请求成功率、服务吞吐量(TPS)、请求响应时长(RT),这个指标任意一个出现拐点,都可以认为系统已达到性能瓶颈。

这里特别说明下响应时长,对于这个指标,用平均值来判断很有误导性,因为一个系统的响应时长并不是平均分布的,往往会出现长尾现象,表现为一部分用户请求的响应时间特别长,但整体平均响应时间符合预期,这样其实是影响了一部分用户的体验,不应该判断为测试通过。因此对于响应时长,常用99、9、90分位值来判断系统响应时长是否达标。

另外,如果需要观察请求响应时长的分布细节,可以补充请求建联时长(ConnectTime)、等待响应时长(IdleTime)等指标。

资源性能指标

压测过程中,对系统硬件、中间件、数据库资源的监控也很重要,包括但不限于:

CPU使用率

内存使用率

磁盘吞吐量

网络吞吐量

数据库连接数

缓存命中率

......

详细可见《测试指标》[]一文。

施压机性能指标

压测链路中,施压机性能是容易被忽略的一环,为了保证施压机不是整个压测链路的性能瓶颈,需要

转载请注明:http://www.aideyishus.com/lkjg/887.html

------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章