当前位置: 观测器 >> 观测器市场 >> 云原生时代如何用Prometheus
作者:拂衣
0什么是性能压测可观测
CloudNative
可观测性包括Metrics、Traces、Logs个维度。可观测能力帮助我们在复杂的分布式系统中快速排查、定位问题,是分布式系统中必不可少的运维工具。
在性能压测领域中,可观测能力更为重要,除了有助于定位性能问题,其中Metrics性能指标更直接决定了压测是否通过,对系统上线有决定性左右,具体如下:
Metrics,监控指标
系统性能指标,包括请求成功率、系统吞吐量、响应时长
资源性能指标,衡量系统软硬件资源使用情况,配合系统性能指标,观察系统资源水位
Logs,日志
施压引擎日志,观察施压引擎是否健康,压测脚本执行是否有报错
采样日志,采样记录API的请求和响应详情,辅助排查压测过程中的一些出错请求的参数是否正常,并通过响应详情,查看完整的错误信息
Traces,分布式链路追踪用于性能问题诊断阶段,通过追踪请求在系统中的调用链路,定位报错API的报错系统和报错堆栈,快速定位性能问题点
本篇阐述如何使用Prometheus实现性能压测Metrics的可观测性。
压测监控的核心指标系统性能指标压测监控最重要的个指标:请求成功率、服务吞吐量(TPS)、请求响应时长(RT),这个指标任意一个出现拐点,都可以认为系统已达到性能瓶颈。
这里特别说明下响应时长,对于这个指标,用平均值来判断很有误导性,因为一个系统的响应时长并不是平均分布的,往往会出现长尾现象,表现为一部分用户请求的响应时间特别长,但整体平均响应时间符合预期,这样其实是影响了一部分用户的体验,不应该判断为测试通过。因此对于响应时长,常用99、9、90分位值来判断系统响应时长是否达标。
另外,如果需要观察请求响应时长的分布细节,可以补充请求建联时长(ConnectTime)、等待响应时长(IdleTime)等指标。
资源性能指标压测过程中,对系统硬件、中间件、数据库资源的监控也很重要,包括但不限于:
CPU使用率
内存使用率
磁盘吞吐量
网络吞吐量
数据库连接数
缓存命中率
......
详细可见《测试指标》[]一文。
施压机性能指标压测链路中,施压机性能是容易被忽略的一环,为了保证施压机不是整个压测链路的性能瓶颈,需要
转载请注明:http://www.aideyishus.com/lkjg/887.html