Purple background

SRE(网站可靠性工程)

赋能 SRE 团队,通过全栈可观测性和实时洞察,提升系统可用性、性能和用户体验,并主动解决问题。

SRE 现状报告

我们邀请了 450 位 SRE 工程师分享他们对于所面临挑战的看法,以及 SRE(网站可靠性工程)作为一门学科的发展方向。

下载我们的免费报告,了解详情:

  • 88% 的受访者表示,与三年前相比,他们现在对自身角色的战略重要性有了更深刻的理解。
  • 99% 的受访者在定义和创建 SLO 以评估应用程序和基础设施的服务级别时会遇到挑战。
  • 到 2025 年,85% 的受访者希望在从开发到运维和安全的整个流程中都采用相同的可观测性平台。

下载免费报告

地区/地点
 
省市
 
提交此表格即表示我同意接收来自 Dynatrace LLC 及其当地子公司的电子邮件通讯。我了解,我可以随时 取消订阅。有关详细信息,请参阅 Dynatrace 的隐私政策

利用可观测性和安全洞察推动 SRE 的发展

  • 提升生产环境的稳定性与可靠性

    通过 Site Reliability Guardian 应用,降低风险,并确保对具有关键依赖关系的应用程序、服务和基础设施所做的任何变更,都能依据关键指标、服务级别目标 (SLO) 和安全数据进行评估。

  • 缩短平均修复时间 (MTTR)

    将可观测性数据的分析结果与自动化工作流程相结合,智能协调修复和事件管理工作流程。了解问题根源,加速分诊与问题解决。

  • 强化主动性

    利用服务级别目标 (SLO) 和错误预算,主动监控关键指标,在发生任何违规行为之前采取行动。确保所有服务水平协议 (SLA) 得到有效管控,让业务顺畅运行。

我们监控的常见 SLO

Dynatrace 可监控多种服务级别目标 (SLO),包括:

常见业务 SLO

  • 可用性:用户是否可以使用服务?
  • 参与度:用户参与度如何?
  • 转化率:用户达成我方业务目标的转化率是多少?
  • 用户满意度 (ApDex):用户对我方应用程序性能的满意度如何(0-1 分)?

常见性能 SLO

  • 利用率:资源用于处理工作的平均时间
  • 成功率:成功次数与总请求数的比率
  • 响应时间:处理请求所需的时间
  • 饱和度:最为受限的资源状态
  • 流量:衡量系统要满足的需求量

移动应用程序的常见 SLO

  • 应用程序采用率:日活用户占比
  • 可用性:有效响应请求的比率
  • 应用程序评分:基于 Android 或 iOS 应用商店的评分
  • 响应时间:登录请求中响应时间快于 100 毫秒的比率
  • 崩溃情况:官方支持设备上的崩溃率
  • 成功率:成功请求所占比例

SRE 的优势

利用 SRE 推动自动化并保持系统可靠性,可为整个企业带来显著效益。

  • 缩短平均修复时间 (MTTR)
  • 提升可用性和正常运行时间
  • 提高工程效率
  • 提升客户满意度 (CSAT)
  • 提高客户留存率

专家洞察