How site reliability engineering affects organizations’ bottom line?

According to the emerging trends from the global shift towards web-based interactions, IT infrastructure performance has a dramatic impact on the organizations’ bottom-line business goals. Uptime Institute’s 2022 Outage Analysis report found that over 60% of system outages resulted in at least $100,000 in total losses, up from 39% in 2019. More than one in seven outages cost more than $1 million.

What is the goal of “five-nines” availability?

The guiding principle of SRE has long been “five-nines” availability, meaning systems are operative 99.999% of the time. As organizations distribute workloads among a greater number of cloud environments, that goal has become harder to attain because more variables are involved in the computing equation. The growing amount of data processed at the network edge, where failures are more difficult to prevent, magnifies complexity.

How to align site reliability goals with business objectives?

SRE best practices align objectives with business outcomes. The following three metrics are commonly used to measure success: Service-level agreements (SLAs); Service-level objectives (SLOs); Service-level indicators (SLIs).

What are SRE best practices?

Let’s break down SRE best practices into the following five major steps: Start looking for signals; Identify KPIs; Establish SLOs; Identify key stakeholders; and Automate workflows wherever possible.

サイト信頼性を正しく実現する：ビジネス目標を達成する5つのSREベストプラクティス

公開日 2023年5月31日更新日 2025年4月8日読了時間 7分

サイフ・グンジャ

DevOps

サイト信頼性エンジニアリングは、デジタルトランスフォーメーションの恩恵を求める組織にとって重要な分野として台頭しています。

現代のデジタルトランスフォーメーションの進展に歩調を合わせるには、複雑化が進む中でもアプリケーションが応答性が高く、回復力があり、常に利用可能な状態を保つことが求められます。その結果、サイト信頼性は多くの組織にとって重要な成功指標として台頭してきました。

サイト信頼性エンジニアリング（SRE）は、近年、世界がウェブベースの相互作用へと移行する中で、重要な分野として台頭してまいりました。米国におけるモバイル小売電子商取引の支出額は、2022年に3,870億ドルを超え、3年前の数値の2倍以上に達しております。オンラインで予約される旅行支出の総額は、2021年の8,000億ドルから2027年までに約1.5兆ドルに達すると予測されています。取引の多くがオンラインで行われる中、顧客はますます要求が厳しくなり、ウェブサイトやアプリケーションが常に完璧に機能することを期待しています。最近の調査では、32％の顧客がたった1回の悪い体験で愛用ブランドから離れることが明らかになりました。ウェブサイトの読み込み時間はコンバージョン率と直接的な相関関係があることも判明しています。

この変化により、サービスの信頼性と回復力を保証するため、サイト信頼性エンジニア（SRE）を採用する組織が増えています。しかし、SREの成熟度への移行は必ずしも容易ではありません。

サイト信頼性エンジニアリングが組織の収益に与える影響

SREはソフトウェアエンジニアリングの手法を、オンプレミス環境とクラウド環境の両方におけるインフラ管理に応用します。この手法では、アジャイル開発チームと緊密に連携しながら継続的な監視と高度な自動化を活用し、アプリケーションの高可用性と摩擦のない動作を確保します。

ウェブベースのインタラクションへの世界的な移行から浮かび上がる新たな傾向によれば、ITインフラのパフォーマンスは組織の収益目標に劇的な影響を及ぼします。アップタイム・インスティテュートの2022年システム停止分析レポートによれば、システム停止の60％以上が総損失額10万ドル以上をもたらしており、2019年の39％から増加しています。7件に1件以上の停止が100万ドル以上の損失を発生させています。

組織が複数のデータセンターやクラウドにコンピューティング基盤を拡大するにつれ、信頼性の高い稼働時間と一貫したサービス品質の維持はより複雑化しています。マイクロサービスベースのアーキテクチャとソフトウェアコンテナにより、組織はかつてない速度でアプリケーションの展開や変更が可能になりました。しかし、クラウドの複雑化がソフトウェアデリバリーを困難にしています。アプリケーションのパフォーマンスと可用性に影響を与えるアプリケーション、ツール、インフラストラクチャの変数が大幅に増加しているのです。

これらの要因間の相互作用を理解することは、新リリースを本番環境に投入するかどうか、またそのタイミングを決定する上で大きく影響します。そのため、SREチームとDevOpsチーム間の良好なコミュニケーションが重要です。サービスレベル目標（SLO）の検証プロセスを自動化・加速化し、サービスレベル指標（SLI）の退行に迅速に対応することで、SREはソフトウェアデリバリーとイノベーションを加速させることができます。

「99.999%」可用性の目標を理解する

SREの指針となる原則は、長らく「99.999%」の可用性、つまりシステムが99.999%の稼働率を維持することでした。組織がより多くのクラウド環境にワークロードを分散させるにつれ、この目標の達成は困難になっています。計算式に関わる変数が増えたためです。障害の予防がより困難なネットワークエッジで処理されるデータ量の増加が、複雑さを増幅させています。

可視性と自動化は、SREにおいて最も重要なツールの二つです。Dynatraceの2022年グローバルCIOレポートによると、IT部門のトップ幹部の71%が、クラウドネイティブ技術スタックによって生成されるデータの爆発的増加は人間の管理能力を超えていると回答し、4分の3以上が自社のIT環境は1分ごと、あるいはそれ以下の頻度で変化していると述べています。ここから得られる教訓は明らかです。IT環境は今や、自動化とAIなしでは管理できないほど複雑化しています。これらの能力がなければ、ファイブナインズの可用性を達成することはほぼ不可能になるでしょう。

サイト信頼性目標とビジネス目標の整合性

このため、SREのベストプラクティスでは目標をビジネス成果と整合させます。成功を測定するために一般的に使用される指標は以下の3つです：

サービスレベル契約（SLA）。これらの指標は、サービスプロバイダーと顧客の間で合意された、特定の測定可能なサービスレベルが提供されることを保証するものです。
サービスレベル目標（SLO）。これらの 指標は、SLAを達成するために各活動、機能、プロセスで達成すべき要素とサービスレベルです。これには、コンバージョン率などのビジネス指標や、基盤となるCPU稼働率などの技術的測定値が含まれます。通常、稼働率99.5%など、パーセンテージで表されます。
サービスレベル指標（SLI）。最も基礎的なレベルにおいて、SLIはシステム全体のサービス可用性、レイテンシ、パフォーマンス、キャパシティを可視化するものです。

5つのSREベストプラクティス

SREのベストプラクティスを以下の5つの主要なステップに分解してみましょう：

1. シグナルの探索を開始する

まず、GoogleのSREハンドブックで最初に提唱された「4つの黄金のシグナル」の監視から始めます：

レイテンシー：リクエストを処理するのにかかる時間
トラフィック：ネットワーク全体のリクエスト総数
エラー：失敗したリクエストの数
サチュレーション：ネットワークおよびサーバーへの負荷

2. KPIの特定

次に、ビジネスにとって重要な主要業績評価指標（KPI）のリストを作成します。これには、検索クエリ参照への応答時間、ページ読み込み時間、エラーメッセージの頻度などの技術的指標が含まれる場合があります。また、パフォーマンスの影響を受けるビジネス指標、例えばショッピングカートの放棄率や顧客あたりのページビュー数なども含まれる可能性があります。

3. SLOの設定

KPIを基に、SLOのリストを作成します。重要なのは「少ないほど良い」という点です。SLOはSLAやビジネス目標に直接関連している必要があります。SLOを過剰に定義すると、明確なビジネス効果なしに作業量が増加します。

SLOは現実的な水準に設定してください。SLA違反を避けるために意図的に低く設定すると、システムがユーザー体験に与える影響を正確に把握できません。逆に高すぎると、わずかな改善効果に対してコストと労力が増大する可能性があります。

4. 主要なステークホルダーの特定

SLAとSLOが現実的であることを確認したら、ステークホルダーの選定を開始します。例えば、顧客パネルがサービス品質やパフォーマンスに関するフィードバックを提供する場合があります。ビジネスステークホルダーは、過去のデータ傾向を用いてSLOがビジネス成果とどのように関連するかを理解できます。全員がSLO目標について合意する必要があります。さもなければ、組織はSLAを達成できないリスクを負うことになります。

5. 可能な限りワークフローを自動化する

デジタルトランスフォーメーションが求めるビジネスアジリティを実現するには、自動化が不可欠です。強力な可観測性ソリューションは関連するSLIを収集し、SLOを自動的に評価します。さらに、SLO違反前に自動的にアラートを生成し、多くの問題を自動修復することさえ可能です。自動化により、開発者が運用チームを介さずにコードデプロイに関する意思決定を行えるよう、ツールを直接利用できるようになります。

Site Reliability GuardianによるSREベストプラクティスの自動化

Dynatraceは、カスタム対応・コンプライアンス対応・インテリジェントなデータ駆動型アプリケーション構築のための新たなAppEngineローコードツールセットを2023年初頭に展開する一環として、自動化された変更影響分析を実現するSite Reliability Guardian（SRG）を導入いたしました。

AppEngineは、可観測性、セキュリティ、ビジネスデータを完全なコンテキストと依存関係マッピングで統合する独自のソリューションであり、インテリジェントなアプリケーションと統合の構築を簡素化します。これにより、チームは初めて因果関係AIを活用し、特定のユースケース要件に対応するカスタマイズされたアプリケーションを実現できます。

SRGは変更影響分析を自動化することで、DynatraceプラットフォームのSRE向け価値を強化します。レイテンシー、トラフィック、エラー率、飽和状態、セキュリティカバレッジ、脆弱性リスクレベル、メモリ消費量などのメトリクスにおいて、過去に観測された動作からの退行や逸脱を検出します。

SRGはまた、DevOpsチームにとってDynatraceプラットフォームの価値を高めます。本番環境移行前の環境でリリース検証を自動化し、高品質かつ高度にセキュアなソフトウェアのみが本番環境に移行することを保証します。SRGが主要な目標やメトリクスの違反を検出した場合、CI/CDパイプラインツールはアーティファクトのデリバリーを停止できます。

重要なサービスやアプリケーションごとに、SRGはデプロイや構成変更の前後に、ゴールデンシグナルの自動監視、SLOの検証、セキュリティ脆弱性の調査を実行します。必要に応じてサービスおよびアプリケーションの所有者へ対象を絞った通知を送信することも可能です。これにより、DevOpsチームはより安全でセキュアなリリースを実現し、SREの負担軽減につながります。

サイト信頼性への注力

データ駆動型の意思決定によって推進されるデジタルビジネスへの移行を進める組織にとって、SREは習得すべき重要な分野です。ビジネス目標との緊密な連携と自動化により、組織はデジタルプレゼンスをプロアクティブに監視し、最高レベルの可用性、応答性、顧客体験を確保することが可能になりました。

SREが直面する課題と組織の取り組みについて詳しく知りたい方は、無料の「SREの現状レポート」をダウンロードください。

今すぐレポートをお読みください！