Header background

修復インテリジェンス:AI を活用したコンテキストとナレッジにより MTTR を短縮

収益、パフォーマンス、収益性を深く理解する上で、ツールやテレメトリとは関係のない、隠れた障壁があります。それは組織の知識、つまり数百の文書や個人用ノート、ダッシュボード、そしてエンジニアの頭の中に散在する修復ノウハウです。この暗黙的で十分に文書化されていない知識は、機械には認識できず、人間にとってもタイムリーに活用されることは稀です。そのため、高優先度のインシデントが発生すると、この知識のギャップにより、担当外の課題解決を任されたエンジニアで戦況室が埋まってしまうのです。

信頼性の高いビジネスクリティカルなアプリケーションを本番環境に提供することは、かつてないほど複雑化しています。現代のソフトウェアシステムの複雑さと細分化が進み、開発チームへの責任の移行(シフトレフト)が進む傾向にあるため、開発チームへの負担が増大しています。

実際、従来の開発チームはより広範な責任を担うようになり、多様な分野において高度なスキルと知識が求められています。これらのチームの責任範囲は、仕様策定、計画立案、テスト、リスク評価、コスト見積もり、デプロイメントから、負荷テスト、UIテスト、統合テスト、ソフトウェアサービスに対するオンコール対応にまで及びます。

開発チームは、あらゆる新しい技術スタック、クラウドリソース、品質保証手法に精通している必要がある一方で、数多くのツールも扱う必要があります。

修復プロセスにおける見えないボトルネック

シフトレフトの潮流全体が、運用責任を開発に近づけ、オンコール当番、より頻繁なデプロイ、稼働時間に対する高まる期待など、作業負荷を拡大させています。インシデントが発生すると、数十名のエンジニアが対策室に招集され、根本原因の分析を行います。

平均修復時間(MTTR)の短縮は、事業継続性と顧客満足度にとって不可欠です。適切なタイミングで適切な知識にアクセスできなければ、熟練したチームでさえ勢いを失います。重大なインシデントによる高圧的な状況下では、関連するすべての情報を関与する全役割と共有することがこれまで以上に重要になります。これには、情報を効果的に収集、分析、配布するための、利用可能な最も自動化され知的な手法が求められます。

オンコールエンジニアの体験

あるSREエンジニア、オマールを例に挙げましょう。ある夜、ルーチンアップデートがクラウド決済サービスのリクエスト失敗率を急上昇させたため、自動音声が彼を起こし、緊急対策室へ呼び出しました。これはP1インシデントです。刻一刻と、加盟店は収益を失い、サポート依頼は急増し、顧客からの苦情が相次いでいます。すでに数十名のカフェインを摂取したエンジニアが対策室に集結しています。

ログはタイムアウトを示していますが、これは単なる症状に過ぎません。真の問題は別の場所にあります。全てのメッセージや文書を読むには数時間を要するため、オマールは要約や主要な発見事項、自チームが担当するサービスに関する言及を素早く確認します。既に複数の仮説が検証されており、その一つがオマールチームが管理するバックエンドサービスに潜在的な問題がある可能性を示していました。一方、他のタイムゾーンからも顧客からの苦情が寄せられ始めています。決済サービスが機能不全に陥り、カスタマーサクセスマネージャーの不安は増すばかりです。

過去に同様の障害が発生したことはありますが、オマールは問題の解決方法に関する文書や知見を一切見つけることができません。

組織の知識が拡大しない理由

復旧の履歴が文書に依存し、チームや形式、プラットフォームに分散していると、エンジニアは解決ではなく検索に時間を浪費します。たとえ詳細に記録されたインシデントでも、将来のインシデントと断絶していれば再発を防げません。Backstageのような集中管理プラットフォームでさえ、適切なタイミングで適切なガイダンスを提供できなければ意味がありません。

この知識を体系的に特定し、再利用し、拡大する方法がなければ、知識は反応的なものに留まります。これは非効率であるだけでなく、インテリジェントな自動化と真に予防的な運用を構築する上での障害となります。これが隠れた障害であり、MTTRを静かに悪化させ、時間を浪費し、対応を遅らせ、真に重要なことから集中力を奪う埋もれた知識なのです。これが修復インテリジェンスが解決する課題です。

修復インテリジェンスのご紹介

Dynatrace は、複雑なアプリケーション環境における異常検出、根本原因の特定、インシデントの影響評価のための AI 駆動型ツールを DevOps チームに提供してきた長い歴史があります。過去 10 年間にわたり、アプリケーションの動作を学習し、依存関係をリアルタイムで分析することで、平均修復時間 (MTTR) の短縮に貢献してきました。

この基盤をさらに発展させ、Dynatrace は、アラートから解決に至るインシデント対応プロセスに新たな要素を追加する「修復インテリジェンス」を発表しました。これは、デイヴィス® AI による根本原因と影響の分析に、グローバルコミュニティの知識と社内の専門知識からの情報を組み合わせることで、エンジニアの修復作業を支援します。ログ、メトリクス、トレース、トポロジコンテキストなどのデータを 1 つのビューに統合し、インシデント後のレビューの文書化をサポートします。

Figure 1. The problems page displays all important information, allowing you to directly access all incident-relevant error logs.
図1. 問題ページには重要な情報がすべて表示され、インシデントに関連するすべてのエラーログに直接アクセスできます。

知識のギャップを埋める:組み込みのトラブルシューティング知識

Dynatrace の修復インテリジェンスを真に際立たせているのは、最も必要な瞬間に、関連する内部知識をプロアクティブに表面化させるその能力です。これは、問題アプリに AI による支援レイヤー を追加し、暗黙的な組織の知識をインシデント対応の流れに直接取り込むものです。問題が検出されると、デイヴィス AI は履歴データをスキャンし、類似の問題の解決に使用された過去の修復プレイブック、トラブルシューティングダッシュボード、ノートブックを表面化させます。

トラブルシューティングガイドでは、デイヴィス AI を基盤とした、状況認識型のガイダンスシステムを導入し、現在のインシデントを過去の解決方法と結びつけます。これにより、組織の知識をクエリ可能にし、修復パターンを再利用可能にし、対応担当者が不慣れな問題を解決する場合でも、すべての対応を効果的に行えるようになります。

Figure 2. Review related documents from similar past incidents.
図2. 過去の類似インシデントに関連するドキュメントを確認できます。

修復インテリジェンスは、最も関連性の高い修復の洞察を明らかにします。

インシデントが発生した場合、Dynatrace は技術的なインサイトを自動的に分析し、提示することに優れています。関連するすべてのシグナル(ログ、メトリクス、トレース、トポロジー)を収集し、1 つの首尾一貫した問題として整理します。断片的なアラートも、関連性のない症状もありません。AI によってキュレーションされた、構造化された 1 つのインシデントビューだけが表示されます。同時に、Dynatrace AI は、トラブルシューティングに関連するとマークされたすべてのドキュメントをスキャンします。高度な意味検索とベクトル埋め込み技術を用い、現在の問題との類似性に基づいて、最も関連性の高い過去のインシデント、ダッシュボード、メモ、事後検証レポートをランク付けし提示します。これは単なるキーワードマッチングではありません。Dynatraceはパターン、障害モード、システム間の関係性を理解し、問題ビュー内でランク付けされた高類似性のインシデントを表示します。

Figure 3. Example of a troubleshooting guide
図 3. トラブルシューティングガイドの例

可観測性から信頼性の高い自動化へ:コンテキスト認識型AIの力

回復力のある自己修復システムの未来は、可観測性、AI、組織的知見のシームレスな統合にあります。これらの要素が融合することで、信頼できる自動化の基盤が形成されます。これは単なるインシデントへの対応にとどまらず、そこから学び、適応し、最終的にはインシデントを完全に防止するシステムです。

このビジョンの核心にあるのはコンテキストです。効果的な自動修復は、問題の根本原因を正確に特定し、アプリケーションスタック全体への広範な影響を理解する能力にかかっています。しかし自動化は検知で終わりません。エンジニアが用いた修復戦略を収集・統合することで、Dynatraceは生きているナレッジベースを構築します。この組織的知見をAI駆動の根本原因分析と組み合わせることで、システムは実証済みの修復経路を再現し、精度を高めながら次のステップを提案できるようになります。

関連する全てのデータと知見が単一プラットフォームに統合されることで、エンジニアはシステム全体を一元的に把握できます。これにより手動での修復作業が効率化されるだけでなく、柔軟で状況認識能力を備えた自動修復の基盤が整います。解決するインシデントのそれぞれが知識を蓄積します。時間の経過とともにシステムが学習を重ねることで、反応型の自動化から予防型のインシデント防止へと進化し、問題が深刻化する前に予見し、先制的な対応を実行します。

これがダイナトレースが実現するビジョンです。エンジニアが自動化を単なる対応手段としてではなく、理解し、学び、改善する存在として信頼できる未来。あらゆるインシデントを、システムの知性と信頼性を高める一歩へと変える未来です。

チームを強化しましょう:苦労して得た運用上の知見を、拡張可能な修復力へと転換します

Dynatrace の修復インテリジェンスは、今すぐご利用いただけます。そのメリットを享受するには、Dynatrace の生成型 AI アシスタントである Davis CoPilot® をご利用ください。有効にした後、Davis CoPilot が、厳選された Dynatrace ドキュメント、具体的には、検出された問題から直接作成された、またはタイトルに [TSG](トラブルシューティングガイドの略)というプレフィックスが明確に付いているノートブックやダッシュボードから学習するように設定する必要があります。

Davis CoPilot は、お客様のチームによる過去の修正作業を分析・学習し、貴重な洞察や戦略を収集します。これにより、将来、同様のインシデントが検出された際に、関連するドキュメントやガイダンスをプロアクティブに提案し、エンジニアの迅速かつ効果的な対応を支援します。

Figure 4. Turn on Davis CoPilot in Settings.
図 4. 設定でデイヴィス CoPilot を有効にします。

Dynatrace にアップロードされるすべてのデータは、厳重に非公開とされます。すべてのデータおよび修正に関する知見は、お客様のテナント内に留まります。デイヴィス・コパイロットは、お客様のドキュメントを厳重に機密扱いとし、この情報を Dynatrace 環境外に共有または転送することは一切ありません。お客様のチームの知識は、非公開で安全に、お客様の管理下に完全に留まりながら、よりスマートでコンテキストを認識した自動化を実現します。

ドキュメントの提案とDynatraceの修復インテリジェンスについて、当社のドキュメントで詳しくご覧ください。また、関連するトラブルシューティングガイドの発見 方法や新規作成方法についてもご参照ください。

組織の知識を埋もれたままにしないでください。実用的なものにし、拡張性を備えたものにしてください。