2024年のCrowdStrikeインシデントは、ITの停止に対する社会の脆弱性を明らかにしました。欠陥のあるソフトウェアアップデートが広範囲にわたる問題を引き起こし、航空会社、銀行、病院、公共の安全システムなど、世界中の重要なサービスに影響を与えました。コンテナ、Kubernetes、プラットフォームエンジニアリングなどの最近の進歩にもかかわらず、エンタープライズソフトウェアサービスの管理がますます複雑になっていることは明らかです。IT運用は、混乱に迅速に対処し、その影響を軽減して、ビジネスの継続性を確保し、被害を最小限に抑える準備をしておく必要があります。
AI、特にAIOpsは、ダウンタイム回避を約束する重要な解決策として台頭しています。2024年AI動向レポートはこの傾向を強調しており、技術リーダーの89%が、AIがパフォーマンス監視やワークロードスケジューリングといった様々なタスクの自動化と最適化を学習することで、インシデント対応を大幅に強化すると予測しています。

AIOpsは、過去の事例から学習し、リアルタイムで大量のデータを分析することで、潜在的な問題を重大なインシデントに発展する前に特定・対処できます。このアプローチは運用効率と回復力を向上させますが、欠点がないわけではありません。IT 環境の複雑さと脅威の絶え間ない変化により、予期せぬ課題に対処し、最適なパフォーマンスを確保するためには、人間の監視と AIOps システムの継続的な調整が必要となります。さらに、履歴データに基づく予測は、過去の情報のみに基づいて将来の事象を予測する反応的なものであり、すべての新規または新たな問題を予防することはできません。この制限は、IT 運用および AIOps 戦略における継続的な革新と適応の重要性を浮き彫りにしています。
「反応型運用から予防型運用への移行は、AIOpsの次の進化を象徴しています。」
Dynatrace CTO ベルント・グライフェネダー
10 年以上前に、Dynatrace が Davis® AI を導入し、AI 駆動の運用を先駆けて開始したとき、当社はまず問題の特定に注力し、その後、問題の修正に移りました。Davis AI の機能強化における次のマイルストーン、つまり AI 駆動の運用における新たな先駆的な一歩は、問題の完全な予防です。このブログ記事では、最新のデイヴィス AI の進歩によって強化された、因果関係、予測、生成の AI を独自に組み合わせることで、Dynatrace のお客様が IT インフラストラクチャを管理、最適化する方法にどのような変化が生まれているかを説明いたします。
自動的な根本原因の検出
現代的な複雑で分散化された環境では、膨大な数のイベントが発生します。そのため、問題の総数を最小限に抑え、誤検知を排除し、正確な根本原因分析を行うなど、追加の要件が必要となります。
Dynatrace は、根本原因を正確に分析し、関連イベントを特定することで長年にわたり高い評価を得ております。他の手法は通常、単なる相関関係や履歴データの分析に依存していますが、当社は、履歴データの分析に加え、データの取り込みおよび処理中に自動的に収集されるコンテキスト情報を活用する因果分析を導入することで、その機能をさらに強化しております。これは、常に最新の状態に保たれるトポロジモデルにすべてのデータを統合する、当社の因果関係データレイクハウスであるDynatrace Grail™ を使用して実現されています。因果関係 AI をリアルタイムで受信データに適用することで、デイヴィスは瞬時に学習し、新しい情報に継続的に適応します。これにより、季節的な異常の特定や自動適応しきい値の設定など、より正確な根本原因の分析と異常検出が可能になります。

このデイヴィスの根本原因検出を自社の IT 環境に適用すると、デイヴィスは流入するデータのノイズの 99.9% 以上を効果的に除去し、毎日発生する数十万ものシステムイベントを、IT 運用チームの注意を必要とする 4、5 件以下のインシデントに集約します。
これらのアルゴリズムは、IT 環境の監視だけに限定されているわけではありません。2025年2月に開催された、AI による洞察を用いた探索的分析に関する Dynatrace Perform セッションでは、ヨーロッパで 370 以上の店舗を展開する世界最大級の家具小売業者である XXXLutz のパフォーマンスエンジニアリングリーダーが、XXXLutz が Davis AI を活用して重要な注文の減少を事前に特定し、変化する市場の状況に迅速かつ効果的に対応し、ビジネスの俊敏性と顧客ニーズへの対応力を確保している方法についてご説明しました。
問題の発生から対応までの流れと事後対応
Dynatrace の問題修正の中核となるのは、運用担当者、SRE、開発者向けに、検出された各問題に関する確固たるインサイト、詳細、コンテキストを最適化したビューで表示する「問題」アプリです。このアプリは、各インシデントのトポロジーや影響を受けたエンティティなど、数十億行のログをフィルタリングして、効率的な問題の優先順位付けとトラブルシューティングを行い、重大なインシデントの平均修復時間 (MTTR) を 56% 短縮します。
最新リリースでは、関連するログとトレースデータの自動接続を改善し、さらに詳細な分析を可能にし、問題の完全なコンテキストを 1 つのビューで表示することで、これをさらに推進しています。これにより、複雑なアーキテクチャでも包括的な可視性が得られ、関連する詳細の調査やコードレベルの問題への対処プロセスが簡素化され、100 回のクリックと手動によるフィルタリングが、コンテキストを損なうことなく 1 回のクリックに削減されます。

Davis CoPilot™ を利用することで、複数の問題の比較分析、個々の問題の自然言語による要約の取得、具体的な修正手順とともに状況に応じた推奨事項の取得が可能になります。
また、ノートブックで作成されたトラブルシューティングガイドを修正済みの問題に関連付けることで、インテリジェントなナレッジベースを構築することも可能です。デイヴィスは、追加のドキュメントや保存されたワークフローを自動的に関連付けます。そのため、次に同様の問題が発生した場合、デイヴィスは関連ガイドを表示し、チームが過去の経験から学ぶことを可能にし、知識の損失のリスクを軽減します。

AI による洞察のための問題の利用、およびDavis CoPilot の最新の開発状況に関する詳細については、当社の最近のブログ記事をご覧ください。
修正の自動化
包括的なインサイトを得ることは有益ですが、真の変化は、修正手順を自動的に実行するツールを使用することによって生じます。このような「AI 駆動の運用」を実現するには、容量需要、潜在的なシステム障害、セキュリティインシデントなど、将来の要件を予測することが不可欠です。
従来の予測エンジンは、通常、メトリクスに保存されている履歴データに依存しています。一方、Davis AI はリアルタイムの予測を生成し、予防的な運用を促進します。この機能は、Davis がログなどの生データを予測のために処理し、Grail を活用してこれまで実現できなかったクエリを実行する能力によるものです。
たとえば、自動化に関連する値を特定するために、まずログを取得して分析するとします。このタスクが完了したら、パイプラインツールを使用して、これらの値をメトリクスに抽出する取り込みルールを設定し、予測エンジンがワークフローのトリガーとなるアラートを生成するまで数週間待ちます。
しかし、異常検出および予測機能を統合した Dynatrace を利用すると、スキーマレスのデータ分析と、あらゆる生データをリアルタイムで時系列データに処理できるという利点があります。これにより、AIOps ワークフローの確立に必要な時間が数週間から 30 分未満に大幅に短縮されます。
予防的な運用
現代のソフトウェア環境の複雑さにより、テストのみによるサービスの信頼性判断は困難です。例えば、100万件のチケットを生成してパフォーマンス能力を評価するようなシナリオをエミュレートすることは非現実的です。そのため、問題発生後の対応や担当者に通知するアラート発出ではなく、リアルタイムの洞察と運用が求められます。
予防的な運用は、予知保全と同様に、問題が発生する前に予防的な是正措置を講じることで、このニーズに対応します。AI を活用した異常検出機能は、標準から逸脱したパラメータを特定し、自動的な設定調整によって潜在的な問題を事前に軽減します。

デイヴィス CoPilot は、「3 つの力」を組み合わせています。
- 異常の特定と根本原因の分析のためのデイヴィスの因果関係 AI
- 正確な予測と対応時期の決定のためのデイヴィスの予測 AI
- 単なる通知の送信やサービスの再起動以上のアクションを実行する生成型 AI 機能
このように、Dynatrace は AIOps を従来の IT 運用タスクの枠を超えて拡張し、脅威の可観測性などのセキュリティユースケースを含む複雑なシナリオに対応します。以下の実例をご覧ください。
ダイナトレースでは、すべてのログイン失敗試行を記録しております。異常なパターンが検出された場合、季節ベースラインを活用することで潜在的な脅威を予測し、セキュリティイベントを発生させることが可能です。その後のワークフローでは、IPアドレスの確認と脅威スコアの生成が行われます。一定の閾値に達すると、ウェブアプリケーションファイアウォールに新たなルールセットが自動的に追加されます。このプロセス全体は完全に自動化されており、問題が発生する前に実行されるため、対応時間を1時間以上からわずか数秒に大幅に短縮しております。
別の事例では、アプリケーションログを自動解析するログパターン分析により、本番環境のバグ発生数が15%減少しました。これにより、本番環境移行前のログ分析やトリアージに費やされていた時間が解放され、フルタイム従業員17名分に相当するリソースが確保されました。結果として、これらの17名の開発者は、Dynatraceへのさらなる価値提供に注力できるようになりました。
まとめ
「AIの現状」レポートによれば、88%以上の技術リーダーが、AIによってインシデント対応が強化され、サービスに影響を与える問題を 予測し、積極的に解決するチームの能力が向上すると予測しています。
Dynatraceを活用することで、組織はIT運用部門やSRE部門をトラブルシューティングから予防へ進化させ、予測による先手を打つ体制を構築し、過去のデータに依存した根本原因分析だけでなく、生成AIの活用が可能となります。
より大きな問題の発生を未然に防ぐスマートな自動化と自動修復機能で、予防的な運用への取り組みを開始しましょう。
さらに詳しい情報をお求めですか?
- 当社の「問題」アプリにおける最近の進歩についてお読みください
- デイヴィスの根本原因分析に関する詳細情報
- Davis CoPilot が生産性の向上にどのように役立つか、詳細をご覧ください。
- あるいは、ダッシュボード内でデイヴィスの予測機能を活用する方法について、さらに詳しくご検討ください。
ご質問がおありでしょうか?
Q&A フォーラムで新しいディスカッションを開始するか、ご支援をお求めください。
フォーラムへ