13年間にわたり、Dynatrace® AIは、世界中の数十万人の運用チームメンバーに対し、完全自動化された根本原因および影響分析を成功裏に提供してきました。Dynatraceの根本原因分析は、アプリケーション、サービス、およびクラウドインフラストラクチャに関連するインシデントを分析するための、最も成熟した完全自動化ソリューションであり、長年にわたり大規模な環境においてその価値を実証してきました。
重大なインシデント発生時に、ペタバイト規模のトレース、メトリクス、ログの分析を自動化することで、運用チームに大きな価値をもたらし、平均修復時間(MTTR)の大幅な短縮に貢献します。
すべての論理的事実を可視化し、AIへの信頼を築く
同様に重要なのは、透明性の高いデータプラットフォームを活用し、Dynatrace Smartscape® トポロジーが提供する独自のコンテキストを最大限に活用することです。これにより、AIによる推論の各ステップを確実に説明し、証明することが可能になります。リアルタイム情報、トレース、トポロジーに基づく影響ツリーなど、関連するすべての情報と必要な事実を透明性を持って可視化することで、ストレスの多いインシデント状況下で重要な意思決定を行う際、事実を把握し、能動的なAIへの信頼を築くことができます。
検出された各問題の新しい「ビジュアル・リゾリューション・パス」は、生成AIによる幻覚的な結果など、確率論的で信頼性の低いモデルではなく、決定論的ロジックに基づいています。ビジュアル・リゾリューション・パスは、設定されたアラートおよび基盤となるSmartscapeトポロジーと密接に連携しています。
新しいインシデントサマリーは、「ビジュアル・リゾリューション・パス」と連動し、影響を受けたすべてのフロントエンドおよび下流のサービス依存関係に関するメトリクスとタイミングを表示します。さらに、インシデントサマリーには、インシデントを重要なビジネスプロセスに結びつける「影響を受けたビジネスフロー」を含む新しいメトリクスが表示されるようになりました。
自動的に導出された根本原因は、問題の詳細や影響範囲のグラフ、および発生した事象と一連のイベントの連鎖を引き起こした原因の概要と共に表示されます。

コンテキストに応じたすべてのアクションを表示
各検出結果には、表示中のインシデントに基づいたコンテキストに応じたフォローアップアクションが含まれています。
インシデントの概要と Smartscape のフルビューの両方で、同じコンテキストに応じたアクションが表示されます。
各 Smartscape ノードにはコンテキストに基づいたアクションが表示されるため、チームがインシデントログを必死に検索したり、障害が発生したトレースを確認したりする際に、貴重な時間を節約できます。

インシデントの発生タイミングを確認する
個々のSmartscapeノードのインシデントの発生時刻や設定されたアラートを確認することで、チームはAIの推論を理解し、インシデント対応プロセス全体を通じて信頼関係を築くことができます。

透明性の高いアラート通知と修復の自動化
インシデントを管理するには、通常、何が起こったのか、何が原因で問題が発生したのか、そして何が影響を受けたのかを知る必要があります。また、インシデントを軽減するためにどのような自動化された措置が講じられたのかを即座に把握することも極めて重要です。
そのプロセスは次のような流れになります。問題の検出をトリガーとして、一連のシンプルなアラート通知がチームのSlackチャンネルに送信されます。続いて、ServiceNowのチケットワークフローが自動的に実行され、検出された根本原因を軽減するための自動修復ワークフローが開始されます。
Dynatrace Automation Engineは、外部のAIエージェントへの呼び出しをオーケストレーションすることも可能です。これにより、運用チームはAWSやAzureのSREエージェントを活用し、クラウドリソースの設定ミスを特定することができます。場合によっては、これらのエージェントが即座に修正を行うこともあります。
何がトリガーされ、自動化措置がどのように実行されているかを把握するために、「Problems」アプリでは、是正措置のアクション、そのタイミング、および各アクションの結果を明確に表示します。
このワークフローの実行情報は Grail® データレイクハウスに保存されるため、チームはこの情報をもとにダッシュボードやノートブックを作成できます。「Problems」アプリは、インシデント対応中にチームが情報を確認したいと期待する場所に、この情報を正確に表示します。

ニーズに合わせてレイアウトをカスタマイズ
新しい問題の概要画面では、根本原因、影響、グラフ、または実行された自動化アクションなど、最も重要な事項に焦点を当てることができます。優先順位に合わせてレイアウトを再配置することができ、Dynatraceは今後のインシデントに向けて、ユーザーごとの設定としてその構成を記憶します。
一分一秒が重要な局面でも、報告された根本原因に確信を持てます
大規模なサービス停止などの重大な状況において、迅速に対応することは運用チームにとって極めて重要です。受信するすべてのトレース、ログ、アラートをAI駆動の完全自動分析により処理することで、チームは時間が最も重要な局面において、根本原因と影響についてより的確な判断を下すことができます。Dynatraceは、AIによる根本原因分析の背景にあるコンテキストと意思決定ロジックを可視化することで、信頼を築き、自信を持って是正措置を導くために必要な透明性を提供します。
新しいDynatraceの問題の根本原因と影響の概要、および「ビジュアル・リゾリューション・パス」により、AIが論理的に正しい依存関係に従うことが保証され、根本原因分析への信頼が築かれます。
インシデント対応を迅速化し、各インシデントの根本原因に関する完全なコンテキストを把握しましょう。
ご質問がございましたら?
Q&Aフォーラムで新しいディスカッションを開始するか、助けを求めてください。
フォーラムへ