AIOps is an IT practice that combines big data and machine learning to automate IT operations, such as event correlation, anomaly detection, and root cause analysis. A modern approach to AIOps serves the full software delivery lifecycle. It addresses the volume, velocity, and variety of data in complex multicloud environments with advanced AI techniques to provide precise answers and intelligent automation.

AIOps uses AI methods to ingest, sort, and make inferences from data. A full AIOps pipeline often includes several algorithmic processes with different jobs: One handles data ingestion and sorting; One recognizes patterns; One makes inferences from the patterns. When combined, they significantly reduce alert fatigue and the data-sorting burden.

What are the two approaches to AIOps?

There are two overarching AIOps approaches: traditional AIOps and modern AIOps. Traditional AIOps approaches are designed to reduce alerts and use machine learning models to deliver correlation-focused dashboards. Modern AIOps solutions, on the other hand, are built for dynamic clouds and software delivery lifecycle automation. They combine full stack observability with a deterministic AI engine that can yield precise, continuous, and actionable insights in real time.

Modern applications are built from hundreds or thousands of interdependent microservices distributed across multiple clouds, creating incredibly complex software environments. This complexity makes it difficult for IT pros to understand the state of these systems, especially when something goes wrong. While AIOps is often presented as a means to reduce the noise of countless alerts, it can do much more. A full-featured, deterministic AIOps solution fosters faster, higher-quality innovation; increased IT staff efficiency; and vastly improved business outcomes.

What are the challenges of traditional AIOps?

Despite their benefits, correlation-based AIOps solutions have limitations, like AIOps based on correlation does not scale, and Lost and rebuilt context

What are the key capabilities of a modern AIOps solution?

An AIOps solution should be comprehensive to save teams time and manual effort. Here are key capabilities an AIOps solution should provide. Unified platform; Topology mapping and distributed tracing; Full observability of Kubernetes environments; Comprehensive integrations

AIOpsとは？ IT運用におけるAI活用の内部者ガイド ― そしてその先へ

公開日 2022年10月17日更新日 2023年12月20日読了時間 7分

ビピン・シン

AIOps

組織が時間のかかる手動プロセスに代わって自動化を導入する中、多くの組織がIT運用（AIOps）に人工知能を活用しています。

AIOpsは機械学習と人工知能（AI）を活用し、IT運用、特にインシデント管理におけるノイズを削減します。しかし、AIOpsとは具体的に何でしょうか？すべてのAIやAIOpsのアプローチは同じなのでしょうか？そして、AIOpsは組織をどのように支援できるのでしょうか？

AIOpsとは？

ガートナーによれば、「AIOpsはビッグデータと機械学習を組み合わせ、イベント相関分析、異常検知、因果関係判定を含むIT運用プロセスを自動化する」と定義されています。現代的なAIOpsアプローチは、ソフトウェアデリバリーライフサイクル全体を支援します。複雑なマルチクラウド環境におけるデータの量、速度、多様性に対応し、高度なAI技術を用いて正確な回答とインテリジェントな自動化を提供します。

多くのAIOpsツールは、IT管理領域全体にわたる様々な技術（分散した監視ツールを含む）から事前集計されたデータを取り込み、アナリストが注力すべき関連情報を導き出します。ただし、考慮すべき注意点もいくつか存在します。本稿では、現在のAIOpsの動向と、DevOpsプロセスにAIを真に統合する代替アプローチについて考察します。

AIOpsはどのように機能するのでしょうか？

AIOpsは、データを処理し推論を行う他のITデータ収集ソリューションとは異なります。大企業の大半は既に包括的なデータ収集ツールを導入していますが、それだけでは全体像を把握できません。現代の収集・監視ツールは、人間が解析・活用するには過剰なデータを生成しがちであり、ここにAIOpsの有用性があります。

AIOpsはAI手法を用いてデータを収集・分類し、そこから推論を行います。完全なAIOpsパイプラインには通常、異なる役割を担う複数のアルゴリズム処理が含まれます：

一つはデータの取り込みと分類を担当します。
もう一つはパターンを認識します。
一つはパターンから推論を行います。

これらを組み合わせることで、アラート疲労やデータ選別の負担を大幅に軽減します。

同様に重要なのは、AIOpsが情報を適切なチームに直接伝達する能力です。さらに、AIOpsの導入に伴い、インシデント対応の自動化への注力が強化されるケースが多く見られます。IT運用におけるAIは、組織全体の効率性と可観測性の向上を目指しています。AIOpsの基盤となる機械学習アルゴリズムやその他のAIプロセスは、すべてこの目標達成に貢献します。

AIOpsの2つのアプローチ

AIOpsには大きく分けて2つのアプローチがあります：従来の相関ベースのAIOpsと、現代的な決定論的AIOpsです。この現代的なアプローチは因果関係AIとも呼ばれ、フォールトツリー分析を活用します。

従来のAIOps

従来のAIOpsアプローチは、アラートの削減を目的として設計されており、機械学習モデルを用いて相関関係に焦点を当てたダッシュボードを提供します。これらのシステムは、基盤となる機械学習エンジンが問題の正確な根本原因について継続的かつリアルタイムの洞察を提供しないため、スケーリングが困難な場合が多くあります。また、膨大なトレーニングを必要とし、アナリストは貴重な時間を費やして手動でモデルを調整し、誤検知をフィルタリングしなければなりません。

Deterministic AI vs. statistical correlation-based AI

決定論的因果AIを活用した現代的なAIOps

一方、現代的なAIOpsソリューションは、動的なクラウド環境とソフトウェアデリバリーライフサイクルの自動化を前提に構築されています。フルスタックの可観測性と、決定論的（因果関係に基づく）AIエンジンを組み合わせることで、正確で継続的、かつ実用的な洞察をリアルタイムで提供します。これは、確率モデルを用いてシステムの状態を推測する確率論的（ランダムに決定される）AIOpsアプローチとは対照的です。決定論的・因果関係に基づくAIOps技術のみが、企業全体の開発ライフサイクル全体にわたる完全自動化されたクラウド運用を実現します。

AIOpsは必要なのでしょうか？

現代のアプリケーションは、複数のクラウドに分散した数百から数千もの相互依存するマイクロサービスから構築されており、非常に複雑なソフトウェア環境を生み出しています。この複雑さにより、ITプロフェッショナルがシステムの状態を理解することは困難であり、特に問題が発生した際にはなおさらです。AIOpsは、無数のアラートのノイズを低減する手段として提示されることが多いですが、それ以上の可能性を秘めています。完全な機能を備えた決定論的 AIOps ソリューションは、より迅速で高品質なイノベーションの促進、IT スタッフの効率向上、そしてビジネス成果の大幅な改善をもたらします。

現代の監視ソリューションが自動的に処理する膨大なデータ量を、人間が手動でレビュー・分析することは不可能です。一般的に、可視化ツールやダッシュボード、多角的なクエリツールを追加するアプローチは、問題解決策というより扱いにくい応急処置に過ぎません。異なるインターフェース間では依然として手動での介入と分析が必要となります。この点において、従来のAIOpsソリューションは本質的にイベント監視ツール化してしまっているのです。

How AI, observability, and analytics fit together

現代のITはより高度な自動化を追求しており、この目標達成にはAIが不可欠です。継続的インテグレーションと継続的デリバリープロセスは、新機能やサービスの展開にスマートなパイプラインを提供します。Kubernetesなどのオーケストレーションプラットフォームは、サービスを稼働状態に保つためのエラーが発生しやすく単調なタスクから運用チームを解放しています。この自動化により、開発者と運用チームは終わりのない管理業務ではなく、イノベーションに集中できるようになります。

従来のAIOpsが抱える課題

時間管理やイベント優先順位付けの改善、ビジネス革新の促進、自動化の強化、デジタルトランスフォーメーションの加速といったAIOpsの利点がある一方で、相関関係に基づくAIOpsソリューションには限界があります。

相関に基づくAIOpsは拡張性に欠ける

機械学習アプローチを採用する従来のAIOpsソリューションでは、アルゴリズムが学習するためのデータセット（すなわちトレーニングデータ）を作成する前に、膨大な量のデータを収集する必要があります。管理者は評価や類似の手法を通じて学習を強化できますが、本番環境のビジネスクリティカルなアプリケーションに関する洞察を提供できるようAIが調整されるまでには、数週間から数ヶ月を要する場合があります。

このアプローチは「設定したら後は放置」とは程遠いものです。現代のアプリケーションは頻繁に変更が加えられ、そのデプロイメントは極めて不安定であるため、データセットも絶えず変化します。従来のAIOpsは、複雑な分散アプリケーション内で頻繁に発生する変更に対応してスケールアップすることができません。

失われ、再構築されるコンテキスト

従来のAIOpsにおける第二の課題は、データ処理サイクルに焦点を当てています。従来のAIOpsソリューションは、ベンダーに依存しないデータ取り込みを前提に構築されています。これは、データソースが通常、異なるインフラ監視ツールや旧世代のアプリケーションパフォーマンス監視ソリューションから取得されることを意味します。

これらのツールセットはまず、メトリクス、ログ、トレース、イベント、コードレベルの詳細など、1つ以上の生データタイプを異なる粒度レベルで取得します。その後、それらを処理し、最終的に事前定義されたルール（しきい値、学習済みベースライン、特定のログパターンなど）に基づいてアラートを生成します。

通常、機械学習がアクセスできるのは集計されたイベントのみであり、追加の詳細情報は除外されることが多々あります。AI は、後続の新規イベント分類のために、流入するイベントの中から類似した反復クラスターを学習します。このデータを用いて、時間とメタデータに基づく相関関係というコンテキストを構築・再構築しますが、実際の依存関係に関する証拠は持ち合わせていません。統合により、メトリクスなどのより多くのデータを処理することが可能になります。しかし、それらはデータセットを追加するだけで、因果関係の問題を確実に解決するものではありません。

現代的なAIOpsソリューションの主要な機能とは何でしょうか？

AIOpsソリューションは、チームの時間と手作業を節約するために包括的であるべきです。AIOpsソリューションが提供するべき主要な機能は以下の通りです。

統合プラットフォーム。包括的かつ現代的なAIOpsアプローチとは、可観測性、AI、分析機能を包括する統合プラットフォームです。このオールインワンアプローチにより、システム内の問題の特定、そのコンテキストと広範なビジネスへの影響の分析、対応の自動化という複雑な課題に対処します。優れたソリューションは、ビジネス運用に不可欠なシステムやサービスの状態について、リアルタイムかつ継続的な洞察を提供します。これにより、企業は複雑なシステムで避けられない問題への対応ではなく、イノベーションに注力できるようになります。

トポロジーマッピングと分散トレース。真に現代的なAIOpsソリューションには、トポロジーマッピング機能、分散トレースの実行、強力な統合機能が含まれるべきです。強力なトポロジーマッピングにより、ユーザーはインフラストラクチャ、プロセス、サービスの依存関係を包括的に可視化できます。同様に重要な可視化要件が分散トレースであり、DevOpsチームに詳細なトポロジー、テレメトリデータ、メタデータを提供すべきです。

Kubernetes環境の完全な可観測性。Kubernetesはリソース管理を高度に抽象化しているため、様々な業界で幅広いアプリケーションに採用されています。しかし、その適応性は複雑さも伴います。信頼性、スケーラビリティ、柔軟性が重要な考慮事項となるKubernetes環境において、AIOpsはDevOpsの不可欠な要素となりつつあります。

包括的な統合。最後に、統合はあらゆる現代的なITソリューションの成功に不可欠です。AIOpsソリューションは、細粒度の可観測性をサポートするだけでなく、既存のセキュリティシステムとの統合もサポートすべきです。既存のセキュリティシステムの問題は、多くの場合、それらが適切に機能しないことではありません。むしろ、アラート疲労や誤検知頻度のために適切に使用できないことです。

AIOpsの成功には決定論的AIが鍵となります

従来のAIOpsは、システムの構成要素がどのように構造化されているかのモデルを持たず、メトリクス、ログ、トレースデータに依存しているため、可能な推論の種類に制限があります。代わりに、AIOpsは決定論的AIを活用し、複雑な分散アーキテクチャのトポロジーを完全にマッピングすることで、解決までの時間を大幅に短縮すべきです。

実世界のAIOpsユースケースを適用することで、企業は高度な分析、機械学習、自動化の力を活用し、監視の強化、異常の検出、パフォーマンスの最適化を実現できます。この変革的なアプローチにより、問題の事前解決が可能となり、効率性が向上し、ITチームが卓越したユーザー体験を提供できるようになります。効率性、信頼性、事前的な意思決定を推進することで、AIOpsがビジネスに革命をもたらす方法を学びましょう。

第2部「実際のAIOpsユースケースの運用への適用」では、自律的な運用を実現する方法と、マルチクラウド運用、開発環境、リアルタイムでのアプリケーション保護など、AIOpsのユースケースを探求します。

決定論的AIと可観測性がAIOps戦略を次のレベルへ引き上げる方法について詳しく知りたい方は、オンデマンドウェビナーシリーズ「DynatraceソフトウェアインテリジェンスによるAIOps」に本日ご登録ください。

今すぐウェビナーをご覧ください！