高度にダイナミックな IT システムにおけるクラウドリソースの予見的な管理は、現代の企業にとって重要な成功要因です。運用担当者は、リソース不足による停止を回避するため、ストレージ、CPU、メモリなどのビジネスに不可欠なリソースを注意深く監視する必要があります。
| >> デイヴィス・フォーキャストの実例をご覧になるには、下にスクロールしてください |
従来、クラウドリソース管理は、重要容量リソースのテレメトリデータを収集し、それらのリソースに対して多段階の事後対応型アラート(警告、エラー、重大エラー)を設定することで行われてきました。
従来のクラウドリソース管理手法は過去に有効であったかもしれませんが、現代のクラウド環境の要件に対応するには拡張性に欠けます。高度に動的なサービスがグローバルにクラウドへデプロイされ、リソースはオンデマンドで要求・展開されます。このグローバルなスケールがもたらす最終的な結果は、適切なツールがなければ運用担当者がアラート嵐に完全に飲み込まれてしまうことです。
当社のお客様の中には 、数万台のストレージディスクを並列運用し、すべてに継続的なリサイズが必要なケースもございます 。 これにより毎週数百件の警告やエラーが発生する可能性があります。運用チームが最も煩わしいと感じている点は、アラートが週末を含む業務時間外に送信されることが多いことです。

効果的な容量管理戦略の一つは、事後対応型から予測型への転換です。必要な容量リソースをすべて計測し、その測定値を用いて将来の需要を予測するモデルを構築します。
以下の例は、事後対応型のアプローチを、スケジュールされた予測型キャパシティ管理モデルに転換する方法を示しています。このアプローチでは、重要なリソースの利用可能キャパシティがまもなく許容レベルを下回ると予測された場合、実際にリソース不足が発生するかなり前に、営業時間中に 1 つのレポートで運用チームに通知されます。

Grail とデイヴィスを使用して容量需要を予測
Dynatrace Query Language (DQL) を使用すると、Dynatrace Grail™ データレイクハウス内に保存されている、お客様の環境に関するすべてのデータを分析することができます。新しく導入されたノートブックを使用すると、DQL を使用して、容量関連のテレメトリの探索的分析を行うことができます。
以下のスクリーンショットは、過去 7 日間の平均空きディスク容量の割合をプロットしたノートブックの例の一部です。

グラフ内の任意の行を選択すると、その行に対して利用可能なアクションが表示されます。たとえば、Davis AI に特定の時系列の将来予測を依頼することができます。

デイヴィス AI は、選択された時系列を分析し、時系列の特性に基づいて最適な予測モデルを自動的に選択し、予測モデルをトレーニングします。トレーニングが完了すると、ノートブックのチャートには、予測値だけでなく、上限と下限を含む、指定された時系列の確率的予測が表示されます。
このディスク容量測定値について、トレーニングされた予測モデルの結果例を見ると、予測の下限(最悪のシナリオ)は 4 月上旬に 6% の空きディスク容量を下回ることがわかります。
この情報から、運用チームは 4 月上旬までに(もちろん、営業時間内に)このディスクのサイズを変更する必要があることを予測できます。

このノートブックは 1 台のディスクのみに焦点を当てていますが、デイヴィス・フォアキャストは、何千もの個々のディスクの将来の容量ニーズを並行して学習し、予測することができます。たとえば、Dynatrace 社のクラウドインフラストラクチャでは、定期的なサイズ変更が必要な 8,000 台以上のディスクを追跡しています。毎週の予測をスケジュールして実行することで、当社のクラウド自動化チームは、営業時間外に送信される事後対応的なアラートを回避しています。
最後の防衛線としての事後対応型アラート
もちろん、予期せぬ事態は依然として発生する可能性があり、例えば、毎週の予測では、日曜日の朝に顧客が 5,000 台の OneAgent を導入することを予測することはできません。そのため、予期せぬ事態が発生した場合に、必要に応じてアラートが確実に送信されるように、反応型アラートの条件は引き続き設定されています。スケジュールされた予測は、これらの反応型アラートに取って代わるものではなく、予期せぬ状況に対する最後の防衛線としての役割を果たします。
AutoMLによる季節性の検出と最適な予測モデルの選択
Dynatrace は、予測と予測の簡略化に多大な投資を行ってきました。時系列を生成する DQL クエリは、予測モデルのトレーニングに使用することができます。この AutoML アプローチは、あらゆる時系列の統計的特性(分散、季節性、傾向、ノイズ)を分析して、最適な予測モデルを決定します。
また、予測を自動化する必要があり、基礎となるメトリックの特性が時間とともに変化する場合にも、AutoML アプローチは役立ちます。AutoML アプローチの詳細、およびデイヴィス予測サービスで使用されているアルゴリズムについては、デイヴィス予測分析のドキュメントをご覧ください。
これまで、季節的特性よりも直線的な変化を示すリソース消費量の測定についてのみご説明してきました。それでは、季節的挙動のある時系列に最適な手法を AutoML アプローチがどのように選択するかを見てみましょう。以下の例は、Davis Forecast がノイズレベルに関係なく、与えられた季節性を自動的に検出し、確率的予測を正しく返すことを示しています。

デイヴィスのキャパシティ予測を自動化
運用チームは、このノートブックを定期的に確認し、Davis Forecast が予測する今後の容量ニーズを確認した上で、翌週に容量不足となるすべてのディスクのサイズを事前に変更することも可能ですが、より優れた選択肢は、新しく導入されたAutomationEngineを使用して、毎週の Davis 予測ワークフローを自動スケジュールすることです。このアプローチでは、自動ワークフローがすべてのディスクの予測を自動的に実行し、重要な容量制限と照合して、注意が必要なディスクのリストを運用チームに通知します。以下は、デイヴィス予測アクションと通知メールアクションを含む、そのようなワークフローの例です。新しい予測機能と、Dynatrace AutomationEngine および Workflows アプリを組み合わせることで、いくつかの簡単なステップで予測分析を自動化することができます。

このユースケースはさらに発展させることができます。これまで、予測を自動化し、サイズ変更が必要なディスクのレポート機能を導入してきました。運用チームが予測的アプローチに慣れたら、既存のワークフローにアクションステップを追加することで、完全な自動化を簡単に設定することができます。たとえば、新しいディスクスペースの自動プロビジョニングなどです。
まとめ
デイヴィス・フォアキャストは、Grail データレイクハウス上に強力なメカニズムを提供し、組織が事後対応的な戦略から、より先を見越した予測的な戦略へと転換することを可能にします。このような予測的アプローチにより、営業時間外のサービス停止や事後対応的なアラートの集中発生を回避することができます。
Dynatrace は、強力な DQL クエリ言語の上に標準的な予測メカニズムを提供することで、ビジネスに不可欠な予測容量管理を含む、あらゆる種類の予測的なユースケースに予測分析の可能性を広げます。これらの新しい分析機能は、Notebooks での探索的分析の一部として、ワークフロー内のステップとして、またはカスタムアプリの一部として、Dynatrace AppEngine を使用して特定のビジネスニーズに対応するために使用することができます。
デイヴィス氏の予測の実例をご覧ください
「Dynatrace による予測」オブザーバビリティクリニックをご覧ください。リンダ・グラッツァー、アンドレアス・グラブナー、ベルンハルト・ケップリンガーが、予測とその背後にあるデータサイエンスについて深く掘り下げ、ライブデモも紹介しています。
詳細については、デイヴィス AI 予測分析のドキュメントをご覧になるか、私の Perform ブレイクアウトセッション「デイヴィス AI による簡単な予測と予測分析」の録画をご覧ください。
もちろん、皆様からのフィードバックも大歓迎です。デイヴィス予測をお試しいただき、Dynatrace コミュニティで提案や製品に関するアイデアをお聞かせいただければ、Dynatrace プラットフォームの継続的な改善に役立てさせていただきます。
答えをお探しですか?
新しいディスカッションを開始するか、Q&A フォーラムでお問い合わせください。
フォーラムへ移動