Dynatrace 十年前開始重新構想雲原生服務追蹤和可觀察性時,就已經發現到人類操作者因傳統監控系統的海量原始資料湧入而不堪重負。除了無法在儀錶板上查看如此龐大數量的遙測資料外,傳統營運團隊也無法招架從數百種不同的監控工具收到的全天候警報數量。
Dynatrace 推出的 Davis® 根源檢測,減少了在大規模事件發生時出現的單一警報濫發訊息。Davis 根源引擎不會立即為所有原始事件觸發警報,而是遵循每個違規服務的因果關係。透過自動遵循服務與其底層基礎架構之間拓撲的因果關係,Davis 會收集屬於同一根源的所有原始事件,然後提出問題通知您。Dynatrace 的互動式問題模式提供了全新強大的疑難排解助理功能。這篇部落格貼文解釋了 Davis 如何在深入問題分析時,保留分析過程的上下文與利用互動式的使用者指導,協助降低平均故障修復時間。

透過精準根源分析更快進行補救措施
Davis 識別問題後,將會建立一個問題概述的頁面,顯示所發生事件(影響)和問題根源的全面管理摘要。DevOps 團隊可使用此頁面迅速識別並修復意外事件。通常旅程並不會到此為止。當 DevOps 團隊完成工作後,軟體專家必須調查底層軟體堆疊。專家需要分析 Davis 在部署堆疊中找到的所有相關資訊,以避免將來再次出現此類問題。前往底層服務(確認為根源)時,將開啟問題詳細資訊頁面,顯示保留的問題上下文,其中包括:
- 目前問題的日期和時間,您無需手動調整分析歷程中每個頁面上的日期和時間。
- 互動式側螢幕面板將概述所有相關服務的問題相關資訊。
- Davis 會在您前往的每個頁面上突出顯示所有相關問題資訊。
下方的螢幕截圖顯示了 Davis 如何以互動方式指導您,使用紅色和黃色標記(於左側)突出顯示所有相關資訊,同時在右側螢幕面板中顯示 AI 根源調查結果清單(如果 Davis 側螢幕面板已關閉,則右側螢幕面板上會顯示一個圖示,以便重新開啟)。
Davis 於側螢幕面板中突出顯示檢測到的問題
使用 Davis 互動式問題模式,最佳化軟體堆疊
請留意導覽部分標題的紅色和黃色標記,這些標記表示 Davis 發現了與問題相關的資訊。紅色標記突出顯示事件及其持續時間,而黃色標記則表示在問題分析期間發現可疑指標更改點的指標異常情況。黃色指標更改點突出顯示時間點,而紅色標記表示事件持續時間。點選其中一個標記(直接點選或藉由側螢幕面板點選),即可查看其他資訊,如時間範圍和持續時間。
Davis AI 更改點(左側黃色部分)和事件持續時間(右側紅色部分)標記
符合 SLO 要求
除了為檢測到的問題提供情境外,Davis 還會在連接的 SLO (服務層級目標) 中檢測到峰值時為您提供支援。點選頂部欄中的專用 SLO 按鈕,即可立即查看與所選服務相關的服務層級目標,且無須跳出上下文畫面。選擇時間範圍並點選「分析」,即可輕鬆調查峰值。Davis 會立即收集所有連接的信號,並提供相關的上下文資訊。觀看下列影片,瞭解互動式問題模式如何協助識別 SLO 相關問題。

摘要
Davis 問題檢測和根本原因分析,對於現代 AIOps 和 DevOps 來說是不可或缺的,可協助將平均故障修復時間 (MTTR) 降至最低。即時洞察力對於快速處理並及時修復意外事件至關重要。Davis 互動式問題模式指導您瞭解所有與問題相關的詳細資訊,並以視覺方式標記問題,讓問題更容易理解。該模式同時也與使用者定義 SLO 無縫整合,其中包括利用 Davis AI 分析 SLO 降級事件,進而在重大事件期間節省寶貴的時間。使用側螢幕面板獲取導覽説明,探索根源分析期間發現的所有調查結果和 SLO 時,無須再跳出頁面的上下文畫面。我們期盼您的寶貴意見!我們建議您嘗試使用互動式問題模式,並藉由Dynatrace 社群分享您的意見及產品想法。我們收到的每則訊息都有助於我們持續改善 Dynatrace 平台。