Header background

Davis AI: 대화형 문제 해결 어시스턴트

10년 전 Dynatrace가 클라우드 네이티브 서비스 추적 및 옵저버빌리티를 재설계하기 시작했을 당시에도 이미 인력으로는 주체하기 어려운 수준의 방대한 원시 데이터가 기존 모니터링 시스템에 유입되고 있었습니다. 기존 운영 팀으로서는 대시보드에서 엄청난 양의 텔레메트리 데이터를 관찰하는 것도 불가능했지만 수백 개의 서로 다른 모니터링 도구들로부터 1년 365일 수신되는 알림 역시 감당하기 어려웠습니다.


그러나 Davis®근본 원인 탐지 기능을 도입하면서 Dynatrace는 대규모 인시던트 발생 시 생성되는 단일 알림 스팸의 양을 줄이는 데 성공했습니다. Davis 근본 원인 엔진은 모든 원시 이벤트에 대한 알림을 즉각적으로 실행하지 않고 각 위반 서비스의 인과 관계를 추적합니다. 서비스와 기본 인프라 간 토폴로지의 인과 방향성을 자동 추적함으로써 Davis는 근본 원인이 동일한 모든 원시 이벤트를 수집한 다음 문제를 제기하여 이를 사용자에게 통보합니다. 대화형 문제 모드의 개발로 Dynatrace는 새롭고 강력한 문제 해결 어시스턴트를 제공하게 되었습니다. 이 블로그 게시물에서는 컨텍스트를 유지하면서 문제를 심층적으로 분석하는 대화형 사용자 안내 기능을 사용하여 MTTR(평균 해결 시간)을 단축하도록 지원하는 Davis의 기능을 설명합니다.

Davis 문제 분석
사이드 패널에서 항목을 선택하여 컨텍스트를 유지하면서 관련 지표로 이동할 수 있습니다.

정확한 근본 원인 분석을 통한 해결 시간 단축

Davis가 문제를 식별하면 문제 개요 페이지가 생성되며 이 페이지에는 발생한 문제(영향)와 문제의 근본 원인에 대한 종합적인 관리 요약 정보가 표시됩니다. DevOps 팀은 이 페이지를 사용하여 예상치 못한 인시던트를 신속하게 식별하고 해결합니다. 일반적으로 문제 분석 여정은 여기서 끝나지 않습니다. DevOps 팀이 작업을 마치면 소프트웨어 전문가가 기반 소프트웨어 스택을 조사해야 합니다. 소프트웨어 전문가는 향후 그와 같은 문제가 발생하는 것을 방지하기 위해 Davis가 배포 스택 전반에서 발견한 모든 관련 정보를 분석해야 합니다. 근본 원인으로 식별된 기본 서비스로 이동하면 문제 컨텍스트가 보존된 상세 페이지가 열리고 다음 사항이 표시됩니다.

  • 현재 문제의 날짜 및 시간. 문제 분석 여정에서 각 페이지의 날짜 및 시간을 수동으로 조정할 필요가 없습니다.
  • 사이드 패널에서 관련 서비스의 모든 문제 관련 정보를 대화형으로 제공합니다.
  • Davis는 사용자가 이동하는 페이지마다 모든 관련 문제 정보를 강조하여 표시합니다.

아래 스크린샷은 Davis가 모든 관련 정보를 빨간색과 노란색 표시(왼쪽)로 강조 표시하여 대화형으로 안내하고 오른쪽 사이드 패널에는 AI 근본 원인 조사 결과 목록을 표시하는 방법을 보여줍니다(Davis 사이드 패널이 닫혀 있는 경우 오른쪽 패널에 아이콘이 표시되므로 다시 열 수 있음).

AI 근본 원인 조사 결과 감지된 문제가 사이드 패널에 강조 표시되는 Davis

Davis 대화형 문제 모드를 사용하여 소프트웨어 스택을 최적화

탐색 섹션 헤더에 있는 빨간색과 노란색 표시에 주의하세요. Davis가 문제와 관련된 정보를 찾았다는 뜻입니다. 빨간색 표시는 이벤트와 이벤트의 지속 기간을 강조 표시하는 한편, 노란색 표시는 문제 분석 시 의심스러운 지표 변경 지점이 발견된 지표 이상을 나타냅니다. 노란색 지표 변경 지점은 시점을 강조하고 빨간색 표시는 이벤트 기간을 나타냅니다. 색상 표시 중 하나를 선택하면 직접 또는 사이드 패널을 통해 시간과 기간 같은 추가 정보를 확인할 수 있습니다.

Davis AI 변경 지점 및 이벤트 표시 Davis AI 변경 지점(왼쪽의 노란색)과 이벤트 기간(오른쪽의 빨간색) 표시

SLO 요구 사항 충족

Davis는 감지된 문제에 대한 컨텍스트를 제공하는 것 외에도 연결된 SLO(서비스 수준 목표)에서 급증 현상이 감지될 경우 사용자를 지원합니다. 상단 표시줄의 전용 SLO 버튼을 사용하면 선택한 서비스와 관련된 서비스 수준 목표를 컨텍스트 내에서 즉시 검토할 수 있습니다. 급증 현상은 기간을 선택하고 분석을 클릭하여 간단하게 조사할 수 있습니다. Davis는 연결된 모든 신호를 즉시 수집하고 관련성 높은 상황별 정보를 제공합니다. 다음 동영상에서 대화형 문제 모드로 SLO 관련 문제를 식별하는 방법을 확인하세요.

Davis SLO 분석
관련 SLO(서비스 수준 목표) 검토

요약

Davis 문제 탐지 및 근본 원인 분석은 최신 AIOps(IT 운영을 위한 인공 지능)DevOps에서 MTTR을 최소화하는 데 필수적입니다. 실시간 인사이트는 예상치 못한 인시던트를 빠르게 분류하고 이를 시기적절하게 해결하는 데 매우 중요합니다. Davis 대화형 문제 모드는 문제와 관련된 모든 상세 정보를 안내하고 문제를 시각적으로 표시하여 문제에 대한 이해를 돕습니다. 또한 Davis AI를 활용하여 SLO 성능 저하를 분석하는 등의 사용자 정의 SLO를 원활하게 통합하므로 중요 인시던트 발생 시 귀중한 시간을 절약할 수 있습니다. 사용자는 근본 원인 분석 시 발견된 모든 관련 조사 결과와 SLO를 자세히 살펴보기 위해 사이드 패널의 탐색 도움말 기능을 사용할 때 컨텍스트를 유지할 수 있습니다. Dynatrace는 여러분의 피드백을 기다립니다. 대화형 문제 모드를 사용해 보시고 Dynatrace 커뮤니티를 통해 피드백과 제품 관련 아이디어를 공유해 주시면 감사하겠습니다. 여러분이 제공해 주시는 모든 메시지는 Dynatrace 플랫폼을 지속적으로 개선하는 데 큰 도움이 됩니다.