Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis

Created by
  • Haebom

저자

Lecheng Zheng, Zhengzhang Chen, Dongjie Wang, Chengyuan Deng, Reon Matsuoka, Haifeng Chen

개요

LEMMA-RCA는 복잡한 시스템의 신뢰성과 성능 향상에 필수적인 근본 원인 분석(RCA)을 위한 대규모 오픈소스 데이터셋입니다. IT 및 OT 운영 시스템(마이크로서비스, 상수도 분배 및 처리 시스템 등)의 다양한 실제 장애 시나리오를 포함하며, 수백 개의 시스템 엔티티가 포함되어 있습니다. 다양한 RCA 작업(오프라인 및 온라인 모드, 단일 및 다중 모달리티 포함)에 대한 8가지 기준 방법의 성능을 평가하여 데이터셋의 고품질을 입증했습니다. 데이터셋은 https://lemma-rca.github.io/ 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
RCA 분야의 발전을 저해하던 대규모 오픈소스 데이터셋 부족 문제 해결.
다양한 도메인과 모달리티를 아우르는 다양한 RCA 작업 지원.
실제 세계의 다양한 장애 시나리오 제공으로 현실적인 RCA 연구 가능.
공개적으로 접근 가능하여 RCA 연구의 활성화 및 발전에 기여.
다양한 설정(오프라인/온라인, 단일/다중 모달리티)에서의 성능 평가를 통해 데이터셋의 질적 우수성 검증.
한계점:
현재 데이터셋의 규모 및 다양성에 대한 구체적인 수치 제시 부족. (예: 정확한 시스템 엔티티 수, 시나리오 수, 데이터 크기 등)
데이터셋의 편향성 여부에 대한 분석 부족. 특정 유형의 장애나 시스템에 편향될 가능성 존재.
8가지 기준 방법의 성능 평가 결과가 데이터셋의 질을 완벽하게 보장하는 것은 아님. 다른 알고리즘이나 평가 지표를 사용한 추가적인 검증 필요.
👍