From Observability Data to Diagnosis: An Evolving Multi-agent System for Incident Management in Cloud Systems
Created by
Haebom
Category
Empty
저자
Yu Luo, Jiamin Jiang, Jingfei Feng, Lei Tao, Qingliang Zhang, Xidao Wen, Yongqian Sun, Shenglin Zhang, Dan Pei
개요
대규모 클라우드 시스템의 신뢰성에 중요한 사고 관리(IM)는 방대한 이기종 관측 데이터를 처리하는 데 있어 인력 투입적이고 오류가 발생하기 쉽습니다. OpsAgent는 훈련이 필요 없는 데이터 프로세서를 사용하여 이기종 관측 데이터를 구조화된 텍스트 설명으로 변환하고, 진단 추론을 투명하고 감사 가능하게 만드는 다중 에이전트 협업 프레임워크를 활용하는 경량 자체 진화형 다중 에이전트 시스템입니다. OpsAgent는 내부 모델 업데이트와 외부 경험 축적을 통합하는 이중 자체 진화 메커니즘을 통해 지속적인 성능 향상을 지원합니다. OPENRCA 벤치마크에 대한 실험을 통해 OpsAgent가 일반화 가능하고, 해석 가능하며, 비용 효율적이고, 자체 진화하며, 실제 클라우드 시스템의 장기적인 운영을 위한 실용적인 솔루션임을 입증했습니다.