From Observability Data to Diagnosis: An Evolving Multi-agent System for Incident Management in Cloud Systems
Created by
Haebom
저자
Yu Luo, Jiamin Jiang, Jingfei Feng, Lei Tao, Qingliang Zhang, Xidao Wen, Yongqian Sun, Shenglin Zhang, Jielong Huang, Nan Qi, Dan Pei
개요
OpsAgent는 대규모 클라우드 시스템의 신뢰성을 위해 개발된, 훈련이 필요 없는 경량 자가 진화형 다중 에이전트 시스템입니다. 이 시스템은 이질적인 관측 데이터를 구조화된 텍스트 설명으로 변환하는 데이터 프로세서와 진단 추론을 투명하고 감사 가능하게 만드는 다중 에이전트 협업 프레임워크를 사용합니다. OpsAgent는 또한 내부 모델 업데이트와 외부 경험 축적을 통합하는 이중 자가 진화 메커니즘을 통해 지속적인 기능 향상을 지원합니다. OPENRCA 벤치마크 실험 결과, OpsAgent는 기존 방식 대비 우수한 성능을 보이며 실제 클라우드 시스템에서 적용 가능하고 지속 가능한 장기 운영 솔루션임을 입증했습니다.