Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agentic Troubleshooting Guide Automation for Incident Management

Created by
  • Haebom

저자

Jiayi Mao, Liqun Li, Yanjie Gao, Zegang Peng, Shilin He, Chaoyun Zhang, Si Qin, Samia Khalid, Qingwei Lin, Saravan Rajmohan, Sitaram Lanka, Dongmei Zhang

개요

StepFly는 대규모 IT 시스템의 사고 관리를 자동화하기 위한 새로운 에이전트 기반 프레임워크입니다. 수동 실행의 속도와 오류 문제를 해결하기 위해, StepFly는 TSG(Troubleshooting Guide)의 품질 관리, 복잡한 제어 흐름 해석, 데이터 집약적인 쿼리 처리, 실행 병렬화 등의 문제를 해결합니다. 92개의 실제 TSG에 대한 경험적 연구를 바탕으로, StepFly는 TSG 품질 향상을 위한 TSG Mentor, LLM을 사용한 구조화된 실행 DAG 추출 및 QPP(Query Preparation Plugin) 생성, DAG 기반 스케줄러-실행기 프레임워크를 사용한 온라인 실행을 포함하는 3단계 워크플로우를 제시합니다. 실제 TSG 및 사고에 대한 평가 결과, StepFly는 GPT-4.1에서 약 94%의 성공률을 달성했으며, 병렬화 가능한 TSG에 대해 32.9%에서 70.4%의 실행 시간 단축을 보였습니다.

시사점, 한계점

시사점:
LLM을 활용하여 TSG 자동화를 위한 새로운 프레임워크 제시.
TSG 품질 개선을 위한 도구(TSG Mentor) 제공.
구조화된 실행 DAG를 통한 효율적인 워크플로우 관리.
병렬 실행을 지원하여 실행 시간 단축.
실제 TSG에 대한 높은 성공률 달성.
한계점:
구체적인 성능 비교 대상 및 기준의 명시 부족 (예: 다른 LLM 기반 솔루션과의 비교).
TSG Mentor의 구체적인 기능 및 효과에 대한 상세 설명 부족.
다양한 IT 시스템 환경에서의 일반화 가능성에 대한 추가 연구 필요.
대규모 데이터 처리 및 복잡한 제어 흐름에서 발생할 수 있는 잠재적 문제점들에 대한 언급 부재.
👍