본 논문은 분산 시스템, 마이크로서비스, 클라우드 네이티브 기술의 발전으로 인해 증가하는 시스템 복잡성과 운영상의 어려움 속에서, 기존의 수동적인 Root Cause Analysis (RCA)의 한계를 극복하기 위해 대규모 언어 모델(LLM) 기반의 자동화된 장애 대응 시스템을 제안합니다. 기존 LLM 기반 접근 방식의 텍스트 입력 제약, 동적인 서비스 의존성 환각, 컨텍스트 창 제한 등의 문제점을 해결하기 위해, 다중 모달 관측 데이터를 사용하는 도구 지원형 LLM 에이전트인 TAMO를 제시합니다. TAMO는 다중 모달 데이터를 시간 정렬된 표현으로 통합하여 일관된 특징을 추출하고, 특수한 원인 탐색 및 장애 분류 도구를 사용하여 상황 환경을 인식합니다. 실험 결과, TAMO는 이질적인 데이터와 일반적인 장애 유형을 특징으로 하는 공개 데이터셋에서 효과적인 Root Cause Analysis를 수행하는 것으로 나타났습니다.