본 논문은 고성능 컴퓨팅(HPC) 시스템에서 네트워크 장애 진단을 위한 새로운 프레임워크인 ClusterRCA를 제안합니다. 기존 방법들은 HPC 시스템의 데이터 이질성과 정확성 부족으로 인해 직접 적용할 수 없다는 한계를 지닙니다. ClusterRCA는 다중 모드 데이터를 활용하여 문제가 있는 노드를 찾아내고 장애 유형을 결정합니다. 토폴로지적으로 연결된 네트워크 인터페이스 컨트롤러(NIC) 쌍에서 특징을 추출하여 다양한 다중 모드 데이터를 분석합니다. 정확한 문제 노드의 위치 파악과 장애 유형 결정을 위해 분류기 기반 및 그래프 기반 접근 방식을 결합합니다. 상태 분류기의 출력을 기반으로 장애 그래프를 구성하고, 그래프에서 사용자 지정 랜덤 워크를 수행하여 근본 원인을 찾습니다. 최상위 글로벌 HPC 장치 공급업체에서 수집한 데이터 세트에 대한 실험 결과, ClusterRCA는 HPC 시스템의 네트워크 장애 진단에서 높은 정확도를 달성하며 다양한 애플리케이션 시나리오에서 견고한 성능을 유지함을 보여줍니다.