본 논문은 IoT, 엣지 노드부터 고성능 컴퓨팅 시스템에 이르기까지 분산 컴퓨팅 연속체(DCC) 시스템의 실패를 다루며, AI 기반 워크로드의 실시간 및 적응형 조정을 위한 안정성을 확보하는 데 중점을 둔다. 이를 위해 확률적 능동 추론 복원 에이전트(PAIR-Agent)를 제안한다. PAIR-Agent는 장치 로그로부터 인과적 오류 그래프 구성, 마르코프 블랭킷과 자유 에너지 원리를 사용하여 불확실성을 관리하며 오류 식별, 능동 추론을 통한 자율적 문제 해결의 세 가지 핵심 작업을 수행한다. 지속적인 모니터링과 적응형 재구성을 통해 다양한 실패 상황에서도 서비스 연속성과 안정성을 유지하며, 이론적 검증을 통해 제안된 프레임워크의 신뢰성과 효율성을 입증한다.