본 논문은 에지 AI 클러스터에서 빈번한 노드 및 링크 변화로 인한 분산 학습의 중단 문제를 해결하기 위해 자가 치유 및 자동 확장 기능을 갖춘 탄력적이고 확장 가능한 에지 분산 학습 시스템인 Chaos를 제안합니다. Chaos는 다중 이웃 복제와 빠른 조각 스케줄링을 사용하여 확장 속도를 높이고, 클러스터 모니터를 통해 리소스 및 토폴로지 변화를 추적하여 스케줄러 결정을 지원하며, 피어 협상 프로토콜을 통해 중앙 관리자 없이 완전한 자가 관리 자동 확장을 가능하게 합니다. 실험 결과, Chaos는 Pollux, EDL 및 Autoscaling보다 훨씬 낮은 확장 지연 시간을 달성하고, scale-in, connect-link 및 disconnect-link 이벤트를 1밀리초 이내에 처리하여 노드 참여, 탈퇴 및 실패를 원활하게 처리합니다. 또한 가장 낮은 유휴 시간을 제공하여 클러스터가 성장함에 따라 우수한 리소스 사용 및 확장성을 보여줍니다.