기존의 Vision-and-Language Navigation (VLA) 모델들은 명령 실행 시 정확한 경로에서 이탈하는 경우가 많았으며, 이러한 오류를 수정하는 효과적인 기능이 부족했습니다. 본 논문에서는 이 문제를 해결하기 위해 Self-correction Flywheel이라는 새로운 post-training 패러다임을 제안합니다. 기존 모델의 훈련셋에서 발생하는 오류 경로를 단점으로 보는 대신, 귀중한 데이터 소스로 활용하는 데 초점을 맞춥니다. 오류 경로의 편차를 식별하고, 지각 및 행동에 대한 자가 수정 데이터를 자동으로 생성하는 방법을 개발했습니다. 이 자가 수정 데이터를 사용하여 모델을 지속적으로 훈련합니다. 훈련셋에서 모델을 재평가하여 새로운 오류 경로를 발견하면 Self-correction Flywheel이 작동하기 시작하고, 여러 번의 반복을 통해 단안 RGB 기반 VLA 내비게이션 모델인 CorrectNav를 점진적으로 향상시킵니다. R2R-CE와 RxR-CE 벤치마크 실험 결과, CorrectNav는 기존 최고 성능 모델보다 8.2%와 16.4% 향상된 65.1%와 69.3%의 성공률을 달성했습니다. 다양한 실내외 환경에서의 실제 로봇 테스트를 통해 오류 수정, 동적 장애물 회피 및 긴 명령어 수행 능력이 우수함을 보여주었습니다.