CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

작성자

Haebom

카테고리

Empty

저자

Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong

개요

기존의 Vision-and-Language Navigation (VLA) 모델들은 명령 실행 시 정확한 경로에서 이탈하는 경우가 많았으며, 이러한 오류를 수정하는 효과적인 기능이 부족했습니다. 본 논문에서는 이 문제를 해결하기 위해 Self-correction Flywheel이라는 새로운 post-training 패러다임을 제안합니다. 기존 모델의 훈련셋에서 발생하는 오류 경로를 단점으로 보는 대신, 귀중한 데이터 소스로 활용하는 데 초점을 맞춥니다. 오류 경로의 편차를 식별하고, 지각 및 행동에 대한 자가 수정 데이터를 자동으로 생성하는 방법을 개발했습니다. 이 자가 수정 데이터를 사용하여 모델을 지속적으로 훈련합니다. 훈련셋에서 모델을 재평가하여 새로운 오류 경로를 발견하면 Self-correction Flywheel이 작동하기 시작하고, 여러 번의 반복을 통해 단안 RGB 기반 VLA 내비게이션 모델인 CorrectNav를 점진적으로 향상시킵니다. R2R-CE와 RxR-CE 벤치마크 실험 결과, CorrectNav는 기존 최고 성능 모델보다 8.2%와 16.4% 향상된 65.1%와 69.3%의 성공률을 달성했습니다. 다양한 실내외 환경에서의 실제 로봇 테스트를 통해 오류 수정, 동적 장애물 회피 및 긴 명령어 수행 능력이 우수함을 보여주었습니다.

시사점, 한계점

•

시사점:

◦

VLA 모델의 오류 수정 능력 향상을 위한 효과적인 post-training 패러다임인 Self-correction Flywheel 제시.

◦

오류 경로를 데이터로 활용하여 모델 성능을 향상시키는 새로운 접근 방식 제시.

◦

R2R-CE 및 RxR-CE 벤치마크에서 최첨단 성능 달성.

◦

실제 로봇 실험을 통해 실제 환경에서의 성능 검증.

•

한계점:

◦

Self-correction Flywheel의 일반화 성능에 대한 추가적인 연구 필요.

◦

다양한 환경 및 복잡한 명령어에 대한 로버스트성 평가 필요.

◦

자가 수정 데이터 생성 과정의 효율성 개선 필요.

PDF 보기

Made with Slashpage