Sign In

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

Created by
  • Haebom
Category
Empty

저자

Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang

개요

본 논문은 몸에 깃든 AI에서 강력한 언어 지시 에이전트를 훈련하기 위한 고품질 데이터 생성의 어려움을 해결하기 위해 Self-Refining Data Flywheel (SRDF)을 제시합니다. SRDF는 두 모델(지시 생성기와 탐색기) 간의 협업을 통해 데이터 풀을 반복적으로 개선하여 인간의 개입 없이 고품질의 대규모 탐색 지시-궤적 쌍을 생성합니다. 기본 생성기를 사용하여 초기 데이터 풀을 생성하고, 훈련된 탐색기를 사용하여 데이터 풀을 필터링하는 과정을 반복하여 데이터 품질을 향상시키고, 이를 통해 더 나은 생성기를 훈련하고, 더 고품질의 데이터를 생성하는 선순환 구조를 형성합니다. 실험 결과, SRDF는 R2R 테스트 세트에서 탐색기의 성능을 70%에서 78% SPL로 향상시켜 최초로 인간 수준(76%)을 넘어섰으며, 생성기의 SPICE 점수도 23.5에서 26.2로 향상시켜 기존 방법들을 능가함을 보였습니다. 또한, 환경 및 지시 다양성 증가를 통한 확장성과 다양한 하위 탐색 작업에서의 일반화 능력을 보여주며 최첨단 방법들을 크게 능가하는 결과를 달성했습니다.

시사점, 한계점

시사점:
인간 개입 없이 고품질의 대규모 탐색 지시-궤적 데이터셋을 생성하는 효율적인 방법 제시.
R2R 테스트 세트에서 인간 수준을 넘는 탐색 성능 달성.
기존 VLN 지시 생성 방법들을 능가하는 고품질 지시 생성.
다양한 하위 탐색 작업에서 우수한 일반화 능력을 보임.
데이터 생성 및 모델 훈련 과정의 확장성 입증.
한계점:
SRDF의 초기 데이터 풀 품질에 따라 최종 성능이 영향을 받을 수 있음.
특정 환경이나 작업에 대한 과적합 가능성 존재.
다른 탐색 작업이나 환경으로의 일반화 능력에 대한 추가적인 연구 필요.
에이전트의 안전성과 신뢰성에 대한 검증 필요.
👍