[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation

Created by
  • Haebom

저자

Bingqian Lin, Yunshuang Nie, Khun Loun Zai, Ziming Wei, Mingfei Han, Rongtao Xu, Minzhe Niu, Jianhua Han, Liang Lin, Cewu Lu, Xiaodan Liang

개요

본 논문은 자연어 명령에 따라 길을 찾는 Vision-Language Navigation (VLN) 에이전트를 구축하는 연구에 대해 다룬다. 최근 연구는 오픈소스 대규모 언어 모델(LLM)의 추론 능력을 활용하여 탐색 성능을 개선하고 LLM의 훈련 데이터와 VLN 작업 간의 도메인 격차를 동시에 완화할 수 있는 가능성을 보여주었다. 하지만 기존 접근 방식은 주로 직접적인 입력-출력 매핑 방식을 채택하여 매핑 학습이 어렵고 탐색 결정이 설명 불가능하다는 단점이 있다. 본 논문에서는 LLM 기반 VLN을 향상시키기 위한 새로운 자기 개선형 구현 추론 프레임워크인 EvolveNav를 제안한다. EvolveNav는 형식화된 CoT(Chain-of-Thought) 감독 미세 조정과 자기 반성적 사후 훈련의 두 단계로 구성된다. 첫 번째 단계에서는 형식화된 CoT 레이블을 사용하여 모델의 탐색 추론 능력을 활성화하고 추론 속도를 높인다. 두 번째 단계에서는 모델의 자체 추론 출력을 자체적으로 풍부하게 만든 CoT 레이블로 반복적으로 훈련하여 감독 다양성을 향상시킨다. 잘못된 추론 패턴과 대조하여 올바른 추론 패턴 학습을 장려하기 위해 자기 반성적 보조 작업도 도입한다. 실험 결과는 인기 있는 VLN 벤치마크에서 EvolveNav가 이전의 LLM 기반 VLN 접근 방식보다 우수함을 보여준다.

시사점, 한계점

시사점:
LLM 기반 VLN에서 추론 능력 향상 및 탐색 정확도 개선에 기여하는 새로운 프레임워크(EvolveNav) 제시.
형식화된 CoT 레이블과 자기 반성적 사후 훈련을 통한 효과적인 학습 전략 제시.
자기 반성적 보조 작업을 통해 올바른 추론 패턴 학습 유도.
기존 LLM 기반 VLN 접근 방식보다 우수한 성능을 입증.
한계점:
탐색 작업의 복잡성으로 인해 완벽한 CoT 레이블을 얻기 어려울 수 있으며, 순수 CoT 감독 미세 조정을 통해 과적합이 발생할 수 있음.
제안된 프레임워크의 일반화 성능에 대한 추가적인 검증 필요.
다양한 환경 및 복잡한 탐색 과제에 대한 로버스트성 평가 필요.
👍