본 논문은 도시 환경에서 자연어 명령을 해석하고 탐색하는 항공 VLN(Vision-and-Language Navigation) 문제를 다룹니다. 기존 지상 VLN 에이전트와 달리, 항공 VLN은 사전 정의된 탐색 그래프가 없고 행동 공간이 기하급수적으로 증가하는 어려움을 가지고 있습니다. 본 연구는 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM) 기반의 CityNavAgent를 제안합니다. CityNavAgent는 계층적 의미 계획 모듈(HSPM)을 통해 장기간 과제를 여러 세분화된 하위 목표로 분해하고, LLM의 다양한 능력을 활용하여 단계적으로 목표에 도달합니다. 또한, 방문한 목표에 대한 이력 경로를 위상 그래프 형태로 저장하는 전역 메모리 모듈을 통해 탐색을 간소화합니다. 실험 결과, CityNavAgent는 최첨단 성능을 달성했으며, 각 모듈의 효과성도 입증되었습니다. 코드는 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
LLM을 활용한 계층적 의미 계획 모듈(HSPM)을 통해 복잡한 항공 VLN 문제를 효과적으로 해결.
◦
전역 메모리 모듈을 통해 기존에 방문한 지역에 대한 탐색 효율 향상.
◦
지속적인 도시 환경에서의 항공 VLN에 대한 새로운 state-of-the-art 성능 달성.
◦
코드 공개를 통한 연구 재현성 및 확장성 증대.
•
한계점:
◦
제시된 방법의 일반화 성능에 대한 추가적인 검증 필요. 다양한 도시 환경 및 명령어에 대한 로버스트성 평가가 부족할 수 있음.
◦
LLM 의존도가 높아, LLM의 한계가 CityNavAgent의 성능에 영향을 미칠 가능성 존재.