본 논문은 Vision-and-Language Navigation (VLN) 문제를 해결하기 위해, LLM의 일반화 능력과 VLN 전문 지식을 결합한 R3라는 새로운 듀얼 프로세스 사고 프레임워크를 제안합니다. 이 프레임워크는 Runner, Ruminator, Regulator 세 가지 핵심 모듈로 구성되어 있으며, 효율적인 내비게이션을 위한 경량 전문가 모델, 구조화된 추론을 위한 LLM 기반 모듈, 그리고 두 모듈을 조화롭게 통합하는 제어 모듈을 포함합니다. REVERIE 벤치마크에서 기존 최고 성능의 VLN 방법론보다 향상된 결과를 달성했습니다.
시사점, 한계점
•
시사점:
◦
LLM의 일반화 능력과 전문 지식을 결합하여 VLN 문제 해결의 새로운 접근 방식을 제시.
◦
REVERIE 벤치마크에서 SOTA 달성으로 방법론의 효과 입증.
◦
효율적인 내비게이션을 위한 경량 모델과, 복잡한 추론을 위한 LLM을 통합하여 성능과 효율성 간의 균형을 맞춤.
•
한계점:
◦
논문에서 구체적인 한계점에 대한 언급은 없음. (하지만 LLM의 높은 계산 비용과 추론 지연 시간은 잠재적 한계가 될 수 있음)