Author: Zehao Wang1, Minye Wu1, Yixin Cao4, Yubo Ma3, Meiqi Chen2, Tinne Tuytelaars1 Conference / Journal: EMNLP 2024 Findings PDF: https://arxiv.org/pdf/2409.17313 Code: https://github.com/zehao-wang/navnuances tl;dr VLN 모델의 다양한 지시 유형을 세밀하게 평가할 수 있는 프레임워크를 제시함. 이를 통해 수치 이해, 특정 방향 인식에서 모델의 성능 부족이 드러남. 발견된 문제점을 바탕으로 VLN 모델의 성능 향상을 위한 구체적 방향성을 제공함. Motivation 기존 VLN 모델의 한계: VLN 모델이 복잡한 내비게이션 지시를 제대로 이해하고 실행하는 능력이 과대평가되었을 가능성이 있다. 세밀한 평가 필요성: VLN Task를 더 작은 단위로 쪼개어 다양한 지시 유형에 대해 세밀한 성능 평가가 필요함. → LLM 기반 평가 프레임워크 필요성: LLM기반으로 VLN Instruction을 구성하고 세밀한 평가가 가능한 새로운 프레임워크를 제안하고자 함. Method Context-Free Grammar(CFG) VLN Instruction의 구조를 체계적으로 정의하기 위해 CFG를 사용하여 다양한 지시 유형을 표현. (LLM을 통해 구축) N: 비종결기호 (방향, 객체, 행동) T: 종결기호 (방향지시어, object 이름) P: 생성 규칙 (N들이 어떻게 T나 다른 N으로 변환될 수 있는지 규칙) 3~7 N → T N → N S: 시작 기호