Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models

Created by
  • Haebom

저자

Malak Mansour, Ahmed Aly, Bahey Tharwat, Sarim Hashmi, Dong An, Ian Reid

개요

본 연구는 로보틱스 분야의 비전-언어 탐색(VLN)에서 아랍어 통합을 최초로 시도한 연구입니다. 다양한 언어를 지원하는 최첨단 소형 언어 모델(SLM)인 GPT-4o mini, Llama 3 8B, Phi-3 medium 14B, 그리고 아랍어 중심의 LLM인 Jais를 사용하여 NavGPT 프레임워크를 통해 영어와 아랍어 지시에 따른 탐색 작업을 평가했습니다. R2R 데이터셋을 이용한 제로샷 순차적 행동 예측으로, 영어와 아랍어 모두에서 고차원 탐색 계획 능력을 보여주었지만, 일부 모델은 아랍어의 제한된 성능과 구문 분석 문제로 어려움을 겪었습니다. 이는 효과적인 탐색을 위한 언어 모델의 계획 및 추론 능력 향상의 중요성을 강조하고, 아랍어 모델의 실제 응용 가능성을 제시합니다.

시사점, 한계점

시사점:
로보틱스 분야 VLN에서 아랍어 통합을 최초로 시도하여 새로운 연구 영역을 개척함.
다양한 SLM의 탐색 계획 능력을 영어 및 아랍어 지시어를 통해 비교 평가함.
NavGPT 프레임워크를 통해 LLM 기반 탐색 에이전트의 성능을 효과적으로 평가 가능함을 보임.
아랍어 언어 모델의 실제 응용 가능성을 제시함.
한계점:
일부 모델은 아랍어 처리에서 제한된 성능과 구문 분석 문제를 보임.
아랍어 모델의 계획 및 추론 능력 향상이 향후 연구의 중요 과제로 남음.
R2R 데이터셋에 의존하여 일반화 가능성에 대한 추가 연구 필요.
👍