본 연구는 로보틱스 분야의 비전-언어 탐색(VLN)에서 아랍어 통합을 최초로 시도한 연구입니다. 다양한 언어를 지원하는 최첨단 소형 언어 모델(SLM)인 GPT-4o mini, Llama 3 8B, Phi-3 medium 14B, 그리고 아랍어 중심의 LLM인 Jais를 사용하여 NavGPT 프레임워크를 통해 영어와 아랍어 지시에 따른 탐색 작업을 평가했습니다. R2R 데이터셋을 이용한 제로샷 순차적 행동 예측으로, 영어와 아랍어 모두에서 고차원 탐색 계획 능력을 보여주었지만, 일부 모델은 아랍어의 제한된 성능과 구문 분석 문제로 어려움을 겪었습니다. 이는 효과적인 탐색을 위한 언어 모델의 계획 및 추론 능력 향상의 중요성을 강조하고, 아랍어 모델의 실제 응용 가능성을 제시합니다.