본 논문은 시각-언어 탐색(VLN) 분야의 발전에도 불구하고, 실제 로봇 배치의 어려움을 반영하지 못하는 이상적인 가정에 기반한 점을 지적하며, 물리적으로 현실적인 VLN 플랫폼인 VLN-PE를 제시합니다. VLN-PE는 인간형, 사족보행, 바퀴형 로봇을 지원하며, 단일 단계 이산 동작 예측을 위한 분류 모델, 밀집 경유지 예측을 위한 확산 모델, 경로 계획과 통합된 훈련 없이 사용 가능한 지도 기반 대규모 언어 모델(LLM) 등 다양한 방법들을 실제 로봇 환경에서 체계적으로 평가합니다. 실험 결과, 제한된 로봇 관찰 공간, 환경 조명 변화, 충돌 및 추락과 같은 물리적 어려움으로 인해 성능 저하가 발생하며, 특히 다리 달린 로봇의 경우 복잡한 환경에서 이동 제약이 드러났습니다. VLN-PE는 MP3D를 넘어 새로운 장면을 원활하게 통합할 수 있도록 확장 가능하며, 보다 포괄적인 VLN 평가를 가능하게 합니다. 현재 모델들의 실제 배치 환경에서의 일반화 성능이 낮음에도 불구하고, VLN-PE는 다양한 로봇 형태에 대한 적응력을 향상시키는 새로운 방법을 제공합니다.