본 논문은 기존의 Vision-and-Language Navigation (VLN) 시스템이 이산적(파노라마) 또는 연속적(자유 이동) 패러다임 중 하나에만 초점을 맞추는 한계를 극복하고, 사람이 많고 역동적인 환경의 복잡성을 고려한 통합적인 Human-Aware VLN (HA-VLN) 벤치마크를 제시합니다. 이를 위해 개인 공간 요구 사항을 고려한 이산-연속 탐색을 균형 있게 처리하는 표준화된 작업 정의, 현실적인 다중 인간 상호 작용, 실외 환경, 그리고 개선된 동작-언어 정렬을 포착하는 향상된 인간 동작 데이터셋(HAPS 2.0) 및 업그레이드된 시뮬레이터, 16,844개의 인간 중심 지시에 대한 광범위한 벤치마킹, 혼잡한 실내 공간에서의 실제 로봇 테스트, 그리고 이산 및 연속 작업에 대한 투명한 비교를 지원하는 공개 리더보드를 제공합니다. 실험 결과는 사회적 맥락이 통합될 때 탐색 성공률이 향상되고 충돌이 감소함을 보여주며, 인간 중심 설계의 필요성을 강조합니다. 모든 데이터셋, 시뮬레이터, 에이전트 코드 및 평가 도구를 공개하여 더 안전하고, 능력 있고, 사회적으로 책임감 있는 VLN 연구를 발전시키는 것을 목표로 합니다.