본 논문은 기존의 Vision-and-Language Navigation (VLN) 시스템이 이산적(파노라마) 또는 연속적(자유 이동) 패러다임 중 하나에만 집중하여 인간이 거주하는 역동적인 환경의 복잡성을 간과하는 문제를 해결하기 위해, 사회적 인식 제약 조건 하에 이러한 패러다임을 통합한 통합 Human-Aware VLN (HA-VLN) 벤치마크를 제시합니다. 주요 기여는 다음과 같습니다: 1. 이산-연속 탐색과 개인 공간 요구 사항을 균형 있게 고려한 표준화된 작업 정의, 2. 현실적인 다중 인간 상호 작용, 실외 환경 및 개선된 동작-언어 정렬을 포착하는 향상된 인간 동작 데이터 세트 (HAPS 2.0) 및 업그레이드된 시뮬레이터, 3. 16,844개의 인간 중심 지침에 대한 광범위한 벤치마킹을 통해 다중 인간 역학과 부분 관측 가능성이 주요 VLN 에이전트에 상당한 과제를 제기하는 방식을 밝힘, 4. 혼잡한 실내 공간에서의 sim-to-real 전이를 검증하는 실제 로봇 테스트, 5. 이산 및 연속 작업에 대한 투명한 비교를 지원하는 공개 리더보드. 실험 결과는 사회적 맥락이 통합될 때 탐색 성공률이 향상되고 충돌이 줄어드는 것을 보여주어 인간 중심 설계의 필요성을 강조합니다. 모든 데이터 세트, 시뮬레이터, 에이전트 코드 및 평가 도구를 공개하여 더 안전하고 능력 있고 사회적으로 책임감 있는 VLN 연구를 발전시키는 것을 목표로 합니다.