본 논문은 인공지능 연구의 핵심 분야인 구현된 지능의 발전에 발맞춰, 복잡한 인간 중심 사회적 행동을 포착하기 위해 저수준 물리적 상호작용을 넘어 진화한 시뮬레이션 플랫폼을 제시한다. 의도 및 사회적 인지 이론을 바탕으로 대규모 언어 모델(LLM)을 통합하여 높은 수준의 행동 계획 및 의미적으로 근거한 상호작용을 구현하는 대화형 시뮬레이션 프레임워크인 FreeAskWorld를 소개한다. 이 프레임워크는 확장 가능하고 현실적인 인간-에이전트 시뮬레이션을 지원하며, 다양한 구현된 작업을 위한 모듈식 데이터 생성 파이프라인을 포함한다. 고전적인 Vision-and-Language Navigation (VLN) 작업을 상호작용이 풍부한 Direction Inquiry 설정으로 확장하여 프레임워크를 검증하고, 재구성된 환경, 6가지 다양한 작업 유형, 16개의 핵심 객체 범주, 63,429개의 주석이 달린 샘플 프레임, 17시간 이상의 상호작용 데이터로 구성된 대규모 벤치마크 데이터세트 FreeAskWorld를 공개한다. VLN 모델과 인간 참가자를 대상으로 실험을 진행한 결과, FreeAskWorld에서 미세 조정된 모델이 향상된 의미 이해 및 상호작용 능력을 달성하여 원본 모델을 능가함을 확인했다.