본 논문은 인간 중심 환경에서 서비스 로봇의 자율 작동을 위한 새로운 아키텍처인 Hi-Dyna Graph를 제안합니다. Hi-Dyna Graph는 지속적인 전역 레이아웃과 국지적인 동적 의미를 통합하는 계층적 동적 장면 그래프 아키텍처로, 전역 위상 그래프와 동적 하위 그래프를 결합하여 환경 변화에 따라 매끄럽게 업데이트됩니다. 전역 위상 그래프는 RGB-D 입력으로부터 생성되며, 방 크기의 연결성과 큰 정적 객체(예: 가구)를 인코딩합니다. 동적 하위 그래프는 환경 및 자기중심 카메라로부터 객체 위치 관계 및 인간-객체 상호 작용 패턴을 채웁니다. 대규모 언어 모델(LLM) 기반 에이전트는 통합된 그래프를 해석하고 잠재적인 작업 트리거를 추론하며 로봇적 수행 가능성을 기반으로 실행 가능한 명령을 생성합니다. 실제 세계 배치 실험을 통해 모바일 매니퓰레이터가 동적 환경(카페테리아 조수)에서 추가 훈련이나 복잡한 보상 없이 복잡한 작업을 자율적으로 완료하는 것을 보여줍니다.