본 논문은 가정용 서비스에서 자율 시스템에 필수적인, 자연어로 된 복잡한 인간의 지시를 수행하는 구현된 에이전트를 위한 방법을 제안합니다. 기존 방법은 모든 상호 작용 객체가 구현된 에이전트에 제공되는 알려진 환경에서만 인간의 지시를 수행할 수 있으며, 알려지지 않은 환경에 기존 접근 방식을 직접 적용하면 존재하지 않는 객체를 조작하는 실행 불가능한 계획이 생성됩니다. 이에 반해, 본 논문에서는 에이전트가 알려지지 않은 환경을 효율적으로 탐색하여 기존 객체를 사용하여 추상적인 지시를 수행하는 실행 가능한 계획을 생성하는 알려지지 않은 환경에서 복잡한 작업을 위한 구현된 지시 따르기(EIF) 방법을 제안합니다. 구체적으로, 고수준 작업 계획자와 다중 모드 대규모 언어 모델을 사용한 저수준 탐색 제어기를 포함하는 계층적 구현된 지시 따르기 프레임워크를 구축합니다. 그런 다음 동적 영역 주의를 사용하여 장면의 의미론적 표현 맵을 구성하여 알려진 시각적 단서를 보여줍니다. 여기서 작업 계획 및 장면 탐색의 목표는 인간의 지시에 맞춰져 있습니다. 작업 계획자는 작업 완료 프로세스와 알려진 시각적 단서에 따라 인간의 목표 달성을 위한 실행 가능한 단계별 계획을 생성합니다. 탐색 제어기는 생성된 단계별 계획과 알려진 시각적 단서를 기반으로 최적의 탐색 또는 객체 상호 작용 정책을 예측합니다. 실험 결과에 따르면, 본 방법은 아침 식사 준비 및 방 정리와 같은 204개의 복잡한 인간 지시에서 45.09%의 성공률을 달성할 수 있음을 보여줍니다.