본 논문은 인터넷 데이터로 학습된 Vision-Language Model (VLM)을 실제 로봇에 적용하는 어려움을 해결하기 위해, 실세계 경험을 기반으로 VLM을 접지시키는 프레임워크인 ExpTeach를 제시합니다. ExpTeach는 VLM이 자율적으로 행동을 계획하고, 결과를 검증하고, 실패를 반추하며, 폐쇄 루프에서 로봇의 행동을 적응시키는 과정을 통해 자체적으로 경험을 생성합니다. 이 과정에서 생성된 경험은 장기 기억으로 요약되어, Retrieval-Augmented Generation (RAG)을 통해 미래 과제를 안내하는 데 사용됩니다. 또한, 주문형 이미지 주석 모듈을 통해 VLM의 공간적 이해력을 향상시킵니다. 실험 결과, 반추 기능이 네 가지 어려운 로봇 작업에서 성공률을 36%에서 84%로 향상시키고, 창의적인 도구 사용을 포함한 지능적인 객체 상호 작용이 나타나는 것을 확인했습니다. 12가지 실제 시나리오(그 중 8개는 미지의 시나리오)에 대한 광범위한 테스트에서 장기 기억을 통한 접지가 단일 시도 성공률을 22%에서 80%로 향상시키는 것을 보여주어 ExpTeach의 효과와 일반화 가능성을 입증합니다.