EMAC+는 LLM과 VLM을 양방향 학습 방식으로 통합한 새로운 엠바디드 멀티모달 에이전트입니다. 기존 방법과 달리, LLM이 생성한 상위 수준의 텍스트 계획을 VLM이 수행하는 하위 수준의 시각적 제어 작업으로부터의 실시간 피드백을 사용하여 동적으로 개선합니다. LLM이 정적인 상징적 매핑에만 의존하는 대신 상호 작용 경험을 통해 시각적 환경 역학을 직접 내재화할 수 있도록 함으로써 기존 모델의 중요한 한계를 해결합니다. ALFWorld 및 RT-1 벤치마크에 대한 광범위한 실험 평가는 EMAC+가 우수한 작업 성능, 노이즈 관측에 대한 강력한 견고성 및 효율적인 학습을 달성함을 보여줍니다. 또한 철저한 ablation study와 성공 및 실패 사례에 대한 자세한 분석을 제공합니다.