CAREL (Cross-modal Auxiliary REinforcement Learning)은 언어로 안내되는 목표 달성 강화 학습 문제에서 환경 내 명령어를 기반으로 하는 새로운 프레임워크입니다. 비디오-텍스트 검색 분야에서 영감을 받은 보조 손실 함수와 환경 내 진행 상황을 자동으로 추적하는 새로운 방법인 instruction tracking을 사용합니다. 다양한 작업과 환경에서 모델의 일반화 능력을 향상시키는 데 중점을 두고 있으며, 목표 달성 시나리오에서 에이전트가 환경적 맥락 내에서 명령어의 여러 부분을 이해하여 전체 작업을 성공적으로 완료할 수 있도록 합니다. 실험 결과, 다중 모달 강화 학습 문제에서 우수한 샘플 효율성과 체계적인 일반화 성능을 보여줍니다.