본 논문은 사람과 언어로 상호 작용할 수 있는 상황 인식 에이전트를 구축할 때 복잡한 지각(예: 픽셀)과 행동에 언어를 접지하는 것이 주요 과제임을 다룹니다. 기존 연구에서는 수동으로 언어 접지를 설계하거나 환경 요소와 언어를 연결하는 방대한 데이터 세트를 큐레이팅하는 방식으로 이 문제를 해결했습니다. 본 논문에서는 데이터로부터 형식 언어를 접지하고 이 언어를 통해 RL 에이전트에게 직접 작업을 부여하여 행동을 유도하는 신경 기호 프레임워크인 Ground-Compose-Reinforce를 제안합니다. 데이터 기반 학습을 통해 보상 함수나 심볼 검출기와 같은 도메인 특정 요소의 수동 설계를 피하고, 구성적인 형식 언어 의미론을 통해 데이터 효율적인 접지와 임의의 언어 구성에 대한 일반화를 달성합니다. 이미지 기반 그리드 월드와 MuJoCo 로봇 공학 도메인에 대한 실험을 통해 제안된 접근 방식이 제한된 데이터로 형식 언어 지침을 행동에 안정적으로 매핑하는 반면, 종단 간 데이터 기반 접근 방식은 실패함을 보여줍니다.