본 논문은 현대 강화학습(RL) 시스템의 표본 효율성 및 적응성 한계를 극복하기 위해 이론 기반 강화학습(TBRL) 프레임워크를 제시합니다. TBRL은 인지 이론을 모델링하여 구조화된 인과적 세계 모델("이론")을 전향 시뮬레이터로 활용하여 계획, 일반화 및 탐색을 수행합니다. 기존 TBRL 시스템의 제한적인 이론 언어와 확장성 부족 문제를 해결하기 위해, 계층적 이론 표현과 효율적인 프로그램 합성 기법을 활용하는 TheoryCoder를 제안합니다. TheoryCoder는 일반 목적 추상화(예: "이동")를 사용하고, 관측치로부터 대규모 언어 모델을 통해 Python 프로그램을 합성하여 저수준 전이 모델을 학습하여 환경에 적용합니다. 이 계층적 구조를 활용하는 2단계 계획 알고리즘을 통해 대규정 영역을 해결할 수 있습니다. 다양한 그리드 월드 게임에서 기존 정책 합성 기반 접근 방식보다 우수한 성능을 보이며, 계층적 추상화의 이점을 입증합니다.