본 논문은 대규모 언어 모델(LLM)을 이용하여 해석 가능한 에이전트 정책을 코드로 합성함으로써 그리드 기반 작업을 해결하기 위한 반복적 프로그램 계획(IPP) 프레임워크를 제안합니다. 기존의 탐색이나 강화 학습에 의존하는 대신, LLM이 환경 상태를 행동 순서로 매핑하는 실행 가능한 프로그램을 출력하는 코드 생성을 정책 합성으로 사용합니다. 제안된 아키텍처는 직접 코드 생성, 의사 코드 조건화된 개선, 커리큘럼 기반 프롬프팅을 포함한 여러 프롬프팅 전략을 통합하지만, 작업 성능 피드백을 기반으로 코드를 업데이트하는 반복적 개선 메커니즘도 포함합니다. 6개의 주요 LLM과 2개의 어려운 그리드 기반 벤치마크(GRASP 및 MiniGrid)를 사용하여 접근 방식을 평가했습니다. IPP 프레임워크는 6개 모델 중 5개에서 10%에서 최대 10배까지 직접 코드 생성보다 향상된 성능을 보여주며 GRASP에 대한 새로운 최첨단 결과를 달성했습니다. IPP는 GPT-o3-mini에서 직접 솔루션을 유도하는 것보다 (MiniGrid에서 63%, GRASP에서 116% 향상) 상당히 우수한 성능을 보여 전체 접근 방식의 실행 가능성을 입증합니다. 모든 코드 생성 접근 방식의 계산 비용은 비슷합니다. 코드 생성은 직접 솔루션 유도보다 초기 프롬프팅 비용이 더 높지만(GPT-o3-mini의 경우 작업당 $0.08 대 인스턴스당 $0.002), 코드는 여러 인스턴스에 재사용할 수 있으므로 감가 상각 비용이 상당히 낮아집니다(전체 GRASP 벤치마크에서 GPT-o3-mini의 경우 400배).