본 논문은 프로그래밍 강화 학습(PRL)의 샘플 비효율성 문제를 해결하기 위해 대규모 언어 모델(LLM) 기반 검색 프레임워크(LLM-GS)를 제시합니다. LLM의 프로그래밍 전문 지식과 상식 추론 능력을 활용하여 가정 없는 무작위 추측 검색 방법의 효율성을 높이는 것이 핵심 아이디어입니다. 도메인 특화 언어(DSL)에서 정확하고 문법적으로 올바른 프로그램을 생성하는 데 어려움을 겪는 LLM의 한계를 해결하기 위해 Pythonic-DSL 전략을 제안합니다. 이는 LLM이 먼저 Python 코드를 생성한 후 DSL 프로그램으로 변환하는 방식입니다. 또한, LLM이 생성한 프로그램을 최적화하기 위해 프로그램 검색 공간을 효율적으로 탐색하여 프로그램을 지속적으로 개선하는 예약된 오르막 등반(Scheduled Hill Climbing) 알고리즘을 개발했습니다. Karel 도메인에서의 실험 결과는 LLM-GS 프레임워크의 우수한 효과와 효율성을 보여주며, 추가적인 ablation 연구는 Pythonic-DSL 전략과 Scheduled Hill Climbing 알고리즘의 중요성을 확인했습니다. 마지막으로, 두 가지 새로운 작업에 대한 실험을 통해 프로그래밍 기술이나 도메인 또는 DSL에 대한 지식이 없는 사용자도 자연어로 작업을 설명하여 성능이 좋은 프로그램을 얻을 수 있음을 보여줍니다.