본 논문은 부분적으로 관측 가능한 마르코프 결정 과정(POMDP) 모델 학습 문제를 다룬다. 기존의 POMDP 근사 해결 방법들과 달리, 관측 함수, 보상 함수, 전이 함수, 초기 상태 분포 함수를 포함한 모델 구성 요소들을 단순한 확률적 프로그램으로 표현하는 POMDP의 하위 집합에 집중한다. LLM을 사전 지식으로 활용하여 후보 확률적 프로그램을 생성하고, 경험적 분포와 비교하여 피드백을 통해 조정하는 전략을 제시한다. 고전적인 POMDP 문제, 시뮬레이션된 MiniGrid 도메인, 그리고 부분 관측성을 포함하는 두 가지 실제 모바일 로봇 탐색 도메인에서 실험을 수행하여 LLM 기반 저복잡도 POMDP 모델 학습이 기존의 테이블 기반 POMDP 학습, 행동 복제, 또는 직접적인 LLM 계획보다 효과적임을 보였다.