본 논문은 대규모 언어 모델(LLM)이 복잡한 다단계 추론에서 겪는 어려움을 해결하기 위해 개발된 새로운 방법인 Per-Instance Program Synthesis (PIPS)를 소개합니다. PIPS는 작업별 지침이나 명시적 테스트 케이스 없이 구조적 피드백을 사용하여 개별 사례 수준에서 프로그램을 생성하고 개선합니다. 또한, 직접 추론과 프로그램 합성을 동적으로 선택하는 신뢰도 지표를 통합하여 성능을 향상시킵니다. Big Bench Extra Hard (BBEH), 시각적 질의 응답, 관계적 추론 및 수학적 추론을 포함한 30개의 벤치마크에서 실험한 결과, PIPS는 Chain of Thought (CoT) 및 Program of Thought (PoT)에 비해 절대 조화 평균 정확도를 최대 8.6%와 9.4%까지 향상시켰으며, 알고리즘 작업에서 바람직하지 않은 프로그램 생성을 최대 65.1%까지 줄였습니다.