본 논문은 대규모 언어 모델(LLM)이 추가적인 훈련 없이 추론 시점에 최종 사용자의 선호도에 맞춰 출력을 생성할 수 있도록 하는 PITA 프레임워크를 소개합니다. PITA는 사전 훈련된 보상 모델에 의존하지 않고, 선호도 피드백을 LLM의 토큰 생성에 직접 통합하여 작은 선호 기반 안내 정책을 학습합니다. 이를 통해 계산 비용을 절감하고, 잠재적으로 불안정한 사전 훈련된 보상 모델에 의존하는 기존 방법의 한계를 극복합니다. PITA는 확률적 검색과 반복적인 안내 모델 개선을 통해 기본 선호도 분포를 식별하며, 수학적 추론 및 감성 분류 등 다양한 작업에서 사용자 선호도에 맞춰 LLM 출력을 효과적으로 정렬함을 입증합니다.