본 논문은 대규모 언어 모델(LLM)이 불완전한 지시(누락된 맥락, 모호한 지시, 부적절한 어조 등)로 인해 안전하고, 유용하며, 정직한 콘텐츠 생성에 실패하는 문제를 해결하기 위해, 모델 디코딩 전에 지시 사항을 사전 정렬하는 P-Aligner라는 경량 모듈을 제안합니다. P-Aligner는 Monte-Carlo Tree Search를 사용하여 생성된 UltraPrompt 데이터셋을 통해 훈련되며, 원래 의도를 유지하면서 인간이 선호하는 형태로 지시 사항을 재구성합니다. 실험 결과, P-Aligner는 GPT-4-turbo 및 Gemma-2-SimPO와 같은 다양한 모델과 벤치마크에서 기존 방법보다 우수한 성능을 보였으며, 평균 승률이 각각 28.35%와 8.69% 증가했습니다. 데이터 품질, 검색 전략, 반복적 배포 및 시간 오버헤드 등 다양한 관점에서 효과성과 효율성을 검증했습니다.