본 논문은 대규모 언어 모델(LLM)의 프롬프트 최적화를 위한 새로운 프레임워크인 Contrastive Reasoning Prompt Optimization (CRPO)를 제시한다. CRPO는 LLM의 내재된 추론 능력을 활용하여 대조적인 예시로부터 학습하는 retrieval-augmented reasoning 프로세스로 프롬프트 최적화를 수행한다. HelpSteer2 데이터셋을 활용하여 높은 품질과 낮은 품질의 프롬프트-응답 쌍을 대조하고, tiered contrastive reasoning과 multi-metric contrastive reasoning을 통해 LLM이 자체적으로 프롬프트를 개선하도록 한다. 실험 결과, CRPO는 기존의 방법론보다 뛰어난 성능을 보였다.