본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위해 파인튜닝 대신 프롬프트 최적화를 제안합니다. 기존 방법들은 비용이 많이 드는 출력 생성, 자기 비판 능력 또는 사람이 주석을 단 선호도에 의존하여 확장성이 제한적이라는 한계가 있습니다. 본 논문에서 제시하는 PMPO(Probabilistic Metric Prompt Optimization)는 토큰 수준의 교차 엔트로피 손실을 직접적이고 가벼운 평가 신호로 사용하여 프롬프트를 개선하는 통합 프레임워크입니다. PMPO는 마스킹과 손실에 대한 영향 측정을 통해 저품질 프롬프트 세그먼트를 식별하고, 양성 및 음성 예시에 대한 손실을 최소화하여 개선된 변형을 다시 작성하고 선택합니다. 기존 방법과 달리 최적화 중에 출력 샘플링이나 사람의 평가가 필요 없으며, 순전파와 로그 가능도에만 의존합니다. PMPO는 밀접하게 연관된 손실 기반 평가 전략을 통해 지도 학습과 선호도 기반 작업을 모두 지원합니다. 실험 결과, PMPO는 모델 크기와 작업에 걸쳐 기존 방법보다 일관되게 우수한 성능을 보였습니다. BBH에서 가장 높은 평균 정확도를 달성했고, GSM8K와 AQUA-RAT에서도 강력한 성능을 보였으며, AlpacaEval 2.0 승률을 19% 이상 향상시켰습니다. 이러한 결과는 PMPO의 효과, 효율성 및 광범위한 적용 가능성을 강조합니다.