본 논문은 대규모 언어 모델(LLM)을 위한 평가 효율성을 최적화하는 새로운 베이지안 최적화 프레임워크인 TextGrad-Best-of-N Bayesian Optimization(T-BoN BO)을 제안한다. T-BoN BO는 Best-of-N 선택 전략과 텍스트 그래디언트를 결합하여 평가 효율성이 중요한 사회적 응용 분야에서 LLM의 자체 개선을 가능하게 한다. 특히, T-BoN BO는 베이지안 최적화의 UCB 획득 함수의 동작을 통계적으로 에뮬레이션하여 평가 효율성을 극대화한다. 제안된 방법론은 광고 정렬 작업에 적용되어 기존 방법론보다 우수한 성능을 입증했다.