본 논문은 Post-training alignment 과정에서 LLM의 다양성이 감소하는 현상, 즉 mode collapse를 야기하는 근본적인 원인이 알고리즘적 한계가 아닌, 선호도 데이터 내의 전형성 편향에 있음을 밝힙니다. 연구진은 이를 이론적으로 정립하고, 선호도 데이터셋에서 실증적으로 검증했습니다. 이러한 분석을 바탕으로, mode collapse를 우회하는 훈련 없는 간단한 프롬프트 전략인 Verbalized Sampling (VS)을 제안합니다. VS는 모델에게 일련의 응답에 대한 확률 분포를 언어화하도록 프롬프트합니다. 다양한 실험을 통해 VS가 창작, 대화 시뮬레이션, 개방형 질의응답, 합성 데이터 생성 등 다양한 분야에서 성능을 크게 향상시킴을 입증했으며, 특히 창작 분야에서 다양성을 크게 증가시켰습니다. 또한, 더 성능 좋은 모델일수록 VS의 효과가 더 크다는 경향을 발견했습니다.