본 논문은 지시어 학습을 받은 대규모 언어 모델(LLM)이 추론 과정에서 역할 표시자나 특수 토큰과 같은 구조화된 템플릿을 사용하여 형식 일관성을 유지하는 방식의 한계점을 지적합니다. 구체적으로, 이러한 형식화는 모델이 개방형 입력에 대해 의미적으로 유사한 출력을 생성하는 "다양성 붕괴" 현상을 유발하여 창의성과 변이성을 저해한다는 점을 밝힙니다. 이를 이야기 완성 및 자유 형식 생성과 같은 작업을 통해 체계적으로 평가하여 고온 샘플링에서도 다양성 붕괴가 지속되며, 템플릿의 구조적 토큰이 모델의 출력 공간을 상당히 제약한다는 것을 발견했습니다. 다양한 구조화된 프롬프트를 사용하여 동일한 모델을 미세 조정하고, 하류 작업 성능, 정렬 동작, 출력 다양성 세 가지 측면에서 평가하여, 미세 조정과 추론 간의 형식 일관성은 구조에 민감한 작업(예: GSM8K, IFEval)에는 중요하지만 지식 집약적인 작업(예: MMLU, WebQuestions)에는 거의 영향을 미치지 않는다는 것을 보였습니다. 반대로, 출력 다양성은 구조적 토큰의 유무에 따라 주로 결정되며, 형식화를 최소화할수록 가장 다양한 출력이 생성됩니다. 결론적으로, 현재의 프롬프트 관례는 정렬에 유익하지만 의도치 않게 출력 다양성을 억제할 수 있으므로 다양성을 고려한 프롬프트 설계 및 지시어 학습이 필요함을 시사합니다.