본 논문은 CommonGen과 같은 생성적 상식 추론 작업에서, 지시 사항에 명시된 순서대로 개념을 생성하는 대형 언어 모델(LLM)의 능력을 평가하기 위한 새로운 벤치마크인 Ordered CommonGen을 제안합니다. Ordered CommonGen은 지시 사항 준수 능력과 구성적 일반화 능력을 동시에 평가하며, 특히 개념의 순서를 준수하는 정도를 측정하는 'ordered coverage' 지표를 사용합니다. 36개의 LLM을 사용한 실험 결과, LLM들이 지시 사항의 의도를 이해하지만 특정 개념 순서 패턴에 대한 편향으로 인해 다양성이 낮거나 개념 순서가 바뀌어도 동일한 결과를 생성하는 경향이 있음을 밝혔습니다. 최고 성능의 LLM조차 약 75%의 ordered coverage만 달성하여, 지시 사항 준수 및 구성적 일반화 능력 향상의 필요성을 보여줍니다.