대규모 언어 모델(LLM)이 다양한 난이도의 작업에 얼마나 잘 일반화되는지 연구. 데이터 큐레이션 및 평가에 중요한 이 질문에 답하기 위해, 다양한 모델, 데이터셋, 예시 난이도 그룹에서 LLM의 일반화를 체계적으로 평가. Item Response Theory (IRT)를 사용하여 6개의 데이터셋에서 예시 난이도를 평가하며, 이는 인간의 주관적인 평가를 배제하고 LLM의 출력만으로 결정됨. 연구 결과, 난이도에 따른 일반화는 제한적이며, 쉬운 데이터나 어려운 데이터만으로 훈련하는 것은 모든 난이도 범위에서 일관된 개선을 달성할 수 없음.