본 논문은 다양한 제약 조건을 가진 사용자의 지시를 처리하는 데 어려움을 겪는 최신 LLM의 한계를 지적하며, 이러한 문제를 해결하기 위해 WildIFEval이라는 대규모 데이터셋을 소개합니다. WildIFEval은 7,000개의 실제 사용자 지시를 포함하며, 다양한 제약 조건을 포괄합니다. 본 논문에서는 WildIFEval을 사용하여 주요 LLM의 지시 따르기 능력을 평가하고, 제약 조건의 수와 유형이 모델 성능에 미치는 영향을 분석합니다. 또한, 이 데이터셋을 공개하여 복잡하고 현실적인 상황에서의 지시 따르기 연구를 촉진하고자 합니다.