본 논문은 고밀도 지시어(instruction) 하에서 대규모 언어 모델(LLM)의 지시어 따르기 성능을 평가하기 위한 새로운 벤치마크 IFScale을 제시합니다. IFScale은 비즈니스 보고서 작성 작업에 대한 500개의 키워드 포함 지시어로 구성되며, 지시어 밀도가 증가함에 따라 성능 저하를 측정합니다. 7개 주요 제공업체의 최첨단 모델 20개를 평가한 결과, 최고 성능 모델조차도 500개 지시어 최대 밀도에서 68%의 정확도만 달성했습니다. 분석 결과, 모델 크기와 추론 능력은 3가지 구별되는 성능 저하 패턴, 초기 지시어에 대한 편향, 그리고 지시어 따르기 오류의 뚜렷한 범주와 상관관계가 있음을 밝혔습니다. 본 연구는 실제 응용 프로그램에서 고밀도 지시어 프롬프트 설계에 대한 정보를 제공하고 중요한 성능-지연 시간 절충 관계를 강조합니다. 벤치마크 및 모든 결과는 공개적으로 제공됩니다.