본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하는 새로운 벤치마크인 CodeIF-Bench를 제시합니다. 기존 벤치마크가 단일 라운드 상호작용에서의 기능적 정확성에 초점을 맞춘 것과 달리, CodeIF-Bench는 실제 소프트웨어 개발 요구사항과 정렬된 9가지 유형의 검증 가능한 명령어를 포함하여 다중 라운드 상호작용에서의 명령어 준수 능력을 평가합니다. 9개의 주요 LLM을 CodeIF-Bench를 사용하여 평가한 결과, 기본 프로그래밍 능력과 명령어 준수 능력 사이에 상당한 차이가 있으며, 특히 작업 복잡성, 컨텍스트 길이 및 대화 라운드 수가 증가함에 따라 그 차이가 더욱 커짐을 보여줍니다.