본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하는 새로운 다중 언어 벤치마크를 제시합니다. 기존 벤치마크가 기능적 정확성에 초점을 맞춘 반면, 이 벤치마크는 다양한 실제 코딩 작업과 개발자 기대를 고려하여 LLM의 지시 따르기 능력을 평가합니다. LiveBench의 프로그래밍 작업을 기반으로 Python, Java, JavaScript에서 벤치마크를 수행하여 모델의 성능을 측정하고, 지시 준수 및 후속 지침 기반 개선 능력을 평가합니다.