본 논문은 대규모 언어 모델(LLM)의 지시사항 따르기 능력 평가를 위한 다국어 기준점인 MaXIFE를 제시합니다. 기존 평가 방법들이 단일 언어에 집중하는 한계를 극복하고자, MaXIFE는 23개 언어, 1667개의 검증 가능한 지시 사항 작업을 통해 다국어 및 교차 언어 환경에서의 지시 사항 따르기 능력을 평가합니다. 규칙 기반 평가와 모델 기반 평가를 통합하여 효율성과 정확성을 동시에 고려하며, 여러 주요 상용 LLM에 대한 기준 결과를 제시하여 향후 연구의 비교 기준으로 활용될 수 있도록 합니다.