본 논문은 다국어 및 교차 언어 환경에서의 지시사항 따르기 능력 평가를 위한 종합적인 벤치마크인 MaXIFE를 제시합니다. MaXIFE는 23개 언어에 걸쳐 1,667개의 검증 가능한 지시사항 작업을 포함하며, 규칙 기반 평가와 모델 기반 평가를 통합하여 효율성과 정확성을 모두 고려합니다. 여러 주요 상용 및 오픈소스 대규모 언어 모델(LLM)을 평가하여 향후 비교를 위한 기준 결과를 설정하고, 다국어 지시사항 따르기 평가를 위한 표준화된 도구를 제공하여 자연어 처리 연구 및 개발을 발전시키는 것을 목표로 합니다.