본 논문은 대규모 언어 모델(LLMs)의 다국어 및 저자원 환경에서의 성능을 평가하기 위한 새로운 벤치마크인 IRLBench를 소개합니다. UNESCO에서 멸종 위기에 처한 언어로 분류되는 아일랜드어와 영어로 병렬 구성된 IRLBench는 2024년 아일랜드 졸업시험 문제 12개를 기반으로 하며, 장문 생성 방식을 채택하여 정확성과 언어 충실도를 종합적으로 평가합니다. 실험 결과, 최고 성능 모델조차도 아일랜드어 과제에서 영어 과제보다 낮은 정확도(55.8% vs 76.2%)를 보이며, 아일랜드어로 유효한 응답을 생성하는 비율도 80% 미만에 그쳤습니다. 본 논문은 IRLBench 데이터셋과 평가 코드를 공개하여 향후 강건하고 문화적으로 인식하는 다국어 AI 개발 연구를 지원합니다.