본 논문은 저자원 언어인 필리핀어(타갈로그어 및 타글리시)에 대한 대규모 언어 모델(LLM)의 성능을 종합적으로 평가하기 위한 벤치마크인 Batayan을 제시합니다. Batayan은 이해, 추론, 생성의 세 가지 주요 자연어 처리(NLP) 역량에 걸쳐 8가지 과제를 통합하며, 그중 3가지는 필리핀어 말뭉치에 대해 이전에는 존재하지 않던 새로운 과제입니다. 모국어 화자 중심의 엄격한 적응 및 검증 과정을 통해 필리핀어의 복잡한 형태론적 및 구문적 구조에 대한 유창성과 진정성을 보장하고, 기존 필리핀어 말뭉치에 만연한 번역투 오류를 완화합니다. 다양한 오픈소스 및 상용 LLM에 대한 실험 결과를 제시하여, 사전 훈련 말뭉치에서 필리핀어의 부족한 표현, 풍부한 형태론 및 구조 모델링의 고유한 어려움, 명시적인 필리핀어 지원의 중요성을 보여줍니다. 또한 데이터셋 구축 과정에서 발생한 실질적인 문제점을 논의하고, 저자원 언어에 대한 문화적, 언어적으로 충실한 자원을 구축하기 위한 원칙적인 해결책을 제안합니다. 마지막으로, 필리핀어 NLP 분야의 반복적이고 공동체 중심의 발전을 위한 기반으로 공개 평가 도구를 제공합니다.