본 논문은 동남아시아(SEA) 언어를 위한 포괄적이고 문화적으로 대표적인 대규모 언어 모델(LLM) 평가 도구인 SEA-HELM을 제시합니다. 기존의 LLM 벤치마크들이 영어 및 여러 중저자원 언어에 대한 LLM의 특정 기능을 평가할 수 있지만, SEA 언어에 대한 포괄적이고 문화적으로 대표적인 평가 도구는 부족했습니다. SEA-HELM은 NLP Classics, LLM-specifics, SEA Linguistics, SEA Culture, Safety의 다섯 가지 핵심 요소로 구성되며, 필리핀어, 인도네시아어, 타밀어, 태국어, 베트남어를 지원합니다. 또한, 사용자 친화적인 방식으로 모델의 다국어 및 다문화적 성능을 이해할 수 있도록 SEA-HELM 리더보드를 제공하며, 평가 코드를 공개합니다.