본 논문은 55개의 공개적으로 접근 가능한 대규모 언어 모델(LLM)들을 저자원 언어인 말타어에 대해 11가지의 판별 및 생성 작업으로 구성된 새로운 벤치마크를 사용하여 평가한 연구 결과를 제시합니다. 실험 결과, 많은 모델들이 특히 생성 작업에서 성능이 저조하며, 소규모 미세 조정 모델들이 대부분의 작업에서 더 나은 성능을 보이는 것으로 나타났습니다. 다차원 분석을 통해 성능에 영향을 미치는 다양한 요소들을 조사하여, 사전 훈련 및 지시 조정 과정에서 말타어에 대한 노출이 가장 중요한 요소임을 밝혔습니다. 또한 미세 조정과 프롬프트 엔지니어링 간의 절충점을 분석하여, 미세 조정은 초기 비용이 더 높지만 더 나은 성능과 낮은 추론 비용을 제공함을 보여줍니다. 결론적으로 저자원 언어를 위한 포괄적인 언어 기술의 필요성을 강조하며, 저자원 언어 연구자들에게 보다 "전통적인" 언어 모델링 접근 방식을 고려할 것을 권장합니다.