본 연구는 대규모 언어 모델(LLM)이 튀니지 아랍어(Tunizi)와 같은 저자원 언어를 이해하는 데 있어 간과되는 점을 지적합니다. 튀니지 아랍어를 이해하는 LLM의 부족은 튀니지인들이 자국어 대신 프랑스어나 영어를 사용하도록 강요할 수 있으며, 이는 언어 보존에 위협이 될 수 있습니다. 이에 따라 튀니지 아랍어, 표준 튀니지 아랍어, 영어 병렬 번역 데이터셋을 구축하고, 감성 분석 레이블을 추가하여 LLM의 성능을 평가했습니다. 다양한 LLM을 대상으로 음역, 번역, 감성 분석 task를 수행한 결과, 모델 간 성능 차이를 확인하고, 저자원 언어의 중요성을 강조했습니다.