본 논문은 여러 까다로운 작업에서 매우 강력한 성능을 보이는 현재의 다중 모드 대형 언어 모델(MLLM)을 연구합니다. 상업용 MLLM은 자원이 부족한 언어에서 허용 가능한 성능을 제공하지만, 오픈 과학 커뮤니티에서는 유사한 결과를 얻지 못하고 있습니다. 본 논문에서는 바스크어를 대상으로 강력한 MLLM을 개발하는 것을 목표로 합니다. 이를 위해 자체 훈련 및 평가 이미지-텍스트 데이터 세트를 개발하고, Llama-3.1-Instruct 모델과 Latxa라는 바스크어 적응형 변형 모델을 포함한 두 가지 대형 언어 모델을 백본으로 사용하여 다양한 데이터 혼합 방식을 탐색합니다. 연구 결과, 바스크어 멀티모달 데이터의 낮은 비율(약 20%)만으로도 바스크어 벤치마크에서 견고한 결과를 얻을 수 있으며, 강력한 바스크어 MLLM을 얻기 위해 바스크어 지시 백본 LLM이 필요하지 않음을 확인했습니다. 연구 결과는 공개적으로 자원을 공개함으로써 다른 자원 부족 언어에 대한 MLLM을 개발하는 길을 열었습니다.