본 논문은 고품질 아랍어 사전 학습 데이터 확보 노력을 넘어, 추론 및 도구 호출 기능을 포함하는 대규모 다중 턴 아랍어 데이터셋의 부재를 해결하고자 한다. 특히, 사전 학습 단계에서는 단순 번역이 가능하지만, 사후 학습 단계에서는 더욱 높은 품질의 데이터가 필요하며, 이를 위해 엄격한 데이터셋 큐레이션 접근 방식이 필요하다는 점을 강조한다. 본 연구에서는 Smoltalk2를 번역한 SmolKalam을 소개하며, 다중 모델 앙상블 번역 파이프라인, 품질 필터링 적용, 그리고 전통적인 디코더-온리 모델을 위한 효과적인 번역 기법 연구를 수행했다.