소규모 언어 모델(SLM)이 특정 도메인에서 대규모 언어 모델(LLM)에 대한 효율적인 대안을 제공합니다. 본 연구는 2023 TinyStories 연구에서 개발된 영어 데이터셋을 인도어(힌디어, 마라티어, 벵갈어)로 번역하고, LLM을 사용하여 합성 데이터를 생성하여 확장합니다. SLM을 이용한 지역 언어 처리 및 언어적 복잡성 이해에 중점을 두고, LLM보다 훨씬 적은 매개변수를 사용하여 SLM이 지역 언어를 효율적으로 처리함을 보여줍니다. 토큰화 전략 및 언어적 복잡성에 대한 "추론 기반 평가"를 위한 보완적인 프레임워크를 제공하며, 인도어의 경우 언어별 토크나이저가 범용 토크나이저보다 성능이 우수함을 보여줍니다. 정보 이론적 및 형태론적 분석을 바탕으로 한 실증적 검증을 통해 힌디어 모델이 마라티어 및 벵갈어 모델보다 성능이 우수한 이유에 대한 기본적인 이해를 제공합니다. 또한, SLM 훈련을 위해 합성 데이터셋이 번역된 콘텐츠보다 성능이 우수함을 보여줍니다. 상관 분석을 통해 언어 간 패턴과 창의성, 문법적 정확성, 서술 완성도 간의 언어별 관계를 밝힙니다. 이러한 결과는 소외된 언어에 대한 SLM의 실용적인 적용과 신경 언어 발달에 대한 이론적 이해를 모두 발전시킵니다.