본 연구는 소규모 언어 모델(SLM)의 성능에 대한 훈련 데이터의 질과 양의 상대적 영향을 TinyStories 데이터셋을 이용하여 실증적으로 분석합니다. 데이터셋 크기(원본의 25%, 50%)와 중복률(25%, 50%, 75%, 100%)을 변화시켜 실험을 진행하였으며, 검증 손실, 정확도, 퍼플렉서티를 평가 지표로 사용했습니다. 그 결과, 특히 본 실험 규모에서는 훈련 데이터의 질이 SLM의 전반적인 성능에 더 큰 영향을 미치는 것으로 나타났습니다. 약간의 중복은 모델 정확도를 향상시켰으나(중복률 25%에서 정확도 +0.87% 증가), 과도한 중복은 성능 저하를 초래했습니다(중복률 100%에서 정확도 -40% 감소). 이러한 연구 결과는 모델 성능 향상을 넘어, 대규모 모델 훈련의 높은 비용과 환경적 영향을 고려하여 AI 기술의 민주화 및 지속가능성에 기여할 수 있습니다.