본 연구는 소규모 언어 모델(SLM)의 성능에 대한 훈련 데이터의 질과 양의 상대적 영향을 TinyStories 데이터셋을 이용하여 실험적으로 분석합니다. 데이터셋 크기(원본의 25% 및 50%)와 중복률(25%, 50%, 75%, 100%)을 변화시켜 실험을 진행했습니다. 검증 손실, 정확도, 퍼플렉서티 지표를 통해 모델 성능을 평가한 결과, 특히 이 실험의 규모를 고려할 때, SLM의 전반적인 성능에는 훈련 데이터의 질이 더 중요한 역할을 한다는 것을 보여줍니다. 최소한의 중복은 모델 정확도를 약간 향상시켰지만(중복률 25%에서 정확도 0.87% 증가), 과도한 중복은 성능 저하를 초래했습니다(중복률 100%에서 정확도 40% 감소). 이 연구는 모델 성능을 넘어 대규모 모델 훈련의 경제적, 환경적 문제를 고려하여 AI 기술의 민주화에 기여할 수 있다는 시사점을 제공합니다.