Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Training Data Quality or Quantity More Impactful to Small Language Model Performance?

Created by
  • Haebom

저자

Aryan Sajith, Krishna Chaitanya Rao Kathala

개요

본 연구는 소규모 언어 모델(SLM)의 성능에 대한 훈련 데이터의 질과 양의 상대적 영향을 TinyStories 데이터셋을 이용하여 실증적으로 분석합니다. 데이터셋 크기(원본의 25%, 50%)와 중복률(25%, 50%, 75%, 100%)을 변화시켜 실험을 진행하였으며, 검증 손실, 정확도, 퍼플렉서티를 평가 지표로 사용했습니다. 그 결과, 특히 본 실험 규모에서는 훈련 데이터의 질이 SLM의 전반적인 성능에 더 큰 영향을 미치는 것으로 나타났습니다. 약간의 중복은 모델 정확도를 향상시켰으나(중복률 25%에서 정확도 +0.87% 증가), 과도한 중복은 성능 저하를 초래했습니다(중복률 100%에서 정확도 -40% 감소). 이러한 연구 결과는 모델 성능 향상을 넘어, 대규모 모델 훈련의 높은 비용과 환경적 영향을 고려하여 AI 기술의 민주화 및 지속가능성에 기여할 수 있습니다.

시사점, 한계점

시사점:
소규모 언어 모델의 성능 향상에 있어 데이터 질이 양보다 더 중요함을 실증적으로 확인.
적절한 수준의 데이터 중복은 모델 성능 향상에 기여할 수 있음.
데이터 질 개선을 통한 효율적인 모델 훈련으로 인한 비용 및 에너지 절감 가능성 제시.
AI 기술의 민주화 및 지속가능성에 기여할 수 있는 가능성 제시.
한계점:
TinyStories 데이터셋 하나만을 사용하여 일반화 가능성에 대한 한계 존재.
실험 규모가 제한적이어서 다른 규모의 모델이나 데이터셋에 대한 일반화에 제약이 있을 수 있음.
데이터 질의 정의 및 측정 방법에 대한 명확한 기준이 부족할 수 있음.
👍