Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Training Data Quality or Quantity More Impactful to Small Language Model Performance?

Created by
  • Haebom

저자

Aryan Sajith, Krishna Chaitanya Rao Kathala

개요

본 연구는 소규모 언어 모델(SLM)의 성능에 대한 훈련 데이터의 질과 양의 상대적 영향을 TinyStories 데이터셋을 이용하여 실증적으로 분석합니다. 데이터셋 크기(원본의 25%, 50%)와 중복률(25%, 50%, 75%, 100%)을 변화시켜 실험을 진행하였고, 검증 손실, 정확도, 퍼플렉서티를 평가 지표로 사용했습니다. 실험 결과, 특히 본 연구의 규모에서는 훈련 데이터의 질이 SLM의 전반적인 성능에 더 큰 영향을 미치는 것으로 나타났습니다. 적절한 수준의 중복은 모델 정확도를 향상시켰으나(중복률 25%에서 정확도 0.87% 증가), 과도한 중복은 성능 저하를 초래했습니다(중복률 100%에서 정확도 40% 감소). 이러한 연구 결과는 모델 성능 개선을 넘어, 대규모 모델 훈련의 높은 비용과 환경적 문제 해결에 대한 시사점을 제공합니다. 데이터 질의 중요성을 이해하는 것은 AI 기술의 민주화를 가능하게 하고, 고급 모델을 더욱 접근 가능하고 지속 가능하게 만들 수 있습니다.

시사점, 한계점

시사점:
소규모 언어 모델의 성능 향상을 위해서는 데이터의 질적 개선에 더욱 집중해야 함을 시사합니다.
적절한 수준의 데이터 중복은 모델 성능 향상에 기여할 수 있지만, 과도한 중복은 오히려 성능 저하를 야기할 수 있음을 보여줍니다.
본 연구는 대규모 모델 훈련의 높은 비용과 환경적 영향을 고려하여, 데이터 질 중심의 접근 방식이 AI 기술의 민주화와 지속가능성에 기여할 수 있음을 시사합니다.
한계점:
TinyStories 데이터셋 하나만을 사용하여 실험을 진행했으므로, 다른 데이터셋에 대한 일반화 가능성은 제한적입니다.
분석에 사용된 소규모 언어 모델의 종류 및 구조에 대한 자세한 설명이 부족합니다.
데이터 중복 외 다른 데이터 전처리 기법의 영향에 대한 고려가 부족합니다.
연구의 규모가 제한적이어서, 대규모 모델에 대한 일반화 가능성이 불확실합니다.
👍