Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance

Created by
  • Haebom

저자

Branislav Pecher, Ivan Srba, Maria Bielikova

개요

제한된 라벨링 데이터를 가진 NLP 작업에서 일반적인 대규모 언어 모델을 사용하거나, 소량의 라벨링 샘플로 특수화된 소규모 모델을 미세 조정하는 두 가지 방법이 주로 사용됩니다. 본 연구는 특수화된 소규모 모델이 성능 변동성을 고려하여 일반적인 대규모 모델보다 성능이 우수하려면 얼마나 많은 라벨링 샘플이 필요한지에 대한 중요한 질문에 답합니다. 8개의 언어 모델에 대한 미세 조정, 지시 조정, 프롬프팅, 문맥 내 학습의 동작을 관찰하여 다양한 특성을 가진 8가지 대표적인 텍스트 분류 작업에 대한 성능 손익분기점을 확인했습니다. 특수화된 모델은 일반적인 모델과 동등하거나 더 나은 성능을 내기 위해 평균 100개의 샘플만 필요함을 보여줍니다. 동시에 필요한 라벨의 수는 데이터셋이나 작업 특성에 따라 크게 달라지며, 이진 데이터셋에 대한 미세 조정은 훨씬 더 많은 샘플을 필요로 합니다. 성능 변동성을 고려할 때 필요한 라벨의 수는 평균 100~200% 증가합니다. 마지막으로, 더 큰 모델이 일관되게 더 나은 성능과 낮은 변동성으로 이어지는 것은 아니며, 4비트 양자화는 미미한 영향을 미칩니다.

시사점, 한계점

시사점: 특수화된 소규모 모델은 제한된 라벨링 데이터를 가진 NLP 작업에서 일반적인 대규모 모델과 비교하여 적은 수의 샘플(평균 100개)로도 동등하거나 더 나은 성능을 달성할 수 있음을 보여줍니다. 데이터셋 또는 작업 특성에 따른 최적의 라벨링 샘플 수를 파악하는 것이 중요합니다. 모델 크기가 성능과 변동성을 결정하는 유일한 요소가 아님을 시사합니다.
한계점: 필요한 라벨 수는 데이터셋 또는 작업 특성에 따라 크게 달라지며, 특히 이진 데이터셋의 경우 더 많은 샘플이 필요합니다. 성능 변동성을 고려하면 필요한 라벨 수가 크게 증가합니다. 본 연구에서 사용된 8개의 언어 모델과 8개의 텍스트 분류 작업이 모든 NLP 작업을 대표하지 못할 수 있습니다. 4비트 양자화의 영향이 미미했지만, 다른 양자화 기법이나 최적화 기법에 대한 추가 연구가 필요할 수 있습니다.
👍