제한된 라벨링 데이터를 가진 NLP 작업에서 일반적인 대규모 언어 모델을 사용하거나, 소량의 라벨링 샘플로 특수화된 소규모 모델을 미세 조정하는 두 가지 방법이 주로 사용됩니다. 본 연구는 특수화된 소규모 모델이 성능 변동성을 고려하여 일반적인 대규모 모델보다 성능이 우수하려면 얼마나 많은 라벨링 샘플이 필요한지에 대한 중요한 질문에 답합니다. 8개의 언어 모델에 대한 미세 조정, 지시 조정, 프롬프팅, 문맥 내 학습의 동작을 관찰하여 다양한 특성을 가진 8가지 대표적인 텍스트 분류 작업에 대한 성능 손익분기점을 확인했습니다. 특수화된 모델은 일반적인 모델과 동등하거나 더 나은 성능을 내기 위해 평균 100개의 샘플만 필요함을 보여줍니다. 동시에 필요한 라벨의 수는 데이터셋이나 작업 특성에 따라 크게 달라지며, 이진 데이터셋에 대한 미세 조정은 훨씬 더 많은 샘플을 필요로 합니다. 성능 변동성을 고려할 때 필요한 라벨의 수는 평균 100~200% 증가합니다. 마지막으로, 더 큰 모델이 일관되게 더 나은 성능과 낮은 변동성으로 이어지는 것은 아니며, 4비트 양자화는 미미한 영향을 미칩니다.