본 논문은 text classification task에서 encoder-only 모델(예: RoBERTa)과 LLM(예: Llama3)의 성능을 체계적으로 비교 분석한 연구입니다. 다양한 크기와 구조의 모델들을 사용하여, 사전 훈련된 모델과 fine-tuning된 모델 모두를 평가했습니다. 20 Newsgroups와 MASSIVE 데이터셋을 사용하여, Llama3-70B 모델을 RoBERTa-large 모델과 비교하고, intent detection과 slot-filling을 포함한 다중 task 학습의 가능성을 탐색했습니다. 결과적으로, fully fine-tuned된 Llama3-70B 모델이 다양한 task와 데이터셋에서 RoBERTa-large 및 다른 decoder LLM들을 능가하는 성능을 보였으며, 통합된 다중 task fine-tuning LLM이 두 가지 task에서 dual-model 설정과 동등한 성능을 달성했습니다. 이는 latency 감소와 동등한 성능을 위해 두 개 이상의 fully fine-tuned decoder LLM을 결합하는 방법을 제시합니다.