대규모 언어 모델(LLM)의 지식 증류에서 기존 연구는 교사 모델과 학생 모델에 동일한 손실 함수를 적용하는 데 그쳤습니다. DistiLLM-2는 교사와 학생 모델의 응답 확률 간의 대조적 학습을 통해 이러한 한계를 극복합니다. 교사 모델 응답의 확률을 높이고 학생 모델 응답의 확률을 낮추는 동시에 다양한 데이터 유형 간의 시너지를 활용하여 고성능 학생 모델을 구축합니다. 실험 결과, 지시 사항 따르기, 코드 생성 등 다양한 작업에서 고성능 학생 모델을 생성하며, 선호도 정렬 및 비전-언어 확장과 같은 다양한 응용 프로그램을 지원하는 것으로 나타났습니다. 이는 다양한 데이터 유형에 걸쳐 교사와 학생 모델을 효과적으로 정렬함으로써 LLM 증류의 효율성을 높이는 대조적 접근 방식의 잠재력을 강조합니다.
시사점, 한계점
•
시사점:
◦
LLM 증류에서 교사와 학생 모델에 대한 손실 함수의 차별적 적용을 통해 성능 향상 가능성 제시
◦
다양한 작업(지시 사항 따르기, 코드 생성 등)과 응용 프로그램(선호도 정렬, 비전-언어 확장 등)에서의 우수한 성능 확인