Sign In

DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

Created by
  • Haebom
Category
Empty

저자

Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun

개요

대규모 언어 모델(LLM)의 지식 증류에서 기존 연구는 교사 모델과 학생 모델에 동일한 손실 함수를 적용하는 데 그쳤습니다. DistiLLM-2는 교사와 학생 모델의 응답 확률 간의 대조적 학습을 통해 이러한 한계를 극복합니다. 교사 모델 응답의 확률을 높이고 학생 모델 응답의 확률을 낮추는 동시에 다양한 데이터 유형 간의 시너지를 활용하여 고성능 학생 모델을 구축합니다. 실험 결과, 지시 사항 따르기, 코드 생성 등 다양한 작업에서 고성능 학생 모델을 생성하며, 선호도 정렬 및 비전-언어 확장과 같은 다양한 응용 프로그램을 지원하는 것으로 나타났습니다. 이는 다양한 데이터 유형에 걸쳐 교사와 학생 모델을 효과적으로 정렬함으로써 LLM 증류의 효율성을 높이는 대조적 접근 방식의 잠재력을 강조합니다.

시사점, 한계점

시사점:
LLM 증류에서 교사와 학생 모델에 대한 손실 함수의 차별적 적용을 통해 성능 향상 가능성 제시
다양한 작업(지시 사항 따르기, 코드 생성 등)과 응용 프로그램(선호도 정렬, 비전-언어 확장 등)에서의 우수한 성능 확인
대조적 접근 방식을 통한 교사-학생 모델 간의 효과적인 정렬 전략 제시
한계점:
논문에서 구체적인 한계점이나 제약 사항에 대한 언급이 부족함.
제안된 방법의 범용성 및 확장성에 대한 추가적인 연구 필요.
특정 데이터셋이나 작업에 대한 편향 가능성 존재.
👍