Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient Uncertainty Estimation via Distillation of Bayesian Large Language Models

Created by
  • Haebom

저자

Harshil Vejendla, Haizhou Shi, Yibin Wang, Tunyu Zhang, Huan Zhang, Hao Wang

개요

본 논문은 대규모 언어 모델(LLM)의 불확실성 추정에서 테스트 시간 샘플링을 제거하는 방법을 제시합니다. 기존 베이지안 방법들은 추론 과정에서 다중 샘플링 반복을 필요로 하여 효율성 문제를 야기하지만, 본 논문에서는 사전 훈련된 베이지안 LLM의 신뢰도를 비베이지안 학생 LLM에 증류하는 기법을 제안합니다. 이는 예측 분포 간의 divergence를 최소화하는 방식으로 이루어지며, 추가적인 검증 데이터 없이 훈련 데이터만을 사용합니다. 이를 통해 기존 베이지안 LLM 대비 N배(N은 기존 베이지안 LLM이 필요로 하는 샘플 수) 더 효율적인 불확실성 추정을 달성하며, 훈련 데이터에서의 불확실성 추정 능력이 테스트 데이터로 일반화됨을 실험적으로 보여줍니다.

시사점, 한계점

시사점:
베이지안 LLM의 효율성 문제 해결: 테스트 시간 샘플링 제거를 통해 N배의 속도 향상을 달성.
추가 검증 데이터 불필요: 훈련 데이터만으로 증류 과정 수행.
기존 베이지안 LLM과 비교 우위: 성능이 동등하거나 우수한 결과를 보임.
실용적인 불확실성 추정 가능성 제시: 효율성 향상을 통해 실제 배포 가능성 증대.
한계점:
본 연구에서 제시된 방법이 모든 종류의 베이지안 LLM에 적용 가능한지에 대한 추가적인 연구 필요.
증류 과정에서 발생할 수 있는 정보 손실에 대한 정량적 분석 필요.
다양한 downstream task에 대한 일반화 성능 검증 필요.
👍