Sign In

Better Estimation of the KL Divergence Between Language Models

Created by
  • Haebom
Category
Empty

저자

Afra Amini, Tim Vieira, Ryan Cotterell

개요

본 논문은 언어 모델 간의 Kullback-Leibler (KL) divergence를 추정하는 방법에 대해 다룬다. KL divergence는 RLHF, 해석성, 지식 증류 등 다양한 응용 분야에서 활용되지만, 두 임의의 언어 모델 간의 정확한 KL divergence를 계산하는 것은 불가능하다. 따라서, 실제로는 샘플링 기반 추정기를 사용하는데, 일반적인 Monte Carlo (MC) 추정기는 높은 분산을 가지며 음수 값을 출력하는 문제가 있다. 본 논문에서는 Rao-Blackwellized 추정기를 제시하여, 기존 MC 추정기보다 분산을 줄이고 더 안정적인 KL divergence 추정값을 제공함을 보인다. 실험적으로 감정 제어 미세 조정에서 KL 추정의 안정성을 높이고 분산을 크게 감소시키는 것을 보여주며, KL divergence 기울기의 Rao-Blackwellized 추정기를 유도하여 더 안정적인 훈련과 보상 대 KL의 Pareto frontier에 더 자주 나타나는 모델을 생성함을 보여준다.

시사점, 한계점

시사점:
Rao-Blackwellized 추정기를 이용하여 언어 모델 간 KL divergence를 더욱 안정적이고 효율적으로 추정할 수 있음을 제시.
기존 MC 추정기의 높은 분산 및 음수 값 출력 문제를 해결.
KL divergence 기울기의 Rao-Blackwellized 추정기를 통해 더 안정적인 모델 학습 및 향상된 성능 달성 가능성 제시.
감정 제어 미세 조정 실험을 통해 제안된 방법의 실효성을 검증.
한계점:
제안된 방법의 효과는 특정 실험 설정(감정 제어 미세 조정)에 국한될 수 있음.
다른 유형의 언어 모델이나 작업에 대한 일반화 성능은 추가 연구가 필요.
Rao-Blackwellized 추정기의 계산 비용이 MC 추정기보다 높을 수 있음.
👍