본 논문은 대규모 언어 모델(LLM)을 인간의 가치에 맞추는 강화학습(RLHF)의 복잡성과 계산 비용 문제를 해결하기 위해 새로운 접근 방식인 VAR(Variational Alignment with Re-weighting)을 제안합니다. VAR은 RLHF의 최적 해와 학습 중인 LLM 정책 간의 분포 간격을 직접 최소화함으로써, 오프라인에서 재가중치된 지도 학습 미세 조정(SFT) 형태로 정렬 목표를 변환합니다. 이를 통해 기존의 DPO보다 더 나은 성능과 함께 계산 효율성을 크게 향상시킵니다.
🔑 시사점 및 한계
•
RLHF의 복잡성을 크게 줄여, LLM 정렬 과정을 더 효율적이고 접근 가능하게 만듭니다.
•
재가중치된 SFT 방식을 통해 훈련 안정성과 효과성을 동시에 개선하여, LLM의 유용성과 무해성 측면에서 우수한 성능을 달성합니다.
•
온라인 샘플링 기반 RLHF 방법 대비 현저히 낮은 계산 비용과 빠른 수렴 속도를 제공하여 실질적인 적용 가능성을 높입니다.
•
제안된 VAR 방법론이 복잡한 인간의 선호도 및 가치를 얼마나 정교하게 포착할 수 있는지에 대한 추가적인 연구가 필요합니다.