Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning

Created by
  • Haebom

저자

Kai Ye, Hongyi Zhou, Jin Zhu, Francesco Quinzan, Chengchung Shi

개요

본 논문은 인간 피드백으로부터의 강화 학습(RLHF)을 통해 대규모 언어 모델(LLM)의 출력을 인간의 선호도에 맞추는 방법을 제안합니다. 기존 RLHF 알고리즘들은 대부분 Bradley-Terry 모델을 사용하여 보상 함수를 학습하지만, 이 모델은 인간 선호도에 대한 가정이 현실 세계 판단의 복잡성과 변동성을 반영하지 못할 수 있습니다. 본 논문에서는 이러한 보상 모델의 오류를 고려하여 기존 방법의 성능을 향상시키는 강건한 알고리즘을 제시합니다. 이 알고리즘은 이론적으로 보상 및 정책 추정기의 분산을 줄여, 개선된 후회 상한선을 제공합니다. LLM 벤치마크 데이터셋에 대한 실험적 평가 결과, 제안된 알고리즘은 기존 방법보다 일관되게 우수한 성능을 보이며, Anthropic Helpful and Harmless 데이터셋에서 77-81%의 응답이 기준 방법보다 선호되는 것으로 나타났습니다.

시사점, 한계점

시사점:
기존 RLHF 알고리즘의 보상 모델 오류 문제를 해결하는 강건한 알고리즘을 제시.
이론적으로 개선된 후회 상한선을 제공하여 알고리즘의 효율성을 보장.
실험 결과 기존 방법 대비 우수한 성능을 입증 (Anthropic Helpful and Harmless 데이터셋에서 77-81%의 응답 선호).
LLM의 인간 선호도 정렬 성능 향상에 기여.
한계점:
제시된 알고리즘의 일반화 성능에 대한 추가 연구 필요.
다양한 LLM 및 데이터셋에 대한 추가 실험 필요.
실제 현실 세계 적용 시 발생할 수 있는 문제점 및 해결 방안에 대한 추가 연구 필요.
Bradley-Terry 모델을 넘어서는 더욱 복잡한 인간 선호도 모델링에 대한 추가 연구 필요.
👍