Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SCAR: Shapley Credit Assignment for More Efficient RLHF

Created by
  • Haebom

저자

Meng Cao, Shuyuan Zhang, Xiao-Wen Chang, Doina Precup

개요

본 논문은 인간 피드백으로부터 강화 학습(RLHF)에서 희소한 보상 신호 문제를 해결하기 위해 협력 게임 이론의 섀플리 값을 활용한 새로운 방법인 섀플리 크레딧 할당 보상(SCAR)을 제안합니다. SCAR는 전체 시퀀스 수준의 보상을 구성 토큰 또는 텍스트 구간에 그 한계적 기여에 따라 분배하여 밀집된 보상 신호를 생성합니다. 이는 보조 비평 모델을 훈련하거나 중간 생성 단계에서 세분화된 인간 주석을 이용할 필요 없이 가능합니다. 다양한 작업(감정 제어, 텍스트 요약, 지시 조정 등)에 대한 실험 결과, SCAR는 표준 RLHF 및 어텐션 기반 밀집 보상 기준선보다 훨씬 빠르게 수렴하고 더 높은 최종 보상 점수를 달성함을 보여줍니다.

시사점, 한계점

시사점:
희소한 보상 신호 문제를 해결하는 효과적이고 이론적으로 견고한 RLHF 크레딧 할당 방법 제시.
보조 모델 훈련이나 추가적인 인간 주석 없이 밀집된 보상 신호 생성.
다양한 작업에서 기존 방법보다 빠른 수렴과 높은 최종 보상 점수 달성.
섀플리 값 기반의 공정한 크레딧 분배.
한계점:
본 논문에서 제시된 실험 결과의 일반화 가능성에 대한 추가적인 연구 필요.
다른 밀집 보상 방법과의 더욱 포괄적인 비교 분석 필요.
섀플리 값 계산의 계산 복잡도 문제 해결 방안 모색 필요 (특히 시퀀스 길이가 길어질 경우).
👍