본 논문은 인간 피드백으로부터 강화 학습(RLHF)에서 희소한 보상 신호 문제를 해결하기 위해 협력 게임 이론의 섀플리 값을 활용한 새로운 방법인 섀플리 크레딧 할당 보상(SCAR)을 제안합니다. SCAR는 전체 시퀀스 수준의 보상을 구성 토큰 또는 텍스트 구간에 그 한계적 기여에 따라 분배하여 밀집된 보상 신호를 생성합니다. 이는 보조 비평 모델을 훈련하거나 중간 생성 단계에서 세분화된 인간 주석을 이용할 필요 없이 가능합니다. 다양한 작업(감정 제어, 텍스트 요약, 지시 조정 등)에 대한 실험 결과, SCAR는 표준 RLHF 및 어텐션 기반 밀집 보상 기준선보다 훨씬 빠르게 수렴하고 더 높은 최종 보상 점수를 달성함을 보여줍니다.