Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models

작성자

Haebom

카테고리

비어 있음

저자

Roberto-Rafael Maura-Rivero, Chirag Nagpal, Roma Patel, Francesco Visin

개요

본 논문은 강화 학습 기반 대규모 언어 모델(LLM) 훈련에서 다수의 보상 함수를 단순히 평균하는 기존 방식의 문제점을 지적하고, 경제학 이론의 유틸리티 함수(특히 Inada 조건)에서 영감을 얻은 보상 함수 변환 기법을 제안합니다. 기존의 선형 보상 함수 집계 방식은 개별 보상 차원과 보상 간의 상호 의존성을 간과하여 최적이 아닌 결과를 초래할 수 있다는 점을 보여줍니다. 본 논문에서는 제안된 Inada-inspired 보상 피드백이 기존의 가중 평균 방식보다 우수함을 정량적, 정성적으로 분석하고, Inada 변환을 통해 훈련된 모델이 더 유익하면서도 해롭지 않다는 것을 입증합니다. 핵심은 저 보상 값에 대한 민감도를 높이고 고 보상 값에 대한 민감도를 낮추는 보상 함수 변환입니다.