Influencing Humans to Conform to Preference Models for RLHF

Created by

Haebom

저자

Stephane Hatgis-Kessell, W. Bradley Knox, Serena Booth, Peter Stone

💡 개요

본 논문은 인간 피드백 기반 강화학습(RLHF) 알고리즘이 인간의 보상 함수를 효과적으로 근사하기 위해 인간의 선호도 모델을 어떻게 가정하는지에 주목합니다. 연구진은 인간의 선호도 생성 방식을 변화시켜 특정 RLHF 알고리즘의 선호도 모델 가정을 더 잘 따르도록 유도하는 세 가지 방법을 제안합니다. 이러한 개입들은 인간의 실제 보상 함수를 변경하지 않으면서도, 인간이 생성하는 선호도 데이터의 질을 향상시키고 학습된 보상 함수의 정렬을 개선하는 실질적인 도구를 제공합니다.

🔑 시사점 및 한계

•

인간의 선호도 생성 방식을 조절하여 RLHF 알고리즘의 가정과 일치시키는 새로운 방향을 제시합니다.

•

선호도 모델의 근본적인 양을 보여주거나, 특정 모델을 따르도록 훈련시키거나, 선호도 질문 방식을 수정하는 등 실질적인 개입 방법을 제안합니다.

•

제안된 개입들이 인간의 선호도 표현에 유의미한 영향을 미침을 인간 연구를 통해 입증했습니다.

•

향후 연구에서는 이러한 개입들을 통해 학습된 보상 함수의 정렬 개선 효과를 정량적으로 평가하고, 다양한 RLHF 알고리즘에 대한 적용 가능성을 탐색할 필요가 있습니다.

PDF 보기

Made with Slashpage