Causally Robust Reward Learning from Reason-Augmented Preference Feedback

Created by

Haebom

저자

Minjune Hwang, Yigit Korkmaz, Daniel Seita, Erdem B{\i}y{\i}k

💡 개요

본 논문은 사용자의 선호도를 학습하여 에이전트 행동을 형성하는 기존 방식의 문제점을 지적하며, 특히 인과 관계 혼동에 취약한 희소한 이진 피드백 문제를 해결하고자 합니다. 이를 위해 자연어 설명을 활용하는 ReCouPLe 프레임워크를 제안하며, 이를 통해 학습된 보상 모델이 명시된 이유에 기반하여 선호도를 파악하고, 가짜 특징에 얽매이지 않고 사용자 의도를 더 잘 반영하도록 합니다.

🔑 시사점 및 한계

•

자연어 설명을 통해 인과 관계 신호를 제공함으로써 기존 선호도 학습의 한계를 극복합니다.

•

다양한 작업에 걸쳐 동일한 설명이 사용될 때 인과 방향을 재사용하고, 새로운 작업으로의 지식 이전이 가능합니다.

•

분포 변화 시 보상 정확도 최대 1.5배, 새로운 작업에서의 정책 성능 최대 2배 향상을 달성했습니다.

•

설명의 품질과 생성 방식에 따른 성능 변화 가능성, 그리고 설명이 복잡하거나 모호한 경우의 처리 방안에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage