Automatically Finding Reward Model Biases

Created by

Haebom

저자

Atticus Wang, Ivan Arcuschin, Arthur Conmy

💡 개요

본 논문은 대규모 언어 모델(LLM) 후처리 과정에서 중요한 역할을 하는 보상 모델(Reward Model, RM)의 숨겨진 편향을 자동으로 탐지하는 새로운 연구 문제를 제기합니다. 제안된 방법론은 LLM을 활용하여 반복적으로 후보 편향을 생성하고 개선하는 방식으로, 기존에 알려진 편향뿐만 아니라 응답 길이, 형식, 환각, 아첨 등과 같은 바람직하지 않은 특성을 보상 모델이 잘못 보상하는 경우를 탐지합니다. 실험을 통해 Skywork-V2-8B와 같은 주요 보상 모델에서 중복 공백이나 환각 콘텐츠를 가진 응답을 선호하는 편향을 발견했으며, 이는 자동화된 해석 가능성 연구에 기여할 수 있습니다.

🔑 시사점 및 한계

•

보상 모델의 잠재적인 편향을 체계적으로 탐지할 수 있는 자동화된 방법론을 제시하여 LLM의 신뢰성과 안전성을 향상시킬 수 있습니다.

•

기존에 알려진 편향 외에도 새롭고 미묘한 편향을 발견함으로써 보상 모델 개선을 위한 중요한 단서를 제공합니다.

•

제안된 방법론의 성능은 합성적으로 주입된 편향을 통한 검증을 통해 입증되었지만, 실제 복잡한 편향을 모두 탐지하기 위한 추가적인 개선이 필요할 수 있습니다.

PDF 보기

Made with Slashpage