Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Margin RLHF via Preference over Preferences

Created by
  • Haebom

저자

Yaswanth Chittepu, Prasann Singhal, Greg Durrett, Scott Niekum

개요

Margin 기반 최적화는 분류 작업의 일반화 및 견고성을 향상시키는 데 중요합니다. RLHF(Reinforcement Learning from Human Feedback) 내에서 선호도 학습 보상 모델의 맥락에서 기존 방법은 일반적으로 마진이 없거나, 고정 마진, 또는 선호도 등급의 단순한 함수인 마진에 의존합니다. 그러나 이러한 공식은 종종 서로 다른 선호도의 강도를 고려하지 못하거나, 등급에서 파생된 잡음이 있는 마진 정보에 의존합니다. 본 논문에서는 선호도의 강도를 모델링하면 더 나은 일반화와 더 충실한 정렬로 이어질 수 있다고 주장합니다. 또한, 적응형 마진을 사용하는 많은 기존 방법은 정확한 선호도 점수에 대한 접근을 가정하지만, 이는 인간이 신뢰할 수 있게 제공하기 어려울 수 있습니다. 본 논문에서는 선호도 간의 선호도, 즉 두 선호도 중 어느 것이 더 강한 구분을 반영하는지 나타내는 주석을 활용하는 접근 방식을 제안합니다. 이 순서 신호를 사용하여 데이터 포인트별로 적응형 마진을 추론합니다. 또한, DPO(Direct Preference Optimization)의 확장인 DPO-PoP를 도입하여 선호도-간 선호도 감독에서 적응형 마진을 통합하여 향상된 판별 및 생성 성능을 가능하게 합니다. 실험적으로, 제안된 방법은 UltraFeedback 데이터 세트에서 순수한 DPO, 고정 마진을 사용한 DPO, 그리고 ground-truth 마진을 사용한 DPO보다 성능이 우수합니다. 또한, 판별적 성능과 생성적 성능 간에 상충 관계가 있음을 보여줍니다. 즉, 더 강한 선호도를 희생하여 약한 선호도를 올바르게 라벨링함으로써 테스트 분류 정확도를 향상시키는 것은 생성적 품질의 저하로 이어질 수 있습니다. 이러한 상충 관계를 해결하기 위해, 본 논문에서는 선호도-간 선호도 라벨을 수집하기 위한 두 가지 샘플링 전략을 제안합니다. 하나는 판별적 성능을, 다른 하나는 생성적 성능을 선호합니다.

시사점, 한계점

시사점:
선호도의 강도를 모델링하는 것이 일반화 및 정렬을 향상시킬 수 있음을 제시합니다.
선호도 간의 선호도(preference-over-preference)를 사용하여 적응형 마진을 학습하는 새로운 방법론(DPO-PoP)을 제안합니다.
DPO-PoP는 다른 DPO 변형보다 우수한 성능을 보입니다.
판별적 성능과 생성적 성능 간의 상충 관계를 밝혀내고, 이를 해결하기 위한 샘플링 전략을 제시합니다.
한계점:
실험은 UltraFeedback 데이터 세트에 국한되어 있으며, 다른 데이터 세트에서의 일반화 가능성을 추가적으로 검증해야 합니다.
두 가지 샘플링 전략의 실제 활용 및 성능 비교에 대한 구체적인 분석이 더 필요합니다.
선호도-간 선호도 라벨링의 효율성 및 비용에 대한 고려가 부족합니다.
👍