Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Risk-aware Direct Preference Optimization under Nested Risk Measure

Created by
  • Haebom

저자

Lijun Zhang, Lin Li, Yajie Qi, Huizhong Song, Yaodong Yang, Jun Wang, Wei Wei

개요

본 논문은 사전 훈련된 거대 언어 모델(LLM)을 인간의 가치와 의도에 맞게 미세 조정할 때, 보상을 극대화하는 것이 성능 향상에 기여하지만 기준 모델의 의도된 행동과의 차이로 인한 위험을 초래할 수 있다는 문제를 제기합니다. 기존의 KL divergence를 사용하는 방법은 특정 응용 분야에서 충분한 위험 관리를 제공하지 못할 수 있다는 점을 지적하며, 중첩된 위험 측정값을 사용하여 위험 인식을 통합하는 새로운 방법인 Risk-aware Direct Preference Optimization (Ra-DPO)를 제시합니다. Ra-DPO는 제약 조건이 있는 위험 인식 이점 함수 최대화 문제를 공식화하고 Bradley-Terry 모델을 토큰 수준 표현으로 변환합니다. 순차적 위험 비율을 사용하여 훈련된 모델과 기준 모델 간의 편차를 억제하면서 정책의 가능성을 극대화하여 모델의 위험 인식을 향상시킵니다. IMDb Dataset, Anthropic HH Dataset, AlpacaEval 세 개의 오픈소스 데이터셋에 대한 실험 결과는 제안된 방법이 정렬 성능과 모델 변동 간의 균형을 맞추는 데 우수한 성능을 보임을 보여줍니다.

시사점, 한계점

시사점:
기존의 KL divergence 기반 방법의 한계를 극복하고, 더욱 강력한 위험 관리를 제공하는 Ra-DPO 기법 제시.
중첩된 위험 측정값을 활용하여 모델의 위험 인식을 향상시키는 효과적인 방법 제시.
IMDb Dataset, Anthropic HH Dataset, AlpacaEval 데이터셋에서 우수한 성능을 검증.
오픈소스 코드 공개를 통해 재현성 및 확장성 확보.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 종류의 위험 및 위험 측정값에 대한 적용 가능성 및 한계 규명 필요.
특정 데이터셋에 대한 결과만 제시되어 다른 데이터셋으로의 일반화 가능성에 대한 추가 검증 필요.
👍