Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment

Created by
  • Haebom

저자

Ruoxi Cheng, Haoxuan Ma, Weixin Wang, Ranjie Duan, Jiexi Liu, Xiaoshuang Jia, Simeng Qin, Xiaochun Cao, Yang Liu, Xiaojun Jia

개요

본 논문은 대규모 언어 모델(LLM)의 안전한 배포를 위해 필수적인 정렬(Alignment) 문제를 다룬다. 기존의 보상 기반 및 보상 없는 기법의 한계점을 지적하며, 불균형적인 안전 데이터셋과 정적 보상 모델의 문제점을 해결하기 위해 DR-IRL(Dynamically adjusting Rewards through Inverse Reinforcement Learning)을 제안한다. DR-IRL은 역강화학습(IRL)을 통해 7가지 유해 범주를 다루는 균형 잡힌 안전 데이터셋을 사용하여 범주별 보상 모델을 훈련하고, 작업 난이도에 따라 보상을 동적으로 조정하는 동적 보상 조정 기법을 GRPO(Group Relative Policy Optimization)에 적용한다. 다양한 벤치마크와 LLM을 이용한 실험 결과, DR-IRL이 안전성을 유지하면서 유용성을 높이는 데 있어 기존 방법들을 능가함을 보여준다.

시사점, 한계점

시사점:
불균형적인 안전 데이터셋과 정적 보상 모델의 문제점을 효과적으로 해결하는 DR-IRL 기법 제시.
작업 난이도를 고려한 동적 보상 조정을 통해 안전성과 유용성 향상.
다양한 벤치마크와 LLM에서 기존 방법 대비 우수한 성능 검증.
역강화학습(IRL)과 범주별 보상 모델을 활용한 효과적인 안전 정렬 전략 제시.
한계점:
제안된 DR-IRL의 일반화 성능에 대한 추가적인 연구 필요.
7가지 유해 범주 외 다른 유형의 위험에 대한 확장성 검토 필요.
텍스트 인코더 코사인 유사도와 보상 차이를 이용한 난이도 조정 방식의 한계점 분석 필요.
특정 벤치마크 및 LLM에 대한 의존성을 고려한 범용성 확보 방안 연구 필요.
👍