본 논문은 대규모 언어 모델(LLM)의 안전한 배포를 위해 필수적인 정렬(Alignment) 문제를 다룬다. 기존의 보상 기반 및 보상 없는 기법의 한계점을 지적하며, 불균형적인 안전 데이터셋과 정적 보상 모델의 문제점을 해결하기 위해 DR-IRL(Dynamically adjusting Rewards through Inverse Reinforcement Learning)을 제안한다. DR-IRL은 역강화학습(IRL)을 통해 7가지 유해 범주를 다루는 균형 잡힌 안전 데이터셋을 사용하여 범주별 보상 모델을 훈련하고, 작업 난이도에 따라 보상을 동적으로 조정하는 동적 보상 조정 기법을 GRPO(Group Relative Policy Optimization)에 적용한다. 다양한 벤치마크와 LLM을 이용한 실험 결과, DR-IRL이 안전성을 유지하면서 유용성을 높이는 데 있어 기존 방법들을 능가함을 보여준다.
시사점, 한계점
•
시사점:
◦
불균형적인 안전 데이터셋과 정적 보상 모델의 문제점을 효과적으로 해결하는 DR-IRL 기법 제시.