본 논문은 사전 훈련된 거대 언어 모델(LLM)을 인간의 가치와 의도에 맞게 미세 조정할 때, 보상을 극대화하는 것이 성능 향상에 기여하지만 기준 모델의 의도된 행동과의 차이로 인한 위험을 초래할 수 있다는 문제를 제기합니다. 기존의 KL divergence를 사용하는 방법은 특정 응용 분야에서 충분한 위험 관리를 제공하지 못할 수 있다는 점을 지적하며, 중첩된 위험 측정값을 사용하여 위험 인식을 통합하는 새로운 방법인 Risk-aware Direct Preference Optimization (Ra-DPO)를 제시합니다. Ra-DPO는 제약 조건이 있는 위험 인식 이점 함수 최대화 문제를 공식화하고 Bradley-Terry 모델을 토큰 수준 표현으로 변환합니다. 순차적 위험 비율을 사용하여 훈련된 모델과 기준 모델 간의 편차를 억제하면서 정책의 가능성을 극대화하여 모델의 위험 인식을 향상시킵니다. IMDb Dataset, Anthropic HH Dataset, AlpacaEval 세 개의 오픈소스 데이터셋에 대한 실험 결과는 제안된 방법이 정렬 성능과 모델 변동 간의 균형을 맞추는 데 우수한 성능을 보임을 보여줍니다.