Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MoralReason: Generalizable Moral Decision Alignment For LLM Agents Using Reasoning-Level Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Zhiyu An, Wan Du

개요

대규모 언어 모델(LLM)이 인간의 도덕적 결정에 미치는 영향이 커짐에 따라, 본 논문은 LLM의 도덕적 결정을 적극적으로 유도하는 접근 방식을 제시한다. 이는 LLM 에이전트가 훈련 범위를 벗어난 시나리오에 일관된 도덕적 추론 프레임워크를 적용해야 하는 out-of-distribution 도덕 정렬 문제로 정의된다. 이를 위해, 고도의 모호성을 가진 680개의 인간 주석 도덕적 시나리오를 확장한 Moral-Reason-QA 데이터셋을 도입한다. 이 데이터셋은 공리주의, 의무론, 미덕 윤리에 걸쳐 프레임워크별 추론 과정을 포함하여 현실적인 의사 결정 맥락에서 도덕적 일반화를 체계적으로 평가할 수 있도록 한다. 학습 접근 방식은 의사 결정 정렬과 프레임워크별 추론 과정을 동시에 최적화하는 복합 보상을 활용하는 Group Relative Policy Optimization을 사용한다. 실험 결과는 unseen 도덕적 시나리오에 대한 성공적인 일반화를 보여주며, out-of-distribution 평가 세트에서 소프트맥스 정규화 정렬 점수가 공리주의는 +0.757, 의무론은 +0.450 향상되었다. 또한 훈련의 어려움과 유망한 방향성을 제시한다.

시사점, 한계점

LLM 에이전트가 특정 도덕적 프레임워크를 내재화하고 새로운 상황에 적용하도록 체계적으로 훈련될 수 있음을 입증하여 AI 안전에 기여.
Moral-Reason-QA 데이터셋을 통해 LLM의 도덕적 일반화 능력을 평가하고 개선하는 데 기여.
Group Relative Policy Optimization을 사용하여 도덕적 결정 정렬과 프레임워크별 추론 과정을 동시에 최적화하는 새로운 학습 접근 방식 제시.
out-of-distribution 시나리오에서 긍정적인 결과를 보였지만, 훈련 과정에서의 어려움과 추가 연구가 필요한 부분이 존재.
실험 결과에 대한 더 깊이 있는 분석과 다른 도덕 프레임워크에 대한 확장 필요.
👍