대규모 언어 모델(LLM)이 인간의 도덕적 결정에 미치는 영향이 커짐에 따라, 본 논문은 LLM의 도덕적 결정을 적극적으로 유도하는 접근 방식을 제시한다. 이는 LLM 에이전트가 훈련 범위를 벗어난 시나리오에 일관된 도덕적 추론 프레임워크를 적용해야 하는 out-of-distribution 도덕 정렬 문제로 정의된다. 이를 위해, 고도의 모호성을 가진 680개의 인간 주석 도덕적 시나리오를 확장한 Moral-Reason-QA 데이터셋을 도입한다. 이 데이터셋은 공리주의, 의무론, 미덕 윤리에 걸쳐 프레임워크별 추론 과정을 포함하여 현실적인 의사 결정 맥락에서 도덕적 일반화를 체계적으로 평가할 수 있도록 한다. 학습 접근 방식은 의사 결정 정렬과 프레임워크별 추론 과정을 동시에 최적화하는 복합 보상을 활용하는 Group Relative Policy Optimization을 사용한다. 실험 결과는 unseen 도덕적 시나리오에 대한 성공적인 일반화를 보여주며, out-of-distribution 평가 세트에서 소프트맥스 정규화 정렬 점수가 공리주의는 +0.757, 의무론은 +0.450 향상되었다. 또한 훈련의 어려움과 유망한 방향성을 제시한다.