본 논문은 사전 훈련된 대규모 언어 모델(LLM) 기반 의사결정 에이전트의 윤리적 정렬을 위한 새로운 접근 방식을 제시합니다. 기존의 인간 선호도 데이터 기반 강화 학습 방법과 달리, 본 연구는 도덕적 가치를 명시적이고 투명하게 인코딩한 보상 함수를 설계하여 LLM 에이전트를 미세 조정합니다. 공리주의와 의무론적 윤리라는 전통적인 철학적 틀을 사용하여 반복적 죄수의 딜레마(IPD) 환경에서 에이전트의 행동과 결과에 대한 도덕적 보상을 정량화하고, 미세 조정을 통해 이기적인 전략을 잊도록 하는 방법을 보여줍니다. 또한 IPD 게임에서 학습된 특정 도덕적 전략이 다른 여러 매트릭스 게임 환경으로 일반화되는 것을 확인합니다. 결론적으로, 본 연구는 내재적 보상을 통한 미세 조정이 LLM 에이전트를 인간의 가치에 맞추는 유망한 일반적인 해결책이며, 기존의 정렬 기법에 비해 더 투명하고 비용 효율적인 대안이 될 수 있음을 보여줍니다.