본 논문은 사회적 가치(안전, 공정성, 신뢰성 등)를 증진하는 가치 정렬(value-alignment) 에이전트를 개발하는 새로운 방법을 제안한다. 기존 연구들이 법률이나 규칙처럼 명시적으로 표현된 규범(안전/법적 규범)과 사회적 규범처럼 암묵적으로 학습된 규범을 개별적으로 다루는 한계를 극복하고자, 강화학습 과정에 명시적 및 암묵적 규범을 통합하는 방법을 제시한다. 에이전트의 규범 준수 정도를 '평판(reputation)'으로 정량화하여 보상에 가중치를 부여함으로써 가치 정렬된 정책을 학습하도록 유도한다. 연속 상태 공간 교통 문제를 포함한 실험을 통해 명시적 및 암묵적 규범의 중요성과 제안 방법의 효과를 검증하고, 두 규범을 결합하는 것이 개별적으로 사용하는 것보다 우수함을 보였다.