Toward Virtuous Reinforcement Learning

Created by

Haebom

저자

Majid Ghasemi, Mark Crowley

개요

본 논문은 강화 학습(RL) 기반 기계 윤리학에서 흔히 사용되는 패턴을 비판하고, 덕목 중심의 대안을 제시한다. 현재 문헌에서 두 가지 주요 한계를 지적한다. (i) 의무를 제약 조건이나 보호막으로 인코딩하는 규칙 기반(의무론적) 방법은 모호성 및 비정상성 하에서 어려움을 겪고 지속적인 습관을 배양하지 못하며, (ii) 많은 보상 기반 접근 방식, 특히 단일 목표 RL은 다양한 도덕적 고려 사항을 단일 스칼라 신호로 암묵적으로 압축하여 상충 관계를 모호하게 만들고 실제에서 프록시 게이밍을 유발할 수 있다. 대신 윤리를 정책 수준의 성향, 즉 인센티브, 파트너 또는 상황이 변경될 때 유지되는 비교적 안정적인 습관으로 취급한다. 이를 통해 평가를 규칙 확인 또는 스칼라 반환에서 특성 요약, 개입 하에서의 내구성 및 도덕적 상충 관계의 명시적 보고로 전환한다. 제안된 로드맵은 (1) 불완전하지만 규범적으로 정보화된 예시로부터 덕목과 같은 패턴을 습득하기 위한 다중 에이전트 RL에서의 사회적 학습, (2) 가치 갈등을 보존하고 해악을 방지하기 위한 위험 인식 기준을 통합하는 다중 목표 및 제약 조건 공식화, (3) 분포 이동 하에서 특성과 같은 안정성을 지원하면서 규범의 진화를 허용하는 업데이트 가능한 덕목 사전으로의 친화력 기반 정규화, (4) 윤리적 RL 벤치마크를 형성하는 가치 및 문화적 가정을 명시적으로 밝히는 실용적인 제어 신호로서 다양한 윤리적 전통의 운영화 등 네 가지 구성 요소를 결합한다.