Sign In

Toward Virtuous Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Majid Ghasemi, Mark Crowley

개요

본 논문은 강화 학습(RL) 기반 기계 윤리학에서 흔히 사용되는 패턴을 비판하고, 덕목 중심의 대안을 제시한다. 현재 문헌에서 두 가지 주요 한계를 지적한다. (i) 의무를 제약 조건이나 보호막으로 인코딩하는 규칙 기반(의무론적) 방법은 모호성 및 비정상성 하에서 어려움을 겪고 지속적인 습관을 배양하지 못하며, (ii) 많은 보상 기반 접근 방식, 특히 단일 목표 RL은 다양한 도덕적 고려 사항을 단일 스칼라 신호로 암묵적으로 압축하여 상충 관계를 모호하게 만들고 실제에서 프록시 게이밍을 유발할 수 있다. 대신 윤리를 정책 수준의 성향, 즉 인센티브, 파트너 또는 상황이 변경될 때 유지되는 비교적 안정적인 습관으로 취급한다. 이를 통해 평가를 규칙 확인 또는 스칼라 반환에서 특성 요약, 개입 하에서의 내구성 및 도덕적 상충 관계의 명시적 보고로 전환한다. 제안된 로드맵은 (1) 불완전하지만 규범적으로 정보화된 예시로부터 덕목과 같은 패턴을 습득하기 위한 다중 에이전트 RL에서의 사회적 학습, (2) 가치 갈등을 보존하고 해악을 방지하기 위한 위험 인식 기준을 통합하는 다중 목표 및 제약 조건 공식화, (3) 분포 이동 하에서 특성과 같은 안정성을 지원하면서 규범의 진화를 허용하는 업데이트 가능한 덕목 사전으로의 친화력 기반 정규화, (4) 윤리적 RL 벤치마크를 형성하는 가치 및 문화적 가정을 명시적으로 밝히는 실용적인 제어 신호로서 다양한 윤리적 전통의 운영화 등 네 가지 구성 요소를 결합한다.

시사점, 한계점

시사점:
규칙 기반 및 단일 목표 RL의 한계점을 지적하고 덕목 중심의 접근 방식을 제시하여 강화 학습 기반 기계 윤리학의 새로운 방향성을 제시함.
사회적 학습, 다중 목표, 친화력 기반 정규화, 다양한 윤리적 전통의 운영화를 통해 실용적인 해결책을 제시함.
윤리적 딜레마와 가치 충돌을 명시적으로 고려하고, 환경 변화에 대한 강건성을 강조함.
한계점:
제안된 방법론의 구체적인 구현 및 실험 결과가 제시되지 않아 실질적인 효과 검증이 필요함.
다양한 윤리적 전통을 통합하는 방법론의 구체적인 내용 및 적용에 대한 추가적인 설명이 필요함.
덕목의 정의 및 측정, 그리고 정책 수준의 성향을 어떻게 구현할지에 대한 구체적인 방법론 제시가 부족함.
👍