Sign In

Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making

Created by
  • Haebom
Category
Empty

저자

Rohit K. Dubey, Damian Dailisan, Sachit Mahajan

개요

본 논문은 사전 훈련된 강화 학습(RL) 모델을 과제와 무관한 윤리적 계층을 사용하여 개선하는 윤리적 의사 결정 프레임워크를 제시합니다. 초기 훈련 후, RL 모델은 윤리적 미세 조정을 거치는데, 여기서 인간의 피드백은 대규모 언어 모델(LLM)이 생성한 피드백으로 대체됩니다. LLM은 결과주의, 의무론, 덕 윤리, 사회 정의, 돌봄 윤리 등을 도덕적 원칙으로 포함하여 윤리적 의사 결정 중 권장되는 행동에 대한 신념 값을 할당합니다. 윤리적 계층은 Belief Jensen-Shannon Divergence와 Dempster-Shafer 이론을 사용하여 여러 LLM 기반 도덕적 관점에서 나온 신념 점수를 확률 점수로 집계하며, 이는 형성 보상으로도 작용하여 에이전트를 균형 잡힌 윤리적 프레임워크에 부합하는 선택으로 유도합니다. 이 통합 학습 프레임워크는 RL 에이전트가 복잡한 환경에서 도덕적 불확실성을 탐색하고 다양한 작업에서 도덕적으로 건전한 결정을 내릴 수 있도록 지원합니다. 다양한 LLM 변형에서 테스트하고 다른 신념 집계 기술과 비교한 결과, 본 접근 방식은 향상된 일관성, 적응성 및 수작업 윤리적 보상에 대한 의존도 감소를 보여줍니다. 이 방법은 윤리적 문제가 예기치 않게 발생하는 역동적인 시나리오에서 특히 효과적이어서 실제 응용 프로그램에 적합합니다.

시사점, 한계점

시사점:
LLM을 활용하여 윤리적 의사결정을 위한 강화학습 모델을 효과적으로 미세조정할 수 있는 새로운 프레임워크 제시.
다양한 윤리적 관점을 통합하여 더욱 균형잡히고 일관성 있는 윤리적 판단 가능.
수작업으로 윤리적 보상을 설계하는 번거로움 감소 및 역동적인 환경에서의 적응성 향상.
실제 세계 적용 가능성 증대.
한계점:
LLM의 윤리적 편향이 결과에 영향을 미칠 수 있음.
LLM이 생성한 피드백의 신뢰성과 정확성에 대한 검증 필요.
Belief Jensen-Shannon Divergence와 Dempster-Shafer Theory를 사용한 신념 집계 방법의 일반화 가능성에 대한 추가 연구 필요.
특정 윤리적 딜레마에 대한 처리 방식의 투명성 및 설명 가능성 향상 필요.
👍