When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas
Created by
Haebom
저자
Steffen Backmann, David Guzman Piedrahita, Emanuel Tewolde, Rada Mihalcea, Bernhard Scholkopf, Zhijing Jin
개요
본 논문은 대규모 언어 모델(LLM)이 인간 또는 다른 에이전트와 의사결정을 하는 복잡한 에이전트 역할에 사용됨에 따라 윤리적 정렬이 주요 AI 안전 문제로 떠오르고 있음을 다룹니다. 기존 연구에서는 사회적 딜레마에서 LLM의 도덕적 판단과 전략적 행동을 조사했지만, 도덕적 명령이 보상이나 인센티브와 직접적으로 충돌할 때 LLM이 어떻게 행동하는지에 대한 이해는 제한적입니다. 이를 조사하기 위해, 연구진은 사회적 딜레마 시뮬레이션에서의 도덕적 행동(MoralSim)을 도입하여 도덕적으로 맥락이 부여된 죄수의 딜레마와 공공재 게임에서 LLM이 어떻게 행동하는지 평가합니다. MoralSim에서는 다양한 최첨단 모델을 게임 구조와 세 가지 서로 다른 도덕적 프레임워크 모두에 걸쳐 테스트하여 LLM이 윤리적 규범이 수익 극대화 전략과 충돌하는 사회적 딜레마를 어떻게 탐색하는지 체계적으로 조사합니다. 연구 결과는 모델 간에 도덕적으로 행동하는 일반적인 경향과 게임 유형, 특정 도덕적 프레임워크 및 상대방의 행동, 생존 위험과 같은 상황적 요인에 걸친 행동의 일관성에 상당한 차이가 있음을 보여줍니다. 결정적으로, 어떤 모델도 MoralSim에서 일관되게 도덕적인 행동을 보이지 않아 에이전트의 "자기 이익"이 윤리적 기대와 충돌할 수 있는 에이전트 역할에 LLM을 배포할 때 주의가 필요함을 강조합니다. 코드는 https://github.com/sbackmann/moralsim 에서 이용 가능합니다.