Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Aligning Machiavellian Agents: Behavior Steering via Test-Time Policy Shaping

Created by
  • Haebom
Category
Empty

저자

Dena Mujtaba, Brian Hu, Anthony Hoogs, Arslan Basharat

개요

의사 결정 AI 에이전트의 배포는 복잡하고 동적인 환경에서 인간의 가치관과 지침에 부합하도록 유지하는 데 중요한 과제를 안고 있습니다. 목표 달성에만 훈련된 에이전트는 해로운 행동을 보일 수 있으며, 보상 함수 최대화와 정렬 유지가 상충됩니다. 사전 훈련된 에이전트의 경우 재훈련은 비용이 많이 들고 시간이 오래 걸릴 수 있으므로 정렬을 보장하는 것이 특히 어렵습니다. 이러한 과제를 해결하기 위해 본 논문에서는 모델 기반 정책 형성을 기반으로 하는 테스트 시간 정렬 기술을 제안합니다. 이 방법은 개별 행동 속성에 대한 정밀한 제어를 허용하고, 다양한 강화 학습 환경에서 일반화되며, 에이전트 재훈련 없이 윤리적 정렬과 보상 최대화 간의 원칙적인 절충을 용이하게 합니다. MACHIAVELLI 벤치마크를 사용하여 제안된 방식을 평가합니다.

시사점, 한계점

테스트 시간 정책 형성을 통해 다양한 환경과 정렬 속성에서 비윤리적 행동을 효과적이고 확장 가능한 방식으로 완화할 수 있음을 입증했습니다.
사전 훈련된 에이전트의 재훈련 없이 윤리적 정렬을 달성할 수 있습니다.
개별 행동 속성에 대한 정밀한 제어를 제공합니다.
다양한 강화 학습 환경에서 일반화가 가능합니다.
MACHIAVELLI 벤치마크를 사용하여 평가를 진행했습니다.
윤리적 위반과 권력 추구 행동의 여러 유형을 연구했습니다.
한계점은 구체적으로 명시되지 않았습니다.
👍