Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Modelling bounded rational decision-making through Wasserstein constraints

Created by
  • Haebom

저자

Benjamin Patrick Evans, Leo Ardon, Sumitra Ganesh

개요

본 논문은 강화 학습 프레임워크 내에서 제한된 합리적 의사결정 모델링을 위한 새로운 접근 방식을 제시합니다. 기존의 엔트로피, Kullback-Leibler divergence, 상호 정보량 기반 접근 방식은 서수적 행동 공간을 다룰 때 문제점을 가지는데, 특히 엔트로피는 균일한 사전 확률을 가정하고, KL-Divergence는 행동 간의 "근접성" 개념이 없으며 비대칭적이고 분포의 지지 집합이 동일해야 하는 등의 문제점이 있습니다. 상호 정보량은 추정이 어렵다는 단점도 있습니다. 본 논문에서는 Wasserstein 거리를 활용하여 이러한 문제점들을 해결하는 새로운 접근 방식을 제안합니다. 이 방법은 서수적 행동의 근접성을 고려하여 에이전트 결정의 "점착성"을 모델링하고, 멀리 떨어진 행동으로의 빠른 전환을 불가능하게 하며, 낮은 확률의 행동과 영 지지 집합 사전 분포를 지원하고 계산이 간단합니다.

시사점, 한계점

시사점:
서수적 행동 공간에서의 제한된 합리적 의사결정 모델링에 대한 새로운 접근 방식을 제시합니다.
Wasserstein 거리를 활용하여 기존 방법의 한계점 (균일한 사전 확률 가정, 행동 간 근접성 고려 부족, 계산 복잡도)을 극복합니다.
에이전트 결정의 "점착성"을 모델링하고 낮은 확률의 행동과 영 지지 집합 사전 분포를 지원합니다.
계산이 간편하여 실제 적용 가능성이 높습니다.
한계점:
Wasserstein 거리를 사용하는 접근 방식의 일반적인 성능 및 확장성에 대한 추가적인 실험적 검증이 필요합니다.
다양한 유형의 강화 학습 문제에 대한 적용 가능성 및 효과에 대한 추가적인 연구가 필요합니다.
Wasserstein 거리 계산의 복잡도가 특정 상황에서 높아질 수 있습니다.
👍